系统程序员成长计划-容器与算法(二)

阿尔萨斯

浏览: 4150274 次

最近访客更多访客>>

snower_tt

iams13

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-10 ( 581)
2014-09 ( 572)
2014-08 ( 545)
更多存档...

容器用来存储数据，算法用来处理数据。容器有多种，算法的种类更多，两者的组合数目就数不胜数了。如果同样的算法要为每种容器都写一遍，写的时候单调不说，维护起来也很困难。所以我们一直在寻找让算法独立于容器的方法，让同一种算法能适用于所有(或多种)的容器。

在开始的时候，我们通过foreach遍历函数＋回调函数的方法，第一次分离了算法和容器，算法不但可以独立于容器变化，而且同时适用于多种容器：大/小写转换函数只需要写一次，就可以在双向链表、动态数组、队列、栈和哈希表等多种容器中重用。

前面又我们抽象了容器的接口，容器的使用者不需要关心容器的实现，也就是说同一个算法可以适用于多种不同的容器(不是全部，前面只抽象了线形的容器)。我们用这种方面实现了队列和栈，还重用了双向链表和动态数组的测试程序。

可惜上面两种方法仍然不能解决让算法独立于容器的全部问题。这里请读者先实现这样一个算法：

o 反序排列容器中的元素：第一个元素与最后一元素交换，第二个元素与倒数第二个元素交换，以此类推。

o 这个算法同时适用双向链表和动态数组。

o在双向链表和动态数组上的运行效率处于同一级别。

这个反序函数的原理很简单，有的读者很快就写出来了：

Ret invert(LinearContainer* linear_container)
{
    int i = 0;
    int j = 0;
    void* data1 = NULL;
    void* data2 = NULL; 

    return_val_if_fail(linear_container != NULL, RET_INVALID_PARAMS); 

    j = linear_container_length(linear_container) - 1;
    for(; i < j; i++, j--)
    {
        linear_container_get_by_index(linear_container, i, &data1);
        linear_container_get_by_index(linear_container, j, &data2);
        linear_container_set_by_index(linear_container, i, data2);
        linear_container_set_by_index(linear_container, j, data1);
    } 

    return RET_OK;
}

这种实现利用我们抽象的 LinearContainer接口，它同时适用于双向链表和动态数组，可惜无法满足第三个条件，双向链表和动态数组的性能差异很大。原因是，动态数组通过偏移量可以定位，而双向链表则需要一个一个的移动指针才能定位，在循环内部调用get_by_index/ set_by_index更加剧它们在性能上的差异。

有的读者可能尝试了用foreach去实现，foreach确实很好用，但它的缺点是只能按固定的顺序去遍历元素，不能同时即反序又顺序的遍历，所以用foreach实现上述算法是有点困难的。这里我们引入一个新的概念：迭代器。迭代器是一种更灵活的遍历行为的抽象，它可以按任意顺序去访问容器内的元素，而又不暴露容器的内部结构。

在引入迭代器之前，我们分析一下invert的算法，先考虑针对双向链表的实现：

1. 定义两个指针，一个指向链表的首结点，一个指向链表的尾结点。
2. 交换两个指针指向的内容。
3. 前面的指针向后移，后面的指针向前移，重复第二步直到两个指针相遇。

仔细看看上面的算法，我们发现在整个过程中，操作的只是两个指针。关于这个指针，它具有下列行为：

o 获取指针指向的数据。
o 设置指针指向的数据。
o 指针向后移。
o 指针向前移。
o 比较的大小。

在前面的算法中，指针是依赖于双向链表的，离开了这个特定的容器，我们无法确定指针的行为。那么我们可以对这里指针进行抽象，让它针对不同容器有不同的实现，而算法只关心它的指针这个接口。为了遵循一些约定俗成的规则，我们把这里的指针称为迭代器(iterator)。

迭代器(iterator)的接口定义如下：

typedef Ret  (*IteratorSetFunc)(Iterator* thiz, void* data);
typedef Ret  (*IteratorGetFunc)(Iterator* thiz, void** data);
typedef Ret  (*IteratorNextFunc)(Iterator* thiz);
typedef Ret  (*IteratorPrevFunc)(Iterator* thiz);
typedef Ret  (*IteratorAdvanceFunc)(Iterator* thiz, int offset);
typedef int  (*IteratorOffsetFunc)(Iterator* thiz);
typedef Ret  (*IteratorCloneFunc)(Iterator* thiz, Iterator** cloned);
typedef void (*IteratorDestroyFunc)(Iterator* thiz); 

struct _Iterator
{
    IteratorSetFunc     set;
    IteratorGetFunc     get;
    IteratorNextFunc    next;
    IteratorPrevFunc    prev;
    IteratorAdvanceFunc advance;
    IteratorCloneFunc   clone;
    IteratorOffsetFunc  offset;
    IteratorDestroyFunc destroy; 

    char priv[0];
};

为了让迭代器具有更广的适应能力，在其它算法也可以使用，这里增加了几个接口函数：

o advance 随机定位迭代器位置，由当前位置和偏移量决定。
o offset 得到迭代器的偏移量，主要用作比较迭代器的大小。
o clone拷贝一份迭代器。

现在我们来看针对双向链表的实现：

o 数据结构

typedef struct _PrivInfo
{
    DList* dlist;
    DListNode* cursor;
    int offset;
}PrivInfo;

一个指向双向链表的指针，它表明迭代器所属的容器。
一个指向当前结点的指针，它表明迭代器的位置。
一个标明当前偏移量的值，目的是提高获取偏移量的速度。

o 实现迭代器的函数

static Ret  dlist_iterator_set(Iterator* thiz, void* data)
{
    PrivInfo* priv = (PrivInfo*)thiz->priv;
    return_val_if_fail(priv->cursor != NULL && priv->dlist != NULL, RET_INVALID_PARAMS); 

    priv->cursor->data = data; 

    return RET_OK;
} 

static Ret  dlist_iterator_next(Iterator* thiz)
{
    Ret ret = RET_FAIL;
    PrivInfo* priv = (PrivInfo*)thiz->priv;
    return_val_if_fail(priv->cursor != NULL && priv->dlist != NULL, RET_INVALID_PARAMS); 

    if(priv->cursor->next != NULL)
    {
        priv->cursor = priv->cursor->next;
        priv->offset++; 

        ret = RET_OK;
    } 

    return ret;
} 

...

从这些代码可以看出，双向链表的迭代器其实就是对双向链表结点的包装，经过这个包装之后，可以访问具体的结点而又不暴露双向链表的内部实现，并且调用者不再依赖双向链表了。

o 创建函数

Iterator* dlist_iterator_create(DList* dlist)
{
    Iterator* thiz = NULL;
    return_val_if_fail(dlist != NULL, NULL); 

    if((thiz = malloc(sizeof(Iterator) + sizeof(PrivInfo))) != NULL)
    {
        PrivInfo* priv = (PrivInfo*)thiz->priv; 

        thiz->set      =  dlist_iterator_set;
        thiz->get      =  dlist_iterator_get;
        thiz->next     =  dlist_iterator_next;
        thiz->prev     =  dlist_iterator_prev;
        thiz->advance  =  dlist_iterator_advance;
        thiz->clone    =  dlist_iterator_clone;
        thiz->offset   =  dlist_iterator_offset;
        thiz->destroy  =  dlist_iterator_destroy; 

        priv->dlist  = dlist;
        priv->cursor = dlist->first;
        priv->offset = 0;
    } 

    return thiz;
}

这里我们还遇到另外一个难题：双向链表的迭代器的实现放在哪里？放在dlist.c里还是单独的文件里，放在单独的文件里可读性更强，但是在访问双向链表的内部数据时会遇到一些麻烦。最后选择是：

o dlist_iterator.h提供独立的文件。
o dlist_iterator.c也提供独立的文件，但是它不直接参与编译，而是在dlist.c里include它。

这样就两全其美了：维护方便又可以访问双向链表的内部数据结构。

最后我们来看看用迭代器实现的invert函数：

Ret invert(Iterator* forward, Iterator* backward)
{
    void* data1 = NULL;
    void* data2 = NULL;
    return_val_if_fail(forward != NULL && backward != NULL, RET_INVALID_PARAMS); 

    for(; iterator_offset(forward) < iterator_offset(backward); iterator_next(forward), iterator_prev(backward))
    {
        iterator_get(forward, &data1);
        iterator_get(backward, &data2);
        iterator_set(forward, data2);
        iterator_set(backward, data1);
    } 

    return RET_OK;
}

invert算法同时适用于双向链表和动态数组，而且它们的运行效率相差不大，至少对于双向链表来说已经是比较高效的实现了。

迭代器模式是一种重要的模式，在C＋＋的标准模板库(STL)中有大量的应用。老的C程序员通常是运行效率至上的，所以要在优雅的设计和性能之间做出选择时，他们通常选择后者，所以很少看到C语言实现的容器提供迭代器，那也不足为奇。重要的是我们学习这种方法，并在适当的时候运用它。

本节示例代码请到这里下载。

分享到：

系统程序员成长计划－算法与容器(三) | 系统程序员成长计划-容器与算法(一)

2009-03-27 01:25
浏览 213
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论