@rg070836rg 2015-09-04T11:17:49.000000Z 字数 7060 阅读 3138

哈夫曼树与哈夫曼编码

`data_structure`

一、概念

哈夫曼树（Huffman tree），又名最优树，指给定n个权值作为n的叶子结点，构造一棵二叉树，若带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman tree)。

二、想法

2.1、节点结构

哈夫曼树的节点中应该存在数据，权重，双亲以及左右孩子，
所以节点构造如下：

template <class T> 
struct HuffmanNode
{
    T data;                 //数据 
    double weight;          //符号出现的频率
    int parent;             //双亲结点的坐标
    int lchild;             //左孩子的坐标
    int rchild;             //右孩子的坐标
};

2.2、哈夫曼树结构及树的构造方法

我们先说，如何去构造一个哈夫曼树，应该是根据权值的不同，每次找到两个小值，把他们两个拼凑起来，其中，权值应该是通过统计得到的，后面会提到方法，这边暂且假设已经得到。

template<class T>
class HuffmanTree  
{
    ……………………
private:
    vector<HuffmanNode<T> > huffmantree;    //huffmantree所有节点的存储空间
    int n;          //叶子结点数
};

哈夫曼树，接受一个存有所有叶子节点的向量，根据这些向量，来构造一棵树，我们知道，n个叶子节点，最后会生成2n-1个节点，所以需要先resize树向量。然后把huffmantree里面初值赋完，接下来，我们要找两个权值最小和次小的节点，并用这两个节点信息生成新的节点，填入。

template<class T>
HuffmanTree<T>::HuffmanTree(vector<HuffmanNode<T> > &leafs)
{
    n = leafs.size();   //叶子节点个数赋值给n;
    huffmantree.resize(2*n-1);  //为为分支结点预留向量空间
    for (int i=0;i<n;i++)
    {
        huffmantree[i].data=leafs[i].data;
        huffmantree[i].weight=leafs[i].weight;
        huffmantree[i].parent=huffmantree[i].lchild=huffmantree[i].rchild=-1;
    }
    int least, less;  //最小数 次小数的下标
    for( i=n; i<2*n-1; i++)
    {
        SelectSmall(least, less, i); //找到最小值 次小值的结点下标
        //由之前的两个最小值生成新结点，
        huffmantree[least].parent = huffmantree[less].parent = i;//原2个节点的父节点置值
        huffmantree[i].data = i;//并没什么作用。。后面输出也会被过滤
        huffmantree[i].parent = -1;
        huffmantree[i].lchild = least;
        huffmantree[i].rchild = less;
        huffmantree[i].weight = huffmantree[least].weight + huffmantree[less].weight;
    }
}

2.3、找最小值以及次小值

下面介绍一下，如何找到最小值和次小值：
首先，只有没有被用过的节点才有比较的资格，也就是父节点为-1的才能参与比较，每轮比较，我们从头开始循环.循环判断过程如下

父节点是否为-1

当当前值比最小值小

那么先把原先的最小值抛给最小值，并保存次小值序号，

更新最小值及序号。

当前值大于等于最小值，且小于次小值

更新次小值及其序号

template<class T>
void HuffmanTree<T>::SelectSmall(int &least,int &less,int i)
{
    least = less = 0;
    int min1 = INT_MAX;
    int min2 = INT_MAX;
    for(int j=0; j<i; j++)
    {
        if(huffmantree[j].parent == -1)     //当没有父节点才有资格比较
        {//筛选没有父结点的最小值和次小值
            if(huffmantree[j].weight<min1)
            {//如果比最小值小
                min2 = min1;    //把原来的最小值先抛给次小
                less = least;   //保存次小值的序号
                min1 = huffmantree[j].weight;//保存最小值
                least = j;  //能保存最小值序号
            }
            else if((huffmantree[j].weight>=min1)&&(huffmantree[j].weight<min2))
            {//如果大于等于最小值，且小于次小值
                min2 = huffmantree[j].weight;
                less = j;
            }
        }
    }
}

2.4、频率统计

上面的构造函数，是根据所给的含有频率信息的HuffmanNode数组构造数，下面，我来介绍一下，对于ASCII码的字符（非汉字）如何统计。
思路如下，因为ASCII码值，不超过256个，所以，可以建立一个大小为256的int数组，初值置为0，遍历字符串，遇到一个，对应值加1，可以达到简单的统计效果，键值就是0~256，内容就是出现的次数。

    int frequency[256];//用于记录每个ASCII出现的次数
    memset(frequency,0,sizeof(frequency));
    for (int i = 0; i < rst.length(); i++)
        frequency[rst[i]]++;    //每出现一次，次数加1
    for ( i = 0; i < 256; i++)
    {
        if (frequency[i] != 0)
        {
            weight.push_back(frequency[i]*1.0/rst.length()*100);        //当频率不为0的时候，压入权重向量//这个做了个规约处理
            s.push_back(i);                                         //同时把字符对应的ASCII值存到S向量
        }
    }
    for ( i = 0; i < s.size(); i++)                                 //把组织好的值压入向量中，供构造树。
    {
        HuffmanNode<char> tmp={ s[i], weight[i], -1, -1, -1 };
        huffnode.push_back(tmp);
    }
    HuffmanNode<char> *hn=new HuffmanNode<char> [s.size()];
    for (i=0;i<s.size();i++)
    {
        hn[i]=huffnode[i];
    }

这个统计字频的思路很简单，但是对于中文是完全无效的，算是缺陷。这边在频率统计完了之后，顺便构造了Node数组，便于后面构造树。

2.5、生成编码字符串

首先，我们要对这棵哈夫曼树的叶子节点编码，得到每个叶子节点的码值，然后在读取源码，生成对应的01编码。
编码的原理，就是从当前节点向前回溯，如是其父节点的左孩子插入1，相反插0；知道根节点停止。

template<class T>
vector<int> HuffmanTree<T>::GetCode(int i)
{
    vector<int> code;
    int parent;
    parent = huffmantree[i].parent;   //先获得父节点的下标找到父节点
    while(parent != -1)  //parent == -1 时，表明已经到了根节点了
    {
        if(i == huffmantree[parent].lchild)
            code.insert(code.begin(), 0);
        else
            code.insert(code.begin(), 1);
        i = parent;  //把父节点换成当前的子节点
        parent = huffmantree[i].parent;  //沿父指针上溯
    }
    return code;
}

编码函数：

    //编码,并把结果存在codes向量里面，并用hash表存储，便于读取
    int hash[256];  
    memset(hash,-1,sizeof(hash));
    vector<string> codes;
    vector<int> code;
    cout<<endl<<"字符编码如下："<<endl;
    for( i=0; i<HT.GetN(); i++)
    {
        char c=HT.GetData(i);       cout<<c<<":   ";
        hash[c]=i;
        code = HT.GetCode(i);
        string tmp;
        for(int j=0; j<code.size(); j++)
            tmp+=(char)(code[j]+48);
        codes.push_back(tmp);
        cout<<tmp<<endl;
    }

下面是生成编码字符串

    string res;
    for ( i=0;i<rst.length();i++)
    {
        char c=rst.at(i);
        res+=codes[hash[c]];
    }
    ofstream out;
    out.open("code.txt");
    out<<res;
    out.close();
    cout<<endl<<"编译码已经写入code.txt!"<<endl;

2.6、解码

根据01编码进行解码。

template<class T>    
void HuffmanTree<T>::DeCode(string source)
{
    int root = huffmantree.size()-1;   //获得根节点下标
    int p = root;   //p为当前结点的下标
    for(int i=0; i<source.size(); i++)
    {
        if(source.at(i) == '0')
            p = huffmantree[p].lchild;
        else
            p = huffmantree[p].rchild;
        if( (huffmantree[p].lchild == -1) && (huffmantree[p].rchild == -1) )  //如果到了叶子节点 
        {
            cout<<huffmantree[p].data;
            p = root;   //当前结点再次是根结点
        }
    }
}

    //下面是译码
    cout<<endl<<"译码结果："<<endl;
    HT.DeCode(res);
    cout<<endl;

2.7、打印

为了方便查看哈夫曼树的结构，设计了这个方法：

template<class T>
void HuffmanTree<T>::Print()
{
    cout<<"编号"<<"\t"<<"符号"<<"\t"<<"频率"<<"\t"<<"父结点"<<"\t"<<"左孩子"<<"\t"<<"右孩子"<<endl;
    for(int i=0; i<2*n-1; i++)
    {
        cout<<i<<"\t";
        if (i<n)
        {   
            cout<<huffmantree[i].data<<"\t";
        }
        else
        {
            cout<<"\t";
        }
        cout<<setprecision(4)<<huffmantree[i].weight<<"%"<<"\t";
        cout<<huffmantree[i].parent<<"\t";
        cout<<huffmantree[i].lchild<<"\t";
        cout<<huffmantree[i].rchild<<"\t";
        cout<<endl;
    }
}

2.8、保存哈夫曼树

为了讲编码翻译成源码，需要有哈夫曼树的存在，本来可以用对象的序列化存为二进制文件更加安全的，这边还是用文件的写保存。

template<class T>
void HuffmanTree<T>::Save(char *fname)
{
    ofstream out;
    out.open(fname);
    out<<n<<endl;
    for(int i=0; i<2*n-1; i++)
    {
        if (i<n)
        {   
            out<<huffmantree[i].data<<"\t";
        }
        else
        {
            out<<0<<"\t";
        }
        out<<setprecision(4)<<huffmantree[i].weight<<"\t";
        out<<huffmantree[i].parent<<"\t";
        out<<huffmantree[i].lchild<<"\t";
        out<<huffmantree[i].rchild<<"\t";
        out<<endl;
    }
    out.close();
    cout<<endl<<"该树已经写入"<<fname<<endl;
}

2.9、还原哈夫曼树

也就是按照文件读入来构造哈夫曼树，实质上是构造函数，可能对于后于需要的其他功能提供方便。

template<class T>
HuffmanTree<T>::HuffmanTree(char *fname)
{
    ifstream in;
    in.open(fname);
    in>>n;   //叶子节点个数赋值给n;
    huffmantree.resize(2*n-1);  //为为分支结点预留向量空间
    for(int i=0; i<2*n-1; i++)
    {
        char c;
        in>>c;
        if (c!='0')
        {
            huffmantree[i].data = c;
        }
        in>>huffmantree[i].weight;
        in>>huffmantree[i].parent;
        in>>huffmantree[i].lchild;
        in>>huffmantree[i].rchild;
    }
}

三、测试函数

int main()
{
    //统计字频
    vector<char> s;     //字符集
    vector<double> weight;//每个字符个数
    vector<HuffmanNode<char> > huffnode;//存每个结点
    string rst;
    ifstream in;
    cout<<"字符串内容来源于data.txt!"<<endl;
    in.open("data.txt");
    string tmp;
    while(getline(in,tmp))
    {
        rst+=tmp;
    }
    in.close();
    //cout << "请输入一个字符串：";
    //cin >> rst;
    //对rst做频率统计
    int frequency[256];//用于记录每个ASCII出现的次数
    memset(frequency,0,sizeof(frequency));
    for (int i = 0; i < rst.length(); i++)
        frequency[rst[i]]++;    //每出现一次，次数加1
    for ( i = 0; i < 255; i++)
    {
        if (frequency[i] != 0)
        {
            weight.push_back(frequency[i]*1.0/rst.length()*100);        //当频率不为0的时候，压入权重向量//这个做了个规约处理
            s.push_back(i);                                         //同时把字符对应的ASCII值存到S向量
        }
    }
    for ( i = 0; i < s.size(); i++)                                 //把组织好的值压入向量中，供构造树。
    {
        HuffmanNode<char> tmp={ s[i], weight[i], -1, -1, -1 };
        huffnode.push_back(tmp);
    }
    HuffmanNode<char> *hn=new HuffmanNode<char> [s.size()];
    for (i=0;i<s.size();i++)
    {
        hn[i]=huffnode[i];
    }
    //建树
    vector< HuffmanNode<char> > leafs(hn,hn+s.size());
    HuffmanTree<char> HT(leafs);
    cout<<"此哈夫曼树存储结构如下："<<endl;
    HT.Print();
    //编码,并把结果存在codes向量里面，并用hash表存储，便于读取
    int hash[256];  //存的是字符对应在codes的位置。
    memset(hash,-1,sizeof(hash));
    vector<string> codes;//存的是字符对应的码值
    vector<int> code;
    cout<<endl<<"字符编码如下："<<endl;
    for( i=0; i<HT.GetN(); i++)
    {
        char c=HT.GetData(i);       cout<<c<<":   ";
        hash[c]=i;
        code = HT.GetCode(i);
        string tmp;
        for(int j=0; j<code.size(); j++)
            tmp+=(char)(code[j]+48);
        codes.push_back(tmp);
        cout<<tmp<<endl;
    }
    //下面是生成编码字符串
    string res;
    for ( i=0;i<rst.length();i++)
    {
        char c=rst.at(i);
        res+=codes[hash[c]];
    }
    ofstream out;
    out.open("code.txt");
    out<<res;
    out.close();
    cout<<endl<<"编译码已经写入code.txt!"<<endl;
    //下面是译码
    cout<<endl<<"译码结果："<<endl;
    HT.DeCode(res);
    cout<<endl;
    delete hn;
    return 0;
}

测试一：提供源码文件，统计频率，输出编码，并译码。
此处输入图片的描述

    HuffmanTree<char> ht("MyTree.txt");
    ht.Print();
    cout<<endl;
    string code;
    ifstream in;
    in.open("code.txt");
    string tmp;
    while(getline(in,tmp))
    {
        code+=tmp;
    }
    in.close();
    ht.DeCode(code);
    cout<<endl;

测试二：提供哈夫曼树，提供编码，译码（有误？）
此处输入图片的描述
这边空格被误识别，原因未知。