您的位置：首页 > 其它

[老文章搬家] 关于 Huffman 编码

2016-05-31 13:44 141 查看

按：去年接手一个项目，涉及到一个一个叫做Mxpeg的非主流视频编码格式，编解码器是厂商以源代码形式提供的，但是可能代码写的不算健壮，以至于我们tcp直连设备很正常，但是经过一个UDP数据分发服务器之后，在偶尔有丢包的情况下解码器会偶发崩溃，翻了翻他们的代码觉得可能问题出在Huffman这一块。水平有限也没有看太懂他们的源码，而且我也不是科班出身当时对Huffman编码算法只是知道这么个名字，还好服务端软件那边做了修改，解决了丢包的问题。在回家过年的火车上想起这件事，阅读了一些关于Huffman编码的资料，算是对这个东西有了些通俗的认识，记在这里以防遗忘或者智力萎缩。

Huffman编码，是一种压缩编码算法，它利用“出现频率最大的信息应该用最短的码元来表示”这一原理对信息进行压缩。使用这种原理的编码算法统称“熵编码”。为了解释清楚Huffman编码的原理，我得先定义一些概念：

信息(Message)
含有某种语义的单元。比如拿常用的文本传输举例子，'a'就是个信息，它表示字母a，或者不定冠词a，又或者A片。总之它有一个预先定义的语义。

信息序列(Message Sequence)
信息排列组合组成的串。就像英文一样，光有字母是不行的，因为字母只有26个，但是单词有几百万个，所以要用字母的排列组合来构成单词，比如apple，再比如<a href="http: baike.baidu.com="" view="" 657095.htm?source="www.willlong.com"">这个单词。然后我们还用单词加空格组成句子来表达更复杂的意思(信息)，比如"son of bitch"，这也是一个序列

符号(Symbol)
我们用电子设备来传输信息，但是设备不认识信息，只认识电平，1和0。0和1被叫作符号。
PS: 据说中国有个教授研究能表达3个状态的量子逻辑，成果还挺厉害的，不知道靠谱否。

符号序列(Symbol Sequence)
同样，光有符号也是不行的，因为符号只有两个(0,1)，消息却有很多，比如字母有26个，所以要用符号的排列组合来表示信息，继而表示出信息序列。比如你去内存里看C字符串"son of bitch"，就是0和1组成的符号序列。

编码(Message Code)
对于一个信息/信息序列M，用一个符号序列C来表示，在这个映射中，我们称C为M的编码/编码序列（同时，我们不妨把这个映射的过程叫做编码，不会产生歧义）。
有了上面这些概念，我们很容易推知，在单位符号传输时间恒定的情况下，传输同样的消息，肯定是生成的编码序列越短，花费的时间就越短。那么为了提高传输效率，我们有必要找到一种编码算法，使得一个有限长信息序列编码生成的符号序列尽可能的短，大神Shannon称之为“最小冗余编码（minimum-redundancy code）”——事实上Shannon的定义和我这里不太一样，我这是山寨解释。另外为了解码需要，一个可行的编码算法还要符合两个基本限制：

1.不同的信息不能编出同样的码，这个是天经地义的，不需要解释。
2.不需要额外的说明就能确定信息编码之间的界限，从这个条件引申，我们可以将其解释为不能有一个编码C1是另一个编码C2的前k位(也叫前缀k——kth prefix)，比如01表示a，011表示b就是不合法的，因为给定符号序列011，如果没有额外说明，没法确定是a加上一个1还是b。虽然没有什么逻辑联系，但是看到第二条我就想到为什么大家都喜欢配置文件而不是xml，尤其是手写解析器的情况下。

进一步考虑，假设待编码序列中的信息空间有N种取值，用1到N表示，P(n)为消息n出现的频率(因为是已知序列，所以是频率而不是概率)，L(n)为消息n编码后的长度，C(n)为消息n的编码。我们可以得到另外一些结论，首先，有：
如果 P(1)<=P(2)<=...<=P(N)
那么 L(1)>=L(2)>=...>=L(N)

也就是说，频率小的信息编码之后不能比频率大的信息更短，因为如果不这样的话，我们只要简单的互换两个信息的编码，就能减小编码序列的长度。然后我们再考虑L(N-1)和L(N)，假设L(N-1)=4，那L(N)是几？显然根据刚得出的结论L(N)不能小于4，那能不能是比4大，比如5？如果真等于5的话，根据前面的限制2，C(N)的前4位必然没有在编码空间中出现过，那第5位还有必要么？显然没有了，我读到第4位就知道一定是N了，还要第5位干什么？L(N)不能比4小，也不能比4大，那只能是4，也就是说，结论是L(N)=L(N-1)。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航