您的位置:首页 > 其它

利用哈夫曼树进行文本压缩及解压(步骤)

2016-09-30 11:17 120 查看
首先这里的文本是指可以转字符串的(其他文件的压缩类似)

本文不关注实现,实现在后续的文章会继续补充

细节优化会慢慢更新

哈弗曼树

即最优二叉树

带权路径长度达到最小的二叉树

一个哈弗曼树中离根节点最近的叶子 权重最大

字符串/文本统计

“ 我说切克,你说闹,呦呦切克闹,我们一起切克闹.”

字符:频度 —>编码

, : 3 —>0x01

闹 : 3 –>0x02

说 : 2 –>0x03

切克 : 2 –>0x04

呦 : 2 –>0x05

一起 : 1 –>0x06

我 : 1 –>0x07

我们 :1 –>0x08

你 : 1 –>0x09

. :0x0a

替换、压缩

按字符出现的频度作为权重 组建哈夫曼树

把字符和编码映射存入 叶子中

同时原字符串替换成

[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]

存储的时候存的是二进制的数据,比存字符串要小很多。见下

let str = "我说切克,你说闹,呦呦切克闹,我们一起切克闹."
let data = str.dataUsingEncoding(NSUTF8StringEncoding)
print(data)
print(data!.length)

var bytes  = [0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]

let data2 =  NSMutableData()
for var i = 0 ; i < bytes.count ; i++
{
data2.appendBytes(&bytes[i], length: 1)
}

print(data2)
print(data2.length)


log:

<e68891e8 afb4e588 87e5858b efbc8ce4 bda0e8af b4e997b9 efbc8ce5 91a6e591 a6e58887 e5858be9 97b9efbc 8ce68891 e4bbace4 b880e8b5 b7e58887 e5858be9 97b92e>
67
<07030401 09030201 05050402 01080604 020a>
18


而压缩文件存的时候要加入一个编码映射表。

解压

先取出编码映射表(哈夫曼树存储的)

, —>0x01

闹 –>0x02

说 –>0x03

切克 –>0x04

呦 –>0x05

一起 –>0x06

我 –>0x07

我们 –>0x08

你 –>0x09

然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可

还原得到

“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: