利用哈夫曼树进行文本压缩及解压(步骤)
2016-09-30 11:17
120 查看
首先这里的文本是指可以转字符串的(其他文件的压缩类似)
本文不关注实现,实现在后续的文章会继续补充
细节优化会慢慢更新
带权路径长度达到最小的二叉树
一个哈弗曼树中离根节点最近的叶子 权重最大
字符:频度 —>编码
, : 3 —>0x01
闹 : 3 –>0x02
说 : 2 –>0x03
切克 : 2 –>0x04
呦 : 2 –>0x05
一起 : 1 –>0x06
我 : 1 –>0x07
我们 :1 –>0x08
你 : 1 –>0x09
. :0x0a
把字符和编码映射存入 叶子中
同时原字符串替换成
[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
存储的时候存的是二进制的数据,比存字符串要小很多。见下
log:
而压缩文件存的时候要加入一个编码映射表。
, —>0x01
闹 –>0x02
说 –>0x03
切克 –>0x04
呦 –>0x05
一起 –>0x06
我 –>0x07
我们 –>0x08
你 –>0x09
然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可
还原得到
“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
本文不关注实现,实现在后续的文章会继续补充
细节优化会慢慢更新
哈弗曼树
即最优二叉树带权路径长度达到最小的二叉树
一个哈弗曼树中离根节点最近的叶子 权重最大
字符串/文本统计
“ 我说切克,你说闹,呦呦切克闹,我们一起切克闹.”字符:频度 —>编码
, : 3 —>0x01
闹 : 3 –>0x02
说 : 2 –>0x03
切克 : 2 –>0x04
呦 : 2 –>0x05
一起 : 1 –>0x06
我 : 1 –>0x07
我们 :1 –>0x08
你 : 1 –>0x09
. :0x0a
替换、压缩
按字符出现的频度作为权重 组建哈夫曼树把字符和编码映射存入 叶子中
同时原字符串替换成
[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
存储的时候存的是二进制的数据,比存字符串要小很多。见下
let str = "我说切克,你说闹,呦呦切克闹,我们一起切克闹." let data = str.dataUsingEncoding(NSUTF8StringEncoding) print(data) print(data!.length) var bytes = [0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a] let data2 = NSMutableData() for var i = 0 ; i < bytes.count ; i++ { data2.appendBytes(&bytes[i], length: 1) } print(data2) print(data2.length)
log:
<e68891e8 afb4e588 87e5858b efbc8ce4 bda0e8af b4e997b9 efbc8ce5 91a6e591 a6e58887 e5858be9 97b9efbc 8ce68891 e4bbace4 b880e8b5 b7e58887 e5858be9 97b92e> 67 <07030401 09030201 05050402 01080604 020a> 18
而压缩文件存的时候要加入一个编码映射表。
解压
先取出编码映射表(哈夫曼树存储的), —>0x01
闹 –>0x02
说 –>0x03
切克 –>0x04
呦 –>0x05
一起 –>0x06
我 –>0x07
我们 –>0x08
你 –>0x09
然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可
还原得到
“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
相关文章推荐
- 利用antzip包来进行解压与压缩
- 利用antzip包来进行解压与压缩
- 【.NET】利用SharpZipLib压缩与解压文件夹中的所有文件、内存中动态压缩解压数据、内存中压缩与解压文本
- (一二九)获取文件的MineType、利用SSZipArchive进行压缩解压
- 利用Packer对JavaScript进行加密(压缩),解密(解压)
- 利用c#自带的类对文件进行压缩和解压处理
- 利用apache ant 包进行压缩、解压缩zip,归档tar,解档tar,压缩tar.gz解压tar.gz
- 利用ZipArchive库进行压缩和解压文件
- silverlight:利用telerik中的zip类对字符串进行压缩、解压
- 利用antzip包来进行解压与压缩
- 批处理利用winrar进行多重压缩和解压
- (转贴)C#中利用SharpZipLib进行压缩和解压
- 利用哈夫曼树进行文件压缩
- 【数据结构与算法】 利用哈夫曼树进行文件压缩 (部分借鉴网上内容)
- (一二九)获取文件的MineType、利用SSZipArchive进行压缩解压
- 【VB.NET】利用SharpZipLib压缩与解压文件夹中的所有文件、内存中动态压缩解压数据、内存中压缩与解压文本
- 利用apache ant 包进行压缩、解压缩zip,归档tar,解档tar,压缩tar.gz解压tar.gz
- 利用seven 7zip的API来进行压缩和解压文件夹
- 利用ZipArchive库进行压缩和解压文件
- 关于zip对文本进行压缩和解压