搞清楚LzoCodec和LzopCodec
2016-04-13 14:29
260 查看
使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别:
LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如 bytes signature, header等信息
如果使用 LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzop读取;如果使用LzopCodec作为Reduce输出,则扩展名为".lzo",它可以被lzop读取
生成lzo index job的”DistributedLzoIndexer“无法为 LzoCodec,即 ".lzo_deflate"扩展名的文件创建index”.
lzo_deflate“文件无法作为MapReduce输入,”.LZO"文件则可以。
综上所述得出最佳实践:map输出的中间数据使用 LzoCodec,reduce输出使用 LzopCodec
LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如 bytes signature, header等信息
如果使用 LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzop读取;如果使用LzopCodec作为Reduce输出,则扩展名为".lzo",它可以被lzop读取
生成lzo index job的”DistributedLzoIndexer“无法为 LzoCodec,即 ".lzo_deflate"扩展名的文件创建index”.
lzo_deflate“文件无法作为MapReduce输入,”.LZO"文件则可以。
综上所述得出最佳实践:map输出的中间数据使用 LzoCodec,reduce输出使用 LzopCodec
相关文章推荐
- python切分apache日志文件
- Archlinux 缺少<uuid/uuid.h> No such file or directory
- centos6.4下scikit-learn安装经历
- hadoop节点一块硬盘故障更换方法
- wget下载网站的目录
- hadoop强制进行Active/Standby切换需要注意的问题
- hadoop job报错is running beyond physical memory limits
- Hadoop平台关闭THP解决服务器高负载问题
- Kafka监控--KafkaOffsetMonitor安装部署
- Linux前台的程序转到后台执行(并且关闭终端而不杀死命令)
- linux安装rsync服务同步数据
- nginx-1.8.0+php-5.6.15+mysql-5.6.27服务安装部署
- Hadoop1.x和Hadoop2.x中fsimage和edits合并实现
- kafka-manager监控工具安装
- hadoop群集运行job慢的问题
- 修改hadoop的备份系数dfs.replication后操作
- Linux流量监控-iftop
- hadoop群集设置block副本,对于数据传输很有影响的
- Android驱动之 Linux Input子系统之TP——A/B(Slot)协议
- CentOS7设置自定义开机启动脚本,添加自定义系统服务