您的位置:首页 > 其它

ICT实习第二周第一天

2014-01-13 15:59 190 查看
这周开始分配具体的任务了,主要是对hive支持的数据类型的编码方式进行调研,

我分到的是string类型数据,申跟我过了一下mapred工作流程,讲了一些关于mapred中getsplits和getrecordreader的东东,让我去看hive源码,找出outformat和recordwriter中关于string编码的部分,此是基于orcfile的,另外去github调研parquet,比较不同编码方式对列存储下string类型的的影响,找tradeoff压缩率和速度的中间点。另外还讲了关于列存储下不同行数据放在同一个block的过程。以及64Mblock下的行到列簇再到列的关系。

这周任务只要是调研,开始从百度or百度or google 往paper、github、google、hive wiki、wikipedia转变。

总之,这周开始工作内容又下潜了一个层次,开干!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: