基于mdrill的大数据分析
2014-02-18 12:44
162 查看
数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。
2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。
6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)
要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。
多维分析
要任意维度组合与过滤
还要对任意指标进行统计和排序
即席查询
要查询快,秒级响应。
还要数据快,数据分钟级延迟。
mdrill介绍PPT
安装部署
sql使用手册
版本开发计划
阿里妈妈-AdHoc-基于mdrill的大数据自助分析平台
mdrill技术交流群:171465049
微博:http://weibo.com/mynyannian
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。
mdrill的特性
1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。
6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)
mdrill的定位
大数据要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。
多维分析
要任意维度组合与过滤
还要对任意指标进行统计和排序
即席查询
要查询快,秒级响应。
还要数据快,数据分钟级延迟。
资源列表
mdrill介绍mdrill介绍PPT
安装部署
sql使用手册
版本开发计划
阿里妈妈-AdHoc-基于mdrill的大数据自助分析平台
其他
官方地址:https://github.com/alibaba/mdrillmdrill技术交流群:171465049
微博:http://weibo.com/mynyannian
相关文章推荐
- 基于mdrill的大数据分析
- 基于mdrill的大数据分析
- 携程基于大数据分析的实时风控体系介绍
- 大数据分析- 基于Hadoop/Mahout的大数据挖掘
- 大数据分析- 基于Hadoop/Mahout的大数据挖掘
- 基于Hadoop大数据分析应用场景与实战
- 微信正式上线“微信指数”,基于微信大数据分析的移动端指数
- 基于大数据分析的异常检测方法及其思路实例
- 基于IDSS和Machine Learning的零售金融大数据分析(二)
- 比谷歌手表更酷!基于大数据分析的睡衣
- “基于Mahout的大数据分析实践”技术讲座圆满结束
- 基于大数据分析的网络攻击检测
- 基于Data Lake Analytics的Serverless SQL大数据分析
- 基于Hadoop大数据分析应用场景与实战
- 大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘
- 基于大数据分析平台现状 规划和划分微服务粒
- 基于大数据分析的安全管理平台技术研究及应用
- 基于常规法则的大数据分析最佳实践
- 大数据分析- 基于Hadoop/Mahout的大数据挖掘
- 基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践