您的位置:首页 > 其它

【视频】如何只用4台虚拟机搞定500G共300亿条数据的秒级排序

2017-02-02 15:18 246 查看
     排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。

       有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,2016年的计算冠军为腾讯(原文地址为 http://www.csdn.net/article/a/2016-11-10/15841969),通过该文,我们可知这次排序比赛的硬件采用了512台IBM的OpenPOWER服务器和迈络思公司的100Gb互联技术,排序时间为98.8秒。每年巨头都会在排序上进行巨大的投入,可见排序速度的高低有多么重要!
      但是对于大多数企业来说,动辄上亿的硬件投入,实在划不来、甚至远远超出了企业的项目预算。相比大数据领域的暴力排序有没有一种更廉价的实现方式?

      在这里,我们为大家通过视频演示延云YDB采用的一种新的排序方法,我们称为blockSort。

     500G的数据300亿条数据,只使用4台 16核,32G内存,千兆网卡的虚拟机即可实现 2~15秒的 排序 (可以全表排序,也可以与任意筛选条件筛选后排序)。

   以下为关于blockSort的介绍文章 http://blog.csdn.net/qq_33160722/article/details/54447022
   当然了YDB的性能也不仅仅是排序,即席分析、探索式分析是YDB的强项,利用索引也可以非常快速的进行检索与过滤,也可以进行快速的多维分析与统计。

   感兴趣的读者也可以阅读YDB编程指南 http://url.cn/42R4CG8 。也可以参考该书自己安装延云YDB进行测试。

     以下为我们制作的两个性能测试视频,欢迎观看

视频地址 (看不清的同学可以进入腾讯视频 高清播放)
https://v.qq.com/x/page/q0371wjj8fb.html https://v.qq.com/x/page/n0371l0ytji.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐