读后感——Information Week关于Yahoo的WEB分析数据库数据量达1PB(1,024TB)的报道
2008-06-11 11:19
218 查看
2008年5月21日,Information Weekd一篇文章详细讲述了貌似Yahoo的web分析核心数据库。为什么是貌似呢?最后再回答。主要的内容包括:
Yahoo的web分析数据库已超过1PB大小。宣称在09年将会超过10倍。
Yahoo的web分析数据库是基于PostgreSQL之上的。哈哈!有太多MySQL的粉丝认为Yahoo在web分析数据库商都在用他们的钟爱。我也不知道是不是事实,但是报道上面不是这么讲的。当然,Yahoo在一些苛刻和严格的应用上确实使用了MySQL。
但是,但是…,Yahoo的web分析数据库没有真正使用PostgreSQL的存储引擎。Yahoo自己写了一个列式存储的方案。
Yahoo每天处理240亿个“事件”。报道中没有说清楚到底这些请求是直接送至分析存储的,还是有一个中间的存储引擎。比较有可能的是,系统在RAM中把块写满,随即添加到唯一的持久化存储中。如果在生产过程中偶尔宕掉了然后损失了一些数据,比如说几兆,其实也无所谓,因为这个应用太大了。
Yahoo认为商用的列式存储数据库还不足以应付100T以上的数据。
Yahoo说根据他们自己的应用优化后的自定义系统性能相当棒!不太清楚具体是什么。
为什么会说貌似呢?
答案在这里:
Winter Corporation是全球比较权威的数据库、数据仓库方面的咨询公司,在其2005年的Top 10 数据仓库报告中显示:
Yahoo,100TB(其中原始数据量仅为18TB!!! 数据行:3850亿条,有点意思。),使用Oracle数据库,运行在Fujitusu Siemens的UNIX平台上,使用EMC提供的存储介质,采用集中式SMP的架构。所以3年的时间,不太可能做好那么大的动作,换成列式存储,移植到PostgreSQL。
另外一点是PostgreSQL的查询引擎在取数据的时候能从列式存储的库里读取?所以中间是不是有一个存储引擎符合PostgreSQL的标准?如果是这样,可真够能倒腾的。
而跟Yahoo数据量比较接近的是尼尔森媒体研究中心,原始数据量为18TB,数据行:5000亿行,使用Sun的Solaris平台,同样使用EMC的存储,用Sybase IQ(注意,这是一个列式数据库!!!)作数据仓库引擎,最后的数据仓库的存储量是17TB。
原始英文新闻下载
Winter Corporation的报告下载
Yahoo的web分析数据库已超过1PB大小。宣称在09年将会超过10倍。
Yahoo的web分析数据库是基于PostgreSQL之上的。哈哈!有太多MySQL的粉丝认为Yahoo在web分析数据库商都在用他们的钟爱。我也不知道是不是事实,但是报道上面不是这么讲的。当然,Yahoo在一些苛刻和严格的应用上确实使用了MySQL。
但是,但是…,Yahoo的web分析数据库没有真正使用PostgreSQL的存储引擎。Yahoo自己写了一个列式存储的方案。
Yahoo每天处理240亿个“事件”。报道中没有说清楚到底这些请求是直接送至分析存储的,还是有一个中间的存储引擎。比较有可能的是,系统在RAM中把块写满,随即添加到唯一的持久化存储中。如果在生产过程中偶尔宕掉了然后损失了一些数据,比如说几兆,其实也无所谓,因为这个应用太大了。
Yahoo认为商用的列式存储数据库还不足以应付100T以上的数据。
Yahoo说根据他们自己的应用优化后的自定义系统性能相当棒!不太清楚具体是什么。
为什么会说貌似呢?
答案在这里:
Winter Corporation是全球比较权威的数据库、数据仓库方面的咨询公司,在其2005年的Top 10 数据仓库报告中显示:
Yahoo,100TB(其中原始数据量仅为18TB!!! 数据行:3850亿条,有点意思。),使用Oracle数据库,运行在Fujitusu Siemens的UNIX平台上,使用EMC提供的存储介质,采用集中式SMP的架构。所以3年的时间,不太可能做好那么大的动作,换成列式存储,移植到PostgreSQL。
另外一点是PostgreSQL的查询引擎在取数据的时候能从列式存储的库里读取?所以中间是不是有一个存储引擎符合PostgreSQL的标准?如果是这样,可真够能倒腾的。
而跟Yahoo数据量比较接近的是尼尔森媒体研究中心,原始数据量为18TB,数据行:5000亿行,使用Sun的Solaris平台,同样使用EMC的存储,用Sybase IQ(注意,这是一个列式数据库!!!)作数据仓库引擎,最后的数据仓库的存储量是17TB。
原始英文新闻下载
Winter Corporation的报告下载
相关文章推荐
- 横瓜先生关于如何利用MYSQL数据库设计CMS系统处理100亿级TB规模的数据量
- 关于AngularJs数据递归呈现的实现的几种方式
- 关于jquery ajax 调用带参数的webservice返回XML数据一个小细节
- 《关于个人承接项目的注意事项》读后感
- 关于多继承的派生类中数据成员的偏移量
- 关于c语言的数据转换的一些心得!
- 《SICP》读后感:关于软件本质的一点思考
- VMware vSphere Cluster的关于此主机当前没有管理网络冗余及数据存储数目为0的问题
- 关于游戏本地数据Excel编程工具转换 --- 1
- 关于大数据框架hadoop
- IBM未来存储方向:1U存储可保存1PB数据
- 如何实现一篇数据新闻报道
- 关于mysql source恢复数据过程中,select操作hang
- 关于SQL查询效率,100w数据,查询只要1秒
- 【任务笔记】关于EMC DMX-4系列数据处理的一点心得
- 闲谈关于大数据的概念和基本技术的通俗的解释
- 关于activity中启动模式影响数据的显示
- 关于数据类型的注意点
- 动网:关于部分论坛用户发帖、回帖时报错“数据中含有非法字符。您的用户名并不存在,或者您的论坛密码错误,或者您的帐号已被管理员锁定。” 及“您没有发表新主题的权限”解决方法
- android中关于上下文菜单ContextMenu数据值的转递