吐槽:关于实时与离线计算的事儿
2013-03-12 23:41
22 查看
貌似这算是开博的第一篇文章,居然就从吐槽开篇鸟。虽然先前有写过几篇,但也都删掉了,感觉写得不好,没意思。
好吧,正题,今天又是一大班码农在纠结某个看上去很没道理的功能,总感觉很没必要,其实道理也很明显,就像你永远不能超越CAP,不能让硬盘跟内存的速度一样快的道理一样。其实,要改变也不是完全没有办法,但要在功能上做一些折中选择。
下面描述下这个业务场景吧,服务于卖家,要去实时计算卖家的所有商品,即使他有10w个商品也要算(这个做实时计算怎么可能,虽然是极少可能出现,但作为码农的思想,极端情况是要考虑的,在淘宝上还真有可能存在这么多商品的卖家),计算肯定就是需要时间,即使1ms一个,10w个就100秒了,卖家打开一个页面要100s,他要疯掉了。文字描述貌似有点无力,还是把流程图及模块图画画吧。
现在大概有两个方案:
一个是实时的计算,来一个卖家就实时算一次,这样的话,商品数多的时候会好慢,做分页功能得把商品总数算出来—也就是要把全部商品算一次;
另一个是离线计算好,但是这样会产生延迟,而且有些卖家不来,你也得算好摆在那里,好浪费,因为很多卖家都是不来的。延迟上,一般是一天,但是会随着延迟的时间越短,计算的次数会越多,浪费就越多。
现实中,PD的要求就是要实时,要翻页,一点都不退让。
好吧,在这里只吐槽下这个不可实现的功能,如果大家有好的方案也可以拍砖哦。
好吧,正题,今天又是一大班码农在纠结某个看上去很没道理的功能,总感觉很没必要,其实道理也很明显,就像你永远不能超越CAP,不能让硬盘跟内存的速度一样快的道理一样。其实,要改变也不是完全没有办法,但要在功能上做一些折中选择。
下面描述下这个业务场景吧,服务于卖家,要去实时计算卖家的所有商品,即使他有10w个商品也要算(这个做实时计算怎么可能,虽然是极少可能出现,但作为码农的思想,极端情况是要考虑的,在淘宝上还真有可能存在这么多商品的卖家),计算肯定就是需要时间,即使1ms一个,10w个就100秒了,卖家打开一个页面要100s,他要疯掉了。文字描述貌似有点无力,还是把流程图及模块图画画吧。
现在大概有两个方案:
一个是实时的计算,来一个卖家就实时算一次,这样的话,商品数多的时候会好慢,做分页功能得把商品总数算出来—也就是要把全部商品算一次;
另一个是离线计算好,但是这样会产生延迟,而且有些卖家不来,你也得算好摆在那里,好浪费,因为很多卖家都是不来的。延迟上,一般是一天,但是会随着延迟的时间越短,计算的次数会越多,浪费就越多。
现实中,PD的要求就是要实时,要翻页,一点都不退让。
好吧,在这里只吐槽下这个不可实现的功能,如果大家有好的方案也可以拍砖哦。
相关文章推荐
- Hadoop(三) 大数据离线计算与实时计算
- 流式处理、实时计算、Add-hoc、离线计算、实时查询等区别
- Hadoop(三) 大数据离线计算与实时计算
- 梳理一下流式处理、实时计算、Add-hoc、离线计算、实时查询等区别
- 流式计算、实时计算和离线计算
- 实时计算与odps离线计算
- 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)
- 性能优化之永恒之道(1)(实时sql优化vs业务字段冗余vs离线计算)
- 大数据的实时计算与离线数据统计 整理学习
- 关于google地图api3的离线和在线开发(画带箭头的直线,指定范围,搜索,计算距离)
- 离线计算,实时计算和流式计算的概念区分
- 第四课记录 离线计算与实时计算
- 公司招聘大数据开发工程师(离线计算、实时计算)
- 我学到的一些关于编程的事儿(翻译)
- 关于类似朋友圈的发布时间间隔计算问题(python)
- 比ISA更简单的监管利器,谈谈关于公司上网监管的一点事儿
- 实时计算实践(spark streaming+kafka+hdfs)
- 基于Lambda架构的数据实时计算系统
- 关于递归次数的计算
- 关于使用hbase进行多维度条件实时查询的方案调研