大数据平台--没有数据的平台
2016-08-30 00:24
141 查看
在某大型公司做大数据四年多,一直在大数据门口转悠,感觉自己从未迈进去过这个大门。
数据清洗,降低二次开发成本,将传输的速度达到极致,同时做到不丢数据。说起来简单,但是放在四年前,从0做到1还是很不简单的。java、javascipt,tomcat,SSH,Hadoop,Mapreduce,spark,hive。。。。这些不断出现的工具,构建了一个能将各处的杂乱数据,最终汇总到一起的工具。
曾经有个人看到我们的配置、调度、运行监控界面时,问了我一句:你们这个界面化配置和运维挺不错的,比Hadoop的强多了;我自己是不是弄几个开源软件组合一下,也可以玩出来?我将我知道的几个不错的开源都告诉他了,他完全可以自己去试试,花钱和不花钱的差距。
但是,毕竟已经做了四年。虽然我们可以不断用新的底层引擎,虽然我们可以把界面不断的互联网化,虽然我们可以浏览器化。但是,为什么其他厂商不愿意做?因为投入产出比不高。而且,随着时间的推移,底层的开源软件,已经越来越简单。比如spark在小数据量的上的处理速度,以及提供的很多原生的数据转换接口等等,完全可以让其它团队来弯道超车。
这一年,我要好好考虑下,放下那些学会的流程,那些熟悉的代码。重新学习一些新的框架,来看看自己这四年来,真正沉淀了哪些。
数据清洗,降低二次开发成本,将传输的速度达到极致,同时做到不丢数据。说起来简单,但是放在四年前,从0做到1还是很不简单的。java、javascipt,tomcat,SSH,Hadoop,Mapreduce,spark,hive。。。。这些不断出现的工具,构建了一个能将各处的杂乱数据,最终汇总到一起的工具。
曾经有个人看到我们的配置、调度、运行监控界面时,问了我一句:你们这个界面化配置和运维挺不错的,比Hadoop的强多了;我自己是不是弄几个开源软件组合一下,也可以玩出来?我将我知道的几个不错的开源都告诉他了,他完全可以自己去试试,花钱和不花钱的差距。
但是,毕竟已经做了四年。虽然我们可以不断用新的底层引擎,虽然我们可以把界面不断的互联网化,虽然我们可以浏览器化。但是,为什么其他厂商不愿意做?因为投入产出比不高。而且,随着时间的推移,底层的开源软件,已经越来越简单。比如spark在小数据量的上的处理速度,以及提供的很多原生的数据转换接口等等,完全可以让其它团队来弯道超车。
这一年,我要好好考虑下,放下那些学会的流程,那些熟悉的代码。重新学习一些新的框架,来看看自己这四年来,真正沉淀了哪些。
相关文章推荐
- 没有大数据的支撑,如何发现用户需求?(分享一些收费课程讲的内容,运营纯干货)
- 为什么无法构建通用AI模块
- 【codewar-7kyu】Unary function chainer
- public static void main(String[] args)
- Ojbect 中的wait() 和 notify()
- 196. Delete Duplicate Emails
- 详解Paint的各种set方法
- 【精华】 数据中心双活该如何构建
- Develop -- Training(十七) -- 动画视图的使用场景和转换
- hdu5753 2016 Multi-University Training Contest 3 Permutation Bo 解题报告
- 大数据Spark “蘑菇云”行动第34课:在IDEA中开发Spark实战
- 云平台选型的思考
- AudioToolbox
- R语言从基础入门到提高(三)Vectors(向量)
- codeforces AIM Tech Round 3 (Div. 2) B. Checkpoints
- 219. Contains Duplicate II *
- leetcode_373 Find K Pairs with Smallest Sums
- yolo-darknet v1 实现自己数据的train和test
- navicat中添加表外键显示Cannoot add or update a child row;a foreign key constraint fails
- Materail Design 入门(三)——FloatingActionButton和Snackbar