您的位置:首页 > 运维架构 > Linux

IBM linux on power 开发者技术大会记录

2015-09-22 20:47 573 查看

今日参见IBM举办的linux开发者大会,收获颇多。现在线简单记录于此。改日在详细总结。

1. 对于业务的处理来说:目前来说听到了如下的几个特点,主要分为如下的两类:

(1) 批处理类型的业务:如银行的报表查询,基于数据仓库的数据挖掘分析等等。在次还需要主要区分的一点是:对于上述的这些应用场景。还需要进一步分析用户的多少。如对于对公共用户开放的一些功能来言,就需要考虑高并发的处理。而一些公司内部的,则可以放宽对该方面的需求。(这里只是这样插一句,其实这对高并发来言,已经有了一些比较常用的手段了。如web前端的负载均衡器,DNS等等)。

针对这种场景,就是利用目前的hadoop/spark平台进行处理就行了。

(2)流处理的类型:如在一些工控领域的传感器收集到的数据,还有交通部门在识别套牌车辆,通过运营商的一些信令,来实时分析人群的聚集程度。针对这种场景,今天才学习了一种架构。叫做lambda架构,其说起来也比较简单。其架构图如下:



针对上述的场景,如果是真正的实时流处理的话,一般场景的spark就能处理了。但是据IBM的人说,实际上目前的spark的流处理,是一个微量的批处理的过程,spark的时间窗口在500ms左右。做不到真正的流。而他们正在做他们的stream。

2 针对批处理的系统来言,由于批处理的实现特点,因此对数据一致性的考虑没有那么急迫。 而对于一些在线的系统来言(一边 读一边写),就需要考虑数据的最终一致性。

3 hadoop集群的大小:就听到的几个公司的数据来言,其hadoop集群的大小最大都是几百个左右。200-800。数据的量级都是在PB的量级。其中一个较大的公司说自己的每天的数据量有16TB.

4 总结一下目前公司们在做的hadoop的几个方面:

(1)针对hadoop的sql的优化。目前hive虽然使得hadoop支持了sql。但是支持的还不是很完善。目前就有两家公司提到了(其中包括IBM)他们正在做这方面的工作。 其背景如下:一些银行和电信行业都已经利用传统的数据库很多年了。他们熟悉sql。并且他们的很多业务利用了sql,并且也没人去维护了,想要让这些用户迁移到hadoop上,sql必不可少。

(2)面向算法的并行化,一方面,有一些公司已经在hadoop上去实现各种算法了,其中包括统计的算法,分类算法,聚类,回归,主成分分析等等。 另一方面,针对机器学习的库,目前在hadoop上面有mahout,spark的MLib等,IBM还会贡献自己的机器学习库systemML。

(3)各种场景的应用。银行部门:初级各类报表的查询,跨部门的数据的统计(这些以前的数据仓库基本都能做了),更深一个层次的,利用银行的客户信息,以及各种借贷信息,为用户贴标签,进行精确的营销,并且增加用户的忠诚度。

银行的风险预警:银行结合各个政府部门,如公安,确定一些风险账户,当有人跟该账户进行交易时,及时阻断。

电信行业的人群聚集分析,交通部门的套牌分析。

(4)stream的处理:目前还是比较混乱的,有用spark的。

5 IBM的大数据方案

IBM作为此次大会的主办,拿出了它大数据方面从硬件到软件的整套的方案。

硬件方面:linux on power,这个我实在是不太懂,并且上午还是用英文讲的,我只看到了一个关键词bare metal,并且他们生成,他们会做持续的优化,这是其他所不能比的。

大数据平台:hdfs+yarn+spark,用spark来代替mapreduce。并且他们成立了IBM open platform with apache hadoop,来建立标准,来统一目前hadoop版本乱的现状。

systemML 贡献自己的机器学习库

stream:自己的流处理方案

spss:专用的数据挖掘的工具软件,利用拖拽的方式。

DB2: 在h
a792
adoop平台上实现了DB2的驱动。


6 sequoiaDB 的方案:

他们的方案比较有意思,他们没有在hadoop的上层来实现数据库。而是着眼于了hdfs的,在他们的实现中,他们用他们的数据库替换掉了hdfs,在他们的数据库上面跑spark。例如查看到了某个数据快在那个节点上,就在那个节点上面去启动spark进程处理。

在他们的应用中,他们的系统(数据库)同时存在批处理,交互式查询,数据库读写的操作,他们利用多副本的方式,来解决同时访问的问题。

7 其他一些:

redis 貌似和IBM合作,做了一个硬件的接口,来加锁数据处理,没听懂。

SSD 内存,有人做了测评spark平台下ssd的性能时内存的80%-90%,

kafka这个消息队列,有三个公司提了他们正在用。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  linux 开发人员