您的位置:首页 > 大数据

京东商城架构师李松林:电子商务中大数据技术

2014-06-05 22:31 316 查看
http://www.csdn.net/article/a/2012-12-01/2812403

京东商城架构师李松林:电子商务中大数据技术


发表于2012-12-01 12:30|1570次阅读| 来源CSDN|0 条评论|
作者王霖

HBTC2012大数据京东李松林
摘要:中国IT界技术盛会Hadoop与大数据技术大会(HadoopBigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。在12月1日的主题论坛三上,京东商城构架师李松林为我们带来了题为《电子商务中大数据技术Bigdata》的主题演讲。

【CSDN现场报道】中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨大数据技术生态系统的现状和发展趋势,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。



图:京东商城架构师 李松林
在12月1日的主题论坛三上,京东商城构架师李松林为我们带来了题为《电子商务中大数据技术》的主题演讲,京东的电子商务,在运行中京东所碰到的问题;从京东资深的实践出发,介绍了京东在大数据建设的方案;以及京东在技术实践方面的一些内容。李松林指出,京东整个系统面临了四个方向的问题,第一内部系统的种类多、系统多,不仅包括了传统供应链里的结构化数据,还有运输中仓储包裹上打印的储化和网络日志等。第二,数据量大,增长速度快,每天有两三个T新生成的数据,基本上大概每过三个月,业务基本上会翻一倍。第三,市场追求速度越快越好。第四,用户种类繁杂,用户不仅包括自身的业务部门,还包括仓储,配送系统,京东的供应商等。为此京东提出要通过服务,存储,模式和计算四方面来解决这些问题。




李松林指出在京东统一模型管理下形成了一个大数据平台,支撑着京东三个方面的主要应用。它包括第一,大数据平台针对企业决策层,为企业的战略决策提供参考数据。第二,大数据平台针对公司的智能操作,提供大量明细,包括分析报告和挖掘报告,从而改善京东的运营状况。第三,大数据应用在供应链,仓储以及推荐搜索上位京东提供智能服务。




图:京东商城数据架构师李松林部分PPT

大数据提升竞争力

京东的大数据主要针对两个方面进行努力,对于公司来说,通过统一的模型,把所有的数据组织起来,形成一个统一的视图,在视图当中能够看到京东的客户,包括合作伙伴在内,还包括了消费、运营数据,在京东统一的模型管理之下,形成了京东统一的视图,大数据平台,支撑了京东三个方向主要的应用。可以为京东提供智能决策,为企业的战略决策提供数据参考。还为京东提供智能操作,改善企业运营各方方面面的细节。为京东提供智能服务,改善数据应用的范围和深度。

京东从08年开始记录数据应用,直到2012年的3月份,京东的数据平台发布,是为合作伙伴所做的大数据产品,体现了大数据的应用不是一处,是通过产品,自身的服务,逐步进行推广,在今年3月份,京东发布第一个产品后,验证了京东在大数据技术上的积累,从而我们开始建设一个更大规模的大数据应用——大数据平台。到今年年底京东的大数据平台建设已经包括了对于数据最终结果的展现、利用,高端图形化的展示。建设了京东完整的企业数据仓库,包括整个公司所有的统一逻辑视图,左右的相关性,用户行为的日志分析。

统一视图,不仅支持结构化的数据,也支持非结构化的数据。从行业角度来说,京东第一次把完整的店商模型,覆盖了从前台网站,一直到后台的仓储、供应链,将所有内容都建立在一个完整的模型中。同样,把结构化和非结构化数据,建立在一个统一的视图下。京东还参考传统BI做法,建立一系列主题,在主题下根据不同的前景需求,介绍京东的趋势。中间有一个很大的数据仓库,针对运用系统提供不同的数据部分应用。

京东的大数据应用包括了三个方面:针对合作伙伴做的京东楼盘,针对用户做的促销分析,针对用户情感分析的智能搜索。在建设整个大数据应用的时候,京东最关注的是四个方向是:可扩展性,效率,成本ROI和安全性。

京东自身技术的实现

Hadoop的应用,京东用的是Cloudera CDH3版本,23号做了修正,0.20的版本,有单点实效的问题,京东会做出很多解决方案,针对作业提交问题,每天会有30多万次任务的提交,在密集的时间里,会导致很大压力,因此从去年开始,京东部署了四五十台,今年部署了几百台,且规模在不断地扩展,明年可能增加到五六百台。而用于挖掘的,京东有一套独立的方式用于平常的大数据处理。相比用于大数据处理,会把硬盘做的更大一点,而挖掘部分,会使用SaaS,内存的使用量会大一些。

HBase的应用,最早基于0.90,已经升级到0.92,京东计划升级到0.94,用于京东书籍开放平台,用户分析是不停地变化的,HBase用于实时日志数据存储和计算。在安全性上,数据高度安全,存储里面的数据不会丢失。京东依赖于最新的集中框架,开发很多计算函数。对于存储的数据,进行多重分析和计算。



图:李松林主题演讲PPT
更多精彩内容,请关注新浪微博:@CSDN云计算,图文直播专题 Hadoop与大数据技术大会HBTC 2012,欢迎所有热爱开源的技术人员、DBA、架构师、项目经理、CTO,行业分析师、数据挖掘专家参加国内顶级技术盛会HBTC 2012,也欢迎您将参会感受发给我们!

本文为CSDN原创,未经允许不得转载。如需转载请联系market@csdn.net。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: