您的位置:首页 > 其它

揭秘百度大规模机器学习领域的五大首创技术

2016-02-11 07:52 344 查看


揭秘百度大规模机器学习领域的五大首创技术

2014-03-21 14:16 来源:中国站长站 编辑:nakake【纠错】2人评论

A-A+

“我在机器学习领域已经超过10年了,今天主要跟大家分享一下,百度是通过什么技术来容纳百亿数据特征,并且让学习效率提升千倍、让模型分钟更新、将模型训练算法速度提升十倍的。” 3月15日,百度联盟大数据机器学习技术负责人夏粉在第48期百度技术沙龙现场上说。

机器学习是人工智能研究领域中一个重要的方向,在现今大数据背景下,面向大数据量的机器学习,通常需要做分布式的算法,来容纳上亿特征和数据。本期的百度技术沙龙,夏粉为大家分享了大规模机器学习和数据挖掘方面的话题和研发成果。



百度联盟大数据机器学习技术负责人夏粉说:“百度的大规模机器学习技术搭建了一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。”

首创领先算法,百度在大规模机器学习领域赶超谷歌

百度作为全球最大的中文搜索引擎,总是能给出最合适的技术来推动整个互联网产业的发展,在大数据量的机器学习方面也不例外。

在百度技术沙龙现场,夏粉先是总结出了在广告数据领域,大规模机器学习一般会遇到的四个问题:数据特征规模大、特征复杂度高、数据时效性高、模型训练频繁。

面对这些问题,夏粉着重介绍了百度首创的五个技术:SA算法、Fea-G算法、DANOVA算法、SOA算法以及Shooting算法。它们主要是数据和特征的过滤算法、深度特征学习算法等,极大的改善或简化了广告数据的处理。

“这些技术让百度走在世界前列,甚至比谷歌做的还要好,谷歌目前做的是二分类、并行化,处理百亿特征,分钟级别。这些,百度通过自己的创新也已达到,百度的技术可以容纳百亿数据特征,让特征学习效率提升千倍,模型分钟更新,训练速度提升十倍。”夏粉表示。

“这是第四次听夏粉老师关于这个主题的演讲了,每一次都有不同的收获。”一位参会的听众说。

五大技术保障,用最少资源达到最好CTR准确率

在百度技术沙龙上,夏粉首先提到的是SA算法。“SA算法可以把非人为的随机点击样本过滤掉,这样就可以进行噪音删除。我们通过对每个时间片断波峰和波谷的观察,知道随机噪音的值在什么范围,通过分值可以对噪音进行过滤。”夏粉表示。

随后,针对广告数据使用one-hot编码类别型的特征,夏粉介绍了他和百度的同事一起研究出的Fea-G算法。这个算法的核心是在模型训练之前,就知道几个有效特征在哪儿,或者可以找到尽可能小的包含有效特征的集合。夏粉还特别强调,谷歌和百度两家公司都在这方面进行了技术研究,不同的是,谷歌的技术是启发性的,有可能会带来损失。而百度的技术是用理论保障,经过严格的推导,它可以在效果无损的情况下,删减的非常多的无效特征。

紧接着,夏粉介绍了全球首个直接应用于大规模稀疏特征的深度特征学习算法——

DANOVA算法。“DANOVA可以把特征学习的复杂度降低到一定程度,就整个上线效果来讲,特征挖掘效率可以提升上千倍,使CTR,CPM显著增长。”夏粉此话一出,现场所有观众都对这一技术表现出了十足的兴趣。

除此之外,夏粉还向大家介绍了SOA算法,这是一种稳定的在线算法,它能使模型稳定性更好。使训练架构由批处理改为在线,从而节省资源80%以上,在大数据上实现分钟级别的在线学习。“有这么一个好的算法,就能把模型时效性往前提高。”夏粉强调道。

最后,夏粉介绍了shooting算法,它针对广告数据特征分布不均衡的特点,改进了算法迭代求解的方向和步长,在广告数据上取得了比业界常用的大规模优化算法LBFGS快十倍的性能。

 

技术绝对领先,百度首创算法受追捧

<iframe id="iframe1104309_0" src="http://pos.baidu.com/acom?sz=200x200&rtbid=1971540&rdid=9223372032564593756&dc=2&di=1104309&dri=0&dis=0&dai=1&ps=300x0&dcb=BAIDU_SSP_define&dtm=BAIDU_DUP_SETJSONADSLOT&dvi=0.0&dci=-1&dpt=none&tsr=0&tpr=1455119369517&ti=%E6%8F%AD%E7%A7%98%E7%99%BE%E5%BA%A6%E5%A4%A7%E8%A7%84%E6%A8%A1%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%A2%86%E5%9F%9F%E7%9A%84%E4%BA%94%E5%A4%A7%E9%A6%96%E5%88%9B%E6%8A%80%E6%9C%AF%20-%20%E7%AB%99%E9%95%BF%E4%B9%8B%E5%AE%B6&ari=1&dbv=2&drs=3&pcs=1291x671&pss=1291x3900&cfv=14&cpl=28&chi=1&cce=true&cec=UTF-8&tlm=1455090571&ltu=http%3A%2F%2Fwww.chinaz.com%2Fnews%2F2014%2F0321%2F344522.shtml&ltr=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DXTh8yWDvt-ZzQrl3EBMejoFY8DmFzsoTebXPQ58YwKXm2gz3JqgB2nRy1TFZ7knBSpUJZAwmVYWC8bNjxlaMFK%26wd%3D%26eqid%3D977c497c00295dae0000000356bbcc81&lcr=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DXTh8yWDvt-ZzQrl3EBMejoFY8DmFzsoTebXPQ58YwKXm2gz3JqgB2nRy1TFZ7knBSpUJZAwmVYWC8bNjxlaMFK%26wd%3D%26eqid%3D977c497c00295dae0000000356bbcc81&ecd=1&psr=1536x864&par=1536x816&pis=-1x-1&ccd=24&cja=true&cmi=39&col=zh-CN&cdo=-1&tcn=1455119371&qn=52d108674b914fb5&dpv=f3b5ea54b7a09720&tt=1455119369472.1651.2015.2022" width="200" height="200" align="center,center" vspace="0" hspace="0" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" allowtransparency="true" style="display: block; border-width: 0px; vertical-align: bottom; margin: 0px;"></iframe>

“我读书一直读的是机器学习,希望能把机器学习的知识运用到百度大数据上面。”夏粉表示。

这次的百度技术沙龙主题分享,夏粉主要是以CTR预估为例,讲了大数据学习技术应用计算广告学,尽可能用少的资源达到比较好的CTR准确率。其实夏粉的这次分享信息量非常大,但是因为时间原因,他只有四十五分钟的演讲时间,所以在技术沙龙结束后,现场很多人都感到意犹未尽。在演讲结束后,有近百名听众把夏粉团团围住,向他请教大规模机器学习方面的问题。在他们看来,百度在大规模机器学习方面的技术已是国内最领先的。

百度技术沙龙是百度每月组织的一项技术开放交流活动,至今已经举办48期。致力于以“技术开放”的心态,分享行业领先的技术理念和技术实践。秉承“畅想、交流、争鸣、聚会”的理念,为互联网工程师、软件开发者提供一个快速学习和不断成长的平台。这种倡导变革与分享、践行技术开放的行动得到了业内专家们的认可,他们认为,百度技术沙龙能够有效推动中国互联网的技术发展与行业创新。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习 百度 技术