您的位置：首页 > 理论基础

深度学习的应用

2017-05-31 19:48 176 查看

参考书籍《Tensorflow实战Google深度学习框架》郑泽宇等

深度学习最早兴起于图像识别，但是在短短的几年之内，深度学习推广到了机器学习的各个领域，并且都有很出色的表现。具体领域包含图像识别、语音识别、自然语言处理、机器人、生物信息处理、化学、电脑游戏、搜索引擎、网络广告投放、医学自动诊断和金融等各大领域均有应用。

计算机视觉

计算机视觉是深度学习技术最早实现突破性成就的领域。随着2012年深度学习算法AlexNet赢得图像分类比赛ILSVRC冠军，深度学习开始被人们熟知。ILSVRC是基于ImageNet图像数据集举办的图像识别比赛，在计算机视觉领域拥有极高的影响力。从12年15年之间，通过对深度学习算法的不断探究，ImageNet图像分类的错误率以每年4%速度递减；到15年，深度学习算法的错误率仅为4%，已经成功超过人工标注的错误率5%，实现了计算机领域的一个突破。

在ImageNet数据集上，深度学习不仅突破了图像分类的技术瓶颈，同时也突破了物体识别技术的瓶颈。物体识别比图像分类的难度更高。图像分类只需判断图片中包含了哪一种物体；但在物体识别中，不仅要给出包含了哪些物体，还要给出包含物体的具体位置。13年，在ImageNet数据集上使用传统机器算法实现物体识别的平均正确率均值(mean average precision,MAP)为0.23；而在16年时，使用了6种不同深度学习模型的集成算法将MAP提高到0.66。

技术进步的同时，工业界也将图像分类、物体识别应用于各种产品中，如无人驾驶、Youtube、地图、图像搜索等。谷歌可通过图像处理技术归纳出图片中的主要内容并实现以图搜图的功能。这些技术在国内的百度、阿里、腾讯等公司已经得到了广泛的应用。

在物体识别问题上，人脸识别是一类应用非常广泛的技术。它可以应用到娱乐行业、安防以及风控行业。在娱乐行业中，基于人脸识别的相机自动对焦、自动美颜基本已成为每款自拍软件的必备功能。在安防、风控领域，人脸识别应用更是大大提高了工作效率并节省了人力成本。除此，还可用于保证账户的登陆和资金安全，如支付宝的人脸识别登陆等等。

传统机器学习算法很难抽象出足够有效的特征，使得学习模型既可区分不同的个体，又可以尽量减少相同个体在不同环境的影响。深度学习技术可从海量数据中自动学习更加有效的人脸识别特征表达。在人脸识别数据集LFW上，基于深度学习算法的系统DeepID2可以达到99.47%的正确识别率。

在计算机识别领域，光学字符识别也是使用深度学习较早的领域之一。光学字符识别，就是使用计算机程序将计算机无法理解的图片中的字符（如数字、字母、汉字等符号），转化为计算机可以理解的文本形式。如常用的MINIST手写体字库，最新的深度学习算法可以达到99.77%的正确率。谷歌将数字识别技术应用到了谷歌地图的开发中，开发的数字识别系统可以识别任意长度的数字，在SVHN数据集上可达到96%的正确率，到2013年，谷歌利用这个系统抽取了超过1亿个门牌号码，大大加速了谷歌地图的制作过程。此外，光学字符识别在谷歌图书中也有应用，谷歌图书通过文字识别技术将扫描的图书数字化，从而实现图书内容的搜索功能。

语音识别

深度学习在语音识别领域同样取得突破性进展。2009年深度学习的概念被引入语音识别领域，并对该领域产生了重大影响。短短几年之间，深度学习的方法在TIMIT数据集上将给予传统混合高斯模型(GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。到2012年，谷歌基于深度学习建立的语音识别模型已经取代了混合高斯模型，并成功将谷歌语音识别的错误率降低了20%。随着当今数据量的加大，使用深度学习的模型无论在正确率的增长数值上还是在增长比率上都要优于混合高斯模型。这样的增长在语音识别的历史上从未出现，深度学习之所以有这样的突破性进展，最主要的原因是其可以自动的从海量数据中提取更加复杂且有效的特征，而不是如混合高斯模型中需要人工提取特征。

基于深度学习的语音识别已经应用到了各个领域，如同声传译系统、苹果公司推出的Srri系统，科大讯飞的智能语音输入法、百度和腾讯也开发了相关产品。同声传译系统不仅要求计算机能够对输入的语音进行识别，还要求计算机将识别出来的结果翻译成另外一门语言，并将翻译好的结果通过语音合成的方式输出。微软研发的同声传译系统已经成功应用到Skype网络电话中。

自然语言处理

在过去几年之中，深度学习已经在语言模型、机器翻译、词性标注、实体识别、情感分析、广告推荐以及搜索排序等方向取得突出性成就。深度学习在自然语言处理问题上能够更加智能、自动地提取复杂特征。在自然语言处理领域，使用深度学习实现智能特征提取的一个非常重要的技术是单词向量。单词向量是深度学习解决很多上述自然语言处理问题的基础。

传统解决自然语言所表达的语义的方法主要依靠建立大量的语料库，通过这些语料库，可以大致刻画自然语言中单词之间的关系。然而语料库的建立需要花费很多人力物力，而且扩张能力有限，单词向量提供了一种更加灵活的方式来刻画单词的含义。单词向量会将每个单词表示成一个相对较低维度的向量（比如100维），对于语义相近的单词，其对应的单词向量在空间上的距离也应该接近。因而单词的相似度可用空间距离来描述。单词向量不需要人工的方式来设定，它可以从互联网海量非标注文本中学习得到。

通过对自然语言中单词更好的抽象与表达，深度学习在自然语言处理的很多核心问题上都有突破性进展，比如机器翻译。根据谷歌实验的结果，在主要的语言翻译上，使用深度学习可以讲机器翻译算法的质量提高55%到85%。

情感分析是自然语言处理问题中一个非常经典的应用。情感分析最核心的问题就是从一段自然语言中判断作者对评价的主体是好评还是差评。情感分析在工业界有着非常广泛的应用。随着互联网的发展，用户会在各种不同的地方表达对于不同产品的看法。对于服务业或制造业，及时掌握用户对其产品的或者服务的评价是提高用户满意度非常有效的途径。在金融业，通过分析用户对不同产品和公司的态度可以对投资选择提供帮助。在情感分析问题上，深度学习可以大幅提高算法的准确率。在开源的Sentiment
Treebank数据集上，使用深度学习的算法可将语句层面的情感分析正确率从80%提高到85.4%；在短语层面上，可将正确率从71%提高到80.7%。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习计算机视觉语音识别自然语言处理

相关文章推荐

新的分享

章节导航