您的位置:首页 > 理论基础 > 计算机网络

深度学习的发展历程

2017-05-31 19:43 218 查看
参考书籍《Tensorflow实战Google深度学习框架》郑泽宇等

要想学习深度学习这门技术,那么有必要对其发展作一定程度的了解。深度学习其实不是一门新技术,目前大家熟悉的“深度学习”基本上是深度神经网络的一个代名词,神经网络技术可追溯到1943年。深度学习之所以被人们认为是新技术,那是因为它在21世纪初并不流行。神经网络的发展不是一番风顺,它的发展经历了三个起落,也可分为三个阶段。

第一阶段:

受到人类大脑结构的启发,WarrenMcCulloch教授和Walter Pitts教授于1943年在论文中提出了最早的神经网络数学模型,这种模型结构称为McCulloch-Pitts Neuron结构。此结构利用简单的线性加权和的方式来模拟人类神经元对输入信号的处理,计算后的加权和通过一个阀值函数得到一个0或1的输出,此类结构能用于简单的线性分类问题。



早期为了精确的实现分类,往往我们需要人工调整权重值,但这样导致的结果就是麻烦又很难达到最优的效果。为了让计算机更加自动且更加合理的设置权重大小,Frank Rosentblatt教授于1958年提出了感知机模型,此模型是首个可以根据样例数据来学习特征权重的模型。虽然McCulloch-Pitts Neuron 结构和感知机模型极大影响了现代机器学习,但是它们仍然存在较大的局限性。1969年,Marvin Minsky和Seymour Papert教授在著作《Perceptrons:
An Introduction to Computational Geometry》中证明了感知机只能解决线性可分问题,无法解决非线性问题,并明确指出了感知机无法解决异或问题。这导致了神经网络的第一次重大低潮,在之后的十多年内,基于神经网络的研究几乎处于停滞状态。

 
第二阶段:

直到20世纪80年代末,第二波神经网络因分布式知识表达和神经网络反向传播算法的提出而兴起。分布式知识表达的核心思想是现实世界中的知识和概念应该通过多个神经元来表达,而模型中的每一个神经元也应该参与表达多个概念。

正是这一思想,分布式知识表达大大加强了模型的表达能力,神经网络从宽度的方向走向了深度的方向,即深度神经网络。深度神经网络可以很好的解决非线性不可分问题。与此同时,研究人员在降低训练神经网络的计算复杂度上也取得了突破性成就。David Everett Rumelhart等三位教授于1986年首次提出了反向传播算法,从而大幅度降低了训练神经网络所需要的时间。

Sepp Hochreiter等2位教授于1991年提出了LSTM模型(long short-term memory)可以有效对较长的序列进行建模。直到今天,LSTM都是解决很多自然语言处理、机器翻译、语音识别、时序预测等问题最有效的方法。但是,在神经网络发展的同时,传统机器学习算法(如支持向量机SVM)也有了突破性进展,在90年代末逐步超越了神经网路的精度,这使得人工神经网络再次进入寒冬。

90年代末神经网络精度不如传统机器学习算法的原因主要有两个:首先,虽然训练神经网络的算法得到了改进,但在当时的计算资源下,要训练深层的神经网络仍然是比较困难的;其次,当时的数据量比较小,无法满足深层神经网络的训练需求。

 

第三阶段:

随着计算机性能的进一步提高,特别是云计算和GPU的出现,到2010年左右,计算量已经不再是阻碍神经网络发展的问题。与此同时,随着互联网+的发展,获取海量数据也不再困难。神经网路面临的几大难题也都得到解决,于是神经网络又迎来了一个新的高潮。

2012年ImageNet举办的图像分类大赛ILSVRC,Alex Krizhevsky教授实现的深度学习系统AlexNet赢得了冠军,此后,深度学习作为神经网络的代名词被大家所熟知,深度学习的发展也开启了人工智能的新时代。如今,深度学习已经从最初的图像识别领域扩展到了机器学习的各个领域。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息