您的位置:首页 > 理论基础 > 计算机网络

基于神经网络的统计语言模型-----第一章 引言

2014-11-19 22:20 681 查看

第一章 引言

1.1 动机

从计算机存在的第一天起,人们就梦想着人工智能——可以做出复杂的行为来完成人类指定目标的机器。这种机器存在的可能性引起争议,并且引出了很多哲学问题——智能是否是人和动物特有的。AlanTuring非常有影响力的工作表明:任何计算问题都可以用通用图灵机来计算——所以,假设人类的思维可以被一些算法描述,那么图灵机就有足够的能力来表达它。

现在计算机是图灵完全的(Turing-complete),即可以表达任何可计算的算法。所以,主要的问题是如何配置机器让它产生人类期望的智能行为。假设问题太难而不能立刻解决,我们可以想一些方法引导我们朝智能机器的方向发展——我们可以从一个简单的可以识别基本的形状和手写数字的图像机器开始,然后把它朝更加复杂的方向(如人脸图像等)拓展,最终达到机器可以像人一样识别现实世界中的目标。

可能的其它方式是在脑细胞或神经元层级上来模拟人脑的部分功能。现在计算机能逼真地模拟现实世界,就像在现代计算机游戏中看到的那样——所以,随着神经元更精确地模拟和更强大的计算能力,终有一天模仿整个大脑的设想是合理的。

也许未来人工智能最流行的方式可能就像在科幻电影里看到的那样,机器人和计算机与人用自然语言进行交流。图灵自己提出了一套基于机器和人用自然语言交流的智能测试[76]。该方法有若干优点——相比于识别图像和声音的机器,它需要处理的数据量非常小;其次,首先开发能理解语言中简单模式的机器,随之把它复杂化。理解的初级水平可以跟一个小孩,或者新学一门语言的人的水平相当——即使这样低的理解水平对测试已经足够,以使我们能够度量机器理解语言的能力。

假如我们想构建能用自然语言交流的机器,那问题是如何构建。可行的方式是模仿人学习的过程。人通过观察真实世界学习语言,识别它的规则,并把听觉和视觉信号映射为大脑中的高级表示并逆射回来——通过高级表示来预测听觉和视觉信号。学习语言让人们在现实世界中更好的交流。

整个学习问题很难以至于无法立刻解决——其中涉及很多因素重要性的开放问题,如训练需要多少数据、学习语言和观察真实世界结合的重要性如何、与生俱来的知识的重要性如何,语言最好的表达形式是什么等等。尝试一次解决所有的问题太过于野心勃勃,且对模型和技术期望太高以至于不存在这样的解决方案(如有限状态机不能有效表达长距离关联模式就是一个著名的例子)。

此处不得不提的重要工作是香农的信息论。在其著名的英文论文Entropy[66]中,香农通过简单实验估计英文文本的熵,该实验涉及人和基于词频的语言模型(基于前序字符的n-grams)。结论是人类在自然文本的预测上比n-gram好很多,尤其是随着文本长度的增加,优势更明显——这所谓的“Shannon game”,可以比图灵机更有效的用于开发更精确的智力测试。如果我们认为语言的理解能力等价于在一个给定的上下文中预测单词的能力(或者至少非常相关),这样我们可以准确的度量自然语言的人工模型的性能。该AI测试在[44]中提出并在[42]里做过详细讨论。

尽管要构建和人类一样通过阅读大量数据来理解文本的人工语言模型是不切实际的(就人类自己也可能在这样的任务上失败),但是从大量数据中估计语言模型是非常有意思的,因为它们在各种商业应用中具有实际用处。成功的应用中最广泛周知的是统计机器翻译(例如google翻译)和自动语音识别。

本论文的目标是提出一种新方法,用于替代简单的但目前仍旧是state-of-the-art的n-grams模型。为了证明新方法的有效性,详细地描述了若干标准数据集上的实验结果。最后,论述了各种各样的能够用计算机自动学习语言的方法和技术,同时给出了一套如何实现的方案。



1.2 论文结构

第二章介绍统计语言模型及其数学描述,讨论了简单的和高级的语言模型方法,并介绍论文中随后将用到的重要数据集。

第三章介绍神经网络语言模型和recurrent结构及基本模型的扩展,并详细地讨论了训练算法。

第四章对比了Penn Treebank数据库上各种高级语言模型方法的实验结果,以及这些方法融合的结果。

第五章重点论述RNN语言模型应用在标准语音识别任务(WallStreet Journal)中的结果;并在两种不同的设置下对比了实验结果:其一来自Johns Hopkins University,该任务使得我们可以和很多具有竞争力的方法做对比,如区分度训练的LMs和结构化的LMs;其二是开源的ASR工具Kaldi。

第六章进一步拓展了基本RNN语言模型方法,使其能够在大数据集上有效地训练。在400M+的单词量数据集上进行了巨大的神经网络实验。在Broadcast News语音识别任务上(NIST RT04),由IBM提供的state of the art的识别器和基线模型上,列出本文的实验结果。

第七章进一步提供RNN语言模型在其他各种任务上的实验结果,如机器翻译,数据压缩等。本章目的是说明本论文提出的方法是非常通用的,并且可以很容易地应用到n-gram可以应用的其他领域。

第八章讨论用于统计语言建模的各种模型的计算限制,并且给出了如何进一步改进的方向。

第九章总结了取得的结果和汇总了论文的工作。



1.3 论文声明

本论文最重要的原创性贡献:

l 开发了基于简单RNN的统计语言模型

l 扩展了基本的RNN语言模型:

Ø 基于一元词频的简单类

Ø 联合训练神经网络和最大熵模型

Ø 通过对训练数据排序来完成神经网络语言模型的自适应

Ø 通过在处理测试数据过程中训练模型来提升神经网络语言模型的自适应

l 免费开放了训练RNN语言模型的开源工具,使得可以重现论文中的实验结果。

l 经验性地对比了RNN语言模型和其他高级语言建模方法,并且RNN语言模型在以下几个任务上取得了stateof the art的结果:

Ø Penn Treebank上的语言建模

Ø Wall Street Journal语音识别

Ø NIST RT04语音识别

Ø 文本数据压缩、机器翻译和其它任务

l 分析了神经网络语言模型的性能(如隐含层大小的影响、增加训练数据的影响)

l 讨论了语言模型传统方法的缺点和未来研究的开放性问题

 

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息