您的位置:首页 > 其它

Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Effo

2014-12-15 13:12 543 查看
注:初读文章,翻译一下,希望能够有所提高,学习过程,仅此记录

机器学习大师们在大数据和其他大工程工作中的错觉------------繁琐的大数据和脑启发型的芯片正好是我们误解的两件事情。

过分热衷于大数据,很可能导致类似国家很多桥梁坍塌一样的分析的灾难。硬件设计师基于人脑创建了芯片,他们忙于这种信念的工作,但这很可能是徒劳的。尽管最近的一些评论恰恰相反,比起当牛顿坐在苹果树下,我们就拥有了物理一样,我们在计算机视觉方面并没有走太远。

这是一篇Michael Jordan 的问答型的文章,原文在ieee spectrum 中
http://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts
Jordan也是Andrew Ng 的老师,是机器学习的权威专家,在这一领域具有很敏锐、犀利的洞察力。他的CV也是个大数据。在2013年NRC的“大数据分析前沿”的报告中,他表明了他的立场。这是2014年10月3日访谈。

下面分别就几个话题讨论:

1、为什么我们应该停止使用大脑的比喻当我们谈论计算时?

2、关于机器视觉,我们的模糊的视觉

3、为什么大数据可能是一个大失败?

4、拥有1000.000.000$,Jordan会选择做什么?

5、怎样不去谈论”奇点“

6、什么是Jordan所关心的,比起P是否等于NP?

7、图灵测试的正真内涵是什么?

下面就每个话题进行探讨”

为什么我们应该停止使用大脑的比喻当我们谈论计算时?

IEEE Spectrum:   根据你写的,我可以推断,你坚信在deep learning、big data、computer vision等等其他方面,都存在大量的误导信息。

Michael Jordan: 是这样的,在所有的学术话题中都会存在一些误导信息。媒体总是竭尽全力去寻找话题来让更多的人去阅读这些。有时候,这些可能超越了所取得的实际成果。尤其在深度学习这个话题上,很大程度上市神经网络的一个再分支,而神经网络则可追溯到1980年。更确切的说是1960年。每隔20年,跟它们相关的就好像就有一个新的浪潮。当前浪潮中,最成功的就是卷积神经网络,但是这个Idea在以前的浪潮中就出现过。以前的两个浪潮存在的一个问题是人们一直在推断那些和神经科学有关但是背后的事情,及深度学习正在充分利用大脑是怎样处理信息的理解、学习、决策或者是处理大量数据。这些明显是有错误的。

IEEE Spectrum:作为一个媒体工作者,我对你所说的内容表示异议,因为学术非常需要人来写这样的“故事’,这是很常见的案例。


Michael Jordan: 对的,这是合作关系。


IEEE
Spectrum:当人们从计算机科学的角度来描述大脑是怎样工作使我印象深刻,这是他们从来没有从神经系统学家那里听到的很恐怖的表态。你可以叫这种模型为大脑的“卡通模型”。

Michael
Jordan:我不想评价任何人,只想说所有的计算机科学家是一种工作方式,而神经系统学家是另外的一种方式而已。但是对已神经科学,它将会需要几十甚至几百年的时间去理解更深刻的规则,这是毫无疑问的。神经科学的进步还在最低的水平。至于更高水平的认知,比如我们如何感知、如何记忆、如何运动?我们没理解到神经元如何存储信息,它们如何计算,规则是什么,算法是什么,表示什么内容,等等。因此,我们还没有进入一个新纪元,它能够引导我们根据对大脑的理解重建智力系统。


[b] Spectrum:另外,对大脑的卡通模型的批评,你确实更进一步的评判了整个神经领域的思想。这种思想仅仅是因为一些特殊的软件和硬件系统拥有一些假设的大脑特性,它将会越来越智能化。例如,你认为计算机学家就是说“我们的系统更加大脑化因为它们大部分是并行的”吗?
[/b]

[b][b]Michael
Jordan:这是一种比喻,或许是有用的。这种比喻就像流动的液体和管道能够产生各种各样的电路一样。我认为,早在1980年,计算机科学就是被顺序结构所主导,就是通过一个顺序方式存储程序的Neumann 范式来执行,现在需要尝试一些新的突破。正如人们所看到的高度并行的大脑的臆想,这是有用的东西。

[/b][/b]

[b][b]但是作为这个概念的演化,它并不是由神经领域导致了大部分的进步。那些在深度学习领域证明已经非常成功的算法都是基于一种叫后向传播的技术。你可以有很多层的处理单元,同时,你可以从最后一层获得输出结果,同时你可以通过层向后传播一个信号来改变所有的参数。这是相当明确的,大脑并不是这样运转的。这里定义的每一步都偏离神经领域,但是这能够带来很大的进步。但是,人们趋向于把这种特殊的成功故事和那些试图建立类似脑系统混合在一起,但这并不成功的。[/b][/b]

[b]Spectrum:另外的观点,你认为神经领域的现实主义失败是因为神经网络根本就不是神经的。
[/b]

[b]Michael
Jordan:在深度学习系统中,这里并不是顶峰,也没有树突。同时在大脑中也没有二向信号。

[/b]

[b]我们不知道神经是怎么学习的。是不是在学习的时候仅仅对于突触位置的很小的改变呢?这正是人工神经网络所做的事情。在大脑里,我们以前有非常少的想法关于学习是怎样发生的。[/b]

[b]Spectrum:我一直在阅读工程师们关于他们芯片设计的描述,那些芯片设计好像对我而言是不可思议的语言。他们讨论芯片上的“神经元”或者“突触”。一个神经元是活着的、具有难以相信的复杂性的能够呼吸的细胞,但是这情形是不可能的。难道工程师不是寻找合适的生物语言来描述那些相当接近的生物系统的复杂性的结构吗?
Micheal Jordan:好吧,我对这个不是很关心。我认为单词“neural”使用当前被使用的两个领域的区分是很重要的。

一个是在深度学习领域。在那,Neuron实际就是一个cartoon。它是一种通过非线性传输的线性权重和。任何的电子工程师都会认识到那些不同的非线性系统。称之为“neuron”是一种清楚,或者说更好的简称。它实际就是cartoon。在统计领域,有一种起源于1950年的方法叫做逻辑回归,它和neuron没有任何关系但是实际上类似于一种建筑作品。

如果我没有理解错的话,你所说的第二个领域就是一种试图拉近实际大脑模拟的或者说至少是一种实际神经电路的简化模型。但是我认为问题是现在的研究根本没有处理那些系统可能使用的任何算法上的理解。它不能一个学习系统的获取数据及解决问题,而是仅仅在视觉上喜欢。它实际就是一宗带着希望的建筑品,让人们能够发现算法并且能够应用于它。同时,没有很明显的原因说这希望必须实现的。我认为,它仅仅是一种信念,就像如果你建造像大脑一样的东西,那么它能够做什么将会变得很清楚。

Spectrum: 假设你可以的话,你会颁布一项法令关于使用生物大脑作为计算模型吗?
Micheal Jordan:不会。你必须有深入的理解,不管是从什么的地方获得。正如我前面所说的,回到1980年,如果说:“让我们去除von Neumann 顺序架构,去寻找更高级的并行系统”是很有用的。但是在现在,大脑处理的详细过程是清晰的,但是并不能获得算法的处理过程。我认为,使用大脑去做一个关于我们取得何种成就的申明是不恰当的。我们并不知道大脑是如何处理虚拟信息的。

[/b]

关于机器视觉,我们的模糊的视觉


Spectrum:
当谈论到视觉系统的研究的时候,你曾经使用过这个单词“hype”。最近,关于计算机怎样处理视觉问题和计算机拥有和人一样好的视觉能力,这又变成了一个非常流行的新闻。你认为这是真实的吗?


[b]Micheal
Jordan:好吧,这样说,人们能够处理各种复杂的场景。人们也能处理大规模的分类。人们还能够对场景进行推断,比如:“我坐在那上面会怎么样?”“我把东西放在上面会怎么样”。这些都远远超过今天的计算机。深度学习是对特定物体分类比较好的一种方法,能够在一定场景中识别物体。
[/b]

但是计算机视觉存在的问题是巨大的。就像这样,当树上的苹果掉落下来的时候,我们理解为物理现象。然而,我们理解事物不仅仅是重力和加速度。这点是很重要的。在视觉中,我们现在通过工具能够解决特定问题的分类。但是说能够解决所有问题那是愚蠢的。

Spectrum: 相对于那些人类视觉能够做到的,现在有多大程度的视觉分类问题我们能够解决?
Micheal Jordan:可以看一下人脸识别(http://spectrum.ieee.org/tag/face+recognition),在那有清楚的表明解决了多少的问题。除了人脸,我们也可以讨论一下其他物体的分类。比如:“在这里有一个杯子”“这里有一只狗”。但是谈论到在一个场景中有多少不同的物体、他们相互之间有多相似,或者一个人或者机器人怎样和场景进行交互,这些都仍然是有困难的。还有很多很多难题有待解决。

Spectrum: 即使在人脸识别中,我的印象仍然停留在人们在一开始就必须得到相当清晰的图像分类才起作用。
Micheal Jordan: 是的,让分类识别变的跟好是一个工程问题。正如你已经看到的,它将会变得越来越好。但是把它说成革命性的有点太过兴奋了。


为什么大数据可能是一个大失败?
Spectrum: 如果我们现在回到big data的话题((http://spectrum.ieee.org/tag/big+data),那些贯穿你言论的主题确实有一些黄金元素让我们痴迷于其中。比如说,你曾经预

言社会将会经历一个不真实但是积极的能够导致大数据工程的流行。
Micheal Jordan: 当你拥有大量的数据,你的欲望就会希望获得更大的数据。如果它的增长远超过统计数据的能力,然后导致你的很多推断极有可能是错误的。比如就像白噪声。

Spectrum: 那又会怎么样?
Micheal Jordan: 在一个典型的数据库中,你可能仅有几千人。你可以将这些人作为数据库的行向量。而列则是这些人的一些特征,比如:他们的年龄、身高、体重、收入等等。

现在,他们列的组合数目是基于列的数目呈指数增长。因此,如果你有很多很多的列-就像我们现在的数据库-你将会得到每个人的百万级的属性。

现在,如果我允许我自己去寻找那些特征的所有组合-如果你住在北京,你骑自行车去上班,你有一个固定的工作,同时你在一个特定的年龄。你将得一种疾病或者你喜欢我的广告的概率?现在,我有属性值的百万数量级的组合,这些数据组合也是指数形式的;它已经达到了宇宙中原子数目的大小。

这些都是我将要考虑的假设。对于一些特殊的数据,我将发现一些列的组合,这些组合仅仅是靠机会能够很好的预测任何结果。如果我仅仅查找所有人中那些的心脏病和没有得心脏病的,我需要寻找那些能够预测心脏病的列的组合,我将会发现各种错误的列组合模式,因为它们的数据太多。

就像有十几亿的猴子在打字,它们中总有一个写出Shakespeare.

Spectrum: 你认为现在大数据的这方面是没有获得充分认识的吗?
Micheal Jordan: 确实是这样的。

Spectrum: 什么东西是人们对大数据很期待但是你却不认为它们能够实现的呢?
Micheal Jordan: 我认为数据分析在一些特定特征的水平能够实现推断。但是我们必须要清楚是什么水平的特征。我们在所有的预测结果周围都会有误差。这就是当前的机器学习领域中的一些丢失的东西。

Spectrum:如果人们使用数据并没有留意到你的建议,将会产生什么后果?
Micheal Jordan:我喜欢使用建造桥梁的比喻。如果我没有规则,我建造了数以千计的大桥,它们没有任何的实际科学依据,大部分将会倒塌,很多灾难将会发生。

这里也是类似的,如果人们使用数据和他们通过数据产生的推理,而不考虑错误率、不均匀性、噪声数据、采样模式、还有其它那些工程师和统计学家慎重考虑的各种东西。然后,你进行各种预测,可能偶尔会解决一些实际感兴趣的问题。但是,你将会遇到一些偶发性的灾难性的错误的决策。同时,你不会知道先验的不同。你仅仅希望能够产生最好的结果。

这就是现在我们所处的情况。很多人在建造东西的时候,希望它们能够很好的工作,有时候他们确实会。在一些情景下,他们也没有错误。这是一种探索过程。但是,社会作为一个整体不可能忍受这种情形,他们不希望这种事情发生。最终,我们不得不给出一个更切合实际的保证。土木工程师总是希望学习能够建造一直站立不倒的桥梁。对于大数据而言,我认为,它将会花费数十年来获得一些切实的工程方法,这样你就可以说你给出了一下保证能够获得一些合理的结果和似然误差的量化。

Spectrum:我们现在有工具能够实现这些误差条吗?
Micheal Jordan: 我们仅仅获得了一些工程科学的集成方法。我们有很多来自几百年前的统计学家和计算科学的想法。同时,我们致力于让他们在一起工作,让他们变得可以衡量。为了控制那些误差家族(我之前提出的很多假设来知道误差率),很多方法大概30年前就出现了。但是他们中的很多  还没有被进行计算研究。让它起作用是一个数学和工程的难题,需要花费时间。

它不可能花费1年或者2年。它将花费数十年去做。我们将一直学习怎样让大数据变得更好。

Spectrum:
当你读大数据和卫生保健的时候,第三个故事中似乎就是关于那些令人惊讶的我们能够自动获取的医疗视野,而且这些数据仅仅来自于每个人,尤其是云。
Micheal Jordan: 你对此不能是完全的怀疑者或者完全的乐观者。保持中立的态度。但是,如果你能列出那些产生一些数据分析的所有假设,那么它们中的部分将会有用的。你仅仅是不知道哪一部分。因此,如果你获取了它们中的一部分-比如说,你吃了燕麦麸不会得胃癌或者其他的,因为数据表明是这样的-这也有一些运气在里面。这些数据将会提供一些支持。
但是,除非你真正的做了全方位的工程统计分析来提供一些错误条和量化误差,这是一种类似赌博的方式。没有数据仅仅是赌博。那是完整的轮盘赌,这是部分的轮盘赌。

Spectrum: 如果我们继续沿着你所描述的轨道前进,这将会出现什么样不利的结果在大数据领域?
Micheal Jordan:主要一个将会是“大数据的冬天”。泡沫过后,当人们开始投资,很多公司没有认真分析数据就过多的承诺,这将会导致破产。不久,大概2-5年的间隙,人们就会这样说:“这个大数据出现过,然后消失了。它是一个错误”-我是这样预测的。当这里面有太多的假设,在这个循环里面将会发生的是独断:不是基于理解真正的问题是什么或者是用几十年的时间去理解的基础上解决问题。那使得我们能够获得平稳的进步,但是不会在技术上获得跳跃式的进步。这将会是一个获取资源来做数据分析非常困难的阶段。这个领域将会继续前进,由于它是确实需要的。但是强烈的反冲将会伤害一大批很重要的项目。


拥有1000.000.000$,Jordan会选择做什么?
Spectrum: 考虑那些花在大数据上面的大量的金钱,服务于广告的科学仍然相当原始的。我有一个搜索信息的业余爱好,是关于搜寻愚蠢的Kickstarter项目,主要是看他们有多愚蠢的,然后我就会结束这种几个月以来在相同的公司收到的广告服务。
Micheal Jordan: 是的,它是一个周期性的。这依赖于一个系统将怎样工程化和我们主要的讨论领域。在一个很窄的领域,效果可能非常好的,在一个非常广泛的领域,那种领域的语义理解很晦涩,这种效果就会很差。我个人感觉Amazon's的推荐系统(http://spectrum.ieee.org/computing/software/deconstructing-recommender-systems)对于推荐书籍和音乐是非常好的。这是因为他们拥有大量的数据,这一领域是没有限制的。而对于衣服和鞋子,它就很难理解,他们只有很少的数据,因此这种推荐效果很差。
然而,这还有很多问题,但是那些建立这些系统的人正在努力在他们上面工作。在这一点上,我们得到的是语义分析和人们的偏好。如果我买一个冰箱,这并不是意味着我对所有的冰箱感兴趣。然而,如果我买了Taylor Swift的歌曲,我很有可能再买更多关于她的歌曲。这就要求处理歌手、产品和物品的不同语义。为了获得那些正确的人们感兴趣的的范围,这就需要大量的数据和大量的工程实践。
Spectrum: 你已经说过,如果你有一笔没有约束的10亿的捐赠,你将会用于自然语言处理。你将会对Google而不是Google Translate做什么?
Micheal Jordan: 我可以确信的说,Google做的事情我都会去做。但是我认为不是Google Translate,它涉及到机器翻译,这仅仅是语言的问题。另一个比较好的语言问题的例子就是我问你答,就像“在加利福尼亚州并不靠近河流的第二大城市是哪个”。如果我将这个句子输入到Google中,我现在还不能得到一个满意的回答。
Spectrum:  因此,你是说,至少目前来看自然语言是考虑的,你还能用这10亿美元来解决普通认识的问题和实现AI的全部细节问题,比如让机器像人一样思考问题,是吧?
Micheal Jordan: 因此,你希望修建掉一下小的问题,那些问题并不是和每一件事相关的,但是尽管如此,这些做使得你获得了进步。这正是我们所研究的。我可能将开一个领域专栏。事实上,我们工作在地里形式上的问答上。这将会允许我们去专注于特定的关系、特定的数据,但并不是世界上的所有事情。
Spectrum:  因此,为了在问答栏目上取得进步,你将需要约束他们在一个专业领域吗?
Micheal Jordan: 你能获得多大的进步,这是一个经验问题。这不得不处理有多少这个专业的数据是可以获得的。事实上,你可能要付给人们多少钱来开始写下他们知道的关于这个领域的东西。多少标签你已经拥有了。
Spectrum: 它似乎仍然让人失望的即使拥有10亿美元,我们仍然结束一个系统,这个系统不可能是通用的,它仅仅对一个领域起作用。
Micheal Jordan: 这是非常典型的,它们当中的每一个技术是怎样设计的。我们早前谈论的视觉。最早的视觉系统是人脸识别系统。这个领域是有界的。但是我们开始去看一下早期的进步和一些事物起作用的场景。类似与语音,最早期的进步是单个单词的分离。逐渐的,就开始使用整个句子的分割。这总是存在各种进步,从一些有限制的事情到越来越少的限制。
Spectrum: 为什么我们需要更好的问答系统呢?难道Google的作用还不足够吗?
Micheal Jordan: 在这一点上,Google确实有一个非常强大的自然语言处理工作组,因为他们认识到他们在特定的需求上面是很糟糕的。例如,使用单词“not”。人类希望使用单词“not”。例如,“告诉我一个不是距离河很近的城市”在现在的Google搜索引擎中,这个并不能得到很好的处理。


怎样不去谈论”奇点“
Spectrum:现在,我们换个其他的话题,如果你正在硅谷和某人谈话,他们对你说:“Professor Jordan,我确实十分相信奇异值(http://spectrum.ieee.org/static/singularity)”。你的观点是支持还是不支持?
Micheal Jordan: 我很幸运从来没有遇到过这种人。
Spectrum: 哦,继续说。
Micheal Jordan: 我确实没有遇到过。我生活在一个非常理智的工程师和数学家的世界里。
Spectrum: 但是,如果你真的遇见了像他一样的人,你将会怎样做?
Micheal Jordan: 我将会摘掉我学术的帽子,我仅仅作为一个普通人来思考在未来几十年里面将会发生什么,我将会感觉到一种娱乐的氛围就像我读科幻小说一样。这将不会透漏一点我的学术生涯。
Spectrum:  好吧,但是若是知道你是做学术的,你又会怎么思考这个问题?
Micheal Jordan: 我的理解是,这里没有其他的学术准则。它的一部分是哲学的,主要关于社会怎样改变、人类怎样改变,同时,它一部分也是文学的,就像科幻小说,通过技术改变的结果来考虑事情。但是,据我所知,它们不会产生算法的思想,因为我从来没有看见他们,他们告诉我们关于技术怎么样取得进步的问题。

什么是Jordan所关心的,比起P是否等于NP?

Spectrum:你是否有一个猜测关于P=NP?你关心这个问题吗?
Micheal Jordan:  我并不倾向于关注多项式和指数之间的不同。我对低阶的多项式非常感兴趣-线性时间、线性空间。P VS. NP不得不作为多项式来处理分类算法问题,这就意味着它们是可以追踪的和指数的,但是实际并不是。
我认为大部分的人将会这种可能:P并不等于NP。从数学上来看,这是非常有趣的事情。但是它并没有一个固定和锋利的区分。这里有很多的指数时间算法在一些特定的领域仍然是可以看见的,部分原因是因为现代计算的增长。另外,更大的问题是,多项式并不足够的。多项式仅仅表明它的增长速度是一个超线性的比例增长,比如二次方或者立方。但是,它确实需要线性的增长。正如,我有100个新的数据点,它会以2倍的形式增长。如果我有1000个,它可能会以3倍增长。
这就是理想。这里有各种我们不得不专注的算法,同时这远不止P和NP的问题。它是非常重要和有趣的智力问题,但是我们致力于这上面的工作但是很是不精通它们。

Spectrum:  一些关于Quantum计算的问题(http://spectrum.ieee.org/tag/quantum+computing)。
Micheal Jordan: 我对那些学术的东西都非常好奇。它们是真实的、有趣的。它不能真正的影响我的研究领域。

图灵测试的正真内涵是什么?

Spectrum:
 是否将会有一个机器通过TuringTest(http://spectrum.ieee.org/automaton/robotics/artificialintelligence/winograd-schemas-replace-turing-test-for-defining-humanlevel-artificial-intelligence)在你的整个生命中?
Micheal Jordan: 我认为你将会获得逐渐积累的能力,包括语音、视觉和自然语言处理领域。这里可能不会存在单个的时刻,在那时我们想要说“现在是宇宙中一个新的智力实体”。我认为像Google这样的系统已经提供了一定水平的人工智能。

Spectrum: 他们的定义非常有用,但是他们从来不会 和成为人类混淆。
MichaelJordan:是的,他们不会。大部分我们不认为Turing Test是一个清楚的分界。然而,当我们看见它的时候我们认识了智能,它逐渐出现在我们周围的设备中。它并不是必须嵌入到单个的实体中。我仅注意到我们周围的这些设备变得更加智能。所有的我们正在关注所有的时间。

Spectrum:当你说“智能”的时候,你是否将它等同于“useful”?
MichaelJordan:是的。我们这一代发现的令人吃惊的东西-计算机能够识别我们的需求、必备品和期望,在某种程度上-我们的孩子发现更少的惊奇,我们的孩子的孩子将会发现更加少的惊奇。这仅仅是假设我们周围的环境是自适应的、是可预测的、是鲁棒的。那将包括使用自然语言和你的环境交互的能力。在这一点上,你被震惊的通过能够有一种自然的交流和你的环境。现在,我们在有限的几个领域就可以做到了。比如,我们可以获得我们的银行账户。他们是非常、非常原始的。但是,随着时间的流逝,我们将会看到那些东西将会变得更加精细、更加鲁棒、更加广泛。在这一点上,我们将会说,“哦,这和我小时候的完全不一样”。Turing
test已经帮助我们获得领域的开始,但是并不是结束,就像土拨鼠日的顺序一样-一个媒体的事件,但是有些事情不是真正的重要。



over
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐