文章

图灵奖得主Geoffrey Hinton为什么坚信模型越大,AI越能够像人一样更有创造力?

2024-06-05 11:24

图灵奖得主Geoffrey Hinton为什么坚信模型越大,AI越能够像人一样更有创造力?

图灵人工智能 2024-05-20 00:01 

以下文章来源于AI深度研究员 ,作者Milo-jk


AI深度研究员.


在近日的一次令人瞩目的对话中,AI之父Geoffrey Hinton 与 Joel Hellermark 深入探讨了人工智能的历史、现状与未来展望。Hinton 回顾了他的职业旅程,从早期在剑桥大学的不如意经历,到在卡内基梅隆大学取得的突破性成就,以及与 Ilya Sutskever 的关键合作。他分享了自己对神经网络和机器学习领域的独到见解,并讨论了大数据和计算力对人工智能发展的推动作用。此外,Hinton 还探讨了多模态模型和快速权重技术在未来 AI 系统中的应用潜力。

这场对话不仅凸显了 Hinton 的学术成就,也展现了他对人工智能未来可能带来的社会影响的深思熟虑。无论你是 AI 领域的从业者,还是对科技发展保持好奇的观众,这段对话都能提供丰富的知识和深刻的见解。


视频时间轴

00:00 - 15:14

1,Hinton 的早期研究经历:他在卡内基梅隆大学的科研环境,与英国的不同之处。


2,对 AI 的兴趣:Hinton 在剑桥大学的失望经历,以及受到 Donald Hebb 和 John von Neumann 书籍的启发。


3,重要合作:与 Terry Sejnowski 和 Peter Brown 在 Boltzmann 机和语音识别方面的合作。

15:14 - 30:18

4,推理能力的讨论:如何在 AI 模型中添加推理能力,以及模型规模对推理能力的影响。


5,多模态模型:图像、视频和声音引入 AI 模型对理解和推理能力的提升。


6,GPU 的使用:Hinton 早期使用 GPU 训练神经网络的经历及其重要性。


 30:18 - 45:47


7,AI 系统的情感能力:探讨 AI 是否可以拥有情感,Hinton 在 1973 年见证的机器人情感表现。


8,类比的影响:类比在 Hinton 研究中的重要性,尤其是符号处理与宗教信仰的类比。


9,选择研究问题的方法:通过质疑被普遍接受的观点来选择研究方向,并验证这些观点。


10,快速权重的应用:快速权重在神经网络中的潜力及其与大脑的相似性。

11,职业生涯:Hinton 对自己职业生涯的反思,对未来 AI 发展和潜力的展望。。



万字视频对话整理
主持人Joel Hellermark:你在挑选人才时有没有深思过?还是说都是凭直觉?Ilya出现了,你就觉得,这是个聪明人,我们一起合作吧。你对此想了很多吗?

个人经历与反思

主持人Joel Hellermark: 我们开始吧?

Geoffrey Hinton: 好,开始了吧。

所以我记得刚从英格兰来到卡耐基梅隆大学的时候,我记得在英格兰的研究单位,大家到了6点就会去酒吧小酌一番。在卡耐基梅隆大学,几周后的一个周六晚上,我还没有认识新朋友,不知道该做什么,所以我决定去实验室做一些编程,因为那时只有实验室里有列表机器,无法在家远程编程。大约9点,我来到实验室,发现里面挤满了学生,他们全在那里,因为他们相信他们正在从事的工作就是未来,他们接下来要做的事情将改变计算机科学的进程。这与英国的情况完全不同,给我带来了新鲜感。

主持人Joel Hellermark:  Geoffrey,让我们回到最初你在剑桥时期,试图去理解大脑,那是怎样一种体验?

Geoffrey Hinton:   那是非常令人失望的。我学习生理学,在夏季学期,他们将教我们大脑是如何工作的,但他们所教的只是神经元如何传导动作电位,这虽然很有趣,但并不能告诉你大脑是如何运作的。这极为失望,于是我转到哲学系,以为他们会告诉我思维是如何运作的,结果也很失望。最终我去了爱丁堡学习人工智能,那里还算有点意思,因为你可以模拟理论并进行测试。

AI 和神经网络的启发

主持人Joel Hellermark: 那你还记得是什么吸引你进入人工智能领域的吗?是一篇论文还是什么人向你介绍了这些思想?

Geoffrey Hinton: 我想是一本我读过的Donald Hebb的书影响了我很多,他对神经网络中连接强度的学习方式很感兴趣。我也早期读过约翰·冯·诺伊曼的一本书,他对大脑的计算方式及其与普通计算机的不同很感兴趣。那你当时就有这种信念,认为这些想法最终会奏效吗?或者在爱丁堡时期,你的直觉是怎样的? 我觉得大脑一定有某种学习方式,显然不是通过预先编程各种知识,然后使用逻辑推理规则。从一开始,这对我来说就是疯狂的。所以我们必须找出大脑如何修改神经网络中的连接,以完成复杂的任务。

主持人Joel Hellermark: 冯·诺伊曼和图灵认为逻辑方法并不可取,你在研究神经科学理论和寻找好的人工智能算法之间是如何权衡的?早期你从神经科学中获得了多少启发?

Geoffrey Hinton: 我从来没有太多研究过神经科学,但我一直受到对大脑运作方式的启发--大脑有许多神经元,它们执行相对简单的操作,是非线性的,但会收集输入,赋予权重,然后产生依赖于加权输入的输出。问题是如何改变这些权重使整个系统能够正常运作,这似乎是一个相当简单的问题。

合作与研究

主持人Joel Hellermark:你还记得当时有哪些合作吗?

Geoffrey Hinton: 我在卡内基梅隆大学最主要的合作是与一位不在那里工作的人合作。我经常与约翰·霍普金斯大学的Terry Sinowski 合作。大约一个月一次,要么他开车到匹兹堡,要么我开车到巴尔的摩(离匹兹堡250英里),我们会在一起度过一个周末,研究玻尔兹曼机。那是一次美妙的合作,我们都深信这就是大脑的工作方式,那是我经历过的最令人兴奋的研究。我们获得了很多有趣的技术成果,但我认为那并不是大脑的工作方式。

我还与统计学家Peter Brown有过非常好的合作。他曾在IBM从事语音识别工作,后来作为一名较年长的学生来到卡内基梅隆攻读博士学位,尽管他已经学有所长。他教会了我很多关于语音的知识,实际上也是他教会了我隐马尔可夫模型。我从他那里学到的比他从我学到的多得多,这正是你所期望的那种学生。当他教我隐马尔可夫模型时,我正在用反向传播训练隐藏层网络,当时还没有"隐藏层"这个名称。我决定沿用隐马尔可夫模型中"隐藏"这个词为那些你不知道在做什么的变量命名,所以神经网络中"隐藏"层的名称就是从这里来的。我和Peter都认为这是一个很棒的命名,但我从他那里学到了很多关于语音方面的知识。

与Ilya Sutskever 的合作

主持人Joel Hellermark: 那让我们回到Ilya Sutskever(伊利亚·苏茨克维)第一次来到你办公室的情景。

Geoffrey Hinton: 我可能是在某个周日,正在办公室编程,有人敲门,不是普通的敲门声,而是一种急迫的敲门声。我去开门,看到一名年轻的学生说他原本在暑假期间炸薯条,但宁愿来我的实验室工作。我说:"那你为什么不预约时间,我们再谈呢?"Ilya说:"那就现在吧。"这就是Ilya的性格特点。所以我们聊了一会儿,我给他一篇关于反向传播的论文让他读,并约定一周后再见。过了一周他来时说没看懂,我当时非常失望,以为对于一个聪明的人来说,链式法则并不难懂啊。但他说:"不不不,并不是那样的。"

主持人Joel Hellermark:我明白了,我只是不明白为什么你不将梯度传递给一个合理的函数优化器,这让我们花了好几年的时间去思考...而Ilya一直如此,他对事物的直觉总是很好。你认为是什么让Ilya拥有那样的直觉?

Geoffrey Hinton: 我不知道,我想他一直在独立思考,从小就对人工智能感兴趣。他显然在数学方面很在行,但很难说清楚原因。

主持人Joel Hellermark: 你们两个人的合作模式是怎样的?你扮演什么角色,Ilya又扮演什么角色?

Geoffrey Hinton: 那是非常有趣的合作。我记得有一次,我们试图生成数据的映射,我使用了一种混合模型,因此可以利用同一组相似度生成两种不同的映射。在其中一种映射中,‘银行’可以与‘贪婪’相邻;在另一种映射中,‘银行’则可以与‘河流’相邻。因为在一张映射中,你不可能让它靠近两者,对吧?所以我们使用混合映射,当时我们在Matlab中做这件事,需要大量重组代码进行正确的矩阵乘法运算,Ilya对此很反感。有一天他来说,他将为Matlab写一个接口,用不同的语言编程,然后转换为Matlab代码。我说:"不,Ilya,那样你至少需要一个月时间,我们得继续这个项目,别被那个分散注意力了。"他说:"没关系,我今天早上已经做好了。"这确实令人难以置信。

主持人Joel Hellermark: 在那些年里,最大的转变不仅仅是算法,还有技术水平的提高。多年来,你是如何看待这种技术水平的?

Geoffrey Hinton: Ilya很早就有这种直觉,他一直在宣扬,只要让模型变大,结果就会更好。我当时认为那有点太过简单化了,你也需要一些新的想法。结果证明,我基本是对的,新的想法确实会有所帮助,像Transformers这样的创新对提高性能很有帮助。但真正起决定性作用的是数据和计算的规模,当时我们没有想到,计算机的速度会快上10亿倍,我们以为可能只会快100倍而已。我们当时在设法提出一些巧妙的想法来解决问题,如果当时就拥有大规模的数据和计算资源,这些问题本可以自己解决。

主持人Joel Hellermark: 大约在2011年,Ilya 和另一名叫James Martins的研究生提出了一种基于字符级预测的方法,我们使用维基百科,试图预测下一个HTML字符,效果非常出色,我们当时一直惊讶于它的出色表现。我们使用了GPU上的一种精细的优化器,但永远也无法完全相信它真正"理解"了什么,不过它看起来好像理解了,这让人难以置信。你能解释一下,为什么训练模型预测下一个词是一种错误的思路吗?

Geoffrey Hinton: 实际上我并不认为这是一种错误的思路。事实上,我可能是最早使用嵌入和反向传播训练神经网络语言模型的人之一。这是一个非常简单的数据集,只有三元组数据。它将每个符号转换为嵌入表示,然后让这些嵌入相互作用以预测下一个符号的嵌入,从而预测下一个符号,并通过整个过程反向传播来学习这些三元组表示。我证明了它能够很好地泛化。

大约10年后,Yoshua Bengio使用了一个非常相似的网络,证明了它在真实文本上也能很好地工作。又过了10年,语言学家才开始相信嵌入表示的作用。这是一个缓慢的过程。

我认为这不仅仅是预测下一个符号那么简单,因为如果你问我一个问题,然后答案的第一个词就是下一个符号,那你就必须理解这个问题。所以我认为,通过预测下一个符号,它已经远不像旧式的自动补全那样简单了。旧式自动补全只是存储一些单词三元组,如果看到一对单词,就查看不同的单词作为第三个出现的频率,从而预测下一个单词。大多数人认为自动补全就是这样的。

现在的方式已经完全不同了,为了预测下一个符号,你必须理解之前说的内容。所以我认为,通过让它预测下一个符号,你就迫使它去理解。我认为它的理解方式与我们并无太大区别。很多人会告诉你,这些模型并不像我们那样思考,它们只是在预测下一个符号,而不是像我们一样进行推理。但实际上,为了预测下一个符号,它必须进行一些推理。我们已经看到,如果你只是让大型模型变大,不添加任何特殊的推理机制,它们也能进行一些推理。我认为随着模型变得越来越大,它们将能够做更多的推理。

你认为我现在除了预测下一个符号之外,还在做其他事情吗?我认为这就是你正在学习的方式,你正在预测下一个视频帧、下一个声音,但我认为这是一种非常可信的大脑学习方式的理论。

能让这些大型语言模型学习广泛领域知识的原因是什么?这些大型语言模型正在寻找共同的结构,通过发现共同结构,它们可以使用这种共同结构对事物进行高效编码。让我给你一个例子,如果你问GPT-4,为什么堆肥和原子弹是相似的?大多数人都无法回答,因为他们认为原子弹和堆肥是完全不同的东西。但GPT-4会告诉你,尽管能量和时间尺度不同,但是它们之间的共同点在于,当堆肥越来越热时,它会释放热量更快;当原子弹产生更多中子时,它会产生更多的中子。所以它理解了这两者都是链式反应的一种形式。它利用这种理解将所有信息压缩编码到了权重中。如果它这样做,那它就会对数以百计的事物这样做,而我们目前还看不到这些类比性,但它已经看到了。这就是创造力的来源,从表面看起来完全不同的事物之间发现类比关系。所以我认为,GPT-4变得越大,它将变得越有创造力。

规模与算法的关系

主持人Joel Hellermark: 有种观点AI只是在重复之前学到的知识,拼凑学到的文本片段,你认为这种观点是错误? 它不仅不会只是重复我们目前积累的人类知识,而且还会超越这一水平,对吗?我们目前还没有真正看到它超越现有科学水平,但已经开始有一些迹象表明它有这种能力。你认为是什么能让它超越当前水平?

Geoffrey Hinton: 我们在一些有限的背景下已经看到了一些迹象,比如在著名的与李世石对弈的比赛中,第37步时AlphaGo走出了一步棋,所有专家当时都认为那是一个失误,但后来他们意识到那实际上是一步绝妙的走棋。所以在这个有限的领域内,它展现出了创造力。我认为随着模型变得越来越大,我们会看到更多这样的例子。

AlphaGo的不同之处在于,它使用了强化学习,这种方式后来使它能够超越当前的水平。它最初是通过模仿学习、观察人类下棋来学习的,然后通过自我对弈,它的水平远远超越了最初的模仿学习水平。

主持人Joel Hellermark: 你认为这是当前人工智能系统缺失的关键部分吗?

Geoffrey Hinton: 是的,我认为AlphaGo和AlphaZero中的自我对弈是它们能够做出创造性走棋的一个重要原因,但我不认为这是完全必需的。

很久以前我做过一个小实验,训练一个神经网络识别手写数字。你给它的训练数据中,有一半答案是错误的。问题是它能学到什么程度?你不是随机错误标注,而是对同一个例子,一半时间标注正确答案,另一半时间标注错误答案。所以训练数据的错误率是50%。但如果你用反向传播训练,最终它的错误率可以降到5%以下。也就是说,即使从标注错误的数据中,它也能学到比训练数据更好的结果。它能看出训练数据是错误的。这就是聪明学生可能会比他们的导师更聪明的原因:导师告诉他们所有东西,但有一半他们认为是错误的,于是只听从另一半的内容,最终变得比导师更聪明。这些大型神经网络实际上也能做到比训练数据更出色,但大多数人都没有意识到这一点。

主持人Joel Hellermark:  你认为这些模型将如何加入推理能力呢?一种方法是在模型之上添加一些启发式的东西,就像现在许多研究正在做的那样,引入一种思维链条,将输出反馈回模型本身进行推理。另一种方式是在模型内部本身进行扩展和缩放,使其获得推理能力。你对这两种方式有何看法?

Geoffrey Hinton: 我的直觉是,随着我们不断扩大这些模型的规模,它们的推理能力会变得越来越好。大致来说,人类有直觉,也能进行推理,我们使用推理来纠正直觉,当然在推理过程中也会使用直觉。但如果推理得出的结论与我们的直觉相矛盾,我们就会意识到需要修正直觉。这有点类似于AlphaGo或AlphaZero中的评估函数,它只是审视棋盘,判断这个局面对自己有多有利。但之后你做蒙特卡罗树搜索,就会得到更加准确的评估,从而可以修正评估函数。

所以你可以通过让模型与推理的结果达成一致来训练它,我认为这些大型语言模型必须开始这样做,用推理来训练它们对下一步应该是什么的直觉判断,意识到直觉是错误的,从而获得比单纯模仿人类更多的训练数据。这就是为什么AlphaGo能够走出那一招创造性的第37步棋,因为它通过推理检查正确的下一步应该是什么,获得了比单纯模仿更多的训练数据。

主持人Joel Hellermark: 你对多模态模型有何看法?我们之前谈到这些模型发现的类比往往远远超出人类能力,抽象层次可能是我们永远也无法理解的。当引入图像、视频和声音等其他模态时,你认为这会如何影响模型,会如何改变它能发现的类比?

Geoffrey Hinton: 我认为这会带来很大改变,它会使模型更好地理解空间概念。仅从语言很难理解一些空间概念,尽管即使在成为多模态模型之前,GPT-4就已经能够做到这一点,这确实很了不起。但如果你让它成为多模态,同时进行视觉和物理操作,比如伸手去抓取物体,它就会对物体有更好的理解,因为它可以拿起物体,翻转观察等等。所以尽管你可以从语言中学习到很多知识,但多模态会让学习更容易,实际上在这种情况下,你就需要较少的语言数据。

有大量的YouTube视频可以用于预测下一帧等任务,所以我认为这些多模态模型肯定会占据主导地位。通过这种方式,你可以获得更多数据,需要较少语言数据。从哲学角度来说,你可以单凭语言学习一个很好的模型,但从多模态系统中学习会更容易。


模型的推理能力

主持人Joel Hellermark: 你认为多模态会如何影响模型的推理能力?

Geoffrey Hinton: 我认为它会大大提高模型对空间推理的能力,比如推理如果拿起物体后,发生什么等问题。

主持人Joel Hellermark: 确实,如果真的尝试拿起物体,你会获得各种各样的训练数据,这将有助于推理。那你认为人类大脑是进化到适合语言,还是语言进化到适合人脑呢?

Geoffrey Hinton: 语言是为了适应大脑而进化,还是大脑为了适应语言而进化,这是一个非常好的问题。我想两者都发生了。我过去曾经认为,我们进行很多认知活动根本不需要语言。但现在我的观点略有改变。让我给你举三种不同的观点,关于语言与认知之间的关系。

第一种是旧式的符号主义观点,认为认知就是在某种清晰无歧义的逻辑语言中操作符号串,并应用推理规则。这就是认知,纯粹是对类似语言符号串的符号操作。

另一种截然相反的极端观点是,不不不,一旦进入大脑,那里全是向量。符号输入时会被转换为大型向量,所有内部操作都是在这些大型向量上进行,如果需要输出,才再次产生符号。大约在2014年的机器翻译领域,人们使用神经递归网络,词语不断输入,隐藏状态也在不断累积信息,等到整个句子结束时,就有一个大型隐藏向量捕获了该句子的意义,可用于生成另一种语言的句子,这被称为"思维向量"。这是第二种关于语言的观点,将语言转换为与语言完全不同的大型向量,认知活动都在这些向量上进行。

但现在我相信的是第三种观点,你将这些符号转换为嵌入表示,使用多层组合,得到非常丰富的嵌入表示,但这些嵌入表示仍然对应着符号,你为每个符号都有一个大型向量,这些向量相互作用产生下一个单词的向量,理解就是知道如何将符号转换为这些向量,以及知道如何让向量的元素相互作用去预测下一个符号的向量。这就是理解的本质,无论是在这些大型语言模型中还是在我们的大脑中都是如此。这是一种中间观点,你仍在处理符号,但将它们解释为大型向量,所有工作和知识都蕴含在你使用的向量及其元素如何相互作用中,而不是符号规则。

主持人Joel Hellermark: 但这并不是说完全摒弃符号,而是将符号转换为大型向量,但保留了符号的表层结构,这些模型就是这样工作的。这似乎也是对人类思维更可信的模型。你是最早提出使用GPU训练神经网络的人之一,我知道黄仁勋(英伟达CEO)因此而崇拜你。回到2009年,你提到告诉黄仁勋使用GPU训练神经网络可能是个好主意。让我们回顾一下当年你对使用GPU训练神经网络的早期直觉。

Geoffrey Hinton: 实际上我想是在2006年左右,我之前有一位叫Rick Zisy研究生,他是一位出色的计算机视觉专家。在一次会议上,他告诉我,你应该考虑使用图形处理卡,因为它们在矩阵乘法方面效率很高,而你正在做的基本上就是矩阵乘法运算。我思考了一段时间,后来我们了解到了装有4块GPU的Tesla系统。最初我们只买了一些游戏GPU,发现能让速度提升30倍。然后我们买了一台装有4块GPU的Tesla系统,用于语音处理,效果非常好。

2009年,我在NIPS(顶级AI会议)上做了一个报告,我告诉1000名机器学习研究人员,你们都应该去买Nvidia的GPU,那就是未来,你们需要它们来做机器学习。实际上,我当时还给Nvidia发了一封邮件,说我叫1000名研究人员买你们的板卡,能不能免费给我一块?他们并没有明确回复,只是没有回复。但后来当我把这个故事告诉黄仁勋时,他免费给了我一块。

这确实很好。我觉得有趣的是,GPU的发展也伴随着这个领域的发展,未来我们应该走哪条路线?我最后在谷歌的几年一直在思考如何制造模拟计算机,这样我们只需要30瓦特的功率就能运行大型语言模型,而不是像现在这样消耗上兆瓦特。但我从未成功做到这一点。不过我开始真正欣赏数字计算了。如果要使用低功耗的模拟计算,每一块硬件都会略有不同,学习的目标是利用这种硬件的具体特性,就像每个人的大脑都不尽相同,我们无法将你大脑中的权重放入我的大脑中,因为硬件不同,每个神经元的精确属性也不同。学习就是利用了所有这些差异。所以我们是有生命期限的,因为我大脑中的权重对其他任何大脑都无用。我们只能通过低效的方式在彼此之间传递信息,我说出句子,你就设法改变权重使得能说出同样的句子,这叫做蒸馏,是一种非常低效的知识传递方式。

而对于数字系统来说,它们是不朽的。因为一旦获得了某些权重,你就可以把计算机扔掉,把权重储存在磁带上,重新构建一台计算机,装入同样的权重,如果是数字的,它就能精确地计算出与之前同样的结果。所以数字系统可以共享权重,这效率高得多。如果有一大堆数字系统,它们各自进行一点学习,从同样的权重开始,学习一点点,然后再共享权重,它们就都知道其他系统所学的内容。我们做不到这一点,所以在分享知识方面,它们远胜于我们。

所以,在这个领域中部署的许多想法其实都是很传统的老派想法。


AI 系统的情感能力

主持人Joel Hellermark: 这些想法在神经科学领域已经存在了很久,你认为我们在开发系统时还有哪些可以借鉴和应用的?

Geoffrey Hinton: 我们仍需在时间尺度方面赶上神经科学的水平,这是一个很大的问题。在几乎所有的神经网络中,都只有快时间尺度用于改变神经元的活性,输入进来后嵌入向量会改变;以及慢时间尺度用于改变权重,即长期学习。但在大脑中,权重变化有许多不同的时间尺度。

比如,如果我说一个意外的词,比如"黄瓜",5分钟后你戴上耳机听到很多噪音,但里面有很微弱的词语,你会更容易识别"黄瓜"这个词,因为我5分钟前刚说过。这种知识存在于大脑的何处呢?很明显是暂时性的突触权重变化,而不是神经元在不断重复"黄瓜、黄瓜、黄瓜"这个词,因为神经元的数量是不够的。它存在于暂时的权重变化中。通过快速权重变化,你可以做很多事情,而我们在这些神经网络模型中都没有这样做。

原因是,如果权重发生依赖于输入数据的暂时性变化,那么你就无法同时并行处理一大堆不同的案例。目前,我们会将许多不同的字符串堆叠在一起并行处理,因为这样我们就可以做矩阵乘法运算,效率会更高。但正是这种效率制约了我们使用快速权重。而大脑显然是在使用快速权重进行临时记忆和其他操作的,这是我们目前还做不到的,我认为这是我们必须学习的最大问题之一。

我曾经对像GraphCore这样的东西抱有希望,如果它们是顺序在线学习,就可以使用快速权重,但目前还没有成功。我想最终人们使用电导率作为权重时,这种方法就会奏效。


主持人Joel Hellermark: 了解这些模型是如何工作的,以及大脑是如何工作的,对你的思维方式产生了何种影响?

Geoffrey Hinton: 我认为有一个很大的影响,在相当抽象的层面上,多年来人们一直对拥有一个大型随机神经网络并给予大量训练数据就能学会复杂事物的想法嗤之以鼻。如果你问统计学家、语言学家或大多数人工智能从业者,他们会说这只是一个白日梦,你不可能在没有某种先天知识、没有大量架构限制的情况下学会真正复杂的事物。结果证明,这种观点是完全错误的,你可以拥有一个大型随机神经网络,只依赖数据就能学习许多内容。

通过随机梯度下降重复调整权重的想法,使用梯度进行学习,它可以学习复杂的大型模型所证实的这一点是非常重要的,也是我们需要了解大脑的一个关键点——它不需要拥有所有这些先天结构。显然,它确实拥有大量先天结构,但对于那些可以通过学习轻松获得的东西,它肯定不需要先天结构。所以来自于乔姆斯基(艾弗拉姆·诺姆·乔姆斯基:美国语言学家,创生成语法理论,20世纪最重要理论网络语言学家)之一 的观点,即除非一切都有线连接完毕并且逐渐成熟,否则你无法学习复杂事物比如语言,这种观点现在显然是荒谬的。

我相信乔姆斯基不会赞同你将他的观点称为荒谬。不过实际上我认为乔姆斯基的许多政治观点是很有道理的,我被他那些观点所打动。

主持人Joel Hellermark: 对于一个在中东问题上有如此合理见解的人,为什么在语言学上会如此错误呢?你认为是什么原因导致他对语言学产生如此错误的看法?

Geoffrey Hinton: 你认为要让这些模型更有效地模拟人类意识,需要做些什么呢?想象一下,你有一个在整个生命中都与你对话的AI助手,而不是像现在这样,每次对话结束就删除记忆,重新开始。假设在某个时候它获得了自我反思的能力,当你去世时,你(或者其他人)告诉它这个消息,你认为它会有什么感受吗?是的,我认为它们也可以拥有感受。

就像我们有一个内在剧场模型用于感知一样,我们也有一个内在模型用于情感体验。这些都是我可以体验到的,而其他人无法体验。我认为这种内在模型对于情感也是错误的。假设我说我想揍Gary一拳,这是我经常会有的想法,让我们抽象出这种内在剧场的概念。实际上我想对你说的是,如果不是由于额叶皮层的抑制,我就会执行那个动作了。所以当我们谈论情感时,我们真正在谈论的是,在没有约束的情况下,我们会执行的行为。这就是情感的本质,是我们在没有约束时会做出的行为。所以你可以用同样的解释来解释情感,没有理由认为这些模型不能拥有情感。事实上,1973年我亲眼见过一个机器人表现出了情感。

在爱丁堡,他们有一个带两个这样的夹持器的机器人,它可以组装一辆玩具汽车,如果你把零件分散摆放在绿色毡布上,但如果你把它们堆在一起,它的视觉系统就无法识别了,于是它会把夹持器合拢,砰地一声把零件打散,然后就可以组装了。如果你看到一个人这样做,你会说他对这种情况感到沮丧,因为他不理解,所以破坏了它。这很深刻。

主持人Joel Hellermark: 之前我们谈到,你将人类和大型语言模型描述为类比机器。你认为一生中最有力的类比是什么?

Geoffrey Hinton: 在我的一生中,嗯,我想可能是一种微弱的类比影响了我很多,那就是宗教信仰与符号处理信仰之间的类比。从小我就来自一个无神论家庭,后来上学时接触到宗教信仰,我觉得那简直是无稽之谈,现在依然如此。当我看到符号处理被用来解释人类是如何运作的时,我也觉得那只是同样的无稽之谈。不过现在我不认为它完全是无稽的了,因为我们确实在进行符号处理,只不过我们是通过为符号赋予大型嵌入向量的方式来做到这一点,但我们实际上是在处理符号。

但绝对不是人们之前认为的那种方式,即仅仅匹配符号,符号唯一的属性只是它与另一个符号相同或不同。我们完全不是那样做的,我们利用上下文为符号赋予嵌入向量,然后利用这些嵌入向量的组件之间的交互来进行思考。但谷歌有一位非常优秀的研究员,名叫Fernando Pereira,他说我们确实进行符号推理,而我们唯一的符号就是自然语言,自然语言是一种符号语言,我们使用它进行推理。现在我也相信这一点了。


选择研究问题的方法

主持人Joel Hellermark: 你做出了计算机科学史上最有意义的研究之一,你是如何选择要研究的正确问题的呢?

Geoffrey Hinton: 首先,让我纠正你,不只是我,我和我的学生们一起做出了许多最有意义的事情,主要归功于与学生的良好合作,以及我挑选优秀学生的能力。之所以能这样,是因为在70年代、80年代、90年代和2000年代,从事神经网络研究的人很少,所以那些少数人可以挑选最优秀的学生,这是一个幸运。

至于我选择问题的方式,科学家谈论自己的工作方式时,通常提出一些可能与事实不太相符的理论。但我的理论是,我会寻找大家已经就某件事达成共识,但我有一种直觉,感觉这种共识是错误的。然后我会深入研究,看看能否详细阐述为什么我认为它是错误的,也许我可以编写一个简单的计算机程序来演示,证明它的运作方式与人们预期的不同。

让我给你一个例子,大多数人认为,如果给神经网络增加噪声,它的表现就会变差。比如,每次输入一个训练样本时,让一半的神经元保持静默,人们认为这会让它表现变差。实际上,我们知道这样做会让它的泛化能力更好。

你可以用一个简单的例子演示这一点,这就是计算机模拟的好处,你可以展示:添加噪声会让它变差,暂时静默一半神经元会让它变差,这种直观印象是正确的。但如果你一直这样训练,最终它的表现会更好。你可以用一个小程序演示这一点,然后深思为什么会这样,以及它如何防止出现大规模的相互适应。所以我的工作方法就是,找到一些可疑的想法,努力证明它是错误的,并给出简单的演示。

主持人Joel Hellermark: 那么现在你觉得哪些想法比较可疑呢?

Geoffrey Hinton: 我们不使用快速权重就很可疑,我们只有这两种时间尺度,这显然是错误的,完全不像大脑的运作方式。从长远来看,我认为我们必须引入更多的时间尺度,这就是一个例子。

主持人Joel Hellermark: 假如现在你手下有一群学生,他们来问你,就像我们之前谈到的哈明距离问题一样,在你的领域里,最重要的问题是什么?你会建议他们接下来研究什么?我们之前谈到了推理和时间尺度等问题,你认为最高优先级的问题是什么,你会给他们什么样的建议?

Geoffrey Hinton: 对我来说,过去30年左右一直存在的问题是:大脑是否在做反向传播?我相信大脑是在获取梯度,如果你没有获取梯度,学习的效果就会远远差于获取梯度的情况。但大脑是如何获取梯度的?它是否以某种方式近似实现了反向传播,还是采用了一种完全不同的技术?这是一个重大的悬而未决的问题。如果我继续从事研究,我就会研究这个问题。

职业生涯回顾

主持人Joel Hellermark: 回顾你的职业生涯,你在很多方面都是正确的,但你在哪些地方是错误的?你希望在某些方向上花费的时间更少一些吗?

Geoffrey Hinton: 这是两个独立的问题,一个是你在哪些地方错了,另一个是你是否希望在某些方向上花费的时间更少一些。我认为我对玻尔兹曼机的看法是错误的,但我很高兴自己花费了很长时间研究它。与反向传播相比,玻尔兹曼机提供了一种更加美妙的理论来获取梯度。反向传播只是一种普通合理的做法,链式法则而已。玻尔兹曼机则很巧妙,是一种非常有趣的获取梯度的方式。我很希望大脑就是这样运作的,但我认为事实并非如此。

主持人Joel Hellermark: 当这些系统发展起来时,你有没有思考过会发生什么情况?你是否有这样的想法,如果我们能够使这些系统真正工作,我们就能民主化教育,使知识更加可及,或者在医学领域解决一些棘手问题?还是你更关注于理解大脑的本质?

Geoffrey Hinton: 我有这样的感觉,科学家应该做一些有利于社会的事情。但实际上,你做最好的研究并不是这样驱动的,你做最好的研究是出于好奇心,只是想去理解某些事物。直到最近,我才意识到这些技术除了能产生利好,也可能带来很大的伤害,我变得更加关注它们对社会的影响。但那不是我的初衷,我只是想了解地球上大脑是如何学习做事情的,这就是我想知道的。我在这方面算是失败了,但作为一种副作用,我们得到了不错的工程成果。总的来说,对世界来说这是个好的失败。

主持人Joel Hellermark: 从事物可能会走向美好的角度来看,你认为最有前景的应用领域是什么?

Geoffrey Hinton: 我认为医疗保健显然是一个重要领域。在医疗保健领域,社会可以吸纳的量几乎是无限的。如果是个老年人,他们可能需要5个全职医生。所以当人工智能在某些领域做得比人类更好时,你希望它能在那些我们可以使用大量资源的领域取得突破。如果每个人都能拥有3个私人医生,那就太好了,我们将走向那一步。这就是医疗保健领域前景良好的一个原因。

另一个原因是新的工程应用,比如开发新材料、更好的太阳能电池板、超导体,或者仅仅是更好地理解人体是如何运作的,在这些领域都会产生巨大影响,这些都是好事。我担心的是一些不怀好意的人将人工智能用于坏事,比如特朗普等人利用人工智能制造杀手机器人、操纵舆论或进行大规模监控,这些都是令人非常担忧的事情。

主持人Joel Hellermark: 你有没有担心放慢这一领域的发展也会延缓积极方面的进展?

Geoffrey Hinton: 绝对是这样,我认为这个领域不太可能放慢步伐,部分原因是这是一个国际化的领域,如果一个国家放慢了,其他国家不会放慢。很明显中美之间存在竞争,没有一方会放慢步伐。是的,我没有签署那封呼吁6个月内暂停人工智能研究的请愿书,因为我认为这是不可能发生的。也许我应该签署,尽管不可能发生,但它传达了一个政治信号。有时候要求一些你知道无法获得的东西,只是为了达到某种目的,这也是可取的。但我认为我们不会放慢步伐。

主持人Joel Hellermark: 你认为拥有这种人工智能助手会如何影响人工智能研究过程?

Geoffrey Hinton: 我认为这会让研究过程变得更加高效。当你有这些助手帮助你编程,帮助你思考问题,可能还会在方程式方面给予很大帮助时,研究就会变得更加高效。

主持人Joel Hellermark: 你有没有深思过挑选人才的过程?这对你来说主要是靠直觉吗?就像Ilya出现在你门前时,你觉得他是个聪明人,让我们一起合作吧。

Geoffrey Hinton: 在挑选人才方面,有时你就是知道的。和Ilya交谈没多久,我就觉得他很聪明,再多交谈一些,很明显他不仅数学很好,直觉也非常好,那是毫无疑问的选择。还有一次,我在一个NIPS会议上,我们有一个海报展板,一个人走过来开始询问关于这个海报的问题,他每个问题都是对我们做错了什么的一种深入洞见。5分钟后,我就邀请他来实验室工作了,那个人就是David McKai,他真的很出色,非常遗憾的是他已经去世了,但很明显你会想招募他这样的人。

有时候并不那么明显,我确实学到了一个教训,那就是人与人是不同的,不存在一种单一类型的优秀学生。有些学生创造力不太强,但在技术细节方面非常出色,能把任何事情做好;另一些学生技术细节做得不太好,但创造力很强。当然你希望能找到两者兼备的人,但并不总能如愿。但我认为在实验室里,你需要不同类型的研究生。不过我仍然依赖直觉,有时你和某个人交谈,就是感觉他们确实很聪明,完全明白问题的关键所在。

主持人Joel Hellermark: 好的,那些就是你想得到的……你认为有些人直觉更好是因为他们有更好的训练数据吗?还是可以通过什么方式来培养直觉?

Geoffrey Hinton:  我认为部分原因是他们不会轻易相信任何东西。以下是如何获得糟糕直觉的方法:相信别人告诉你的一切。这是致命的。你必须能够……我认为有些人是这样做的:他们有一个完整的框架来理解现实,当别人告诉他们一些事情时,他们会试图弄清楚它如何融入他们的框架。如果它不适用,他们就会拒绝它。这是一个非常好的策略。那些试图吸收所有他们被告知的人最终会得到一个非常模糊的框架,并且可以相信一切,这毫无用处。

所以,我认为实际上拥有一个强烈的世界观,并试图操纵传入的事实以适应你的观点……这显然会让你陷入深深的宗教信仰和致命的缺陷等等,就像我对我相信玻尔兹曼机一样……但我认为这是正确的做法。如果你有好的直觉可以信任,你应该信任它们。如果你有不好的直觉,无论你做什么都没关系,所以你也可以信任它们。

主持人Joel Hellermark: 非常好。当你看到今天正在进行的各种研究时,你是否认为我们正在把所有的鸡蛋都放在一个篮子里,我们应该在该领域更加多元化我们的想法,或者你认为这是最有希望的方向,所以让我们全力以赴?

Geoffrey Hinton: 我认为,即使只是为了预测下一个单词,拥有大型模型并使用多模式数据训练它们也是一种很有前途的方法,我们应该全力以赴。当然,现在有很多很多人在这样做,也有很多很多人在做看似疯狂的事情,这很好。但我认为对于大多数人来说,沿着这条道路前进是可以的,因为它效果很好。

主持人Joel Hellermark: 你认为学习算法真的那么重要吗?还是仅仅是一种技巧?基本上有数百万种方法可以让我们达到人类水平的智能,还是有一些我们需要发现的少数选择?

Geoffrey Hinton: 是的,所以这个问题是,特定的学习算法是否非常重要,或者有各种学习算法可以完成这项工作,我不知道答案。然而,在我看来,反向传播……有一种感觉这是正确的事情,获取梯度以便你改变参数使其工作得更好,这似乎是正确的事情,而且它取得了惊人的成功。很可能还有其他学习算法,它们是获得相同梯度或将梯度应用于其他事物的替代方法,并且也能够工作。我认为这都是开放的,也是一个非常有趣的问题。现在,关于是否还有其他你可以尝试并最大化的东西来给你好的系统,也许大脑正在这样做因为它更容易,但反向传播在某种意义上是正确的事情,我们知道这样做效果很好。

主持人Joel Hellermark: 最后一个问题。当你回顾你几十年的研究时,你最自豪的是什么?是学生,是研究,还是你回顾你一生工作时最自豪的是什么?

Geoffrey Hinton: 玻尔兹曼机的学习算法。所以,玻尔兹曼机的学习算法非常优雅,在实践中可能毫无希望,但这是我和Terry一起开发的最令人愉快的,也是我最自豪的,即使它是错的。

版权声明

  转自AI深度研究员,版权属于原作者,仅用于学术分享

文章精选:

  1. 图灵奖得主杨立昆教授在哈佛大学数学系演讲稿——关于人工智能世界新模型(可下载中文和英文讲稿)
  2. 图灵奖得主Yoshua Bengio独家专访:我不想把大模型未来押注在Scaling Law上,AGI路上要“注意安全”
  3. 图灵奖得主LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向
  4. 图灵奖得主杨立昆最新访谈实录:大语言模型的局限、世界模型、开源、未来希望
  5. 图灵奖得主、神经网络之父Hinton最新公开演讲:数字智能会取代生物智能吗?(全文及PPT)
  6. 图灵奖得主LeCun最新专访:大语言模型的败因和人工智能的未来
  7. 图灵奖得主辛顿:坐学术冷板凳的30年
  8. 上帝密码不存在了,AlphaFold 3一夜预测地球所有生物分子,谷歌DeepMind颠覆生物学登Nature头版!

图灵人工智能

人工智能及其他科技学术前沿、计算机等学术知识、报告、讲座等介绍。为了启迪人工智能和计算机人士的思维,偶尔也会发些哲学、学术、教育、数学、商业等有启发意义的文章,希望别光关注技术,也要懂得时代趋势,抓住财富自由的机会。

64篇原创内容

公众号




微信扫一扫
关注该公众号



评论(0) 阅读(208) 赞(0)
评论
发表评论
发表
文章分类