“我不认为存在通用人工智能这样的概念,人工智能是非常专业的。”
近日,Meta首席人工智能科学家、2018年图灵奖获得者杨立昆(Yann LeCun)在麻省理工学院发表了他对AI大模型发展的最新看法。
杨立昆认为目前的机器学习能力比起人类还差得远,机器学习并没有人类学习的那种推理和计划能力,这一缺失导致我们无法做出和人类智力相当的人工智能。同时,他认为现在的LLMs(Large Language Models,大型语言模型)是两年前的研究成果,已经过时了,现在更新的AI学习方式应该是自监督学习(self-supervised learning)。
最后,他还指出应该要打造目标驱动型人工智能,放弃那些生成式训练方式,尽快研究出有推理能力,能进行复杂计划分层规划的人工智能。并提出不存在通用人工智能的概念,人工智能都是很专业的。
演讲的精彩观点:
1.自监督学习可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
2.开放的创新让我们在人工智能开发过程中获益颇丰,为这些技术带来可见性、审查和信任是我们努力的目标。
3.我认为未来人工智能和机器学习研究面临着三个挑战。第一是学习世界的表征和预测模型。解决这个问题的方法就是自监督学习。第二是学习推理。基本上与人类的潜意识相对应,可以做到下意识的反应,不需要过多地思考。第三是学会分层制定行动计划。可以通过大量复杂的动作来实现目标。
4.大多数人类知识都是非语言的。我们在一岁之前学到的一切都与语言无关。除非拥有以视觉形式提供直接感官信息的系统,否则我们将无法创造出达到人类智力水平的人工智能。
5.最终,我们想要做的是使用自监督学习和JEPA架构来构建之前提到的那种可以预测世界和进行计划推理的系统,这些系统是分层的,可以预测世界上将要发生的事情。
6.我不认为存在通用人工智能这样的概念,人工智能是非常专业的。
以下为杨立昆在麻省理工学院的演讲(有删改):
比起人类,机器学习还差得远
我们应该意识到,与人类、动物的学习行为相比,机器学习真的很糟糕。人类和动物能够了解世界是如何运作的,可以对任务进行推理和计划,他们的行为是由目标所驱动的,而机器学习却做不到这一点。不过随着自监督学习的应用,生物世界和机器学习之间的差距正在缩校自监督学习已经在文本、自然语言理解、图像、视频、3D模型、语音、蛋白质折叠等领域的机器学习中占据了主导地位。
自监督学习可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。它在自然语言理解中的使用方式是,获取一段文本,通过删除一些单词(例如用空白标记替换它们)来掩盖它的一部分错误,然后训练一些神经网络来预测丢失的单词,只需测量缺失部分的重建误差。在这个过程中,系统允许你存储或表示语法、语义等内容,然后可以使用这些内容去进行下一步的任务,例如翻译或主题分类等。
这种做法在文本训练中效果非常好,因为文本的不确定性更高,无法准确预测文本中哪个单词会出现在特定位置,但可以做到的是预测字典中所有单词的某种概率分布,可以轻松计算该单词分布的概率,并很好地处理预测中的不确定性。
自回归语言模型是我们最近经常听到的学习方式,它的运作方式与自监督学习类似。其实这是刚才提到的自监督学习方法的一个特例。将一系列标记、单词转化成向量,然后训练一个系统来预测序列中的最后一个标记。一旦有了一个经过训练就可以生成下一个标记的系统,基本上就可以用自回归、递归的方式来预测下一个标记,这就是自回归预测。这使得系统可以一个接一个地预测标记并生成文本,它们从文本中捕获的知识量相当惊人,这些系统通常拥有数十亿甚至千亿个参数,需要使用1万亿~2万亿个代币进行训练,有时甚至更多。
此类模型的出现已有很长的历史,比如Blenderbot、Galacica、Llama 1和Llama 2、Google的Lambda和Bard、DeepMind的Chinchilla,当然还有OpenAI的ChatGPT。这些模型都非常适合作为写作的辅助工具,但它们对潜在表达的了解确实有限,因为它们纯粹是从文本中接受训练。
我们刚推出了一个Llama 2的开源大模型,目前有70亿、130亿和700亿参数的三个版本,并且可以免费商用。目前这个模型已经用2万亿个代币进行了预训练,上下文长度为4096,某些版本已经针对对话内容进行了微调,在许多基准测试中,它与其他系统(无论是开源还是闭源)相比都具有优势。它的本质特征是开放性,我们与模型一起发布了一份多人签名的文本。该文本记载了我们人工智能研究中的创新方法。开放的创新让我们在人工智能开发过程中获益颇丰,为这些技术带来可见性、审查和信任是我们努力的目标。
人工智能很强大,以至于人们在犹豫是否需要严格的控制和监管它,还有对于选择开源还是闭源的探讨也十分激烈。的确风险肯定是存在的,但大量证据表明开源软件实际上比专有软件更安全。而且AI和LLMs的好处如此之大,如果我们对此保密的话,无疑是搬起石头砸自己的脚,Meta绝对站在开放研究这一边。基于LLMs的培训非常昂贵,因此我们不需要拥有25个不同的专有LLMs,我们需要一些开源的模型,以便人们可以在它们之上构建微调的产品。
未来我们与数字世界的所有交互都将通过人工智能系统中的虚拟助手来调节。它将成为人类知识的宝库,我们不用再询问谷歌或者进行文献搜索,只需要与我们的人工智能助手去交谈,或许还会参考一下原始材料,但总体还是会通过人工智能系统去获得我们所需要的信息。它将成为每一个人都可以使用的基础设施,所以基础设施必须是开源的。在互联网发展的历史中,微软和微软系统公司等供应商之间曾为提供互联网的软件基础设施而展开过一场竞争,所有供应商都失去了当今运行互联网的Linux、Apache、Chrome、Firefox、JavaScript,这都是开源的。
人类的知识如此庞杂,这需要数百万人以众包的方式作出贡献。这些系统是所有人类知识的存储库,类似于维基百科,维基百科不能由专有公司创建,它必须集成全世界人民的智慧,因此,基于AI的系统也会出现同样的情况,开源人工智能是不可避免的,我们只是迈出了第一步。
“今天看到的LLMs模型将在3~5年内消失”
对于人工智能领域的研究人员来说,LLMs革命发生在两年前,其实已经有点过时了。不过对于最近几个月才接触ChatGPT的公众来说,这还是很新鲜的。其实也能发现这个模型并没有那么好用,它们没有真正给出与事实一致的答案,还会产生幻觉甚至胡言乱语,并且无法考虑最近的信息,因为它们是根据近两年的信息进行训练的。所以需要通过RHF(一种量化方法)来调试它,但是RHF也没办法做到那么完美。人工智能不会讲道理,也不能做计划,而人类是可以做到这些的。
我们很容易被它们的流畅性所蒙蔽,以为它们很聪明,其实智力非常有限,它们与物质现实没有任何联系,完全不知道这个世界是如何运转的。还有它们基本上是通过构建来获得答案的,即一个系统在自回归后生成一个标记,如果生成的任何一个标记都有概率让你偏离正确答案的范围,这些概率就会累积。长度为n的标记串,P(正确的概率)=(1-e错误的概率)n,因此正确的概率随着生成的序列长度呈指数下降,如果不进行重新设计,这是无法修复的。这确实是自回归预测的一个本质缺陷。
不久前,我们和雅各布布朗尼(Jacob Browning)合著了一篇论文,发表在一本名为《Noema》的哲学杂志上,这篇文章从根本上指出了现有大模型技术的局限性。其中谈到了这样一个事实:大多数人类知识都是非语言的。我们在一岁之前学到的一切都与语言无关。除非拥有以视觉形式提供直接感官信息的系统,否则我们将无法创造出达到人类智力水平的人工智能。其实无论是来自认知科学,还是经典人工智能子领域的研究论文,都指出了LLMs确实无法计划的事实,它们没有真正的思考能力,也没有和人类一样的推理和计划能力。
所以我认为未来人工智能和机器学习研究面临着三个挑战。第一是学习世界的表征和预测模型。解决这个问题的方法就是自监督学习。第二是学习推理。基本上与人类的潜意识相对应,可以做到下意识的反应,不需要过多地思考。第三是学会分层制定行动计划。可以通过大量复杂的动作来实现目标。
我之前写了一篇愿景论文,“A path towards autonomous machine intelligence”(《通往自主机器智能的道路》)现在我将这篇论文称之为《目标驱动人工智能》。它是围绕着所谓的认知架构的想法构建的,是一个不同模块相互交互组成的体系结构,为系统提供了对世界状态的感知模块。根据对世界状态的感知预测与已有的记忆相结合,可以对世界未来要发生的事情做出有效预测。
世界的状态用来初始化你的世界模型,然后将初始配置与想象的动作序列结合起来,提供给世界模型,再将结果给予目标函数。这就是我为什么称之为目标驱动。你无法越过该系统,因为它是硬连线来优化这些目标的,除非你修改目标,否则无法让它产生有效内容。
世界模型有多个操作步骤,例如,你采取两个操作,然后在你的世界模型中运行它们两次,以便你可以分两步预测将要发生的情况。当然世界是不确定性的,当潜在变量在一组中变化,或从分布中对它们进行采样时,会得到多个预测,当然这使得规划过程变得复杂,最终我们真正想要的是某种分层操作的方法。
例如,假设我坐在纽约大学的办公室里,想要前往巴黎,我的第一步是乘坐交通工具前往机场,第二步是赶飞机去巴黎。我的第一个目标是去机场,该目标可以分解为两个子目标,第一是到街上打出租去机场,我怎么去街上呢?需要从椅子上站起来走出大楼,而在这之前,我需要调动我身体的肌肉从椅子上站起来,这样我们一直在做分层规划,甚至这种规划是不假思索,下意识进行的。但是我们现在的AI系统是无法自发学做到这一点的。我们需要的是一个能够学习世界状态的系统,这将使它们能够将复杂的任务分解成更简单层次的任务。我认为这对于人工智能研究来说是一个巨大的挑战。
我们今天看到的LLMs模型将在3~5年内消失,会出现新的可以做分层计划,也能做推理的模型,使用命令让答案转换为流畅的文本。这样我们就会得到既流畅又真实的东西。做这件事可能会失败,但我认为这应该是要去努力的方向。
如果我们有这样的系统,除了训练成本模型之外,我们将不需要任何的RHF或人类反馈,也不需要在全球范围内对系统进行微调以确保安全,只需要设定一个目标,使其产生的所有输出都是安全的,我们不需要为此重新训练整个编码器和所有内容,这实际上会大大简化训练,降低训练的成本。
当我们观察婴儿时,会发现婴儿出生后的几个月中主要是通过观察来获取对这个世界的背景认识,当他们可以实际对世界采取行动时,才会一点点通过互动获取知识。他们学习的大多是直观的物理知识,比如重力惯性、动量守恒等,婴儿需要大约9个月的时间才能真正明白,不受支撑的物体会掉落。显然他们不会像LLMs那样需要1万亿代币来训练他们,人类不会接触到那么多的文本信息。任何10岁的孩子都可以学会在几分钟内清理餐桌,但我们没有可以做到这一点的机器人。有些事情对人类来说似乎很容易,但对于AI来说却很困难,反之亦然,AI在许多专有任务上都比人类强得多。
我们还没有找到机器能够像人类那样理解世界的机制。而解决这个问题的方法,就是自监督学习,通过这种方式来填补空白。如果我们训练一个神经网络来进行视频预测,可以看到系统生成的预测非常模糊,这是因为系统经过训练只能进行一次预测,并且无法准确预测视频中将要发生的情况。它预测了一种模糊的混乱,这是所有未来可能发生结果的平均值。如果你使用类似的系统来预测自然视频,效果是一样的,都是一些模糊的预测。因此我们的解决方案是联合预测嵌入架构(JEPA),JEPA背后的主要思想是放弃预测需要生成的想法。现在最流行的就是生成式AI,但我认为应该放弃它,这已经不是一个很流行的解决方案了。
生成式模型是一种输入x来假设视频或者文本的初始片段,通过编码器和预测器运行它,然后尝试预测变量y。而衡量系统性能的误差基本上是预测y和实际y之间的某种差异度量。联合预测嵌入架构,不会尝试预测y,而是预测y的表示,因此x和y都会通过计算表示的编码器,然后你执行表示空间中的预测。这样做的优点是y的编码器可能具有不变的属性,可以将多种方式映射到同一个结果中。因此如果有难以预测的事情,编码器可能会消除这种难预测的点,从而使预测问题变得更容易。例如,假设你正在路上开着一辆自动驾驶汽车,这里的预测模型想要预测道路上其他汽车将要做什么。但路边可能有树,今天有风,所以树上的叶子正在以某种混乱的方式移动。树后面有一个池塘,池塘上也因为风的缘故泛起了涟漪。这些涟漪和树叶的运动就很难预测,因为它们很混乱,但这些信息也非常丰富,可能就蕴藏着我们想要的答案。因此如果你使用该生成模型预测的话,就不得不投入大量资源来尝试所有与任务有关的细节预测,成本就比较高。而JEPA可以选择从场景中消除这些细节,只保留相对容易预测的y细节,例如其他汽车的运动,这样对结果的预测就简单多了。当然,如果你想使用生成式模型也是可以的,但如果你想要的是了解世界然后能够进行规划,就需要一个联合预测嵌入架构了。
我们如何训练这样的系统
实验证明,想在图像而不是文本的上下文中使用自监督学习,唯一有效的就是联合预测嵌入架构。如果你训练一个系统,给它一对图像,比方说x和y或视频片段,然后告诉它计算x和y相同的表示,系统就会崩溃,它将产生恒定的sx和sy,然后完全忽略x和y。该如何纠正这个问题?必须将自己置于基于能量的模型背景下,基于能量的学习可以被看作是预测、分类或决策任务的概率估计的替代方法。基于能量的模型不需要根据概率建模来解释它们的作用,而是根据捕获变量之间依赖性的能量函数来解释。假设你的数据集有两个变量x和y,基于能量的模型捕获x和y之间的依赖关系的方式是计算一个能量函数,这是一个具有标量输出的隐式函数,它将x和y作为输入,并为其提供一个数据密度更高的区域。如果你具有这个能量景观的函数,可以计算这个能量景观,那么该函数将捕获x和y之间的依赖关系,你可以从y推断x,在不是函数的x和y之间进行映射,有多个与单个x兼容的y,所以它可捕获多模态。
我们如何训练这样的系统?有两类方法:
一是对比方法。更改能量函数的参数,以便能量在数据点上取较低的值,与在那些对比点上取较高的值进行比对。早在20世纪90年代初,我就为这个方法的诞生作出了贡献,但我现在不喜欢它了,因为在高维空间中,为了使能量函数呈现正确的形状,必须保证生成对比点的数量呈指数增长。
这可不是什么好事,所以我更喜欢另一种方法,正则化方法,通过某种正则化器最小化可以吸收低能量的空间体积,以便系统可以通过改变能量函数的参数,使数据点的能量变低。这样数据点会被收缩包裹在低能量区域,更有效率一些。问题是我们如何做到这一点,这就需要放弃生成式AI模型、概率模型、对比方法、强化学习,因为它们的效率都太低了。有一种新的方法是VICReg(Variance-Invariance-Covariance Regularization,一种自监督学习方式)。这是一种通用的方法,可以应用于图像识别、分割等各种应用的联合预测嵌入架构情况,效果非常好,不会让你厌烦细节,可以使用自监督学习方法来预训练卷积网络,然后砍掉扩展器,粘上一个线性分类器,对其进行训练、监督并测量性能。通过这种方式,可以在ImageNet上获得非常好的性能,特别是对于分布外学习和迁移学习来说,性能尤其好。这种方法有一个修改版,名为VICRegL,去年在NeurIPS上发布。
几周前,我们在CVPR(IEEE国际计算机视觉与模式识别会议)上推出了一种名为Image JEPA(计算机视觉模型)的新方法,它使用掩蔽和转换器架构来学习图像中的特征。这种方法的优点除了屏蔽之外,不需要任何数据增强。因此,它不需要真正知道你正在操作的数据类型,效果非常好。我们巴黎的同事提出了另一套方法,称之为DINO(自监督学习方法之一),它在ImageNet上为人们提供了超过80%的结果,它完全受监督,没有微调,也没有任何数据增强,这是相当惊人的。
最终,我们想要做的是使用自监督学习和JEPA架构来构建之前提到的那种可以预测世界和进行计划推理的系统,这些系统是分层的,可以预测世界上将要发生的事情。通过视频训练系统的一些早期结果,通过对视频中的连续帧和扭曲图像进行训练来学习图像和视频的良好表示。
目标驱动是指我们将制定能够驱动系统行为的目标,使其耐用且安全。为了让它发挥作用,我们正在努力做一些事情,从视频中进行自监督学习。我们正在使用这些JEPA架构,但我们还没有最终的配方。我们可以用它来构建由目标驱动的推理和计划的LLMs,希望可以构建出能够分层规划的学习系统,就像动物和人类一样。我们还有很多问题需要解决,用正则化、潜变量来处理不确定性的JEPA、存在不确定性时的规划算法、用逆强化学习来模拟的学习成本模块……
我们仍然缺少达到人类水平人工智能的基本概念,我们缺少从视频等复杂模式中学习感知模型的基本技术。也许在未来,我们能够构建可以规划答案以满足目标的系统。我不认为存在通用人工智能这样的概念,人工智能是非常专业的。所以让我们努力去尝试创造达到人类水平的智能,建造具有与人类相同技能和学习能力的人工智能。毫无疑问,在未来某个时刻,机器将在人类智能的所有领域超越人类。我们可能不想受到这种威胁,但每个人都将得到比我们更智能的系统的帮助。不用担心,人工智能不会脱离我们的控制,就像我们大脑的新皮质无法逃脱我们基底神经节的控制一样。