今天,我们就有一个特别的嘉宾——艾莉亚·苏斯克维(Ilya Sutskever)。他创立了 OpenAI 的机器学习小组,并与杰弗里·辛顿共事,后来又在斯坦福大学与安德鲁·安格合作,参与了 DNN 研究,曾在 Google Brain 担任研究科学家,最后共同创立了 OpenAI。引用数量并不是一切,但它们确实能反映其工作的影响力。他近五年的研究成果已被引用超过46000次,是深度学习和人工智能领域更具突破性理念的重要贡献者之一。请热烈欢迎艾莉亚!
好的,感谢你的介绍,雷克斯。感谢你来参加我的演讲。我将向你们介绍我们在过去一年内在 OpenAI 对元学习和自我对抗方面的研究成果。在深入探讨这项工作的技术细节之前,我想花一点时间谈谈深度学习为什么能工作,而且我认为这并不是一个显而易见的事实。
有一个事实是,数学定理证明了你找到的最短程序能够很好地处理你的数据,那么你就能够实现最好的泛化效果。只要稍作修改,这就可以转化为精确的定理。从直觉上来看,这是合理的。如果你有一些数据并且能够找到一个更短的程序来生成这些数据,那么你就已经将所有可能的规律性从数据中提取到了你的程序中。然后,你可以使用这个对象进行最佳预测。例如,如果你的数据非常复杂,但是无法用更短的程序来表达,这意味着数据完全是随机的,从中不可能提取出任何规律性。关于这一点,目前知道的数学理论并不多,证明这些陈述本身并不困难。但这里有一小点小小的令人失望的地方:至少在今天的技术和理解水平下,找到最佳短程序——能够解释或解决给定问题的程序——仍然不可能。
这个问题在计算上是不可行的。所有程序的空间都非常讨厌。你的程序稍微改变一点点,程序的行为就会发生巨大的变化。这使得我们在拥有循环的情况下,修改循环内部的内容得到完全不同结果。程序的空间非常难以处理,至少在我们今天的认知水平上,搜索似乎是完全不可行的。
好吧,如果我们放弃寻找最短的程序,那我们来看看小型电路怎么样?事实证明,我们很幸运。当涉及到小型电路时,我们可以使用反向传播找到能解决问题的最佳小型电路。这便是人工智能的基础,即当你限制电路,并使用数据来限制电路时,你可以找到一种方法来满足这些限制,使用反向传播,通过迭代改变神经网络权重来逐次满足这些数据。这意味着反向传播所解决的计算问题极其深远,即电路搜索。我们知道这个问题总是可以解决的,但在某些时候可以解决,尤其是在我们有实用数据集的时候。
很容易为数据精心设计一个无法找到最佳神经网络的人工数据集,但在实际操作中似乎并不会有太大问题。例如,你可以把训练神经网络看作是在解决神经方程在大量方程参数的情况下,比如f(x, θ)= y,你可以有一系列参数,它们代表所有自由度,使用梯度下降法在参数中传递这些方程的信息,以便满足所有方程。
可以想象,一个具有50层的神经网络基本上是一个并行计算机,在运行过程中有50个时间步骤,而50个时间步骤内一个非常强大的并行计算机可以完成很多事情。
例如,我们认为使用一个仅有两层隐藏层的中等规模神经网络可以学习对n位数字进行排序,这并不差。排序并非显而易见,特别是当我们被告知排序需要对数级并行步骤时。使用神经网络,你可以在两个并行步骤内成功进行排序,这有点奇怪。实际上,这些是阈值神经元的并行步骤,所以它们需要做更多的工作,但如果你有50这样的层,你可以在神经网络内部执行相当多的逻辑和推理。这就是为什么它能起作用的原因。
给定数据,我们能够找到最佳的神经网络,而且因为神经网络是深层的,因为它可以在其层次中运行计算,寻找最佳神经网络是值得的,因为你确实需要它。你需要一个值得优化的模型类,但同时也需要它是可优化的。深层神经网络同时满足这两个约束条件,这就是为什么一切都能顺利进行的原因。这就是其他一切的基础。
现在我想谈谈强化学习。强化学习是一种框架,它评估代理在复杂随机环境中的目标实现能力。你有一个代理插入到环境中。对于任何一个给定的代理,你可以简单地多次运行它并计算其平均奖励。
强化学习框架的一个有趣之处在于存在一些有趣且有用的强化学习算法。这种框架已经存在很长时间了,当意识到存在很好的算法时变得有趣起来。虽然这些算法并不完美,但足够好以至于可以做有趣的事情。数学问题在于你需要最大化预期奖励。
现在,强化学习框架的一个非常重要但并不完善的地方在于它假设奖励是由环境给出的。
你看这张图吗?代理做的动作,然后环境返回奖励和观察。观察和奖励是相反的,这就是环境所传达的信息。在现实世界中,我们通过观察来推断奖励,而环境不会告诉我们“给你一些负面奖励”。这是我们对感官进行解释才判定奖励的。生活中唯一真实且唯一的奖励是存在或不存在。其他的都是这种奖励的衍生。
那么这个框架中应该是什么呢?答案很清楚,应该是神经网络。你想要做到的事情会是一个神经网络,而且你想让代理将观测映射到动作,所以你让其用神经网络参数化,并应用学习算法。现在,我将向你解释强化学习是如何工作的。
这是强化学习中的无模型框架,即在实际操作中广泛使用的框架。但是它也非常坚固和简单,而不是非常高效。它是这样运作的。下面句话就是这一过程的解释:尝试一些新事物,增加动作中的随机性,然后将其结果与预期进行比较。如果你的结果出乎意料,如果你发现结果超出了预期,那么就调整参数以在将来采取那些动作。就只是这样,这就是强化学习的全部理念。尝试一下,看看效果如何,如果效果好,那么在未来就多做些这类事情。就是这样。这是核心理念。现在,尽管数学化很简单,但这确实是发生了什么。在神经网络中,一个普通神经网络比如这样,你可能会说:好,目标是什么?运行神经网络,你会得到一个答案,然后将其与预期的答案进行比较,然后根据两者的差异发送回改变神经网络的信号。这就是监督学习。
但在强化学习中,你运行神经网络,然后稍微添加一点随机性到动作中。然后如果结果你喜欢,随机性就变成了你所期望的目标,换句话说,就是这样,非常简单。在这个过程中不用解释这些方程的含义,重点不仅仅在于推导它们,而是展示它们的存在即可。
强化学习有两种主要的算法类别。一种是政策梯度(Policy Gradient),其基本做法是从预期的奖励总和表达式开始,通过计算导数一步步地推导。展开项,运行一些代数运算,得到导数,奇迹般地,导数具有精确的形式。正如我之前所说,尝试一些动作,如果喜欢这些动作,增加这些动作的概率,这一点从数学上完全逻辑自洽。只要熟悉,这就是最上面那个方程。
另一种是基于贴现(Q Learning)的强化学习算法,属于一类更难解释的算法,属于基于查询学习(Curiosity-Based)的算法,稳定性稍差,但样本效率更高。它还可以从不仅仅是生成的数据,而是任何其他数据中学习。因此,其鲁棒性不同,这一点非常重要,但它只是一个技术细节。所以,如果你发现困难,不需要担心。如果你已经了解了这些,那么你就已经了解了。
那么强化学习的潜力、承诺和为什么我们应该对其感到兴奋是什么?
当今的强化学习算法已经非常有用和有趣,特别是如果你有一个非常真实的世界上模拟,你就可以训练能做许多有趣事情的代理。但真正令人兴奋的是,如果可以构建一个超级高效的样本增强学习算法,给出少量数据,算法就能穿透它,提取出其中的所有熵,以最快的方式学习。如今,我们的算法数据效率不高且数据耗尽。但随着我们领域的不断进步,这将改变。
接下来,我想深入探讨元学习的主题。元学习的目标是什么?元学习是一个美丽的想法,它虽然并不总是完美地奏效,但很有前景。这又是另一个有前景的想法。那么梦寐以求的是什么呢?我们有一些学习算法,也许你可以使用这些学习算法来学会学习。这会很好吗?如何做呢?你可以训练一个系统,在不针对单一任务,而是针对多个任务进行训练。然后询问它是否能够快速解决这些任务。实际上,这可能已经足够。我们来看看它是如何运作的。
典型的传统元学习就像这样去看的。你有一个模型,这是一大堆神经网络,但事实上,你做的并不是用训练案例来做训练任务,而是把多个训练任务作为输入,此时,测试案例不再只是一个当前任务,而是测试任务的所有信息加上该测试案例。你将尝试输出对该测试案例的预测结果。所以基本上这是说,我会把你的10个例子作为模型输入的一部分。想想如何充分利用这些信息。这是一个非常直接的想法。
你通过将训练任务转换为训练案例,将神经网络转化为学习算法。所以训练任务等于训练案例,这就是全部。近年来,有一些非常有趣的成功案例,我认为这些案例非常有趣。
元学习的一个成功案例是对手写字符的快速识别。这有一组由麻省理工学院、李克和罗制作的数据集。数据集中包含大量不同的手写字符,人们已经训练出非常强大的元学习系统,专为此任务打造。
另一个非常成功的元学习案例是神经架构搜索,由来自谷歌的研究人员提出,他们发现了一个可以解决较小问题的神经架构,并且能够很好地进行泛化,然后能够成功解决大型问题。这就是所谓的相对较小的改进空间。元学习可以将你学会的架构甚至学会的程序应用于新的任务。这是一个不同的元学习方式。但关键是发生了什么?
其实,在大多数元学习情况下,你将训练任务转换为训练案例,伪装成一切正常。正常的深度学习,就是这样。这就是元学习的全部。其他一切都是一些细节。
接下来,我要更深入地探讨。因此,在我完成了介绍部分后,我想开始讨论来自 OpenAI 的不同人的不同工作,并且我将从回溯经验回放开始讨论。
这是一项由恩里科·威尔亚开发的,一个在强化学习中不需要解决单一任务,而是解决多个任务的算法,并且更有效率地利用其经验。我想讨论强化学习中的一个问题。事实上,这是一个相关的一系列问题。但是,你必须学会的是探索。你开始在一个环境中,完全不知道该怎么办。所以,非常重要的是,你需要时不时地获得奖励。如果你尝试某些事情却没有得到奖励,你将如何学习?所以这就是问题的关键。
你如何学习?相关地,你是否有方式能有意义地从你试图完成的尝试、失败中受益?如果你尝试实现目标但失败,你仍然可以从中学习吗?
与其要求你的算法实现一个单一的目标,不如学习一个策略,能够实现一个非常广泛的目标家族。例如,不再到达一个状态,而是想要一个策略,能够到达系统中的每一个状态。这意味着是什么?每次你做某事,你就会到达某个状态。所以我们假设说,我想实现状态A,尽我所能,结果我实现了状态B,我可以得出结论,这虽然令人失望,但还是学到了什么。我仍然完全不知道如何实现状态A,但也可以这么认为,等一下,我已经达到了一个非常不错的状态B,我能从尝试实现状态A中学到如何实现状态B?答案是肯定的,你可以,并且这确实可以成功。我只是想指出这是其中的一个案例。这里有一个很小的细微之处,对那些非常熟悉在线和离线学习区分的人来说,当你为实现A做在线学习时,但为实现B做离线学习时,因为他们到达B所采取的动作不同,所以非常重要的就是你使用的算法能够支持离线学习,但这只是一个小的技术细节。
这一想法的核心在于,通过看似使问题更复杂的方式来训练,增加问题难度,训练一个系统,该系统力求达到并学习每一个状态、每一种目标,学习掌握环境。总而言之,你建立一个总能学到一些东西的系统,它从成功和失败中学习,因为如果你试图做一件事但从做别的事,那么现在它就具有了关于如何实现别的事的训练数据。我将向你们展示一段视频,看看实际运作情况如何。
强化学习系统的一个挑战是对奖励的设计,这意味着开始于这个系统,在学习初期,系统知之甚少,几乎不可能实现你的目标。因此,重要的是,你需要设计奖励函数,以逐步增加奖励使其平滑和连续,即使系统尚未达到非常高的水平,它也能实现目标。
现在,如果你给系统一个非常稀疏的奖励,仅在达到最终状态时才获得奖励,通常对普通强化学习算法来说,解决问题是相当困难的,因为通常情况下,你从未获得过奖励,因此从未学习到任何东西。没有奖励就没有学习。但在这里,因为你从失败和成功中都能学到东西,所以这个问题不会发生。因此,这是非常棒的。
我想再让我们看一看视频,你的绿色小球鞭子自信且充满活力地向目标移动。另一个例子也是如此。
所以在物理机器人上做也可以,但我们暂时跳过这个话题。我认为的主要观点是,回溯经验回放算法方向是正确的,因为它希望充分利用所有数据,而不是仅仅一小部分。现在,一个巨大的问题是,你从哪里得到高层状态?高层次状态是从哪里来的?因为在之前你看到的工作中,系统被要求实现低级状态。我认为,对于这类方法来说,表示学习和无监督学习变得非常重要。找出哪些是正确的状态,哪些是值得实现的目标状态空间。
现在我想展示一些实际的元学习结果,并向你展示使用元学习从模拟到物理机器人进行模拟仿真的一种非常简单的方式。这是一项由普拉沃涅安2017年的出色互联网项目。我认为我们可以一致同意,如果在机器人学领域,能够在模拟环境中训练策略,然后某种方式的知识能被转移到物理机器人上,效果会很好。
现在我们是可以构建一些可以实现的模拟器,但它们永远无法完美地匹配现实世界,除非用异常缓慢的模拟器。原因在于,模拟接触是超级难的。我你的仿真和现实世界之间总会有些微的差异。我们如何解决这个问题?我将向你们展示一个非常简单的想法。
我们假设,如果你想学习的策略能够迅速适应现实世界,那么如果你想要学习能够快速适应的策略,就必须确保它在训练期间有很多机会去适应。那么你如何做?
与其仅仅在一个模拟器中解决问题,我们增加模拟器的高度变化。我们说将摩擦随机化,所以我们将随机化物体的质量、长度及其维度,你试着随机化物理模拟的不同方式进行模拟,然后至关重要的是,你不告诉策略你如何随机化它。那么策略会怎么办?然后你将你的策略放入环境中并说:哇,这真难,我不知道质量是多少,也不清楚摩擦是多少,我需要尝试不同的形式,并在从环境接收反馈时确定摩擦。所以你可以构建它,并将一定程度的适应性融入策略,实际上效果良好。
我只想向你们展示一下,当你仅在模拟器中训练策略并将其部署到物理机器人上的情况。目标是将冰球推向红色标记,你将看到它是怎样挣扎的。
它之所以挣扎是因为模拟器和真实物理机器人之间的系统差异。即使是基本的移动也无法给策略带来什么,因为假设被彻底违反了。如我之前所说,我们训练了一个循环神经网络策略,使其快速地推演出关于模拟器的特性,以便完成任务。然后你可以将真实的物理过程给予它,它将表现更好。
这并不是完美的技术,但确实非常有前景,当你能够充分随机化模拟器时。所以看到闭环性质的策略是一项非常不错的工作,你可以看到它推动了冰球并且非常温和地调整它,使其达到目标。你看到了。真棒。这是一项元学习非常酷的应用。
我还想讨论元学习的另一个应用,那就是学习一系列动作的层次结构。这是一项弗兰·卡卢实际完成的工作,他是在中学时完成这项工作的。
如果强化学习成为层次结构的就会更好。如果不仅仅是简单地采取微小的动作,而且有一些可以部署的小子程序。或许“子程序”这个术语有点粗糙,但如果知道从哪种动作原语开始,现在还没人从实际方面获得层次强化学习的真正价值增加。
迄今为止,所有真正令人兴奋和说服力的强化学习结果都没有使用它。这因为我们还不够清楚如何让强化学习实际上获得层次效应。我只是向你们展示了一个使用元学习的非常简单的方法,来学习行动层次结构的一个例子。
这里是你所做的事情。在特定工作中,你拥有大量低层级原语,假设你有十个,你有一个任务分布,并且你的目标是找到一个低层级原语,当它们在一个快速的强化学习算法运行中使用时,可以产生尽可能大的进步。想法是,要获得最大的进步。要找到一个让它在学习过程中结果最大的策略或原语。这是一个元学习的设置,因为你有一个任务分布,这里有一个小迷宫,你有一个迷宫分布。在这种情况下,小虫学到了三种规则,将其移动到一个固定大小。由于有这种层次结构,你可以非常快地解决一些问题,但只有当层次结构正确时才能做到。层次化强化学习仍然处于发展中,而这项工作是一个有趣的证据点。
层次化强化学习可能如何工作的方式。如果它能起作用。现在我只想用一个PPT来讨论高容量方法学习的局限性。
具体的局限性是,训练任务分布必须等于测试任务分布。我认为这是实际的一个限制,因为在现实中,你要学习的新任务在某方面与之前的任何任务都是不相同的。例如,如果你上完学后,学习了这么多有用的东西,但当你去工作后,你会发现只有你学到的一部分内容能被继承下来。你需要从头学习很多东西。而元学习在这方面会遇到困难,因为它真正假定训练数据分布必须等于测试任务分布。这就是问题所在。我认为,随着我们开发出更好的算法,使其在测试任务分布在训练任务分布之外时更具鲁棒性,元学习会工作得更好。
现在我想谈谈自我对抗。我认为自我对抗是一个非常酷的话题,现在才开始得到关注,我想从一个非常旧的作品——TD Gammon开始回顾。它最早追溯到1992年,现在已有26年历史了。它是由吉尔德·德斯罗做的。这项工作真的很棒,因为这项工作现在仍然具有强烈的现实相关性。他们仅仅是取两个神经网络互动,彼此进行背棋玩法,用Q学习来训练它们。这是一种超级现代的方法。
你可能会认为这是一篇2017年的论文,但当你查看这个图表时,你会看到只有一个隐藏单元层有10个单元,第二个有20个,第三个有40个。
现在,我还想稍微谈谈自博弈方法的最终目标。我们知道,人类大脑在过去200万年里经历了一次相当快速的增长。我认为,这是因为我们的祖先到达了一个转折点,生存最重要的因素不再是部落中的地位或与老虎和狮子的竞争。一旦最重要的任务变成了如何处理那些有巨大脑容量的其他生物,增大一些脑容量就会非常有帮助。我认为就发生过这种情况。至少有一篇来自科学界的论文支持这种观点。在某些方面,社会猿类和社会鸟类之间存在趋同进化,尽管从进化的角度看,人类与鸟类的分化时间非常久远。人类、猿类和鸟类的大脑结构也完全不同。
我认为,如果我们成功地沿这条路径前进,创建了一种拥有语言和心智理论、谈判、社交技巧、贸易、经济、政治和社会公正体系的代理社会,那么就应该在多代理环境内部实现所有这些事情。同时,我们还需要解决代理行为与我们期望一致的问题。在此稍作推测,如果认为社会由代理构成的地方是完全通用人工智能可能出现的合理位置,而我们又相信我们的经验(例如在Delta Bo项目中看到的能力迅速增加)一旦细节都对了将会延续下去,那么就会推断出,代理会在整个代理社会中迅速展现出能力的快速增长。
从而我们讨论了如何增强代理的能力,教会代理语言、社交技能等诸多人类的特性。现在,我想稍微谈谈如何向代理传达目标,以及如何将目标传达给代理的问题。这只是一个技术问题,但非常重要,因为训练出的代理最终可能会比我们聪明得多。这方面的研究,比如OpenAI安全团队的PaulC可以用许多方法做到这一点。我只是向大家展示这个视频,它大概解释了这一切是如何工作的。你在寻找某种行为,而你,作为人类,能够看到一系列行为的配对,并简单地点击看起来更优的一个。在点击了少量操作后,这个模拟腿能够完成空翻动作。
这样做成功了,人类注释者约做了500次点击即可完成这个特定行为。
这种方式工作的原理是:你有某种非常数据高效的强化学习算法,但在环境互动方面不够高效。在这里,你利用所有的点击来找到一种奖励函数,最好能够匹配这些点击。然后使用强化学习来优化这个奖励函数。实际上它确实有效。需要大约500字的信息量。
我们还能够使用数千字的信息训练许多Atari游戏。在所有这些情况下,你都有人类注释员或人类评委,比如在之前的图表中,对八个轨迹的配对进行观察,然后点击我认为更好的那个。这里有一个不寻常的目标示范,这是一款赛车游戏,但目标是让代理学会使白色车辆紧随橙色车辆。这是一个不同的目标,用这种方法非常容易传达。为了结束,对齐问题是一个技术问题,需要解决。但当然,确定AI系统应该具备的正确目标将是非常具挑战性的政治问题。
反向传播可以说是神经网络受到生物启发的,但反向传播不是脑部活动的直观模型,因为脑中的信号沿着轴突单向传播,而反向传播需要错误信号反过来传递。那么,可以谈谈大脑在做些看起来不同于高度成功的反向传播算法的事情吗?或者,尽管没有明显的方式,大脑是否真的发送信号?你是如何解释这个问题的?
首先,我想说的是我确实不知道答案,但有我的观点。因此,第一,假设我们都同意这一点,即反向传播确实解决了电路搜索的问题,这是一个非常基础的问题。因此,我认为它不太可能消失。你提到大脑并不明显地进行反向传播,虽然已有多个提出如何实现的提议。例如,Team Lilycrop等人进行的研究表明,如果使用该方法,可以学习一组特殊的连接,用于反向传播,从而实现成功的学习。
这一方法没有被专业人员彻底采用的原因是他们说,我有了梯度求值TF,我就不会去担心这个问题。但是你提到确实是一个重要的问题。你猜猜会发生如下两种情况之一。按我个人的观点,反向传播将一直伴随我们,直到我们完全了解大脑的运作方式,我们才会建立起超越人类水平的系统。这就是我认为的情况。当然,这是必须承认的区别。
你认为Dota bot和那个人之间的对决是否公平,考虑到系统的所有限制?
说老实话,在这种类型的游戏中,最大的优势是计算机有更出色的时间响应。然而,在Dota游戏中,顶级选手在每秒点击次数上相当少,这与星际争霸不同。星际争霸游戏的机械操作性非常强,因为单位众多。顶级选手需要不停地点击。但在Dota中,每个玩家控制一个英雄,因此总的动作次数大大减少。超高的精准度很重要,我们将会发现这一点。但我认为真正会发生的情况是,如果你在任何领域发现计算机具备优势,或者每种领域都如此。
你认为这些代理的出现行为是否是因为限制已经存在,因此使其不得不发现这些行为?还是你认为它们实际上发现了一些颇为新颖的事情,例如,它们真的是自我发现了这些行为?
我可以分享一些测试者的实例。我们有一个测试器,可以测试bot,他与bot进行了长时间的对战,后者对玩家进行了各种有效动作。在某个时刻,这位专家决定与另一位更顶级的专家对战,并复制bot执行的某些操作。通过模仿,他战胜了这位顶级玩家。因此我认为,他发现的策略是真实的,这意味着,因为人类和bot发现的策略之间几乎没有趋势。也就是说,人类和bot发现的策略之间密切相关。
在这段时间里,我听说强化学习的目标是为了找出一个策略以最大化预期奖励,就像你说的那样。那么,你是否也考虑过可能的奖励标准差呢?这有意义吗?
我想说,确实取决于应用。最大化预期奖励的一大原因是它的算法设计更容易实现。你写下这个等式,进行一点推导,得到一个好看的样子的算法。确实,相信有一些应用情况下,你需要考虑标准差。但是实际上,仅通过预期奖励解决这种情况可以覆盖大量的情况,也就是你想要应用这种技术的情况。
上周我们讨论了动机,很多与强化学习有关的想法是我们的动机实际上是与他人有关联且合作的。我想知道,虽然很多人认为让计算机玩这些竞争性游戏很流行,但在代理商进行合作游戏方面是否有任何应用?
是的,这确实是个很好的问题。我认为我们可以从合作进化中获得一些启示。我认为合作最终是因为对你这样的个人非常有利。因此,如果有一个足够开放的环境,合作将是取胜策略。我认为无论我们是否愿意,合作最终会发生。
嘿,你提到摩擦的仿真复杂性,我想知道在人工智能领域是否还存在一些有关复杂性的理论问题,还是说只有找到好的近似解才是关键?
复杂性理论,嗯,从最基本的角度,我们知道我们运行的任何算法都会在一些硬件上非常高效运行。这实际上给了我们解决问题的复杂性限制。就是这样定义的,我们在复杂性的理论意义上解决的问题不会太难。很多情况下,我们所做的事情从复杂性理论角度看并不是很困难,的确,人类不能解决所有的问题,但很多我们交给算法的优化问题在通用情况下是不可解的,甚至包括神经网络优化本身。很容易就能创建一个拥有少量神经元的数据集,使得寻找全局优化变得完全不可行。那么我们如何避免这种情况?我们试着用梯度下降完毕,而实际上它确实有效,但毫无疑问,我们并不解决真正不可解的问题。这应该回答你的问题。
我认为在通往AGI的道路上,理解语言将是一项重要的子任务。目前生成语言模型的现状相当糟糕。你认为通往生成大语言模型的最有效研究方向是什么?
我首先说,你完全正确,大语言模型的情况仍然远未达到理想,即使没有特别创新,即使只是将现有模型扩大到更大的数据集,也将会大大地推动这一进程。不只是更大的数据集,而是更大更深的模型。例如,如果你训练一个拥有千层的语言模型,即使它与优化前是同一层,它都将是一个非常卓越的语言模型。我们现在还不具备资源,但预计很快会有这样的变化。
此外,我同意有了一些根深蒂固但阻碍我们真正解决问题的因素,我们当前对深度学习的理解中缺少一些基础。我认为其中一个缺陷或错误在于:我们训练模型后,就不再训练模型,然后将其冻结,尽管训练过程才是真正发生奇迹的时候。训练过程才是整个故事中最具普遍意义的部分,因为你的TensorFlow代码并不关心要优化哪一个数据集,它干脆说,给他们任何一个都行。因此,这个能力感觉非常独特,我认为我们在测试时并没有充分利用,因为对于无法预知的答案来说,很难进行推测,但我只能说,通过训练更完整更深层的语言模型将会大大地推动这一进程,不仅通过放大,而且还通过在测试时间训练、推断和测试时间调整的思路,我认为这将也是非常重要的补充。
你好,非常感谢你的问题,现在的另一个有趣的解决强化学习问题的方法是借鉴进化策略的进化根来源。虽然他们有缺点,我想知道在OpenAI,尤其是你们是否正在从事与之相关的研究,以及你的总体观点是什么?
目前,我认为类似于进化策略并不适合强化学习。我认为普通的强化学习算法,特别是在使用大策略的情况下,更好。但是如果你想进化一个较小的紧凑对象,例如例如一段代码,我认为这会是一个值得考虑的地方。但是进化一块有使用价值的代码是一个很酷的想法,还没有实现,所以我们还有很多工作要做。
你提到正确的目标是一个政治问题。你能详细说明一下吗?此外,我们认为我们采用什么方法可以获得这种目标呢?
我不太确定能发表什么看法,因为我们现在有一些全职思考这个问题的OpenAI人员。我没有足够的强烈观点可以给出明确的意见。我可以说,从宏观角度讲,这涉及到事项的规模。当我们在未来某时修建一台能在几乎所有方面比人类做得更好的计算机,事件就将发生。因为大脑是物理的,对社会的影响将是巨大的和无法避免的。即使你尽力想象,也难以想象。我认为这意味着许多人非常关注。这就是我提到的意思,这将是许多人们非常关注的事情。随着影响的增加,逐渐地,自动驾驶车辆、更多的自动化。我们将会看到更多的人对此非常关注。
我们需要非常精确地模拟物理世界,才能培育出这些可以直接接触真实世界的代理,完成人类级别的智能任务吗?
这确实是一个非常好的问题。我认为如果是这样,我们将遇到麻烦。我相信这是可以避免的。具体来说,正确的回答一定是,首先,你需要学习解决问题,学习谈判,学习坚持不懈,学习很多有关生活的有用教训,当然,你也会学到一些物理学,但是当你进入真实环境时,你必须从头开始,因为你的许多假设都是不真实的。其中一个目标正是我为何如此重视永不停止训练的原因。你积累了知识,现在进入一个环境,其中一些假设得到了验证,你继续训练,尝试将新数据与旧数据连接起来。这是我们算法所必需的重要要求,目前已经有一定程度的实现,但未来必须更加完善,以便你能够利用已有的部分知识,进入新的情况,学习更多,像你去学校学习有用的知识,然后进入工作环境。
这并不是完美,它并不是在你上四年的计算机科学本科期间完全为你做好准备,它只是帮助你开展工作,但确实有帮助,它会让你更容易上手,但仍然有很多新的东西需要学习,这就是它的精神。我将它理解为学校的意义之一。
你在演讲的开头提到这次强化学习方法的一个局限是缺乏自我组织性,所以你需要告诉它它做得好或不好,这是我之前提到的神经科学中确实存在的问题。当你试图训练一只老鼠导航迷宫时,你需要人为地告诉它该做什么。那么我们如何继续前进,考虑到我们已经有这个问题,无论是在学习还是在教学方面?我们在今后的研究中将会怎样前进呢?如何引入自教学的概念?
我认为毫无疑问,你需要能够通过观察来推断其他代理的目标和策略,这是基础技能。我们需要能够在代理中嵌入这样的能力,例如,一个代理在做某事,另一个代理说,那太棒了,我也想做到,然后你去做了。我认为这在策略传播方面是一个非常重要的组成部分。你看他们做了什么,推断出奖励,现在我们有了一个开关,那就是你看他们做了什么,现在尝试去做同样的事情。也就是说,就我所知,这是人类与其它动物的一大区别,这种能力和规模。你可能会问一个快速的补充,这在竞争环境下显然可以理解。
但是,对于一些随机的任务呢?比如说我在数学课上看到有人用某种方式解决了一个特定的问题,他们说,哦,这是一个很好的策略,我也许应该尝试一下,如何在非对比环境中实现这一点呢?我认为这将有别于竞争环境,但它必须以某种方式存在,要么以某种方式被包进系统中,可能是在系统中逐渐进化,如果你有其他代理在做事情,它们在生成你观察到的数据。你唯一能够真正理解你看到的数据的方式就是推断代理的目标、它们的策略和信念状态也很重要,这对于与它们交流也是很重要的。如果你想成功地与某人交流,你必须跟踪他们的目标和信念状态以及他们的知识状态。
我认为人们普遍认识到,理解其他代理的行为、推断其目标、模仿它们以及成功与它们交流之间存在着许多关联。