Nature：智能体涌现出语言 - 科技前沿 - 科技动向 - 美国华裔教授专家网 ScholarsUpdate.com

Nature：智能体涌现出语言

作者：清熙 Tobias Wieczorek ｜ 2024/10/16 21:16:28 ｜浏览：3281 ｜评论：0

概要
神经系统的进化不仅通过内部表征来解决环境挑战，而且在社会限制下，将这些挑战传达给同物种。
在这项工作中，我们旨在了解这些内部表征的结构，以及如何优化它们以将相关信息从一个个体传递到另一个个体。
因此，我们以以前的师生通信协议为基础，分析了个体和共享抽象的形成及其对任务表现的影响。
我们在网格世界迷宫中使用强化学习，其中教师网络将消息传递给学生以提高任务表现。
这个框架允许我们将环境变量与个体和共享表征相关联。
我们在低维表征空间中压缩高维任务信息，以模拟自然语言特征。
与之前的结果一致，我们发现向学生提供教师信息可以提高任务完成率和泛化以前从未见过的任务的能力。
此外，优化消息内容以最大化学生奖励可以改进信息编码，这表明消息空间中的准确表征需要双向输入。
这些结果突出了语言作为智能体之间的常见表征的作用及其对泛化能力的影响。
介绍
在探索生物和人工智能体中的任务表征时，研究传统上强调自我经验和共同回路先验的作用。
有趣的是，共享的神经表征是同种动物之间相似行为的基础。
事实上，共同的收敛抽象对于同一物种或群体的个体之间的交流也是必不可少的。
这种社会压力意味着神经回路可能已经进化来产生内部表征，这些表征不仅对特定个体有用，而且可以最大限度地提高沟通效率，这被认为在认知发展中是必不可少的。
我们认为社会通信对于提供任务高效的表征至关重要，这些表征支撑了合作智能体之间经验的泛化。
上下文和通信改变任务表征的假设可以归因于语言游戏的引入并得到神经活动表征语义层次结构的能力的支持。
这个方向的早期研究集中在允许人工语言进化的条件和限制，以及这种结构与人类交流的相似程度。
随着深度学习的引入，出现了大量将多智能体系统与通信策略相结合的工作。
这包括对多智能体游戏的研究，其中智能体发送和接收离散消息以执行任务、翻译任务，以及通过竞争或合作制定底层策略。
进一步的工作强调了务实方法的重要性、语言涌现中科学模型或应用模型之间的对比和多智能体合作学习。
然而，这些研究更多地关注通信系统的性能结果，而不是检查共享表征的性质。
为了理解环境体验和内部抽象之间的相互作用，我们建立在师生框架的基础上，开发了一种通信协议，允许智能体在解决共同任务的同时进行合作。
我们采用强化学习（RL）框架，以前已用于人工智能体，以生成因智能体而异的经验任务抽象。
使用这个基于 RL 的师生框架，我们可以泛化被认为对语言至关重要的特征，包括“互换性”，个体可以在其中发送和接收消息，“总反馈”，说话人可以听到并在内部监控自己的语音或“生产力”，个体可以创建和理解无限数量的以前未曾表达过的信息。
与以前的工作相比，我们专注于理解隐藏的表征如何在智能体之间共享，以及低维语言空间的结构有什么影响。
我们对三个方面特别感兴趣：智能体如何在内部抽象现实世界的变量，这些抽象如何转化为一种通用的、可共享的语言，以及这些元素的交互。
因此，我们选择了一个非离散语言模型来直接比较大脑过程和现实世界现象的连续性。
通过将执行导航任务的 RL 智能体提供的学习信息馈送到语言模型中，我们调查了自然语言的发展，因为它源于社会和决策过程。
这导致个性化抽象有机地出现，而不是被预定义的，这与监督学习方法形成鲜明对比。
通过分析语言嵌入的结构，我们可以深入了解消息空间中的信息内容及其与支撑任务性能和泛化的神经表征的关系。
此外，它与以前的无监督符号方法不同，从连续语言生成模型中获取线索以及动物通信系统，如 Bee Waggle Dance，它将连续的环境转化为简洁的信息空间，也见于人类语言。
总而言之，我们提出了一个易于处理的框架，用于研究涌现的通信，利用已建立的多智能体语言模型。
我们解开了内部神经表征和消息空间之间的关系，为神经科学和神经人工智能社区贡献了以下三个结果：
•揭示低维嵌入空间中的结构特征，这是提高学生成功和任务泛化所必需的。
•演示在向通信渠道提供反馈以优化学生表现时，如何改变低维嵌入或消息空间的结构以增强信息内容。
•了解如何在研究对称通信中使用隐藏表征，即发送者和接收者可以互换，这是最近凸显的该领域的一个重要挑战。
结果
模型架构
为了研究智能体之间语言的出现，我们定义了两个相互传递信息的智能体：老师和学生。
这两个智能体都被建模为深度神经网络，其中教师网络在 RL 框架中进行训练，学生学习解释教师的指令。
我们使用 RL 是因为我们对分析由个体经验和策略产生的共享和可推广的抽象感兴趣，而不是预先确定的标签。
此外，RL 提供了与神经科学的直观而强大的联系，我们的目标是利用它来深入了解语言涌现的机制和特征。
在我们的设置中，教师智能体被呈现一个任务，该任务可以完全访问其观察和奖励。
经过一定量的培训后，老师将获得足够的信息来表征任务。
教师网络旨在生成任务的状态-动作值函数或 Q 矩阵（Q（s， a）），其中包含状态-动作对的预期返回，因此以无模型和非政策的形式学习。
然后，学生旨在解决相同的任务，但使用来自老师的附加信息，我们将其称为“消息”。
因此，学生必须通过观察和老师的信息来学习并完成任务。
在我们的框架中，我们假设每位教师观察并从单个任务中学习，然后将相关的任务信息（例如，从 Q 矩阵中得出的信息）传递给学生。
通过这种方式，学生可以通过正确解释给定的信息来成功完成他们尚未遇到的任务。
图 1：使用任务解决方案的连续压缩为低维消息向量的师生通信模型。
Nature：智能体涌现出语言

a 模型草图描绘了一个通用学生智能体，该智能体从教师智能体那里接收各种任务的消息。学生学习解码这些消息，然后执行相关任务。
b（上图）代表性导航任务用于训练和测试智能体，以分析社会学习框架。智能体从左下角开始，目标是尽可能少的步骤内到达目标（奖杯），同时避开墙壁（浅蓝色方块）。下图中叠加了教师智能体学习的任务示例策略。学生需要解码其收到的信息的编码版本。消息（mi）可能包含错误的指令或被学生误解（红色方块）。
c 本研究中使用的详细通信架构。在三种方法中，任务信息（在我们的框架中为Q矩阵）首先由教师智能体学习，然后通过稀疏自编码器（语言智能体）传递，生成相关的低维表征mi。当没有学生反馈时（上图），这些表征mi直接提供给学生，学生学习解读它们以解决任务i。在有学生反馈的情况下（中图），我们还允许学生表现的反馈回传到语言训练中，增强消息的实用性。最后的示意图（下图）描绘了“闭环”架构。学生在一组来自专家教师的消息上进行训练。一旦它足够熟练，它的任务信息就会传递给自己（经过使用反馈训练的语言嵌入），并研究其对表现的影响。
架构最关键的组成部分是通信过程。自然语言表征高维概念的低维表征。
当一个个体与另一个体交谈时，发送者大脑中某个概念的高维描述符（例如，时间、位置、形状、上下文）被编码为低维词汇表，该词汇表在接收者大脑中被解码回更高维的分布式表征。
观察到的人类语言表征的语义相关性和低维嵌入空间支持了这一点和大脑活动，这在物种之间是一致的。
为了模拟这种交互，我们引入了稀疏自动编码器（SAE），它从教师那里获取信息并生成一个压缩消息 m，该消息与任务一起传递给学生。
SAE 也是神经网络，由两部分（编码器和解码器）组成，并促进了低维表征的稀疏性。
编码器将教师网络的输出 Q 持续投影到消息 m 上，该消息是长度为 K 的实值向量。
然后，解码器使用此消息来最小化其重建 Q’ 与真实 Q 之间的差异。
此外，受稀疏编码假说的启发，我们假定大脑，因此，引申开来，语言，本质上是促进稀疏性的。
我们通过将消息向量的范数添加到自动编码器损失中来实现这一点，它遵循最小努力的原则来引导我们的人工通信更接近自然语言。
在这里，我们利用了消息向量的 L（1）-NORM ，这会导致消息中增加零，因此模拟稀疏性的信息较少。
一名教师、SAE 和学生对任意任务的组合可以在图 1 中看到。
其中我们描述了三种不同的语言-学生互动协议。
我们注意到，此框架不同于所有智能体和语言都通过一个网络连接的方法。
相反，教师总是单独接受培训以生成相关的任务信息。
然后，我们依次训练语言和学生网络或通过提供关于学生表现的自动编码器反馈来连接语言和学生。
从本质上讲，教师和语言（反馈和非反馈）在概念上通过信息传递过程联系在一起，但不会导致单个神经网络或共享梯度流。
Foerster 等人采用了这种方法的变体。他们研究了“独立 Q 学习”，其中每个智能体都学习自己的网络参数，将其他智能体视为环境的一部分。
在这个框架中，我们研究了网格世界迷宫中的目标导向导航任务。
我们选择这个相对简单的玩具问题让智能体学习，因为它的实现简单明了——使我们能够专注于分析消息结构——它在研究泛化和探索策略方面很有用，以及将框架扩展到更复杂的导航设置的可能性。
我们强调，上述架构并不依赖于智能体必须为其分配含义的预定词汇。
相反，语言是从任务和低维编码自然演变而来的，反映了自然语言的演变。
这项研究的目的有两个：（i）分析由训练语言生成的低维表征的结构（这是我们任务的低维表征），以及（ii）评估已经学会解释来自这个嵌入空间的消息的智能体的表现。
低维消息的结构
我们培训了一组教师来解决一个迷宫任务，每个教师都有特定的目标、位置和墙壁设置。
如上所述，我们使用经过训练的语言将 Q 矩阵嵌入到低维空间中——首先，考虑在没有学生反馈的情况下创建的语言。
由此产生的潜在空间将墙壁位置显示为低维表征中最突出的维度，目标位置是可变性的次要特征。
这种结构在低维 PCA 中通过离散分组表征，根据目标位置，每个分组内的重叠和分层最小。
这一结果直观地源于这样一个事实，即该语言是在没有学生反馈的情况下进行训练的，仅依赖于 Q 矩阵的重建和消息空间的正则化。
因此，为了最稀疏地实现这种重建，出现了一个分层结构：首先，我们区分迷宫，然后，在每个迷宫中，我们区分目标位置。
无论此信息是否对学生有帮助，都会显示此结构。我们注意到，当我们使用线性激活或奇异值分解进行语言编码时，我们没有重现这种清晰的分组。
图 2：学生反馈根据效用函数改变语言嵌入。
Nature：智能体涌现出语言

a 具有 ≤1 壁的 4 × 4 个迷宫中所有可能的任务，从没有学生反馈的语言编码中获得的大小 K = 5 的低维消息的主成分分析（PCA）。i）按主成分解释的方差。ii）-iii）分别描绘了由单墙的位置（灰色是指没有墙的迷宫）和球门位置突出显示的信息。
b 消息编码的结果现在包括通过使用等式（1）作为损失函数获得的学生反馈。i）-iii）描述了与（a）中相同的概念。iv）显示由首选的第一个学生操作（Step Up 或 Right）突出显示的消息。
c 来自示例网格世界的学生反馈的消息的 PCA（在 ii 中描述））。
虽然通过这些维度直接标记任务可能有助于学生解决经过训练的任务，但关于经过训练的任务和泛化的平均表现明显低于学生反馈帮助塑造语言的情况。
此外，这种交互是纯粹单向的，并不反映语言的自然出现，即接收者和发送者之间的来回切换。
因此，我们在消息结构中引入了学生反馈，以鼓励语言的这种自然演变。这种反馈是通过包括并最大化学生在语言培训中找到目标的概率来实现的。这转换为以下形式的复合自动编码器损失函数
Nature：智能体涌现出语言

其中图片由原文“方法”章节中的方程定义，ζ 是一个可优化的超参数。
在学生的每次试用之后，语言都会更新，以（i）保持信息的重建，（ii）促进信息的稀疏性，以及（iii）提高学生收到信息的成功率。
值得注意的是，语言空间的潜在结构通过这个奖励最大化项发生了显著变化。
即使方差分布保持相似, 任务设置不再聚集在潜空间中，而是以墙壁位置标记时形成更连续的梯度。
因此，反馈改变了低维任务表征，以便学生获得更多关于去哪里的信息，即策略，而不是状态空间的实际组成。
我们注意到，在按目标位置标记任务时，集群中间有一些重叠;在这里，策略差异可以忽略不计，因为可能存在两个同等最佳的竞争策略。
这种对策略的关注还因学生初始行动的可变性而得到强化，其中可以观察到右转或向上的两个选项之间的明显分歧。
通过提供此策略标签，语言从提供迷宫标签转向一个可以推广到学生以前从未见过的任务的框架。
表1显示了在没有学生反馈和有学生反馈的两种语言中按墙壁位置和目标位置解释的可变性的变化。
值得注意的是，当引入效用约束时，目标位置组之间的消息可变性会增加，这标志着用语言准确描述目标位置的重要性增加。
表 1 消息空间中世界组和目标组的方差分析
Nature：智能体涌现出语言

这种对策略而不是状态空间的关注似乎独立于我们使用的自动编码器的架构或我们采用的降维技术。
此外，将消息投影到线性解码器的主要维度与无监督表征空间一致。这意味着传递这种表征特征是学生成功的基础。
我们可以扩展此分析以了解单个迷宫的不同目标位置的学生反馈表征，其中超过 80% 的方差由单个主成分解释。
几何结构和行动选择性在嵌入中得到了很好的表征，前者表征语言正在对迷宫的几何形状进行简单的线性转换。
我们提出假设这种信息层次结构有利于整体学习和泛化。我们注意到，这些结果独立于激活函数成立。
语言的一个关键特征是它的组合性，其邻域属性可以测量;例如，组合语言中的相近含义应该映射到附近的消息。
为了测试我们的通信协议在从意义到消息空间的映射中是否包含此功能，我们进行了地形相似性分析，通过将消息空间中的距离（欧几里得距离）与（i）任务标签（即迷宫中的空间差异）和（ii）教师提供给自动编码器的信息（Q 矩阵）进行比较。
标签中的距离计算为目标和墙壁位置之间差异的加权总和。
相比之下，代表基于空间和基于动作的含义的教师 Q 矩阵的距离是使用 Frobenius 范数计算的。
图 3：涌现语言的地形相似性和熵分析
Nature：智能体涌现出语言

a 两个任务（任务 1：实心，任务 2：方格）之间的目标（Δg）和壁（Δw）距离向量的可视化。这些组合用于计算空间任务距离 Δt = ∣∣R（壁）Δw∣∣（2） + ∣∣R（目标）Δg∣∣（2）给（b）。
b， c 相应消息的成对任务含义距离和成对距离的比较。消息和任务距离使用欧几里得范数测量，Q 矩阵距离使用矩阵的等效值 Frobenius 范数测量。条形的中心点和终点分别± 5 种语言的平均值和 1 个标准差。m 是指线性拟合的梯度。
d 通过离散化进行熵分析：对每种数据类型的归一化样本的前两个 PC 进行分箱。然后，针对不同的 bin 大小选择计算熵。在这里，我们描述了每个 PC 方向上 5 个 bin 的离散化示例（bin 边长度沿两个轴相同）。
e 计算每个 PC 离散化的熵表明教师、消息和学生信息携带能力的明确排名。最大可能的熵是所有迷宫任务的均匀分布。
计算出的成对距离如图3所示。消息空间和含义空间显示地形相似性，如线性回归的正斜率参数所示。
以这个斜率作为定量测量，我们还发现，与没有反馈的语言相比，使用反馈训练的语言显示出更高程度的地形相似性（以及组合性）。
涌现的（离散）通信的另一个特性是它倾向于最小化熵，即对通信效率的普遍压力。
为了了解这种效果是否在我们的框架中再现，我们使用香农熵进行了信息论分析，以测量我们信息的信息携带能力。
由于 Shannon 熵仅限于采用离散值的随机变量，并且我们的消息来自连续的嵌入空间，因此我们将消息投影到一组 bin 上，然后计算该离散分布的熵。
为了可视化目的，我们只显示了前两个 PC，并沿两个 PC 轴使用相同的因子对分布进行了归一化，以便将样本限制为 [-1， 1]（2）。
虽然这意味着忽略了一些信息，但可以直接比较任务的熵（最大熵值）、教师输出、消息和学生输出。
我们计算了各种 bin 宽度的熵，以验证我们的发现是否与我们选择的 bin 大小无关。
我们发现，当通过通信框架时，熵会减小，即教师输出的熵最高，其次是消息的熵，最后是学生输出的熵。
此结果很直观，因为在每个阶段，信息在通过智能体/网络时都会丢失。
尽管如此，当将自动编码器提供学生表现反馈的框架与没有反馈的框架进行比较时，我们会看到保留了更多信息。
这意味着双向性对于语言传递有用信息的能力至关重要。
此外，我们确认了语言存在尽可能简单的压力，并且随着我们增加通信通道的离散性，这种压力会被放大。
我们通过从自动编码器训练中去除重建损失来模拟这种情况，以便自动编码器损失仅包括稀疏性提升和学生表现反馈。
这放大了 auto-encoder 的压力，以生成稀疏消息空间。我们发现消息和学生输出的熵明显低于重建损失的情况。
此外，消息和学生输出的熵值没有显著差异，这意味着消息和学生输出已经塌缩到具有类似信息承载能力的分布上。
有趣的是，添加学生反馈减少了消息空间的整体重建误差。这可能表明，教师 Q 矩阵的重建受益于包括由效用和传递性标准指导的特征。
然而，这是以较低的稀疏性为代价的，反映了自然语言的效果：交流旨在传递最稀疏的信息，允许对基本思想进行最佳重建。
总体而言，这三个项目在反馈和非反馈方面都实现了相似的复合损失水平。
图 4：基于奖励的学生反馈增强了性能、泛化性和自动编码器重建。
Nature：智能体涌现出语言

复合自动编码器训练损失的组成部分，有和没有学生反馈;（a）重建损失，（b）稀疏性损失，以及（c） SAE 损失，当包括学生反馈时，还包括目标发现损失。
d 显示了差异图片，这突出了学生反馈自动编码器实现了较低的重建损失。e-h 学生在训练和测试迷宫任务中的表现。
将收到正确消息的知情学生、收到与随机任务对应的消息的误导学生与两个随机步行者（其中一个从不撞墙（智能随机步行者））进行比较。
进一步评估了七组经过训练的目标位置 i） -vii）的性能，在（e）的插图中显示为绿色方块。在 4 个面板中，条形代表 SEM ±平均任务性能。在（e）中，测量了经过训练的目标位置和具有 0 或 1 墙壁状态的经过训练的迷宫的性能。
F 显示墙状态为 0 或 1 的迷宫的 Unknown Goal Locations（未知目标位置）（白色）的求解率。g、h 分别描述了具有已训练目标位置和未知目标位置的新迷宫（2 个墙状态）的求解率。
每种情况的误差线是指不同语言的差异（每种情况训练了 5 种语言）。指 P < 0.05，其中 P 是使用双侧和单侧 t 检验（使用 Bonferroni 校正因子计算多个检验）分别针对知情与误导和智能随机游走器获得的。
信息对学生成绩的影响
为了测试学生的表现和泛化能力，我们使用了来自掌握零或一壁状态迷宫的教师的信息，并在目标位置的模式子集上训练学生。
我们将任务解决率定义为在 2秒内实现的目标的百分比（选择）steps，其中 s（选择）对应于从起点到终点的最短路径。
在这些术语下，我们可以观察到学生在评估训练后的目标集时对被误导的学生（给出错误的信息）和随机游走者（其中一个避开墙壁）的表现有所提高。
我们注意到，即使在这种情况下，这个被误导的学生的表现也略高于随机游走者，我们假设这是因为我们观察到所有消息的初始动作偏好，这使得被误导的学生能够避开外墙。
为了确定是否实现了消息中目标位置的泛化，我们测试了学生在未知目标上的表现。我们观察到，在棋盘模式下实现了最佳泛化。
然而，其他四种情况的性能与随机游走器的表现没有显著差异。
这意味着当任务空间的大部分是未知的，并且不可能在已知任务之间进行插值时，泛化是困难的。
在较远的目标位置进行训练会带来略好的表现，但这也可能是由于避墙操作首选项。
在这方面，当添加新的墙位置时，整体性能会降低，但保留了相对于其他智能体的改进。
这些结果突出了低维表征的目标导向结构对这些任务的重要性，并加强了学生反馈实现的改变语言的好处。
与之前的观察结果一致，编码消息的主要特征是策略和目标位置。
因此，当智能体尝试解决目标未知的迷宫时，它的表现明显变差。
只有当学生接受棋盘格模式的训练时，才能避免这种行为，这意味着它已经看到了整个迷宫，并且可以使用所提供的信息和自己的经验来弥补信息的缺失。
换句话说，新任务必须与语言框架中的其他任务组合，通信才能成功。
我们注意到，上述结果来自于学生反馈生成的语言，即帮助学生直接了解学生参数的表征。
为了确定这种语言对没有直接参与语言培训的学生是否有用，我们研究了接受培训在没有反馈的情况下解释“冻结”语言的新颖学生的表现并带有反馈。
我们注意到，前一种方法将框架的所有组件（教师、语言、学生）视为单独的网络，并且没有梯度信息通过语言通道传播回去。
我们看到，在这两种情况下，学生在许多任务上都表现良好，并且可以推广到未知的场景。
但是，受过训练来解释冻结反馈语言的学生在所有场景中都表现得更好（并且优于智能助行器）。
这意味着初始反馈是生成其他新学生可以使用的有用语言功能的基础。
闭环
由于自然语言通常不限于发送者和接收者，而是两个智能体之间的强大交换（即“可互换性”），我们的最终分析与研究学生通过语言编码获得的任务信息传递获得一组新消息的效果有关。
我们不是仅仅依赖一组教师执行单个任务并传递压缩信息，而是允许学生在执行并学习任务后使用教师的信息自己生成消息。
然后将这些学生消息传回给他们自己，并评估他们对这些消息的表现。
描述这种结构的示意图可以在图 1 中看到。
因此，我们尝试创建一个简单的通才智能体，通过我们保持固定的相同语言编码来提供信息。
这种交流过程自然会侵蚀信息，导致与儿童游戏“电话”相提并论。在那种情况下，通常会研究哪些信息对通信侵蚀具有鲁棒性。
我们也可以使用这个类比来识别在智能体之间更容易传播的信息类型。
首先，我们可以观察到信息内容的退化。
值得注意的是，学生生成的任务信息的低维形式意味着学生消息之间的差异主要集中在一个维度上，该维度可以通过目标位置和初始动作来识别。
这与以前的发现形成鲜明对比，即教师的信息空间不是由一个主要成分主导的，可变性也对应于墙壁的排列。
然后我们转向学生的任务完成率。在这里，知情和被误导的学生都会收到消息，这些消息是通过对学生在向教师提供消息时学到的任务信息进行编码而得到的。
向被告知的学生提供与当前任务相对应的编码消息，而向被告知的学生提供来自随机任务的消息。
从性能的角度来看，我们注意到消息内容的降级转化为较低的任务解决率。即使考虑经过训练的目标位置，也可以看到这种减少。
尽管如此，学生的表现优于被误导的智能体，这意味着传递的降级消息包含足够的信息来避开墙壁并找到目标状态。
图 5：对学生的任务信息进行编码，而不是教师的任务信息，并将其传递给学生，会导致任务性能降低。尽管如此，一些对学生有益的任务相关信息仍然存在。
Nature：智能体涌现出语言

a 学生消息（由学生任务信息产生的编码消息）上的 PCA：i）显示 PC 解释的差异。ii）-iv）分别描述由墙壁位置、目标位置和学生初始行动概率标记的学生信息。
b-e 将知情学生在训练和测试迷宫任务中的表现与被误导的学生和两个随机游走者进行比较。
再次对七组经过训练的目标位置（i）-（vii）进行比较。在四个面板中，条形代表 SEM ±平均任务绩效。每个面板的相关任务与图 4 相同。
对于（b-e），最初训练和评估了 25 种语言，但排除了一个子集。指 P < 0。05，其中 P 是使用双侧和单侧 t 检验（使用 Bonferroni 校正因子解释多个检验）分别针对知情与误导和智能随机游走器获得的。
表 2 消息空间中世界组和目标组的方差分析
Nature：智能体涌现出语言

鉴于由低维表征产生的信息的关键特征是目标位置和初始动作特征，因此，只要目标已知，知情的学生在以前从未见过的迷宫任务中表现良好也就不足为奇了。
当考虑学生在未知目标上的表现时，对于两个训练过和未经训练的目标位置，我们注意到，在大多数情况下，知情的学生的表现最多与智能随机游走者相当。
这表明该消息对学生有不利影响。它不能推广到它没有看到的目标，因为所提供的信息不允许它构建任务的适当表征。
最后，即使降级的消息不包含有关世界配置的重要信息，我们假设与未知世界相比，它足以在已知世界中产生最低限度的更好性能。
我们得出的结论是，学生输出保留了相关的任务信息，即使成绩下降，也可以提高其他学生的表现。
这可以从知情学生的解决率中看出。它们总是高于被误导的学生的 ID，因此我们可以假设学生可以使用降级消息中的相关信息。
然而，在这个框架下，即使学生之前取得了很高的成功率，对未知目标的泛化也就失去了。
尽管如此，这些结果代表了分析与通才智能体的任务驱动通信的早期尝试。
值得注意的是，一个关键方面是如何在多任务和多智能体系统中实现辅导和学习之间的折衷或平衡，以保持相关和可推广的消息空间。
换句话说，跨任务的相关特征可以通过智能体的个体体验生成的集中嵌入来捕获，类似于生物智能体的行为方式。
讨论
任务相关的表征，要么在大脑中作为语言系统的一部分，要么在人工智能体中，应该是可以泛化的。
人类利用这种泛化性来执行新的任务或与他们以前可能遇到的任务略有不同的任务。
例如，在学习骑自行车时，当一个体切换到不同的自行车甚至另一种交通方式（如踏板车或摩托车）时，不需要重新学习平衡和协调的所有原则。
同样，面临 out-of-distribution 任务的人工智能体可能需要利用其内部表征及其泛化性来成功完成它。
然而，社会主体如何调和他们自身经验中的抽象与通过交流获得的东西仍然是一个悬而未决的问题。
我们提出了一个师生交流的多智能体 RL 系统，该系统考虑了任务范围的可变性。
值得注意的是，将状态-动作值函数嵌入到低维格式中可以产生有效的抽象，使智能体能够在试验中从无模型的讲师那里灵活地学习目标和状态。
此外，我们还引入了一个框架来分析此类通信协议的性质。
从 Tucker 等人那里汲取灵感，我们的研究建立在他们的发现之上，即智能体可以通过在学习的连续空间中对令牌进行聚类，在嘈杂的环境中进行有效通信。
此外，我们还引用了 Foerster 等人的工作，他开发了一个用于智能体独立参数学习的模型，以及一个在集中学习期间促进实值消息的系统。
与 Foerster 等人的方法不同，该方法在智能体之间共享梯度信息以进行端到端训练，我们的方法仅使用连续通道进行任务表征，并单独训练智能体参数，没有共享梯度数据。
这种方法产生了一个潜在的结构，该结构优先考虑目标空间的可变性，而不是迷宫配置，这与仅基于教师的模型中状态空间的突出性形成鲜明对比。
使用这个框架，我们研究了消息空间的表征性质，其中包括培训中的学生收益。
我们发现这种方法提高了性能，并产生了一个潜在的结构，该结构优先考虑目标空间的可变性，而不是迷宫配置，这与完全基于教师的状态空间的突出形成鲜明对比。
因此，通过在语言开发中包括基于奖励的约束，我们看到沟通渠道可以优先考虑对任务结构的回答，同时获得类似或更高级的重建错误。
类似于 “total feedback”在人类语音中，说话者根据环境因素/其他人的存在来修改他们的信息，学生自动编码器结构根据学生的表现调整信息空间。
此外，我们通过以类似于电话游戏的方式反馈学生的空间行动价值地图来研究这种语言空间的重要性和敏感性。
降级的信息证实了智能体的表征质量与其性能之间的关系，并指出了良好的样本空间对构建语言的重要性。
尽管性能下降，我们还是保留了某些对任务性能很重要的功能（例如，使用已知消息解释新消息的能力——类似于“生产力”），这种效果在人类语言中也观察到过。
总的来说，我们的结果表明，通才智能体应该能够以不变的方式与语言空间相关联。
这为研究特定社会结构的重要性开辟了途径，例如教师或学生角色，这可能对强大的语言空间和调节信息流至关重要。
我们研究的意义表明可能与自然语言有相似之处。
首先，我们的系统根据效用或增益函数而进化，而不仅仅是误差最小化或可理解性。
无损信息传输不足以胜任行为，消息空间需要适应才能对其他智能体有利。
这类似于自然语言，其中语素根据群体的动机、目标和效率而演变。例如，在鸟类中，已经观察到效用推动了新的语言关系或组合的出现。
其次，引入维度和稀疏性约束是由解剖学和认知限制驱动的，例如声带大小或记忆容量。
因此，通过为我们的通信系统分配预定义数量的维度，我们复制了这些属性，并观察到这些属性被组织成分层的任务相关模式。
然而，正在进行的工作仍然旨在回答通道大小与表征空间的关系，因为机器学习和大脑活动往往会收敛到一个不被实际符号空间共享的表征中的高维空间。
研究表明，即使我们的语言并不完全是低维的，大脑活动相对于信息空间也是压缩的。
在这项研究中，我们没有利用顺序组合来泛化我们的信息。相反，我们的目标是通过连续消息的插值进行泛化。
尽管如此，该框架可以很容易地扩展为包含使用顺序任务集的可组合消息（在 Hockett 的工作中称为“模式的二元性”），这将是未来研究的重点。
此外，与自然语言相比，我们的模型缺乏预定义的语法或与行为变量相关的语法。
通过编码任务相关信息（例如 Q 矩阵），低维嵌入空间偏向于间接包含任务信息的特征。
这是在服从任务变量的涌现的分层潜在结构中观察到的，并且类似于在其语言特征中表现出文化或经验依赖复杂性的社会物种，如宽吻海豚等非灵长类哺乳动物或裸鼹鼠。
从这个意义上说，我们假设智能体的神经表征和电路会进化和重新连接以实现社交学习。
通过这样做，我们着眼于社区量表和认知量表之间的相互作用，而不是固定通信或神经元表征。因此，围绕扮演教师和学生双重角色的通才智能体进行研究至关重要。
这涉及创建具有不同发送方和接收方单元的智能体以及基于体验的策略。此外，检查社交图谱对语言构建的影响并扩展到进一步的任务也至关重要。
因此，受到 Tieleman 等人的启发，他采用编码器-解码器模型来研究社区规模如何影响消息表征，未来的工作应该系统地研究不同的通道结构。例如，这将允许颠倒学生-教师的角色，并了解信息是如何通过嵌入出现和传播的。
此外，使用顺序网络架构（例如，递归神经网络或转换器）检查更多与模型无关的结果会很有趣。此外，由于离散通信协议在我们的工作中比连续方法更常用，它们应该集成到我们现有的框架中。
最后，正如 Dupoux 介绍的那样，对于语言涌现和语言学习的研究有几个关键特征：（i）在计算上易于处理，（ii）使用可以由真实生物智能体执行的现实任务，以及（iii）使用这些生物智能体的结果作为人工智能体性能的基准。
从这个意义上说，虽然可追踪性是我们框架的一个关键组成部分，但我们强调它对神经行为学家的实用性，他们可以在我们的框架内处理生物数据，以研究与语言能力相关的大脑活动在未来的研究中。
从这个意义上说，虽然可追踪性是我们框架的关键组成部分，但我们强调它对神经行为学家的效用，他们可以很容易地利用我们的框架研究与语言能力相关的大脑活动。
总之，我们引入了一种使用强化智能体和编码网络研究语言涌现的多学科方法。
我们不是以类似于语言学的方式对待我们的系统，而是从神经表征开始，将通信问题视为自上而下的表征问题。
这个框架开辟了令人信服的途径，以产生关于个体和集体行为之间相互作用的假设，以及那些从社会交流中出现的内部和外部抽象。

相关栏目：『科技前沿』

JNS 2026年高峰會議精彩摘要（二）【以色列的高科技时代】	2026-07-13	[123]
黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[962]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[855]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[941]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[1849]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[1636]
Globant：2026年技术趋势报告	2026-05-28	[1531]
两台车，改变了一个时代	2026-05-28	[1567]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[2353]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[2290]