Science：AI 相互协作首次战胜人类，机器学习算法学会了“忠诚” - 科技前沿 - 科技动向

Science：AI 相互协作首次战胜人类，机器学习算法学会了“忠诚”

2017/3/29 16:35:04 ｜浏览：2431 ｜评论：0

计算机第一次教会它们自己如何在游戏中进行合作，其目的是让所有玩家都能得到最好的结果。研究人员说，这项突破远比训练人工智能在诸如国际象棋或围棋之类双方要么输要么赢的比赛中取胜更加困难。这些进展有助于进一步增进人机合作。

20年前，超级计算机“深蓝”在国际象棋比赛中赢了当时的世界冠军 Garry Kasparov。最近，AI 研究者已经开发出在对计算要求更高的游戏（如围棋和扑克）中击败人类的程序。但是，这些都是赢者通吃，或者说“零和”（zero-sum）的游戏，也就是说，其中一个玩家赢了的话，其余玩家全输。研究人员在合作游戏方面的研究较少，这些研究的目的是让游戏玩家共同合作，以优化每个参与者的结果，即使从逻辑上来说每个玩家都可以通过“背叛”其他玩家以使自己的结果更好。

这类型的游戏包括“胆小鬼博弈”（The game of chicken），其中两名车手相对驱车而行，最先转弯的一方被耻笑为“胆小鬼”（chicken），让另一方胜出。还有博弈论中经典的“囚徒困境”，其中两个人因同一件罪行被指控有罪。假如两人彼此合作，都否认犯罪，双方都可缩短刑期（比如说1年）。但假如一个囚犯背叛了同伙，他可为自己带来利益（无罪开释），但同伙会被判更长的刑期（比如说3年）。假如双方都出卖对方，两人分别被判2年。“囚徒困境”只有一轮的话，从逻辑来说两名玩家都会出卖对方。但在重复的囚徒困境中，博弈反复进行，人们会学习合作，以获得最轻的刑期（1年）。

Jacob Crandall 是杨百翰大学计算机科学家，他和同事们想看看机器是否能够学习玩这类“非零和博弈”的游戏。研究人员让人类玩家和计算机一起玩电子版的“胆小鬼博弈”和“囚徒困境”，以及另外一个名为“Alternator”（霹雳赛车）的合作策略游戏，团队由两名人类玩家，两台计算机组成，或者一名人类玩家对一台计算机。研究人员测试了25种不同的机器学习算法，AI 程序可以通过在他们的行动和结果之间自动搜索相关性来提高表现。

让研究人员失望的是，这些算法都没有能够学会合作。但随后，他们转向从进化生物学获得的启发。他们认为，为什么不引入人类之所以能够合作的关键要素——沟通的能力呢？所以它们加入了19个预先写好的句子，比如“我正在改变我的策略”，“我接受你的最后一个建议”，或者“你出卖了我”，这些句子可以在每个回合之后在玩家之间来回传递。随着时间的推移，计算机必须使用它们的学习算法在游戏的语境中学习这些短语的含义。

这一次，被称为S＃（发音是 S sharp）的算法在25种算法中凸显出来。当给出一个以前未知的游戏的描述时，该算法能学会在几轮之内与伙伴合作。而在游戏结束时，只有机器的队伍几乎100%的时间都是合作的，而人类队伍平均只有60%的时间合作。Crandall 说：“机器学习算法学会了忠诚。”

这种可靠性对于那些为自动驾驶汽车，无人机，甚至战场上的武器作决策的算法来说可能是福音。KTH 皇家理工学院机器人学家 Danica Kragic 说：“[迄今为止]像这样的合作都没有成为研究者的目标。”相反，她补充说，大多数研究工作都侧重于创造可以超越人类能力的自主技术，从人脸识别到玩扑克的程序都是这样。“机器需要学会做的不仅仅是竞争，”Crandall 补充说，“机器人技术的研究在强调合作方面做得更好，这可以作为 AI 继续进展的一种模式。”

美军研发“小鬼计划” 空中收发无人机

【编译凯森】

美国军方正在研发一项名为“小鬼计划”的项目，旨在实现空中发射和回收无人机。

Science：AI 相互协作首次战胜人类，机器学习算法学会了“忠诚”

据福克斯新闻报道，专门负责为国家军事开发创新技术的美国国防高级研究计划局（DARPA）向外透露，“小鬼计划”是利用载人战机在空中发射大批无人机的项目，该项目将允许飞机飞行员在飞行过程中发射多架无人机，并能在飞行中将无人机再回收至飞机上。

DARPA 早在2015年就公布了“小鬼计划”的初步概念，当时该部门将之称为这一计划的概念验证设计第一阶段。

DARPA的项目经理Scott Wierzbanowski指出，现在DARPA正在实施这一项目的第二阶段，相关技术将取得进一步的提高。

他在一份声明中指出，第一阶段试验旨在证实，机载无人机发射系统和回收系统需要对主机进行哪些最低限度的改造，而进入第二阶段，研究人员将会进一步完善两个系统，使它们能实际应用于飞行中携带各种有效载荷（如导弹、火箭等）的运输主机上，并进一步增强无人机飞行范围的最大化、灵活性以及负载能力。

第二阶段的研究将重点放在全面完成“小鬼计划”无人机演示设计。该计划最终将进入到第三阶段，开始进行全面系统的论证，包括机载发射和回收多架无人机的实际测试。

DARPA目前计划在2019年对该项目进行实际飞行测试。

星舰机器人将为多米诺比萨店送餐

绕过开发无人机送货服务所面对的诸多障碍，星舰技术公司（Starship Technologies）决定先投资开发地面机器人送货服务。

Science：AI 相互协作首次战胜人类，机器学习算法学会了“忠诚”

据福克斯新闻报道，今年一月，这些机器人已开始在美国投入使用，并为DoorDash和Postmates提供送货服务。而星舰公司最新的合作业务是递送新鲜的比萨饼。

据悉，比萨饼连锁店多米诺（Domino's）和星舰公司正在展开合作，让星舰公司的六轮机器人在德国和荷兰的城市提供比萨饼送货服务。送货预定网络目前仅限于选定的一些商店，送货范围在一英里内。

多米诺集团首席执行官兼董事总经理Don Meij表示，这一合作伙伴关系是比萨饼机器人送货迈向现实的重要一步。

为表达对这一业务的重视，多米诺公司还专门设立了一个名为“多米诺机械装置”简称DRU的部门，专门负责与星舰公司的合作沟通事项。Meij认为，如果合作成功，该业务可能迅速扩大至公司全球2000家连锁店。他表示，多米诺需要机器人，未来5到10年该公司的业务将呈现增长，但他们根本没有足够的送货员。

星舰公司设计的机器人可进行长达两英里的行驶，行驶时间长达30分钟。考虑到这一点，如果机器人送货业务成功的话，多米诺每一家连锁店的送货范围都可加倍。此前，多米诺也曾测试过无人机送货服务，比如去年的新西兰空运比萨测试。

相关栏目：『科技前沿』

JNS 2026年高峰會議精彩摘要（二）【以色列的高科技时代】	2026-07-13	[393]
黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[1265]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[1178]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[1254]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[2163]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[1947]
Globant：2026年技术趋势报告	2026-05-28	[1842]
两台车，改变了一个时代	2026-05-28	[1871]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[2654]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[2596]