用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分
来源:QbitAI | 作者:梦晨 | 2023/9/8 16:39:19 | 浏览:1804 | 评论:0

  谷歌DeepMind团队最新发现,用这个新“咒语”Take a deep breath)结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。

  而且这个最有效的提示词,是AI自己找出来的

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  有网友开玩笑说,深呼吸以后,散热风扇就转速就提高了。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  也有人表示,刚高薪入职的提示工程师们也应该深呼吸,工作可能干不久了

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  相关论文《大语言模型是优化器》,再次引起轰动。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  具体来说,大模型自己设计的提示词在Big-Bench Hard数据集上最高提升50%。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  也有人的关注点在“不同模型的最佳提示词不一样”

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  并且不止提示词设计这一个任务,在论文中还测试了大模型在线性回归和旅行商问题这些经典优化任务上的能力。

  模型不同,最佳提示词也不同

  优化问题无处不在,基于导数和梯度的算法是强大的工具,但现实应用中也经常遇到梯度不适用的情况。

  为解决这个问题,团队开发了新方法OPRO,也就是通过提示词优化(Optimization by PROmpting)。

  不是形式化定义优化问题然后用程序求解,而是用自然语言描述优化问题,并要求大模型生成新的解决方案。

  一图流总结,就是对大模型的一种递归调用。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  每一步优化中,以之前生成的解决方案和评分作为输入,大模型生成新的方案并评分,再将其添加到提示词中,供下一步优化使用。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  论文主要使用谷歌的PaLM 2和Bard中的text-bison版本作为评测模型。

  再加上GPT-3.5和GPT-4,共4种模型作为优化器。

  结果表明,不光不同模型设计出的提示词风格不同,适用的提示词风格也不同。

  此前在GPT系列上的AI设计出的最优提示词是“Let’s work this out in a step by step way to be sure we have the right answer.”

  这个提示词使用APE方法设计,论文发表在ICLR 2023上,在GPT-3(text-davinci-002)上超过人类设计的版本“Let’s think step by step”。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  但这次在谷歌系PaLM 2和Bard上,APE版本作为基线就还不如人类版本。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  OPRO方法设计出来的新提示词中,深呼吸”“拆解这个问题”对PaLM来说效果最好。

  对text-bison版的Bard大模型来说,则更倾向于详细的提示词。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  另外论文还展示了大模型在数学优化器上的潜力。

  线性回归作为连续优化问题的示例。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  旅行商问题作为离散优化问题的示例。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  仅仅通过提示,大模型就能找到不错的解决方案,有时甚至匹敌或超过手动设计的启发式算法。

  但团队也认为大模型还无法替代传统基于梯度的优化算法,当问题规模较大(如节点数量较多的旅行商问题)时,OPRO方法表现就不好。

  对于未来改进方向,团队提出当前大模型还无法有效利错误案例,仅提供错误案例无法让大模型捕捉捕捉到错误的原因。

  一个有前景的方向是结合关于错误案例的更丰富的反馈,并总结优化轨迹中高质量和低质量生成提示的关键特征差异。

  这些信息可能帮助优化器模型更高效地改进过去生成的提示,并可能进一步减少提示优化所需的样本数量。

  论文放出大量最优提示词

  论文来自谷歌与DeepMind合并后的部门,但作者以原谷歌大脑团队为主,包括Quoc Le周登勇

  共同一作为康奈尔大学博士毕业的复旦校友Chengrun Yang,和UC伯克利博士毕业的上交大校友陈昕昀

  团队还在论文中给出了大量实验中得到的最优提示词,包括电影推荐、恶搞电影名字等实用场景,有需要的小伙伴可自取。

DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分

  论文地址:

  https://arxiv.org/abs/2309.03409

  参考链接:

  [1]

  https://x.com/emollick/status/1700207590607552740


相关栏目:『科技前沿
联合国人居署发布的《2024 全球城市人工智能评估报告:利用 AI 构建以人为本的智慧城市》 2025-04-02 [51]
为躲避花粉过敏,海森堡逃到一个小岛,却意外掀起量子革命 2025-03-27 [132]
他的公司被稱作黑匣子-他希望矽谷為美國而戰 2025-03-27 [136]
那些让你更聪明的科学新概念 2025-02-26 [931]
31组超有趣的创意对比,带你看清世界的神奇反差! 2025-02-21 [1057]
2025年,AI到底会给科学界带来怎样的变化? 2025-02-21 [1126]
献分享|Angew. Chem.| 超分子切换液-液相分离以协调酶动力学 2025-02-21 [1039]
原子核的利用 2025-02-21 [1058]
科幻小说中的硅基生命,就要实现了吗? 2025-02-21 [1058]
想搞懂宇宙如何演化或许只需要……10亿年? 2025-02-20 [1119]
相关栏目更多文章
最新图文:
Colleen Flaherty 翻译 刘勤:MIT教授发文《美国经济评论》 :生命科学受益于明星科学家们的死亡 :北京和上海金融人的最新鄙视链 :日本政府《氢能利用进度表》 :美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1) :美国加大审查范围 北大多名美国留学生遭联邦调查局质询 :天安门广场喜迎“十一”花团锦簇的美丽景象
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2025 ScholarsUpdate.com. All Rights Reserved.