用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网科技动向科技前沿
关键字  范围   
 
图与代码不一致,Transformer论文被发现错误
来源:Synced | 2023/5/10 13:40:58 | 浏览:839 | 评论:0

论文中的图有时会出现与实现代码不对应的情况,这会让读者头大,不知是有意还是无意为之。这次,没想到大名鼎鼎的 Transformer 论文也「翻车」了。

2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。

不仅如此,在 NLP 领域一路领先的 Transformer,迅速席卷计算机视觉(CV)、语音识别等领域,在图像分类、目标检测、语音识别等任务上取得良好的效果。

图与代码不一致,Transformer论文被发现错误

论文地址:https://arxiv.org/pdf/1706.03762.pdf

从推出至今,Transformer 已经成为众多模型的核心模块,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer,而后者早已被谷歌申请了专利。

图与代码不一致,Transformer论文被发现错误

图源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT(Generative Pre-trained Transformer),名字中带有 Transformer,可见 Transformer 是 GPT 系列模型的核心。

与此同时,最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示,当 Transformer 刚发布之初,实际上是论文放出来的第二天,他们就迫不及待的将以前的研究切换到 Transformer ,后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间,基于 Transformer 构建的模型不断发展壮大。然而现在,有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码「不一致」

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 论文中的架构图有误,将层归一化(LN)放置在了残差块之间,而这与代码不一致。

图与代码不一致,Transformer论文被发现错误

Transformer 架构图如下左,图右为 Post-LN Transformer 层(出自论文《On Layer Normalization in the Transformer Architecture》[1])。

图与代码不一致,Transformer论文被发现错误

不一致的代码部分如下,其中 82 行写了执行顺序「layer_postprocess_sequence="dan"」,表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为:add 在 norm 上面,即先 norm 再 add,那确实代码和图不一致。

图与代码不一致,Transformer论文被发现错误

代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

接下来,Sebastian 又表示,论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好,能够解决梯度问题。这是很多或者大多数架构在实践中所采用的,但它可能导致表示崩溃。

当层归一化在注意力和全连接层之前被放置于残差连接之中时,能够实现更好的梯度。

图与代码不一致,Transformer论文被发现错误

因此,虽然关于 Post-LN 或 Pre-LN 的争论仍在继续,但另一篇论文结合了这两点,即《ResiDual:Transformer with Dual Residual Connections》[2]。

图与代码不一致,Transformer论文被发现错误

对于 Sebastian 的这一发现,有人认为,我们经常会遇到与代码或结果不一致的论文。大多数是无心之过,但有时令人感到奇怪。考虑到 Transformer 论文的流行程度,这个不一致问题早就应该被提及 1000 次。

Sebastian 回答称,公平地讲,「最最原始」的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,同时没有更新架构图。所以,这实在令人困惑。

图与代码不一致,Transformer论文被发现错误

正如一位网友所说,「读代码最糟糕的是,你会经常发现这样的小变化,而你不知道是有意还是无意。你甚至无法测试它,因为你没有足够的算力来训练模型。」

不知谷歌之后会更新代码还是架构图,我们拭目以待!

参考链接:

论文[1]:https://arxiv.org/pdf/2002.04745.pdf

论文[2]https://arxiv.org/pdf/2304.14802.pdf

相关栏目:『科技前沿
惊人的超级电池将改变电动汽车性能 2023-09-16 [170]
纽约大学把猪肾植入脑死亡患者体内 竟破纪录的正常运转61天 2023-09-18 [125]
华盛顿大学科学家利用折纸技艺开发出可在半空自动变形的无电池机器人 2023-09-18 [124]
NASA新照:银河系内又有小惊喜 2023-09-12 [167]
DeepMind发现AI自己设计提示词效果胜人类: 靠“深呼吸”数学再涨分 2023-09-08 [430]
芬兰阿尔托大学首次造出奇异量子"爱丽丝环", 为探索宇宙学理论提供新机会 2023-09-03 [557]
现代数学的基石 — Lie theory(李理论 2) 2023-08-27 [578]
现代数学的基石 — Lie theory (李理论 1) 2023-08-27 [642]
《Science》发布全球最前沿的125个科学问题 2023-08-22 [738]
Science:百年难题终得解,牛津大学合成含氟物不使用危险的氟化氢 2023-07-29 [998]
相关栏目更多文章
最新图文:
:美国《2016-2045年新兴科技趋势报告》 :天津工业大学“经纬英才”引进计划 :浙江财经大学国际青年学者论坛的邀请函 (10/31-11/1) :美国加大审查范围 北大多名美国留学生遭联邦调查局质询 :天安门广场喜迎“十一”花团锦簇的美丽景象 马亮:做院长就能够发更多论文?论文发表是不是一场“权力的游戏”? :印裔人才在美碾压华裔:我们可以从印度教育中学到什么? :北京452万人将从北京迁至雄安(附部分央企名单)
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2023 ScholarsUpdate.com. All Rights Reserved.