万物皆可 ChatGPT?
自去年 12 月(美国时间 11 月 30 日)发布以来,ChatGPT 火爆全球,不断刷屏。从写邮件、做食谱、写诗歌、精通十以内加减法,到写出较高水平的代码和论文,通过了商科、法学和医学院的研究生水平考试,再到 ChatGPT 成功通过了谷歌的面试,并拿到了年薪 18 万美元的 L3 工程师 offer......
瑞士银行巨头瑞银集团的一份报告指出,推出仅两个月后,ChatGPT 月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序,更是成为一款“现象级”的 AI 产品。
ChatGPT 是 OpenAI 推出的一款对话机器人,也被视为有史以来最好的AI聊天机器人,本质上是一个大规模预训练语言模型。这是在自然语言模型 GPT-3.5(GPT-3 的升级版)的基础上进行调整、优化的产品,也是生成式 AI 工具。有业内人士将 ChatGPT 比喻为“搜索引擎+社交软件”的结合体,能够通过实时互动获得问题的答案。
(来源:OpenAI 官网)
生成式 AI 近期所取得的一系列新突破有可能彻底改变人们内容创作的方式,从编程再到视频、艺术、写作、游戏、数学计算到生物医药等等。
比尔·盖茨称,ChatGPT、 Bing 聊天机器人和谷歌的 AI 聊天机器人 Bard 等模型在全球范围内开启了一种新形式的革命。
蒙特利尔高等商学院计算机系的终身副教授唐建在《理解未来》科学讲座上表示,生成式 AI 近年来快速取得突破性发展,ChatGPT 则是生成式 AI 快速发展的一个重要里程碑。与其他领域类似,ChatGPT 在生物医药领域内有着同样的机会,理论上我们完全可以开发出生物医药领域的“ChatGPT”。比如说,生成式 AI 在生物医药领域有许多应用,包括寻找病因、发现新的药物靶点以及生成全新的小分子和抗体。
Nature Biotechnology 上的一篇社论文章也指出,生成式 AI 正在生物医学领域全速前进。
生成式 AI 深刻改变医药健康领域多个方面
生成式 AI 被视为人工智能皇冠上一颗璀璨的“明珠”,已经在多个领域表现出独特的价值。该技术始于 2014 年,诞生于 Yoshua Bengio 与 Ian Goodfellow 发表的开创性论文“生成对抗网络(GAN)”。截止目前,这篇论文被引用了超过 5.5 万次。
这是一类能根据输入参数生成新内容的算法,包括无监督和半监督训练技术,能够使用已创建的文本、图像、音频、视频和代码等创建新的内容。与信息分析和处理的 AI 不同,生成式 AI 的出现可能会对多个行业产生更为深远的影响。生成即创造,该算法的突破也意味着 AI 开始走向了创造新内容的发展路径。
生成式 AI 模型通常需要在大型数据集上进行训练学习,并使用机器学习算法生成与训练数据相似的新内容。该算法在各种应用程序中很有帮助,比如创建艺术、音乐和聊天机器人生成文本等。这种算法模型类型多样,常见的生成模型包括生成对抗网络(GAN)、VAE 和自回归模型。比较有代表性的生成式 AI 模型包括 DALL-E、DALL-E2、ProGen 以及 ChatGPT 等。
Insilico Medicine 创始人兼联合首席执行官 Alex Zhavoronkov 指出,“生成式 AI 可根据生成条件来生成合成数据,目前已被应用于医疗健康领域的方方面面,从靶点发现、小分子设计、生成合成生物数据、医疗和美容成像等等。任何地方,当你需要在医疗健康领域中使用 ‘AI 想象力’,GANs 就会是忠实的朋友。”
Forbes 上的一篇文章也这样写道,类似于 iPhone 等手机快速成为我们生活中不可或缺的一部分,ChatGPT 等先进的生成式 AI 工具将深刻变革医疗健康领域。
首先,ChatGPT 等工具会随着经验和计算能力的提高,相应提高敏锐度和准确性。还可以通过学习帮助医生或者护士行医就诊、预防医药差错等。比方说,下一代 ChatGPT 可能会具备视频功能,以此观察医生和护士,并将其行为和循证指南进行比较,在医生和护士做出误判时给出指导。同时,根据监测数据进一步防止用药错误等等。
其次,针对一些慢性疾病,下一代生成式 AI 工具将能够全天候 24/7 监测患者并提供持续的日常护理。
此外,也可以应用于新药研发领域,通过学习生成和设计出全新的蛋白质和抗体分子。
“生成式 AI 正在为制药业带来重要变化”
生物医药领域经历了多次的变革,基因测序、基因编辑、冷冻电镜等新技术的发展加速了生物医药领域内生物数据的指数级增加,这些数据包括蛋白质数据、抗体序列数据以及结构数据。
上文提到,生成式 AI 模型需要大量的数据和代码数据进行预训练。基于大量的生物数据和生成式 AI 的天然属性,理论上人们完全可以预训练出一个生物制药领域的生成式 AI 模型,类似于“ChatGPT”。
唐建在《生命科学中的生成式人工智能:如何搭建生命科学的“ChatGPT”》讲座中谈到,“生成式 AI 非常适用于药物发现,尤其是蛋白质、抗体设计,此类型模型可以生成全新的蛋白质和全新的分子,并帮助科学家们发现更好的药物。以蛋白质设计领域为例,不论是小分子还是蛋白质分子,本质而言都需要生成一些新的结构。通过融入 ChatGPT,可以提升蛋白质设计的创新度和多样性。”
事实上,科学家们已经尝试利用 ChatGPT 进行药物发现,通过分析科学论文、专利和临床试验数据识别新的药物靶点和潜在的药物相互作用。阿斯利康在将 ChatGPT 应用于药物发现的一项研究中表示,ChatGPT 可以识别出传统方法未发现的新靶点,并展示了生成式 AI 算法在加速药物发现过程的潜力。剑桥大学的研究人员利用 ChatGPT 分析科学文献并确定了一个治疗阿尔茨海默病的新靶点;旧金山加利福尼亚大学的研究人员使用 ChatGPT 分析电子健康记录并识别现实环境中存在的潜在药物间相互作用关系。
IT 研究与顾问咨询公司 Gartner 的分析师指出,几乎所有大型制药公司和许多小型制药初创公司已瞄准基于类似于 ChatGPT 的生成式 AI 技术进行新药研发,并利用其设计针对疾病蛋白质属性或功能的药物,一些药物现在正处于临床试验阶段。预计到 2025 年,生成式 AI 将用于发现 30% 的新药和工业材料。这是制药业的一个重大变化。
其中,成立于 2020 年的 AI 制药 Generate Biomedicines 使用生成式 AI 来生成并设计可用作新型疗法的蛋白质;2015 年成立的 AI 药物发现公司 Standigm 也使用生成式 AI 工具通过查询大型生物医学数据库在短短 2 个月内创建了数百种新分子。
根据相关数据, 2022 年,生成式 AI 领域投资超过 13.7 亿美元,随着该模型在生物医学领域获得更多关注,该领域的投资金额可能会进一步持续增加。预计到 2040 年,生成式 AI 可能会为医疗健康行业带来 1 万亿美元的价值。
谨慎乐观看待生成式 AI
ChatGPT 一定程度上引发了业内对于 ChatGPT 以及生成式 AI 算法的热捧,虽然在医疗健康具有一定的应用潜力,但是真正应用于医疗健康尤其是生物制药领域还存在一些现实挑战。
Alex Zhavoronkov 表示,考虑到 ChatGPT 使用的训练集和训练它的 AI 训练师水平,存在准确性问题,暂时不建议将其直接应用于任何生物医学领域。我认为,需要考虑医疗领域对准确率和专业知识的要求,更期待开发出在医疗健康领域类似 ChatGPT 的专门系统。
Alex Zhavoronkov 认为,在生物制药领域,现在面临的真正问题是,人们可能知道所有人类生物学、化学和物理学的 0.1%,但是对于如何改变这些缺乏观点,因此即使有生成式 AI 的重大进展,也不可能从 0.1% 产生 100% 的知识。当下,我们更需要做很多的研究和探索。生成式 AI 可能在某种程度上帮助发现靶点、生成分子,甚至从无到有产生一些新颖的想法,但在很长一段时间内,它不会取代实验。
参考资料:
1.https://www.nature.com/articles/s41587-023-01695-x
2.https://www.forbes.com/sites/robertpearl/2023/02/13/5-ways-chatgpt-will-change-healthcare-forever-for-better/?sh=ba432457bfc6
3.https://openai.com/blog/chatgpt/
4.https://venturebeat.com/ai/how-2022-became-the-year-of-generative-ai/