全文速览
本文综述了密度泛函理论(Density Functional Theory, DFT)在人工智能(AI)时代在化学和材料科学中的中心作用。DFT因其较高的预测能力、适用性、多功能性和计算效率而成为该领域的关键工具。文章重点讨论了基于DFT的机器学习(Machine Learning, ML)模型的最新进展,这些模型在合成数据生成和模型架构设计方面严重依赖DFT。这些发展对化学和材料科学的一般相关性进行了更广泛的讨论。基于DFT的ML模型已经实现了高效率、准确性、可扩展性和可转移性,并为自动实验室中成功实验计划软件的常规使用铺平了道路。
背景介绍
我们生活在人工智能时代,AI已经触及并影响了人类活动的几乎每个领域。例如,在自然语言处理、计算机视觉和预测等领域占据了中心舞台。大约20年前,一个名为“Adam”的基于AI的机器人科学家被引入到合成生物学领域,以协助和加速科学发现。近年来,化学和材料的机器人和自主实验取得了有希望的初步成果,例如为薄膜发现提供自动驾驶实验室。这些突破性进展已经促使人们重新考虑科学过程中“理解”的含义。
图文解析
图1 展示了ML模型面临的挑战,包括预测误差随着训练集大小的增加而衰减的规律,以及性能曲线并不一定会随着损失函数中未明确包含的相关指标的提高而提高。图中还展示了测试误差的组合,包括模型适应数据点的偏差和模型在数据点之间的灵活性引起的方差。
图2 提供了DFT在ML模型中所扮演的关键角色的概念性概述。它根据效率(E)、准确性(A)、可扩展性(S)和可转移性(T)四个关键类别来审查化学和材料属性及过程的预测ML模型。图2还展示了超越DFT的ML方法,包括通过颜色指示的基于DFT的传统工作流程和ML采用的路线。
图3 描述了在化学空间中采样时的预算感知计算策略,包括不同级别的理论、选择性学习、多级学习、直接学习、增量学习和主动学习等策略。这些策略旨在提高数据效率,通过不同颜色表示不同级别的理论数据点,灰色线表示新化合物的查询。
图4 展示了“雅各布梯子”(Jacob’s ladder),这是指通常用来模拟未知的精确交换-相关势的层次结构。图中还展示了如何使用CQML和片段空间的层次结构(例如amon)来预测大型查询目标(如插图所示的小蛋白泛素)的属性。
总结展望
文章总结了DFT在QML模型的发展中所扮演的工具性角色,这些模型能够使用EAST(效率、准确性、可扩展性、可转移性)导航化学化合物空间。DFT不仅是量子力学近似方法的基础理论基础,而且作为出色的计算属性来源,具有可控的合理获取成本和最受欢迎的准确性。文章认为,基于DFT的QML模型的可用性、多样性和高精度(达到或超过实验水平)的材料和分子属性数据集的发展和训练将是实现可普遍处理任何属性和化学的可转移QML模型的基本要求。最后,文章展望了基于物理的QML模型与机器人硬件和设备的无缝集成,这将是实现实验室各种实验任务的关键,预示着不久的将来将出现自动驾驶实验室。