前文介绍
北京时间2024年2月7日早上9:30, World Science Hill独家专访普林斯顿大学电子与计算工程系、计算机系王梦迪教授。
World Science Hill创始人Mia王璟晗
独家专访王梦迪教授视频截图
本期人物专访
【王梦迪】
普林斯顿大学电子与计算工程系、计算机系副教授,此前她10岁上北京八中少年班,14岁考取清华自动化系,18岁进入麻省理工学院(MIT)攻读计算机系博士,师从美国国家工程院院士 Dimitri P.Bertsekas,博士毕业后一年进入普林斯顿任教并担任博士生导师,成为普林斯顿最年轻终身教授,参在Google DeepMind, 高等研究院(IAS)和Simons Institute 访问,任 ICLR 2023 大会主席。
01
能否用一句话简要介绍一下您近期关注的领域?
我们最近主要关注两个主题,其一是扩散模型(diffusion models),我觉得它在数学上比较优美,而且又比较 first principle,我们还在研究它在optimization方面的性质以及和统计里面的 density estimation之间的联系。
另外一个我觉得比较有意思的主题就是 LLM 及 RL agents,我觉得目前还是很难提炼出相应的理论问题,更有意思的可能在于其工程方面的创意。
02
我们知道您已经在机器学习理论方向深耕多年,能否请您简要介绍一下机器学习理论曾经有过哪些热门的方向以及重要的结果?
在机器学习理论领域,以前有一些热门的方向,比如 statistical ML 的一些理论,包括像数据及模型的 sparsity,或者是 multi-variate data 里面的 low rankness性质,即在高维的数据里找到它相对简单的一个 latent structure,这可能就是统计机器学习理论在五到十年前的主要进展,无论在理论上还是实际上。
如今,这些 sparsity 和 low rankness的工作仍然在大语言模型(LLM)领域有着很多实际的意义,比如用Lora来做大模型的微调等等。尽管它们可能与最开始的问题形式及应用问题已经不一样了,但是那些思想都还是相通的。
另外一个就是强化学习(reinforcement learning)和 bandit problem 中的一个核心的技术,叫 exploration,它对应了很多非常优美的理论结果,在各种各样不同的问题里,exploration 都有着不同的形式,并能够最好地去利用问题本质的结构,从而得出非常强的理论结果。
我最近还在关注一个 Google Brain 的组,他们把 double Thompson sampling,也就是 exploration 里面一种贝叶斯的技术用在了LLM上面,这样就能够用非常少的 human feedback 数据进行有效的微调。所以我觉得exploration这套技术虽然与以前经典模型里的不一样,但是在LLM中也能发挥出巨大的作用。
03
如今随着机器学习与人工智能领域的进展越来越快,大模型的使用越来越多,相关的理论工作也不断涌现,包括一些针对 Transformer 的网络结构和训练技巧方面的理解,请问您认为这些工作与LLM出现之前的工作相比有哪些进展?
我觉得比较容易解释的理论,可能更多的还是把一些经典的模型,比如 linear regression 等等,都可以映射到 Transformer 的一些简化的模型上,我觉得很多这些理论工作可能是试图从现在复杂 Transformer 模型里面寻找它在某些场景里面如何能够与之前的一些经典理论对应上,并不断把以前的理论跟现在的一些新方法和技巧来做联系。
据我所知,目前还没有一个公认统一的、超出经典 deep learning theory 的针对于 Transformer 的综合理论。目前的工作,暂时还没有能够把不同setting、不同assumption 的Transformer 理论给归纳起来,学术界还是处于多线并进的状态。
04
在您看来,机器学习与人工智能在LLM方向的重大进展对于生物科技、药物发现与金融科技等等是否也会带来翻天覆地的变化呢?
LLM对生物、药物和金融等很多领域都会带来革命性改变,现在有许多家创业公司专门做药物发现方面的AI、或者做AI的 fintech 及 biotech等等。它们都在用不同的方式做LLM技术,比如生物科技方面最近有很多把 language model 用于 gene expression data、蛋白质序列,或者与 diffusion model 相联系,这样把各种各样不同性质的 Generative AI 模型结合起来用在一些非传统的氨基酸序列,或者嘌呤序列等等,类似的工作有许许多多。
其中在蛋白质方面,现在最常用的的大语言模型就是 ESM,由Facebook AI Research 团队提出并训练的,基本上现在只要做蛋白质相关方向,比如抗体设计、蛋白质结构预测等,就都会把 ESM 语言模型里面的 embedding 作为主要的输入之一。
其次,LLM还可以用来设计其他的药物,我们最近有一篇论文,其中用多物种的mRNA序列数据训练了一个mRN语言模型,我们希望把信使 RNA 序列中的控制 mRNA 蛋白质转录的那部分去进行建模。
并且对它进行功能预测,然后我们用这些数据做了预训练,并还在一系列与蛋白质转录相关的下游任务上做 finetuning,这个模型可以设计新的 mRNA 序列,并进而设计更高效的疫苗。
05
我知道有很多优秀的学生,都希望能参与人工智能方面的科研或者是深造,理论方向与实验方向的都有很多,您对刚开始参与机器学习科研的学生们有什么建议吗?
这是一个很难回答的问题,因为理论和实验方向能做的科研都非常非常多。对于刚刚接触机器学习的本科生而言,其实很难一下就选到一个非常有影响力又容易上手的方向,所以我觉得学生可能一是要多读一些论文,然后多去参加每年的ICML、Neurips这些大会。
尤其要看一下他们的 workshop papers,虽然这些文章相对篇幅短,内容也许没有特别扎实,但更多的是代表了一些新的方向和大家近期关注的一些问题。我认为多看一看大家关心的问题,然后多学习一些新的方向会对本科生有比较大的帮助。
另外,在刚刚起步机器学习的阶段,我觉得即使是做纯理论的学生,也一定要同时学着做一些实验,然后这样才能对模型和算法有更深刻的理解,认识到这些机器学习模型不仅仅是一个数学表达式,它本质上是为了能够尽快有效地从数据中学到规律。