周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠 - 学人动向 - 科技动向

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

2017/6/3 0:39:35 ｜浏览：2314 ｜评论：0

深度学习在自然语言处理领域的最新进展

各位老师，各位同学，早晨好！下面我来介绍一下深度学习在自然语言处理（NLP）的最新进展。我主要想针对机器翻译、聊天机器人、阅读理解这三个最活跃的方向来探讨深度学习在NLP领域的发展到了什么水平，还存在什么问题，然后再引申出未来的研究方向。

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

上图是自然语言处理主要技术的一览图。从左开始，第一列是自然语言的基本技术，包括词汇级、短语级、句子级和篇章级的表示，比如词的多维向量表示（word embedding）、句子的多维向量表示，还有就是分词、词性标记、句法分析和篇章分析。第二列和第三列是自然语言的核心技术，包括机器翻译、提问和问答、信息检索，信息抽取，聊天和对话，知识工程、自然语言生成和推荐系统等。最后一列是NLP+，就是NLP的应用，比如搜索引擎、智能客服、商业智能、语音助手等，也包括在很多垂直领域比如银行、金融、交通、教育、医疗的应用（这里没有画出）。NLP技术及其应用是在相关技术或者大数据支持下进行的。用户画像，大数据，云计算平台，机器学习，深度学习，以及知识图谱等构成了NLP的支撑技术和平台。

自然语言处理开展很早，计算机刚刚发明之后，人们就开始了自然语言处理的研究。机器翻译是其中最早进行的NLP研究。那时的NLP研究都是基于规则的，或者基于专家知识的。在1990年之后，NLP技术的主流是统计自然语言处理。机器翻译，搜索引擎等都是采用统计自然语言处理技术来做的。而从2008年到现在，在不到十年的时间，在图像识别和语音识别领域的成果激励下，人们也逐渐开始引入深度学习来做NLP研究，并在机器翻译、问答系统、阅读理解等领域取得一定成功。深度学习是一个多层的神经网络，从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入-输出对的数据准备好，设计并训练一个神经网络，即可执行预想的任务。现在来看，深度学习之于NLP有两个重要进展。一个是表征词汇的语义的word embedding，另外一个就是用CNN计算句子的相似度以及用RNN（包括LSTM和GRU）来做句子的编码和解码。

深度学习在NLP很多领域都取得了一些进展，比如机器翻译、问答系统、聊天机器人、阅读理解等等。不过也面临很多挑战。具体来讲，就是如何跟知识学习--有效地把知识包括语言学知识、领域知识用起来；如何跟环境学习--通过强化学习的方式提升系统的性能；如何跟上下文学习--利用上下文进一步增强对当前句子的处理能力；以及如何利用用户画像体现个性化的结果。

下面先介绍神经网络机器翻译（NMT）的进展。NMT就是编码和解码的过程。具体来讲，一个句子首先经过一个LSTM实现编码，得到N个隐状态序列。每一个隐状态代表从句首到当前词汇为止的信息的编码。句子最后的隐含状态可以看作是全句信息的编码。然后再通过一个LSTM进行解码。逐词进行解码。在某一个时刻，有三个信息起作用决定当前的隐状：源语言句子的信息编码，上一个时刻目标语言的隐状态，以及上一个时刻的输出词汇。然后再用得到的隐状态通过Softmax计算目标语言词表中每一个词汇的输出概率。这个解码过程要通过一个Beam Search得到一个最优的输出序列，即目标语言的句子。后来进一步发展了注意力模型，通过计算上一个隐状态和源语言句子的隐状态的相似度来对源语言的隐状态加权，体现源语言句子编码的每一个隐状态的对解码的作用。

神经网络机器翻译最近三年里取得了很好的进展。这是我们的一个实验结果，可以看出NMT与经典的SMT相比，BLEU 值至少提升了4个点（BLEU是衡量机器翻译结果的一个常用指标）。这是一个很大的进步。要知道统计机器翻译在过去五年里都没有这么大的提升。NMT已被公认为机器翻译的主流技术，许多公司都已经大规模采用NMT作为上线的系统。

最近也有学者在考虑把一些知识加入到系统中。比如在源语言编码的时候考虑源语言的句法树（词汇之间的句法关系），或者在解码的时候考虑目标语言的句法树的信息。通过句法树来加强对目标语的词汇的预测能力。我们也在做一个工作，用领域知识图谱来强化编码和解码，得到了很好的结果。

但是NMT仍然存在很多挑战。首先，如何把单语语料用起来还没有一个定论。现在简单的做法是把通过一个翻译系统翻译单语语料所得到的双语对照的语料以加权的形式加入到训练语料中。尽管这种反向翻译单语数据来获得更多双语数据或者使用对偶学习的方法利用单语数据在一些数据集上有了一定的改进，然而如何使用单语数据改进NMT的性能还有很大的探索空间。第二、以前在统计机器翻译中语言模型作为重要的特征对翻译质量有重要作用，可是在NMT中语言模型到底怎么用才好，还有待深入探索。第三、OOV的问题，也没有解决的特别好。第四、如何融入语言知识和翻译知识。假设已经有一系列人工总结的语言词法分析、句法分析以及两种语言之间的转换规则，如何把它融入到NMT中，还值得好好地探讨。最后，目前的翻译都是句子级进行翻译的，在翻译第N句的时候，没有考虑前N-1句的源语言和翻译的信息。比如“中巴友谊”，到底是中国-巴西，还是中国-巴基斯坦？如何利用上下文来推断翻译？这些都是很好的研究课题。

我要介绍的第二个工作是聊天机器人。为什么要做聊天机器人？因为它在人机对话中非常重要。比如说我们到一个小卖部买东西，开始要闲聊几句，然后表示购买的意图，然后通过一些对话和问答，最后完成交易。这里面有三个重要技术。一个是闲聊，它拉近人与人之间的关系。第二是获得信息，主要是通过搜索引擎或者通过QA系统来完成的。最后就是关于某一个特定任务的对话系统。今天由于时间限制，仅讲一讲聊天机器人目前的进展以及遇到了哪些挑战。

聊天机器人需要根据用户的输入信息（Message）输出与其语义相关的回复（Response）。目前有基于检索的技术和基于生成的技术可以采用，各有千秋。无论哪种技术，都需要事先获取大量的Message—Response对，用来作为聊天知识用于检索或者用于训练一个生成Response的模型。

基于检索的技术是针对一个Message，首先检索与Message相似的Message，则其对应的Response可以作为输出的候选。由于经常会有多个匹配的Message—Response对，则需要选择一个最优的Response作为最终的输出。因此需要计算输入Message和可能的Response的语义相关度。第一种算法，通过词的embedding通过卷积或者LSTM可以得到句子级的embedding表示，然后再计算Message和Response句子embedding的相似度。第二种算法是计算Message-Response的每一个词对的相关度得到一个相关度矩阵，再通过多次卷积、Pooling，最后经过多层感知机来计算相关度。由于Message有时候是短文本，太干巴了，没有多少信息，所以会影响检索的结果。研究人员把与短文本相关的知识、主题词加进去来强化Message或者Response候选，然后再计算相关度，提升了Response的质量。

第二种方法是用一种生成模型来得到回复。经典的方法可以是用AIML语言人工描写Message-Response对，或者通过统计机器翻译来做Message到Response的映射。现在神经网络LSTM编码-解码方法成为主流。如果把Message看作源语言句子，把Response看作目标语言句子，通过NMT方法就可以从Message翻译到Response。同样，跟检索式系统一样，也可通过外部知识或者主题词信息来增强。

多轮对话需考虑到以前的对话信息，在回复的时候要用到前面若干个句子的信息。关于上下文建模目前并没有太好的方法。现在用word embedding或者LSTM表示前面每一个句子。在基于检索的方法中，计算候选的Response与以前若干句子的每一个句子计算一个相似度，最后通过一个多层感知机来算上下文跟候选Response的匹配程度。在用基于生成的方法时，需对前面若干已出现的句子和词汇都进行建模。在预测输出句子中某一个词的时候，要用以前的所有词计算一个注意力，也要用所有句子计算一个注意力。所以一个词汇的输出是词汇和句子两层注意力模型共同起作用的结果。

聊天系统存在很多问题。首先多轮对话的上下文建模目前采用的方法还比较粗糙。而且尚没有一个针对多轮聊天的有效的自动评测方法。由于需要人去看回复质量，导致评价的代价比较大。第二，如何计算Message的情感并生成与之对应的特定情感的句子，值得仔细研究。第三，记忆机制，需跟踪对话主题的变化，抽取重要的信息，及时侦测信息的变化。基于记忆机制的对话模型也需要进一步深化。最后，实现个性化的聊天，建立用户画像然后生成用户所关心的内容并体现他所喜欢的风格。针对同一个内容，生成不同风格的回复也是一个有趣的研究问题。

最后再跟大家介绍一下现在热门的阅读理解。所谓阅读理解，就是给电脑一篇文章，让电脑来回答一些问题。阅读理解的难度是不一样的。有的阅读理解问题，其答案在文章之中，需要从文章中把答案抽取出来。有的阅读理解，答案并不一定出现在文章中，需要进行一些推理才能得到答案。斯坦福大学做了一个阅读理解测试题并于2016年9月份上线。它提供了一定规模的训练集、开发集和测试集。该任务的答案基本都在文中出现过，需要找出答案候选，然后经排序输出一个最好的答案。参赛队伍把用训练集所训练的系统提交给斯坦福大学后，由它来运行你的系统，然后在其网站上发表测试结果。提交的结果包含单系统和多系统融合的结果。我们的工作比较幸运，无论是单系统还是多系统，都一直位居所有参赛队伍的第一名。我们的系统融合的结果目前能做到76左右，而斯坦福大学雇人做题的正确率可达81%，可见针对这个阅读理解任务，电脑和人还有5分的不小的差距。

下面简单介绍我们用的方法，首先，第一层网络对文章和问题通过双向LSTM来建模。然后计算文章的每一个词和问题的每一个词的相关度。在此基础上，由第二层网络找出可能是答案的词汇。然后再进过一个Self-Matching网络把所有可能的候选排序。最后经过一个叫做Pointer的网络，推断出最有可能的答案候选的边界。

这样的技术未来有什么用？我觉得可以在问答系统、检索系统、智能客服、自动答题和阅卷都可以得到很好的应用。比如很多产品网页纷繁复杂。用户要把网页从头到尾看一遍才能找到答案。假如说有阅读理解的能力，电脑扫描下这个网页。对一个问题，电脑直接定位网页中答案的位置。我们的基于阅读理解的客服机器人的工作将在ACL2017展示。

与神经机器翻译、聊天机器人一样，阅读理解也存在很多挑战。我们现在做的是比较简单的阅读理解，从文档中抽取答案就能解决大部分问题。然而更多情况下，是需要基于上下文的推理甚至基于常识的推理才可以得到答案的。这确实是一件很困难的事情。要推动这件事的发展，就得跟无人驾驶汽车分级测试一样需要设定问题的难度，逐级增加难度，对每一个级别建立训练和评测集合。然后进行逐级开发、逐级评测。最近微软发布了一个新的评测任务MARCO，就是在这个方面的一个尝试。

最后总结一下，自然语言过去60年的发展，从基于规则方法到基于统计方法、再到最近几年的基于深度学习的方法，技术越来越成熟了，而且很多领域都取得了巨大的进步。展望未来5到10年，随着深度神经网络技术，大数据还有云计算这三个主要因素的推动，自然语言处理必将越来越实用。首先，我认为手机语音翻译一定会普及，就跟打电话一样，拿起电话来说话，从中文翻译成英文，或者翻译成日文，法文，在常见的场景下基本可达实用。虽然手机语音翻译会使用化，但我认为同声翻译和专业领域的翻译由于难度更大尚不能彻底解决，需要更多的时间。第二，自然语言的会话技术，包括聊天，问答，会在单论精度和多轮建模上进一步突破，并广泛地应用在重要的领域包括智能家居和语音助手等。第三，智能客服系统。我认为其中许多重复的工作，特别是单论可以解决的工作，以及可明确定义对话状态的多轮交互，将被智能客服所取代。但是在需要多轮自由对话的场景，我们还是不能过高地估计自然语言对话系统的能力。但是智能客服加上人工客服完美的结合，将使客服的效率大幅度提高。第四、自然语言生成的各项任务，诸如写诗，写小说，写新闻稿件等在未来5到10年会得到实际应用。最后，自然语言技术配合其他AI的技术比如感知智能的技术，在教育、医疗、银行、法律、投融资、无人驾驶等垂直领域，会起到实实在在的应用。

虽然我们认为NLP在未来5到10年将会有大的发展，我们还需要清醒地看到，未来还是充满许多挑战，值得深入探讨。第一、现在深度学习，都是端到端进行训练。而中间哪个环节起作用，哪个词起作用，哪个句型起作用，不是非常清晰。我们希望有一个可以解释的人工智能，展示所有的推理过程，告诉我是怎么做出来的，做不对的话，告诉我问题可能出在哪里。第二，现在大家都一窝蜂地使用深度学习来做几乎一切任务，但是我们也应该看到在很多任务上，知识（包括词典、规则、知识图谱）等是需要好好地利用起来的，否则光凭深度学习面临很多局限性。而如何通过深度学习来无缝对接知识与数据，使两者巧妙融合，优势互补，还需要长期的探讨。第三，在面对某些任务或者一个新领域的时候，标注数据很少，这时候如何起步？如何利用无标注数据（通过无监督学习）、领域知识（通过融合知识）、或者其他领域的成熟系统（通过迁移学习）来提高学习效果，快速起步？第四、如何捕捉用户和环境的反馈信号利用强化学习不断提高系统。最后，如何融合用户画像体现个性化的服务。

相关讯息：NLP 是人工智能的开端，语言智能是人工智能皇冠上的明珠

数据的大幅增强、计算力的大幅提升、深度学习实现端对端的训练，这些都是人工智能领域迎来第三次浪潮的原因。

在周明博士看来，促成这股浪潮的还有落地场景的出现。实实在在的场景如搜索引擎、自动驾驶汽车等，给了用户使用和反馈（如搜索引擎的使用者会为搜索引擎提供训练数据）的空间，系统就可以使用这些数据不断提升。

在以计算、记忆为基础的「运算智能」之上，是以听觉、视觉、触觉为代表的「感知智能」，反映在人工智能技术上为语音识别和图像识别。再之上则是「认知智能」，包含语言、知识和推理。金字塔的顶端，则是创造智能。

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

「语言智能是人工智能皇冠上的明珠」

作为国际计算语言学协会（ACL）候任主席、NLP 领域资深研究者，周明博士特别强调语言智能在人工智能领域的标志意义。「语言智能是人工智能皇冠上的明珠，如果语言智能能够突破，与他同属认知智能的知识和推理就会得到长足的发展，整个人工智能体系就会得到很好的推进，也有更多的场景可以落地。」

作为最早设立的部门之一，微软亚洲研究院 NLP 研究组已经发表了超过 200 篇顶级会议文章，其中 ACL 论文超过 100 篇，COLING、EMNLP 论文超过 50 篇，IJCAI、AAAI、KDD、SIGIR 论文超过 50 篇。拥有超过 100 项专利，与 10 所高校建立联合实验室，并与超过 16 个高校建立合作。

其与中科院计算所合作开发的手语翻译系统，还曾得到过 CEO 萨提亚·纳德拉（Satya Nadella）上任后首次嘉奖。

机器翻译、ChatBot…… MSRA NLP 有这四方向进展

机器翻译

自 2007 年微软基于统计的翻译系统上线，到 2012 年在 21 世纪大会上展示实时语音翻译系统，再到 2015 年 Skype Translator 实时语音翻译技术上线、2016 年 Microsoft Translator Live Feature（现场翻译功能）的推出，微软从未放弃过在机器翻译技术、产品方向上的探索。

目前微软采用的是基于神经网络的机器翻译方法。通过对源语言句子使用 LSTM 进行双向编码，再通过 Attention 模型体现不同隐节点对翻译某个目标词的作用，逐词生成目标语言直到句尾。

对于中间的某个阶段可能会出现多个翻译，微软采用的方法是通过 beam search 方法保留最佳翻译。神经网络翻译中其中最重要的技术是对源语言的编码，以及体现不同词汇翻译不同作用的 Attention 模型。

MSRA 在机器翻译上主要有如下 2 项进展，均发表在 ACL 上：

1、引入语言知识

编码过程往往将源语言和目标语言看作字符串，并没有体会语言内在的句法知识和修饰关系。通过将语言知识引入到神经网络的编码，可以得到更佳的翻译。（具体指标见下图）

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

2、引入领域知识（Domain Knowledge）

很多领域拥有知识图谱的，可以纳入到传统的神经网络机器翻译中，以规划语言理解的过程。基于的假设是不同语言的知识图谱可能是一致的，将输入句子映射到知识图谱，再基于知识图谱增强解码过程，使得译文得到进一步改善。

在分享会现场，微软亚洲研究院的研究员张冬冬还展示了微软在机器翻译上的最新进展——演讲翻译，所有人在进入统一虚拟会议室时都可以接收到母语言的演讲内容（文字、语音），可以帮助提升跨语言会议交流效率。

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

演讲翻译系统浏览器页面，演讲者的口述内容会被转换为聆听者设定的语言

对话即平台

由于人们已经逐渐习惯在手机上聊天的体验，同时手机屏幕很小，相对来说语音的交流会更加自然。因此微软认为图形界面的下一代将是 CaaP，所谓「对话即平台」（Conversation as Platform，CaaP）。

作为 CaaP 的技术基础，通用的对话引擎架构往往有两层，下层为面向任务的对话、信息服务和问答、通用聊天三个分别满足使用者不同需求的系统，上层则为调度系统。通过调度系统完成任务的分类和分配，下层系统会根据不同的需求指向不同的 Bot，从而为用户提供流畅的交流体验。

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

通用对话引擎结构示意图

为了更快速、更高效的开发 Bot，微软推出了 Bot Framework。开发者只用几行语句，就能开发出满足自己需求的 Bot。其中该框架抽取意图和重要信息的功能，由 LUIS（Language Understanding Intelligent Service，微软语言理解服务）提供。

在与敦煌研究院合作的过程中，MSRA 通过使用微软的聊天对话技术为敦煌研究院快速开发了相应的客服、聊天系统，并能轻松集成于同一平台。

阅读理解

在语言之外，领域知识和常识往往在 NLP 中有非常重要的作用，阅读理解正是检测一个系统是否具备常识的最佳方式之一。

2016 年，斯坦福大学推出「NLP 领域的 ImageNet」——SQuAD 阅读理解测试集，通过给定一篇文章并准备相应问题，由算法给出问题的答案。该数据集共有 536 篇文章，107785 个相应问题，并包含训练、开发、测试三部分，评判标准分为精确匹配和部分匹配两部分。

自去年 9 月至今，MSRA 一直在该数据集的测试结果上名列第一，指标为 76.922，但距离人类 82 左右的指标还有一定距离。

周明：NLP 是人工智能的开端语言智能是人工智能皇冠上的明珠

SQuAD 测试集测试结果，第一位、第四位均为 MSRA 团队开发的算法系统

中国文化

MSRA 一直在考虑如何将机器翻译与中国文化相结合，因此推出了一系列如微软对联、微软字谜、微软绝句等产品。

不久前 MSRA 还推出了诗歌创作功能，即用户提交照片后可以得到与其意境相符的自由体诗歌，并已率先登陆小冰平台。

NLP 的未来会如何？

在周明博士看来，未来 5－10 年，NLP 技术走向成熟，并将迎来过去 60 年发展最迅速的时期。变化将会体现在如下 6 个部分：

口语机器翻译完全普及：效果会得到提升，但并不意味着同声翻译、专业文献彻底解决；
自然语言会话达到实用：在常见场景下，人类可以通过人机对话完成某些任务，与智能设备交流，但不代表任何任务和不同语言都能达到实用；
智能客服＋人工客服完美结合大大提高效率：问答、简单的任务解决基本可以解决，复杂情况依然无法解决，需要人类智能和人工智能的结合；
自动写诗、新闻、小说、流行歌曲流行起来：输入数据后可以立刻生成新闻稿，人类只需要进行校正，或面向不同的需求进行适用更改；
语音助手、物联网、智能硬件、智能家居普及；
与其它 AI 技术共同在金融、法律、教育、医疗等垂直领域得到广泛应用。

通过对趋势的分析，MSRA 也制定了未来的研究方向，包括：

通过用户画像实现个性化服务：人类的对话是有对象的，目前机器还做不到；
通过可解释的学习洞察人类智能机理：是否会出现可解释的人工智能，可以进行修正和 debug，快速调整系统，目前还没有很好的解决；
通过知识与深度学习结合提升学习效率；
通过迁移学习实现领域自适应；
通过强化学习实现自我演化：即通过显式和隐式反馈不断提升系统；
通过无监督学习充分利用未标注数据。

在问答环节中，周明博士还回答了机器之心关心的 NLP 领域问题，比如 GAN 这种流行的学习方法对 NLP 领域是否有很大帮助？在周明博士看来，GAN 对于机器翻译、信息检索的确会带来帮助，微软也正在研究使用 GAN 来提升机器翻译。但目前 GAN 与 NLP 的结合仍处在开始阶段，「并没有突飞猛进」。

相关栏目：『学人动向』

李迅雷：对下半年经济形势和市场的通盘思考	2025-07-04	[42]
为什么孩子“窝里横、外面怂”呢？了解美国心理学家依恋理论，你就明白了	2025-07-04	[67]
专家观点 \| 美国文理学院：小而美，美在哪里？	2025-07-04	[31]
他19岁辍学，21岁成立非营利组织，用10年清理半个太平洋	2025-07-04	[37]
刘海影：作为保守主义的特朗普主义及其误解	2025-07-04	[29]
张维迎的种子!	2025-07-03	[60]
哈佛商学院专访Anton Korinek：未来2—5年内，AI可能释放出前所未有的生产力红利	2025-07-03	[65]
孙明春：“稳就业”的多维内涵与综合对策	2025-07-03	[56]
凯文凯利：最新5大预言	2025-06-25	[163]
江小涓：尽全力保持经济回升向好势头，三驾马车能用尽用	2025-07-01	[136]