NLP的出现描绘了人工智能更美的诗和远方 - 科技前沿 - 科技动向

NLP的出现描绘了人工智能更美的诗和远方

作者：白硕｜ 2018/1/6 0:21:00 ｜浏览：1997 ｜评论：0

自然语言是人类文明传承和日常交流所使用的语言。狭义的自然语言处理是使用计算机来完成以自然语言为载体的非结构化信息为对象的各类信息处理任务，比如文本的理解、分类、摘要、信息抽取、知识问答、生成等的技术。进一步延展场景，广义的自然语言处理技术也包含自然语言的非数字形态（如语音、文字、手语等）与数字形态之间的双向转换（识别与合成）环节。

鉴于自然语言丰富地表现了人类的认知、情感和意志，潜在地使用了大量常识和大数据，自身在算法和模型上也多采用各种启发式线索，目前一般均把自然语言处理作为人工智能的一个分支。

最近，在人工智能领域出现重要进展、人工智能应用受到各行各业热切期待。自然语言处理技术也水涨船高，受到普遍的重视，NLP的出现描绘了人工智能更美的诗和远方。

NLP的起源

自然语言处理作为人工智能的一个分支，其源头和人工智能一样，都出自于计算机科学的祖师爷级人物——阿兰·图灵。图灵在提出图灵测试的时候，就把使用自然语言与人进行对话可以乱真的能力作为判别一个机器系统有无智能的标准。在图灵的时代，让机器“善解人意”是人工智能的诗与远方，在当时的技术条件下还看不到实现的希望。

NLP的出现描绘了人工智能更美的诗和远方

▲NLP作为人工智能分支的兴起

使用简单直接的词袋技术和模板匹配技术，是处理自然语言早期尝试的开始，冲在最前面的是机器翻译和人机对话。由于没有掌握自然语言的要领，早期的机器翻译和人机对话系统总体上表现稚嫩，充其量只能是玩具系统。

数据库技术和专家系统技术都具有较为复杂的查询和使用逻辑，其内部表示和人类用户所熟悉的自然语言表示具有较大的差异，为弥补这方面的人机差距，实现更加友好的人机互动，利用自然语言处理技术为数据库和专家系统等提供自然语言接口是早期自然语言处理技术发展的动力之一。但是由于图形人机界面技术的发展，冲淡了对自然语言接口的需求，加之自然语言处理技术本身还要攻克大量难关，数据库和专家系统的自然语言接口直到多年以后的Watson系统才得以展现其威力，在此之前只是一个不太被看好的“弃儿”。

随着语言学领域在乔姆斯基的倡导下发生了天翻地覆的革命，形式化方法被引入语言学，用于刻画自然语言的句法结构，形式语言理论蓬勃发展，形成了乔姆斯基形式语言理论框架体系。在这个体系下，语言被分为0型（短语结构语法）、1型（上下文相关语法）、2型（上下文无关语法）和3型（正则语法），它们的成员判定问题复杂度依次为半可判定、NP完全、多项式和线性。对于各种自然语言来说，大体上占到2型的很少但很不规则的一部分，但部分现象呈现上下文相关性，会在局部对2型有所突破。这就是笔者所说的“毛毛虫”现象。

NLP的出现描绘了人工智能更美的诗和远方

▲NLP作为语言学应用的兴起

按照当代语言学理论，自然语言分符号、词法、句法、语义和语用五个层面。在符号层面，有语音、文字、手语和电子输入。在词法层面，有词典、词性标注、词的形态变化、构词法等。在句法层面，有词对词的关联/依存关系，以及短语对短语的结合/拼接关系。在语义层面，有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系。在语用层面，有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系。一般称的“语法”，包含了词法和句法两个层面。

针对自然语言的特性，在形式语言理论框架下建立不同的模型，形成了自然语言处理的诸多形式化机制，基于规则的形式化机制包括LFG（词汇功能语法）、GPSG（广义短语结构语法）、HPSG（中心词驱动的短语结构语法）、DG（依存语法）、CG（范畴语法）、CCG（组合范畴语法）等，基于统计的形式化机制包括HMM（隐马尔科夫模型）、PCFG（概率上下文无关语法）等，基于联结的形式化机制包括CNN（卷积神经网络）、RNN（循环神经网络）、LSTM（长短时记忆模型）等。具有交叉学科性质的“计算语言学”，就是自然语言处理技术在模型、算法级的研究领域的集中体现。

实际上，鉴于欧氏空间具有良好和丰富的数学工具可用，语言/文本的向量化努力是跨越统计和联结两大阵营的。总体说来，当前技术能够大规模处理的，仍然只是具有“浅层句法”或者“简单标记”的NLP任务。更复杂语言现象的理解、更复杂语义关系的抽取，仍然任重道远。

NLP的流派

随着日本五代机计划的失败，第二波人工智能浪潮消退，互联网在WWW的出现后迅速崛起，NLP技术穿上了互联网马甲，搭上了搜索引擎的班车，成为了一门互联网应用技术。在无比简单的搜索框背后，是各种NLP技术的组合体，文本的分类、聚类、摘要、协同过滤、信息抽取、机器翻译……可以说应有尽有。这段时期之所以NLP既远离“人工智能”的招牌，也远离“计算语言学”招牌，是因为人工智能招牌在当时并无正面贡献，而语言学家在经验主义范式下不得施展甚至每每成为负担。而互联网这棵大树却足够容纳NLP的一系列成果。大型互联网公司在机器翻译领域的出色表现很好地证明了这一点。

NLP的出现描绘了人工智能更美的诗和远方

▲NLP作为应用赋能技术的兴起

深度学习技术以摧枯拉朽之势横扫语音、图像识别和浅层自然语言处理各类任务，知识图谱技术为语义知识处理走向各行各业做好技术栈和工具箱的铺垫，人工智能招牌强势的王者归来已经在所难免，自然语言处理技术也自然地成为了这王者头上的王冠。这是因为，语音和图像识别大局已定。自然语言处理已经成为一种应用赋能技术，随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代，正通过新一代人工智能创新创业团队，全面渗透到人工智能应用的各个角落。自然语言处理从浅层到深层面临范式转换，还处在对接情感计算与常识计算的战略性要地的关键位置。谁能拔得头筹，谁就能在当下的人工智能“军备竞赛”中处于有利地位。

NLP的出现描绘了人工智能更美的诗和远方

▲NLP的流派

回顾NLP技术的发展历史，可以清晰地看到几个流派各领风骚数十年的沿革和范式转换的踪影。从上世纪五六十年代到八十年代，是“理性主义”学派盛行的年代，是基于规则的范式主导的年代。上世纪九十年代开始，“经验主义”学派开始反超，基于统计的范式繁荣了近二十年，终于在2010年前后被同为“经验主义”学派的基于联结的范式所全面取代。这是深度学习算法显现的巨大威力，也是数据和算力积累到临界点的一次综合性的爆发。目前，基于联结的范式风头正盛，但“深度”自然语言处理的需求压力之下，“理性主义”学派以某种方式再度回归，实现“波粒二象性”的有机结合，也是可期待的。

分词与词法

词法（Lexicon）是自然语言处理的基础层次。西方语言文字多采用空格作为词间间隔的标记，相对易认易解析。汉语、日语等东方语言多采用无空格的词语连写格式，因此需要一个额外的环节，就是分词。

按给定词典进行分词，是中文自然语言处理的经典研究方向，现已有相对成熟的算法和技术。并不是说这样的算法和技术可以独自在词法层面解决所有分词难题，而是说靠这样的技术可以大体上保持一个较高的水准，还有一些分词有歧义的场合，需要结合更大的上下文背景、甚至结合句法分析、语义分析等后续工序的逆向选择，才能够搞定。

分词歧义分成两类：一类叫做“组合歧义”，另一类叫做“交叉歧义”。

依照词典进行分词并不是词法层面唯一的分析任务。其他任务也很实际并且同样具有挑战性。

词法分析领域绝非基于词典的分词这么简单，这个领域还有大量有待攻克的难关，有些难题已经与句法分析搅在一起，非统筹考虑是无法单独推进的。

句法分析

句法（syntax）和词法合称语法（grammar）。语法这个层次要不要存在，一直是引起很热烈争论的话题。如果说符号（说了什么）是起点、语义（谁和谁有什么关系）是终极的话，那么语法就是中继站。

如果说以词袋和模板为基础的“浅层”句法分析方法具有局限的话，那么，可以一用的“深层”句法分析方法。目前有哪些呢？概括说起来，传统的“主流”结构表示方法有三种：CFG（上下文无关语法）、DG（依存语法）、CCG（组合范畴语法），新潮的结构表示方法只有一种，就是字符串到向量空间的嵌入（seq2seq）。

无论使用什么样的句法分析技术，有一点必须明确，就是句法本身是不自足的。细粒度描述的句法不具备鲁棒性和可行性，而粗粒度描述的句法往往必然带有伪歧义。

最后要说明，即使语言的结构表示模型是基于理性主义（符号或规则）路线的，但语言解析过程本身仍可以采用基于统计的或基于联结的方法。比如PCFG就是基于规则的结构表示与基于统计的过程控制的有机结合。

词典化（免规则）、单子性（免复杂层次）、局域化（免跨成分关联）和鲁棒性（对灵活语序和修辞性失配的适应性），是自然语言句法分析技术未来的发展趋势。

语义表示与理解

如果说自然语言处理是人工智能的王冠，那么语义表示和理解技术就是王冠上的明珠。目前人工智能领域的发展态势，在语义这一块已经到了重兵集结的程度。句法分析技术的进步，使得我们有希望从结构和算法方向逼近更加精准的语义解析；应用领域数据转化为知识的实践方兴未艾，知识图谱的技术栈里算力充足工具齐全，使得我们有希望从表示的方向为语义架桥铺路添砖加瓦。精彩纷呈的明珠争夺战，可以说是万事俱备，一触即发。

的确，知识图谱就是当代最通用的语义知识表示形式化框架。它的节点就是语义学里面说的“符号根基（symbol grounding）”，即语言符号与真实或想象空间中的对象的对接，在计算机中体现为语言符号与数字化对象的对接。它的边则是语义学里面说的“角色指派（role assignment）”，在计算机中体现为每个数字化对象与其他数字化对象之间的语义关系标签。节点和边，这恰恰是知识图谱所支持的要件。

但是，事情并没有完结。语义结构表示框架中，现有的知识图谱可以完美描述实体、关系、属性（状态）及其值这三类要素。但是剩下的还有事件、时间、空间、因果条件、逻辑模态等，我们必须对现有的知识图谱结构进行改造，才能适应这些语义要素的表示。

此外，人类的语义解析过程充满了所谓“脑补”。可见，借助知识图谱，智能化地完成这类需要“脑补”的语义理解过程，是语义分析技术走向实用和深化的必然要求。

由此可见自然语言的语义的确是一个博大精深的体系。知识图谱为语义计算准备好了基本的框架，但要全面推进到实用，还要做许多基础性的工作，包括资源建设和理论模型创新。

应用

自然语言处理技术的应用场景甚广，大致可分为分析型、生成型和交互型三类。舆情监控系统是典型的分析型系统；自动写作系统是典型的生成型系统；形形色色的聊天机器人是典型的交互型系统。

自然语言处理能力以平台化方式提供服务，是广大自然语言处理技术提供者求之不得的事情，但目前还受到一些因素的限制。现实中，更多的自然语言处理技术是融合于一个更大的行业应用场景中，作为其中一项核心技术来发挥自己的作用的。

除了法律、医疗、教育等先行行业之外，金融证券行业对自然语言处理技术业有很迫切的落地需求，但往往必须结合专业领域知识和私有数据才能构建有价值的场景。

目前，行业技术提供商、互联网巨头和人工智能创业企业都在进入这个领域。硝烟滚滚，磨刀霍霍，自然语言处理技术为题材的一场好戏已经开场。

相关栏目：『科技前沿』

苹果、谷歌、微软和 OpenAI——巨头之战	2025-07-03	[37]
刚刚，马斯克切脑全场震撼！插脑只要1.5秒，26年治愈失明，28年全人类变AI	2025-07-01	[313]
参半CEO尹阔：三年做到线上第一的增长密码用科技思维重构传统日化	2025-07-03	[56]
Meta最强AI天团首次曝光！8名华人扛把子，集齐清北浙，扎克伯格挖遍硅谷墙角	2025-07-03	[79]
重大发现！“超级地球”	2025-06-12	[571]
如果AI已经无法阻挡，我们还能做些什么？	2025-06-11	[549]
十五年技术突破，重新定义机器人精度与寿命，开启定制化机器人、超低温、耐腐蚀机器人新时代。	2025-06-03	[929]
为何物理学能给数学带来更多突破的灵感？	2025-05-28	[898]
DeepSeek推荐：能养你一辈子的9个好习惯	2025-05-06	[1591]
构造“姚-李”量子自旋液体 \| Ising专栏	2025-04-28	[1648]