▲NLP作为语言学应用的兴起
按照当代语言学理论,自然语言分符号、词法、句法、语义和语用五个层面。在符号层面,有语音、文字、手语和电子输入。在词法层面,有词典、词性标注、词的形态变化、构词法等。在句法层面,有词对词的关联/依存关系,以及短语对短语的结合/拼接关系。在语义层面,有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系。在语用层面,有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系。一般称的“语法”,包含了词法和句法两个层面。
针对自然语言的特性,在形式语言理论框架下建立不同的模型,形成了自然语言处理的诸多形式化机制,基于规则的形式化机制包括LFG(词汇功能语法)、GPSG(广义短语结构语法)、HPSG(中心词驱动的短语结构语法)、DG(依存语法)、CG(范畴语法)、CCG(组合范畴语法)等,基于统计的形式化机制包括HMM(隐马尔科夫模型)、PCFG(概率上下文无关语法)等,基于联结的形式化机制包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)等。具有交叉学科性质的“计算语言学”,就是自然语言处理技术在模型、算法级的研究领域的集中体现。
实际上,鉴于欧氏空间具有良好和丰富的数学工具可用,语言/文本的向量化努力是跨越统计和联结两大阵营的。总体说来,当前技术能够大规模处理的,仍然只是具有“浅层句法”或者“简单标记”的NLP任务。更复杂语言现象的理解、更复杂语义关系的抽取,仍然任重道远。
NLP的流派
随着日本五代机计划的失败,第二波人工智能浪潮消退,互联网在WWW的出现后迅速崛起,NLP技术穿上了互联网马甲,搭上了搜索引擎的班车,成为了一门互联网应用技术。在无比简单的搜索框背后,是各种NLP技术的组合体,文本的分类、聚类、摘要、协同过滤、信息抽取、机器翻译……可以说应有尽有。这段时期之所以NLP既远离“人工智能”的招牌,也远离“计算语言学”招牌,是因为人工智能招牌在当时并无正面贡献,而语言学家在经验主义范式下不得施展甚至每每成为负担。而互联网这棵大树却足够容纳NLP的一系列成果。大型互联网公司在机器翻译领域的出色表现很好地证明了这一点。
▲NLP作为应用赋能技术的兴起
深度学习技术以摧枯拉朽之势横扫语音、图像识别和浅层自然语言处理各类任务,知识图谱技术为语义知识处理走向各行各业做好技术栈和工具箱的铺垫,人工智能招牌强势的王者归来已经在所难免,自然语言处理技术也自然地成为了这王者头上的王冠。这是因为,语音和图像识别大局已定。自然语言处理已经成为一种应用赋能技术,随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代,正通过新一代人工智能创新创业团队,全面渗透到人工智能应用的各个角落。自然语言处理从浅层到深层面临范式转换,还处在对接情感计算与常识计算的战略性要地的关键位置。谁能拔得头筹,谁就能在当下的人工智能“军备竞赛”中处于有利地位。