获取完整PPT
请前往:http://kw.fudan.edu.cn/workshop/intro2018
今天跟大家分享的主题是《知识图谱与认知智能》。
知识图谱自 2012 年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,吸引了来自学术界和工业界的广泛关注,在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。
那么到底是什么在支撑着知识图谱技术的繁荣景象?是一股什么力量让知识图谱技术吸引了如此多的关注?换句话说,知识图谱到底能解决什么问题?何以能够解决这些问题?今天的报告主要围绕着这些问题,给大家做一个初步的解答。
先简单介绍一下整个报告的总体思路。人类社会已经进入智能时代,智能时代的社会发展催生了大量的智能化应用,智能化应用对机器的认知智能化水平提出了前所未有的要求,机器认知智能的实现依赖的就是知识图谱技术。
我想大家已经深刻地感受到我们身处在一个智能化的时代。
从 2012 年 Google 的图像识别错误率显著下降,机器在图像识别方面接近人类水平;到 2016 年 AlphaGo 战胜了人类围棋冠军;再到 2017 年 AlphaZero 战胜了 AlphaGo,以及 DeepMind 去尝试星际争霸游戏,这一系列 AI 发展的标志性事件让我们看到了人工智能技术帮助解决人类社会发展若干问题的希望。
我们已经见证的这一系列人工智能技术的发展,本质上是受益于大数据给人工智能带来的数据红利。这一波人工智能热潮是在大数据所给予的海量标注样本以及超强计算能力这两个强大的支撑作用下所形成的。可以说,这一波人工智能的发展本质上是大数据喂养出来的。
到了今天,可以很自豪地宣告机器智能在感知智能和计算智能等若干具体问题上已经达到甚至超越人类水平。现在,在语音识别与合成、图像识别、封闭环境有限规则的游戏领域等问题上,机器智能水平堪比、甚至超越人类水准。
这一系列人工智能技术的突破性进展,促使各行各业纷纷走向了一条智能化升级和转型的道路。智能化技术尤其为我国传统行业的发展带来了全新机遇,对于我国经济结构升级,以及传统实体行业摆脱当前一系列发展困境带来了全新的机遇。智能化升级和转型已经成为各行各业的普遍诉求。各行业走向智能化的发展道路,在某种意义上也是人类社会发展的必然趋势。
自计算机面世以来,人类社会在经历了计算机技术发展的一系列浪潮之后,基本完成了信息化的使命。信息化时代最重要的任务是数据记录与采集,这势必造就大数据。
当我们迈进大数据时代之后,我们势必对大数据的价值挖掘提出诉求。大数据的价值挖掘需要智能化手段。因此大数据时代的到来,某种意义上只是智能化时代的短暂序曲。我相信,未来若干年,计算机技术的主要使命是帮助人类社会实现智能化。
在各行业的智能化发展进程中,AI+ 或者 AI 赋能成为了传统行业智能化升级和转型的一个基本模式。
在 AI 的赋能下,传统行业面临着非常多的机遇,其所关心的一系列核心问题,比如增加收入、降低成本、提高效率和安全保障等,都将显著受益于智能化技术。比如智能客服系统已经在很多行业大规模应用,大大降低了人工客服的巨大劳动力成本;一些企业利用知识图谱,对企业内部的研发资源进行管理,显著提升研发效率,这些都是AI可以赋能传统行业的具体体现。
智能化的升级和转型对整个传统行业产生的影响将是颠覆性的,将重塑整个行业的形态,革新传统行业的各个关键环节,智能化技术将逐步渗透到传统行业的各个角落。
最近几年我们看到越来越多的传统行业将人工智能领域升格为企业的核心战略,在电商、社交、物流、金融、医疗、司法、制造等很多领域涌现出越来越多的AI赋能传统行业的发展案例。
智能化对机器的智能水平提出了要求,包括机器的计算智能、感知智能,尤其是机器的认知智能。
所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在机器能够理解数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的认知能力上。
相较于感知能力,认知能力的实现难度更大,价值也更大。前几年在深度学习的推动下,机器感知能力显著提升。但是感知能力动物也具备,比如我们家里的小猫小狗也能识别主人,识别物体。所以让机器具备感知能力只是让机器具备了一般动物所具备的能力,还不是那么值得“炫耀”的事情。
但是,认知能力是人类独有的能力,一旦机器具备认知能力,AI技术将会给人类社会带来颠覆性革命,同时也将释放出巨大的产业能量。所以实现机器的认知能力是人工智能发展进程中具有里程碑意义的重大事件。
随着大数据红利的消失殆尽,以深度学习为代表的感知智能水平日益接近其“天花板”。以深度学习为代表的统计学习严重依赖大样本,这些方法只能习得数据中的统计模式。
然而,现实世界很多实际问题的解决单单依靠统计模式是不够的,还需要知识,特别是符号化的知识。我们人类的语言理解、司法判案、医疗诊断、投资决策等等很多领域都是显著依赖我们的知识才能实现的。
很多从事自然语言处理的研发人员普遍有个深刻的感受:即便数据量再大,模型再先进,很多自然语言处理任务,比如中文分词、情感分析达到一定准确率之后,就很难再改进了。
比如,中文分词的一个经典案例:“南京市长江大桥”,不管是分为“南京市长+江大桥”还是“南京市+长江大桥”都依赖我们的知识。如果从上下文我们得知是在讨论南京市长,并且有个人叫“江大桥”,我们会倾向于分为“南京市长+江大桥”,否则我们会根据我们已有的知识断句为“南京市+长江大桥”。
不管是哪种情况,我们都在利用我们的知识。我记得我国知名统计学者徐宗本院士在去年年底一个论坛上说过:“数据不够模型补”。我想传达类似的观点:“数据不够知识补”,甚至“数据足够了,知识也不能缺失”。而知识图谱就是这种不可或缺的知识的重要表现形式之一。
机器认知智能绝不是束之高阁、高高在上的前沿技术。它是一类能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的技术。
机器认知智能的发展过程本质上是人类脑力不断解放的过程。在工业革命和信息化时代,我们的体力被逐步解放;而随着人工智能技术的发展,尤其是认知智能技术的发展,我们的脑力也将会逐步解放。
越来越多的知识工作将逐步被机器所代替,伴随而来的将是机器生产力的进一步解放。机器认知智能在应用方面是广泛和多样的,体现在精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等各个方面。
认知智能的第一个应用抓手就是大数据的精准与精细分析。如今,越来越多的行业或者企业积累了规模可观的大数据。但是这些数据并未发挥出应有的价值,很多大数据还需要消耗大量的运维成本。大数据非但没有创造价值,在很多情况下还成为了一笔负资产。
这一现象的根本原因在于,当前的机器缺乏诸如知识图谱这样的背景知识,机器理解大数据的手段有限,限制了大数据的精准与精细分析,从而大大降低了大数据的潜在价值。
举个亲身体验的例子,在娱乐圈王宝强离婚案刚刚开始的时候,新浪微博的热搜前三位分别是“王宝强离婚”、“王宝宝离婚”和“宝强离婚”。也就是说,当时的微博平台还没有能力将这三件事自动归类到一件事,不知道这三件事其实说的是一件事。
机器在统计事件热度的时候就分开统计了,这就是因为当时机器缺乏背景知识,不知道王宝强又称为“王宝宝”或“宝强”,所以没有办法做到大数据的精准分析。
事实上,舆情分析、互联网的商业洞察,还有军事情报分析和商业情报分析都需要大数据的精准分析,而这种精准分析就必须要有强大的背景知识支撑。除了大数据的精准分析,数据分析领域另一个重要趋势:精细分析,也对知识图谱和认知智能提出了诉求。
比如很多汽车制造厂商都希望实现个性化制造。个性化制造希望从互联网上搜集用户对汽车的评价与反馈,并以此为据实现汽车的按需与个性化定制。
为了实现个性化定制,厂商不仅需要知道消费者对汽车的褒贬态度,还需要进一步了解消费者不满意的细节之处,以及消费者希望如何改进,甚至用户提及了哪些竞争品牌。显然面向互联网数据的精细化数据分析必需要求机器具备关于汽车评价的背景知识(比如汽车的车型、车饰、动力、能耗等等)。
因此,大数据的精准和精细化分析需要智能化的技术支撑。
认知智能的第二个非常重要的应用抓手是智慧搜索。下一代智慧搜索对机器认知智能提出了需求。智慧搜索体现在很多方面。
首先,体现在搜索意图的精准理解方面。比如在淘宝上搜索“iPad 充电器”,用户的意图显然是要搜索一个充电器,而不是一个 iPad,这个时候淘宝应该反馈给用户若干个充电器以供选择,而不是 iPad。
再比如在 Google 上搜索“toys kids”或者“kids toys”,不管搜索这两个中的哪一个,用户的意图都是在搜索给孩子的玩具,而不是玩玩具的小孩,因为一般不会有人用搜索引擎搜孩子。“toys kids”和“kid’s toys”中两个词都是名词,要辨别出哪一个是核心词,哪一个是修饰词,在缺乏上下文的短文本上,仍然是个具有挑战性的难题。
其次,搜索的对象越来越复杂多元化。以前搜索的对象以文本为主,现在大家希望能搜索图片和声音,甚至还能搜代码,搜视频,搜设计素材等等,要求一切皆可搜索。
第三、搜索的粒度也越来越多元化。现在的搜索不仅能做篇章级的搜索,还希望能做到段落级、语句级、词汇级的搜索。尤其是在传统知识管理领域,这个趋势已经非常明显。传统的知识管理大都只能做到文档级搜索,这种粗粒度的知识管理已经难以满足实际应用中细粒度的知识获取需求。
最后,是跨媒体的协同搜索。传统搜索以面向单质单源数据的搜索居多。比如针对文本搜索难以借力视频、图片信息,针对图片的搜索主要还是利用图片自身的信息,对于大量文本信息利用率还不高。最近的趋势是跨媒体的协同搜索。
比如前几年,明星王珞丹在微博上晒了张自家小区的照片,然后就有好事者根据她的微博社交网络、百度地图、微博文本与图片信息等多个渠道多种媒体的信息,通过联合检索准确推断出其所在小区位置。所以,未来的趋势是一切皆可搜索,并且搜索必达。
认知智能的第三个应用抓手是智能推荐。智能推荐表现在很多方面。首先是场景化推荐。比如用户在淘宝上搜“沙滩裤”、“沙滩鞋”,可以推测这个用户很有可能要去沙滩度假。那么平台是否能推荐“泳衣”、“防晒霜”之类的沙滩度假常用物品呢?
事实上,任何搜索关键字背后,购物篮里的任何一件商品背后都体现着特定的消费意图,很有可能对应到特定的消费场景。建立场景图谱,实现基于场景图谱的精准推荐,对于电商推荐而言至关重要。
第二:任务型推荐。很多搜索背后的动机是完成特定任务。比如用户购买了“羊肉卷”、“牛肉卷”、“菠菜”、“火锅底料”,那么用户很有可能是要做一顿火锅,这种情况下,系统推荐火锅调料、火锅电磁炉,用户很有可能买单。
第三:冷启动下的推荐。冷启动阶段的推荐一直是传统基于统计行为的推荐方法难以有效解决的问题。利用外部知识,特别是关于用户与物品的知识指引冷启动阶段的匹配与推荐,是有可能让系统尽快渡过这个阶段的。
第四:跨领域的推荐。当阿里刚刚入股新浪时,我们在设想是否能将淘宝的商品推荐给微博的用户。比如,如果一个微博用户经常晒九寨沟、黄山、泰山的照片,那么为这位用户推荐一些淘宝的登山装备准没错。
这是典型的跨领域推荐,微博是一个媒体平台,淘宝是一个电商平台。他们的语言体系、用户行为完全不同,实现这种跨领域推荐显然商业价值巨大,但却需要跨越巨大的语义鸿沟。
如果能有效利用知识图谱这类背景知识,不同平台之间的这种语义鸿沟是有可能被跨越的。比如百科知识图谱告诉我们九寨沟是个风景名胜,是个山区,山区旅游需要登山装备,登山装备包括登山杖、登山鞋等等,从而就可以实现跨领域推荐。
第五:知识型的内容推荐。在淘宝上搜索“三段奶粉”,能否推荐“婴儿水杯”,同时我们是否能推荐用户一些喝三段奶粉的婴儿每天的需水量是多少,如何饮用等知识。
这些知识的推荐,将显著增强用户对于推荐内容的信任与接受程度。消费背后的内容与知识需求将成为推荐的重要考虑因素。
所以未来的推荐趋势就是精准感知任务与场景,想用户之未想。。换言之,。
认知智能的第四个应用抓手是智能解释。2017 年年底的时候,微信上流传 Google 17 年最流行的搜索关键字是“how”,这说明人们希望 Google 平台能做“解释”。类似于“如何做蛋炒饭”,“怎么来北理工”等这类问题在搜索引擎上出现次数日益增多,这些问题都在考验机器的解释水平。
一个更有意思的例子是,当我们在 Google 上搜索“Donald Trump”相关的问题时,你会发现 Google 会自动提示询问“为什么特朗普的老婆嫁给他”而不再是“特朗普老婆是谁”这类简单事实问题。
“why”和“how”问题在现实应用中越来越多。这一趋势实际上体现了人们的一个普遍诉求,那就是希望智能系统具备可解释性。所以可解释性将是智能系统一个非常重要的体现,也是人们对智能系统的普遍期望。
可解释性决定了 AI 系统的决策结果能否被人类采信。可解释性成为了很多领域(金融、医疗、司法等)中阻碍 AI 系统落地应用的最后一公里。
比如在金融领域的智能投资决策,即便 AI 决策的准确超过 90%,但是如果系统不能给出作出决策的理由,投资经理或者用户恐怕也是十分犹豫的。再比如在医疗领域,即便系统判断疾病的准确率在 95% 以上,但是如果系统只是告诉病患得了什么病或者开了一个药方,却不能解释为什么作出这类判断的话,病人是不会为此买单的。
智能系统的可解释性体现在很多具体任务中,包括解释过程、解释结果、解释关系、解释事实。事实上,可解释人工智能最近受到了越来越多的关注。
在学术界,机器学习,特别是深度学习的黑盒特性,日益成为学习模型实际应用的主要障碍之一。越多越多的学术研究项目旨在打开深度学习的黑盒。美国军方也有项目在尝试解释机器的学习过程。我个人也曾做过《基于知识图谱的可解释人工智能》的研究与思考,旨在强调知识图谱在可解释性方面的重要作用。
智能系统另外一个非常重要的表现方式就是自然人机交互。人机交互将会变得越来越自然,越来越简单。越自然简单的交互方式越依赖强大的机器智能水平。
自然人机交互包括自然语言问答、对话、体感交互、表情交互等等。特别是自然语言交互的实现需要机器能够理解人类的自然语言。会话式(Conversational UI)、问答式(QA)交互将逐步代替传统的关键字搜索式交互。
对话式交互还有一个非常重要的趋势就是一切皆可问答。我们的 BOTs(对话机器人)将代替我们阅读文章、新闻,浏览图谱、视频,甚至代替我们看电影、电视剧,然后回答我们所关心的任何问题。自然人机交互的实现显然需要机器的较高认知智能水平,以及机器具备强大的背景知识。
认知智能还体现在机器的深层关系发现与推理能力方面。人们越来越不满足于“叶莉是姚明妻子”这样的简单关联的发现,而是希望发现和挖掘一些深层、潜藏关系。
这里有一些来自互联网的例子。王宝强离婚的时候,就有人挖过为什么王宝强找张起淮当律师。后来有人把人物关联图谱建立起来,发现王宝强与冯小刚关系很好,而冯小刚有徐静蕾和赵薇两个经常合作的演员,而张起淮是这两个演员的法律顾问。这样的关系链路一定程度上揭示了王宝强与他的律师之间的深层次关联,也解释了王宝强为何选择这位律师。
更多类似例子发生在金融领域。在金融领域,我们可能十分关注投资关系,比如为何某个投资人投资某家公司;我们十分关注金融安全,比如信贷风险评估需要分析一个贷款人的相关关联人物和关联公司的信用评级。
我们可以看到,刚才所说的这些需求都在各领域酝酿、发生,这些需求要求机器具备认知能力,要求机器具备理解、解释、规划、推理、演绎、归纳等一系列能力。其中,尤其以理解和解释较为突出。
让机器具备认知能力不是今天才提出的问题,早在图灵时代,阿兰-图灵在设计图灵机的时候就在想象机器能不能像人一样思考。而机器认知智能的实现在本质上就是让机器能够像人一样思考。
这里有一个非常重要的观点要分享给大家,我认为实现认知智能是当前以及今后一段时间里AI发展的重要使命之一。更具体一点,理解和解释将是后深度学习时代人工智能最重要的使命之一。
之所以说后深度学习时代,是因为深度学习的发展对于大数据红利的使用基本上已经到了尽头,深度学习日益面临性能瓶颈,需要寻求新的思路和方向进行突破。而一个非常重要的突破方向在于知识,在于对于符号知识的利用,在于符号知识与数值模型的融合。而这些努力的最终结果就是使机器具备理解和解释的能力。
如何实现机器的认知能力?或者更具体一点,如何让机器具备理解和解释的能力?
我认为知识图谱,或者说以知识图谱为代表的这一波知识工程的一系列技术,在认知智能的实现中起到非常关键的作用。一言以蔽之,知识图谱是实现机器智能的使能器(Enabler)。也就是说没有知识图谱,或许就没有机器认知智能的实现。
知识图谱是什么?我认为知识图谱本质上是一种大规模语义网络。
理解知识图谱的概念,有两个关键词。首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。比如“C罗”是一个实体,“金球奖”也是一个实体,他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念,后者是前者的子类(对应于图中的subclassof 关系)。
理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物,早在上个世纪七八十年代知识工程盛行之时,就已存在。相比较于那个时代的语义网络,知识图谱规模更大。关于这一点后面还会深入介绍。
从 2012 年 Google 提出知识图谱直到今天,知识图谱技术发展迅速,知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下,在更多实际场合下,知识图谱是作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。
去年我国学科目录做了调整,首次出现了知识图谱的学科方向,教育部对于知识图谱这一学科的定位是“大规模知识工程”,这一定位是十分准确且内涵丰富的。
这里需要指出的是知识图谱技术的发展是个持续渐进的过程。从上个世纪七八十年代的知识工程兴盛开始,学术界和工业界推出了一系列知识库,直到2012年Google推出了面向互联网搜索的大规模的知识库,被称之为知识图谱。理解今天的知识图谱内涵,是不能割裂其历史脐带的。
知识图谱的历史发展必然带来一个非常有意思的问题,那就是上世纪七八十年代的知识表示与我们今天的知识图谱到底有什么本质差别?
知识工程在图灵奖获得者费根鲍姆以及 AI 先驱马文明斯基的带领下,曾经兴盛一时,解决了一系列实际应用问题,甚至在数学定理证明等看上去很难的问题上取得了显著进展。
时至今日,我们再次讨论作为一种语义网络的知识图谱,会不会只是冷炒饭的再次煎炒而已?知识图谱在当下的火热到底是知识工程的回光返照还是再次中兴?这一系列问题需要得到合理回答。
传统语义网络与知识图谱的差别首先表现在其规模上。知识图谱是一种大规模语义网络,与上世纪七八十年代的各类语义网络相比较,最显著的差异就是规模差异。
推而广之,以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。
传统知识工程一系列知识表示都是一种典型的“小知识”(small knowledge)。而到了大数据时代,受益于海量数据、强大计算能力以及群智计算,我们如今能够自动化构建、或者众包构建大规模、高质量知识库,形成所谓的“大知识”(big knowledge,合肥工业大学的吴兴东教授在很多场合下也提到类似观点)。
所以知识图谱与传统知识表示在浅层次上的区别,就是大知识与小知识的差别,是在规模上的显而易见的差别。
更深刻的进行分析就会发现,这样的一个知识规模上的量变带来了知识效用的质变。知识工程到了上世纪八十年代之后就销声匿迹了。根本原因在于传统知识库构建主要依靠人工构建、代价高昂、规模有限。
举个例子,我国的词林辞海是上万名专家花了 10 多年编撰而成的,但是它只有十几万词条。而现在任何一个互联网上的知识图谱,比如 DBpedia,动辄包含上千万实体。
人工构建的知识库虽然质量精良,但是规模有限。有限的规模使得传统知识表示难以适应互联网时代的大规模开放应用的需求。
互联网应用的特点在于:一、规模巨大,我们永远不知道用户下一个搜索关键词是什么;二、精度要求相对不高,搜索引擎从来不需要保证每个搜索的理解和检索都是正确的;三、简单知识推理,大部分搜索理解与回答只需要实现简单的推理,比如搜索刘德华推荐歌曲,是因为知道刘德华是歌星,至于“姚明老婆的婆婆的儿子有多高”这类的复杂推理在实际应用中所占比率是不高的。
互联网上的这种大规模开放应用所需要的知识很容易突破传统专家系统由专家预设好的知识库的知识边界。我想这一定程度上回答了,为何谷歌在 2012 年这个时间节点推出知识图谱,利用一个全新名称以表达与传统知识表示毅然决裂的态度。
有人或许会问,那么传统知识表示对于领域应用应该依然有效,为何专家系统后来在领域应用中也不多见了?
这个问题我也曾思考了很长时间,直到后来在很多领域知识图谱的应用实践中意识到一些知识应用的有趣现象,我姑且将这个现象叫做“领域知识的伪封闭”现象。领域知识看似应该是封闭的,也就是不会蔓延至专家预先设定的知识边界范围之外。
但是事实恰好相反,很多领域知识的应用十分易于突破原先设定的边界。比如,我们现在做金融知识图谱,原先我们觉得只有股票、期货、上市公司与金融密切相关,但是实际应用中,几乎万事万物在某种意义下都与金融相关,比如某个龙卷风,可能影响农作物产量,进而影响农业机械的出货量,进而影响了农机发动机,最终影响了这个发动机的上市公司股价。
类似这样的关联分析,不正是我们期望智能金融实现的么?
而这样的深度关联分析,显然十分容易超出任何专家系统的预先设定的知识边界。因此,某种意义上,知识是普遍关联的,当然关联也是有条件的;领域知识的领域性通常是个伪命题,很多领域知识库的构建要直面通用知识库的构建所面临的同样挑战。
换句话说,领域知识库的深度应用势必涉及通用知识库。这也在一定程度上解释了,我曾经强调的一个观点,那就是通用知识库的研究具有战略意义,不容有失;一万个领域知识研究通透了也未必有一个通用知识库研究透彻价值来的高。通用知识库的研究是在抢占知识库研究的战略制高点,对于领域知识库能够形成战略俯冲。
如果你仍然不满足于我当前的回答,进一步追问决定了领域知识库与通用知识库这种粘连特性的根本原因是什么。那么我想答案在于人类的知识体系。
我们的知识是有体系架构的,这个架构的最底层,也就是作为地基支撑整个知识体系的知识就是通用知识。而在通用知识中的最底层应该是常识,也就是我们每个人都知道的知识,特别是我们人类关于时间、空间以及因果的基本常识。
整个知识体系是建基在这些通用常识之上,再通过隐喻作为主要手段,逐步形成我们的高层、抽象或者领域性知识。
因此,我想通过一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:Small knowledge + Bigdata=Big knowledge。
通过这个公式表达两层意思。一、以知识图谱为代表的大数据时代知识工程有着悠久的历史渊源;知识图谱脱胎于传统知识表示,但是在规模上显著优于传统语义网络;而这种量变也带来知识效用上的质变。这层含义刚才已经阐述,不再赘述。
我通过这个公式想强调的是另一层含义:传统知识表示形式林林总总,通过大数据的赋能,这些知识表示将在各个应用场景下发挥巨大能量。知识图谱只不过是传统的语义网络在规模上显著提升,就已经能够解决大量实际问题。
试想一下,我们还有大量其他的知识表示,比如本体、框架、谓词逻辑、马尔科夫逻辑网、决策树等等各种知识表示仍然被锁在规模的牢笼里,一旦规模瓶颈被突破,我相信整个知识工程的产业能量将得到巨大释放。
正是在这个意义上,我认为知识图谱只是知识工程复兴的序曲,知识图谱将引领知识工程复兴。我有一种强烈的感觉,好比我们曾经经历了小数据到大数据的轰轰烈烈的时代转变,我们也必将经历从小知识走向大知识的时代转变。
为什么知识图谱对于机器实现人工智能如此重要呢?我们先从形而上的角度来分析这个问题。具体而言,我们分析知识图谱实现机器认知智能的两个核心能力:“理解”和“解释”。
我尝试给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。
比如如果我说到“2013 年的金球奖得主 C 罗”这句话,我们之所以说自己理解了这句话,是因为我们把“C 罗”这个词汇关联到我们脑子中的实体“C 罗”,把“金球奖”这个词汇映射到我们脑中的实体“金球奖”,然后把“得主”一词映射到边“获得奖项”这个关系。
我们可以仔细体会一下我们的文本理解过程,其本质是建立从数据,包括文本、图片、语音、视频等数据到知识库中的实体、概念、属性映射的过程。
再来看我们人类是如何“解释”的。比如我问“C 罗为什么那么牛?”,我们可以通过知识库中的“C 罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。
这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的,是不难完成上述过程的数学建模的。
知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。首先,我们来看机器认知的核心能力之一:自然语言理解。
我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。
机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。我们人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。
我们之所以能够很自然地理解彼此的语言,是因为彼此共享类似的生活体验、类似的教育背景,从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。
我们可以做个简单的思想实验,假如现在有个外星人坐在这里听我讲报告,他能听懂么?我想还是很困难的,因为他没有在地球上生活的经历,没有与我相类似的教育背景,没有与我类似的背景知识库。
再举个很多人都有体会的例子,我们去参加国际会议时,经常遇到一个尴尬的局面,就是西方学者说的笑话,我们东方人很难产生共鸣。因为我们和他们的背景知识库不同,我们早餐吃烧饼、油条,西方吃咖啡、面包,不同的背景知识决定了我们对幽默有着不同的理解。
所以语言理解需要背景知识,没有强大的背景知识支撑,是不可能理解语言的。要让机器理解我们人类的语言,机器必需共享与我们类似的背景知识。
实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。
以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱 DBpedia 包含数千种常见语义关系;结构友好,通常表达为 RDF 三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。
所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。
既然机器理解自然语言需要背景知识,我对于当前的自然语言处理有个重要看法:我认为自然语言处理走向自然语言理解的必经之路是知识,我将我的这个观点表达为 NLP+KB=NLU 的公式。
很多 NLP 从业人员有个体会,明明论文里面报道的在某个 benchmark 数据 95% 准确率的模型一旦用到实际数据上,至少有 10 个百分点的下降。而最后那几个点的准确率的提升需要机器理解自然语言。
这一点在司法、金融、医疗等知识密集型的应用领域已经体现的非常明显了。比如在司法领域,如果不把司法背后的事理逻辑、知识体系赋予机器,单纯依赖字符数据的处理,是难以实现司法数据的语义理解的,是难以满足司法文本的智能化处理需求的。
因此,NLP 将会越来越多地走向知识引导的道路。NLP 与 KB 将走向一条交迭演进的道路。在知识的引导下,NLP 模型的能力越来越强,越来越强大的 NLP 模型,特别是从文本中进行知识抽取的相关模型,将会帮助我们实现更为精准地、自动化抽取,从而形成一个质量更好、规模更大的知识库。
更好的知识库又可以进一步增强 NLP 模型。这种循环迭代持续下去,NLP 最后将会非常接近 NLU,甚至最终克服语义鸿沟,实现机器的自然语言理解。
最近几年,这条技术演进路线日渐清晰,越来越多的顶尖学者有着与我类似的看法,我的研究团队沿着这条路径做了很多尝试,初步看来效果显著。当然这些都是一家之言。
也有不少人认为依靠纯数据驱动的自然语言处理模型也可实现机器的自然语言理解,特别是当下深度学习在自然语言处理方面还十分流行,我所倡导的知识引导下的 NLP 发展路径多少有些显得不合时宜。
这里,通过一个实际案例论证知识对于 NLP 的重要作用。在问答研究中,自然语言问题的理解或者语义表示是一个难题。同样语义的问题表达方式往往是多样的,比如不论是 how many people are there in Shanghai? 还是 what is the population of Shanghai,都是在问上海人口。
又或者形式上看上去很接近的问题,实质语义相差很大,比如“狗咬人了吗”与“人咬狗了吗”语义完全不同。当问题答案来自于知识库时,这类问题就属于 KBQA(面向知识库的自然语言问答)的研究内容。
KBQA 的核心步骤是建立从自然语言问题到知识库中的三元组谓词的映射关系。比如上面的两个与上海人口相关的问题,都可以映射到知识库中的 Population 这个谓词。
一种简单的办法是让机器记住问题到谓词的映射规则,比如机器记住“How many people are there in Shanghai?”映射到上海这个实体的 Population 谓词上。但这种方法没有把握问题语义本质,如果用同样的句式问及北京、南京,甚至任何一个城市人口呢?难道机器需要为每个实例记住这些映射么?
显然我们人类不是如此理解问题语义的,我们是在“How many people are there in $City?”这个问题概念模板层次把握问题语义的实质的。
利用概念模板不仅避免了暴力式的记忆,同时也能让机器具备类人的推理能力。比如,如果问到“How many people are there in XXX?”,机器只要知道 XXX 是个 city,那么这个问题一定是在问 XXX 的人口数量。
那么我们怎么生成这种问题概念模板呢,我们用概念图谱。概念图谱里面含有大量的类似 shanghai is a city,beijing is a city 这类知识。充分利用这些知识可以得到自然语言问题的有效表示,从而实现机器对于自然语言问题的语义理解。
知识图谱对于认知智能的另一个重要意义在于:知识图谱让可解释人工智能成为可能。“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人,人只能理解符号,没办法理解数值,所以一定要利用符号知识开展可解释人工智能的研究。
可解释性是不能回避符号知识的。我们先来看几个解释的具体例子。比如,我若问鲨鱼为什么可怕?你可能解释说:因为鲨鱼是食肉动物,这实质上是用概念在解释。若问鸟为什么能飞翔?你可能会解释因为它有翅膀。这是用属性在解释。若问鹿晗关晓彤前些日子为什么会刷屏?你可能会解释说因为关晓彤是鹿晗的女朋友。这是用关系在解释。
我们人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象,解释事实。而对于机器而言,概念、属性和关系都表达在知识图谱里面。因此,解释离不开知识图谱。
沿着这个思路,我们做了一些初步尝试,我们首先试着利用知识图谱做可解释推荐。我们目前的互联网推荐,只能给我们推荐结果,却无法解释为什么。
可解释推荐将是未来推荐研究的重要领域,将是具有巨大商业价值的研究课题。我们初步实现了可解释的实体推荐。若用户搜索了“百度”和“阿里”,机器推荐“腾讯”,并且解释为什么推荐“腾讯”,因为他们都是互联网巨头、都是大型 IT 公司。
这里实质上是在利用概念展开解释,这些概念可以在很多概念图谱,比如英文概念图谱 Probase,和中文概念图谱 CN-Probase 里找到。
另一个例子是让机器解释概念。比如向机器提及“单身汉”这个概念,机器能否自动产生“男性”、“未婚”这样的属性用于解释这个概念。
我们针对富含实体、概念和属性信息的大型百科图谱展开挖掘,自动挖掘出常见概念的定义性属性。这些定义性属性可以帮助我们完善概念图谱,也就是为概念图谱上的每个概念补充定义性属性信息;进一步可以利用这些信息让机器利用属性对于实体进行准确归类。这一归类过程本质上是在模拟人类的范畴化过程。
知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了,统计模型的效果已经接近“天花板”,要想突破这个“天花板”,需要知识引导。
举个例子,实体指代这样的文本处理难题,没有知识单纯依赖数据是难以取得理想效果的。比如“张三把李四打了,他进医院了”和“张三把李四打了,他进监狱了”,人类很容易确定这两个不同的“他”的分别指代。
因为人类有知识,有关于打人这个场景的基本知识,知道打人的往往要进监狱,而被打的往往会进医院。但是当前机器缺乏这些知识,所以无法准确识别代词的准确指代。很多任务是纯粹的基于数据驱动的模型所解决不了的,知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。
实际上在很多 NLP 应用问题中,我们在尝试用知识引导突破性能瓶颈。比如在中文实体识别与链接中,针对中文短文本,在开放语境下,在没有充分上下文,缺乏主题信息的前提下,这一问题仍然十分困难,现在工业界最高准确率大概 60% 多的水平。当前机器仍然难以理解中文文本中的实体。
最近,我们利用中文概念图谱 CN-Probase,给予中文实体识别与链接任务以丰富的背景知识,取得了十分显著的效果。我们知道打球的李娜和唱歌的李娜不是同一个人,现在即便这两人在文本中同时被提及,机器也能准确识别并加以区分。
知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。当前的机器学习是一种典型的“机械式”学习方式,与人类的学习方式相比显得比较笨拙。
我们的孩童只需要父母告知一两次:这是猫,那是狗,就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。我们中国学习英语,虽然也要若干年才能小有所成,但相对于机器对于语言的学习而言要高效的多。
机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合,这使我们很快陷入进退两难的境地:是相信学习模型还是果断弃之?机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。
我相信,未来机器学习能力的显著增强也要走上知识的充分利用的道路。符号知识对于机器学习模型的重要作用会受到越来越多的关注。
这一趋势还可以从机器智能解决问题的两个基本模式方面加以论述。机器智能的实现路径之一是习得数据中的统计模式,以解决一系列实际任务。另一种是专家系统,专家将知识赋予机器构建专家系统,让机器利用专家知识解决实际问题。
如今,这两种方法有合流的趋势,无论是专家知识还是通过学习模型习得的知识,都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型,可以显著降低机器学习模型对于大样本的依赖,提高学习的经济性;提高机器学习模型对先验知识的利用率;提升机器学习模型的决策结果与先验知识的一致性。
我个人倾向于认为:机器学习也面临一次全新机遇。我将其总结为 ML+KB=ML2,也就是说机器学习在知识增强下或许就是下一代机器学习。
沿着上面的思路我们也做了一些尝试。在自然语言生成任务中,我们的机器学习模型,特别是深度生成模型会经常生成很多不符合语法、或者不符合语义的句子。
我们人类显然可以总结出很多语法语义规则用于描述什么是好的自然语言语句。但是这些知识还很难被机器有效利用。这就需要把语法、语义知识用规则、符号的方式表达出来,并有效融合到深度生成模型里面。
最近,我们基于对抗生成网络初步实现了这一目标。并将融合了先验知识的语言生成模型用于从知识库三元组自动生成自然语言问题,并将这一技术用于文本验证码。具体技术细节可以参考我曾做过的一个技术报告《未来人机区分》。
知识将成为比数据更为重要的资产。前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。
因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。如果我们只满足卖数据盈利,那就好比是直接输出石油在盈利。但是石油的真正价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相像。都有着复杂流程,都是大规模系统工程。
我今天的报告就是在当前的时代背景下重新解读图灵奖获得者,知识工程的鼻祖,费根鲍姆曾经说过的一句话“knowledge is the power in AI”。这句话已经出现几十年了,在当今语境下需要重新解读。
最后用三个总结结束今天的报告。总结 1 概括了这个报告的主要观点。总结 2 试图再次强调我的三个观点。总结 3 想用一句话再次强调知识的重要性。
知识的沉淀与传承铸就了人类文明的辉煌,也将成为机器智能持续提升的必经之路。只不过到了机器身上,知识的沉淀变成了知识的表示,知识的传承变成了知识的应用。所以,知识的沉淀和传承不仅铸就了人类文明的辉煌,或许也将造就机器智能的全新高度。