Gowild AI Lab由知识图谱专家王昊奋博士带队。而他本人在博士就读期间就发表了30余篇国际顶级会议和期刊论文,在知识图谱相关研究领域积累了丰富的经验。
知识图谱是谷歌对其所推出的大规模知识库产品的称呼,在此之前已有大量关于知识库研的研究,其中有很多代表性的工作,也相应提出了很多挑战性的问题。那么王昊奋博士是怎么看待这些问题的呢?
一、知识的自动获取本身就很难
人工智能所追求的,是用更聪明的算法,基于更廉价的方式,去获得更高质量的数据,来形成更好的预测或判别模型,然后能辅助我们做很多智能化的应用。
知识的自动获取本身就很难。
首先,要考虑从哪里获取?如果基于数据库,知识可能相对比较规整,但它本身可能并非是以人们最习惯的形式出现,比如表格、表单或者列表之类的,对比自然语言,它有自己的结构,但在结构内一般又还是尽量偏用自然语言,因此它是半结构化的。在日常生活中看到的一些网页,比如知乎、豆瓣,包括app,比如点评,它们都是属于半结构化的。
更进一步就是非结构化,比如人们的日常交流,全部都是由文本来进行表述的。包括病理,或者我们看过的一些书籍,抛开目录,其他都是无结构的。
不同类型的语言,获取知识的难度不一样,越是结构化,获取的成本就越低!
从文本来获取,就会涉及到大量自然语言理解的问题;
从图像来获取,就会涉及到大量视觉识别相关的问题;
从语音来获取,就会涉及到大量语音识别相关的问题。
问题在于,越结构化的数据,本身的规模就越小。
另外,获取知识之后,还会存在精度和覆盖率的问题。
其挑战在于:
对于结构化数据,需要处理复杂的表数据,而从链接数据中获取知识需要解决数据对齐问题,从半结构化(例如网站)数据中获取知识,需要对包装器进行定义、生成、更新与维护,而从文本中获取知识,需要考虑信息抽取中的准确率与覆盖率。
二、你不一定要选择多源获取
你不一定要选择多源获取,除非从一个源上并不能完整获取你所需要的知识。
知识获取之后,为了避免碎片化,要把它合成一个整体来对外服务。多源的话肯定会存在很多异同。异是指,这个知识取自不同领域,同是指,它们可能会有很多冗余的地方。有时候,为了保证融合的质量,融合的效率可能就达不到,到最后还是无法解决希望融合的初衷。还有,在融合的过程中会存在很多不一致的地方。比如:
1) 对于同一个概念,或者同一个属性,甚至是同一个对象,每个人描述的方法却是不一样的;
2) 某些具有唯一性的数据,比如出生日期,可能从两种语言获取的内容却是不同的。
因此,融合不一定是必要的。
其挑战在于:
1. 数据质量的挑战。包括命名模糊,数据输入错误,数据丢失,以及数据格式不一致等;
2. 数据规模的挑战。包括数据量大,数据种类多样,多种关系以及多种链接等。
三、知识的表示学习不光看个体
知识的分类是多种多样的,包括常识性知识、事实性知识、确定性知识以及逻辑性知识等等,而面向知识的表示学习,则需要将知识表示为有一定数据结构,计算机能存储、处理的模式。早期的知识表示方法例如语义网络,仍然具有非严格性以及处理复杂等缺点,近年来,RDF和OWL作为知识表示框架的代表,也在商业中得到了成功应用。
表示学习是什么?比如“小莉”这个名字,其实就是一个符号,当你将“小莉”和“人工智能”做一个计算,当从词面而言,并没有任何的交集,但我们都知道“小莉”是人工智能行业的作者,那么在这种情况下,如何去刻画?这就是表示学习。
符号本身是离散的,如果用向量来表示就是:假设小象有100人,可用100维的向量来表示每个人,比如你的员工号是NO.9,那第9维你是1,其它是0。这是一种很稀疏的表示,因为大量都是0。如果做计算的话,你跟任何一个人算出来都是0,因为员工号是唯一的,你是1的地方,其他人都是0,没有重合。这样会导致计算低效,没办法刻画一些语义的东西。
而表示学习希望将稀疏的表示变成稠密的表示,比如将100维变成10维。做了压缩之后,就使得你可能有几个维不是0,然后跟你关系比较好的同事,他们有几个维也不是0,使得你们之间具有了一定的相似度。
比如,中国-北京=日本-东京,Man-Woman=King-Queen
其挑战在于:
面向知识的表示学习,需要是为知识建立统一的语义空间,使得语义可计算,从而实现预测、推理以及推荐。虽然由TransE为代表的知识表示方法已经得到了应用和扩展,但仍然具有很大的挑战,包括需要设计融合更多本体特征的知识图谱表示学习算法,分析知识图谱表示学习与本体推理之间的等价性分析,以及进一步研究神经符号系统等。
四、知识推理其实是从无到有
知识推理是指对知识的选择和应用的过程,其目标是获取满足语义的新的知识或者结论。
在知识图谱补全和知识图谱的查询应用中都含有大量的知识推理的部分,例如实体消解、链接预测、本体对齐已经推理查询等。知识推理按方法分类可以包括四个方面:基于描述逻辑的推理,基于规则挖掘的推理,基于概率逻辑的推理,以及基于表示学习的推理。
其挑战在于:
目前知识推理还存在很多问题,比如说在本体推理与规则推理中,如何在大数据量下进行快速推理,以及对于增量知识和规则的快速加载,都需要研究解决。
五、算法之后要解决哪些事?
大家都在关注算法,这件事情无可厚非,但是知识库这件事不仅仅是算法。
知识图谱主要有两大块:一是知识图谱应用构建的工具,即方法论;二是沉淀下来的知识库。人们希望知识库规模较大,质量较高,因此就会存在知识的自动获取和融合,而算法是其中很重要的一部分。
但是目前,存在几个问题:
1.缺乏最佳实践。
没有最佳实践,大家在做的过程就很容易碎片化,陷入到一些细节,做很多无用功。
2.缺乏开源的工具的支持。
算法到工具还有很长的一段路要走。不管是大数据,还是深度学习,如果它只是有几个算法的话,不会像现在这么火。大数据毕竟是有了hadoop和spark,深度学习毕竟是有了tensorflow,一些工具和生态圈的形成,让门槛变低了,大家才能更专注于业务层面的事情。目前,知识图谱还停留在解决技术问题层面,还没有开始去解决业务问题。
因此,算法之后需要解决的事情,一是工具,二是高质量知识库的形成和积淀。
而知识图谱的商业化应用,是一个非常大的挑战,两极分化也比较严重。
一方面,国内外巨头公司纷纷宣布自己的知识图谱产品。
例如Facebook基于社交图谱的搜索工具“Graph Search”,百度的“知心”以及搜狗的“立知”。
另一方面,没有任何一家创业公司采用单一商业模式。
它们大多数集中在垂直领域,并且服务周期较短。同时为了保证知识图谱的准确率,在构建过程中仍然需要较多的人工干预,因为客户更关注的是“效果”而并非“技术”。
近年来,深度学习的不可解释性已经制约了其发展,这也成为了本届NIPS中的一个火药味十足的话题讨论。符号化的知识图谱具有形象直观的特性,为弥补深度学习在解释性方面的缺陷提供了可能。利用知识图谱解释深度学习和高层次决策模型,是当前值得研究的科学问题,可以为“可解释的AI”提供全新的视角和机遇。