忽如一夜春风来,万众创新皆AI。一时间,各种“AI将颠覆某行业”,恍若数年前“互联网+”热潮席卷而来,下一个改变世界的人仿佛呼之欲出。而在人工智能领域有十余年研究经验的文因互联创始人鲍捷,却对AI创业有更为冷静的思考。“好东西都是总结出来的,从上往下去设计一个系统,一定会失败。”鲍捷认为,成功的人工智能系统,尤其是2B系统,需要从一个一个案例中总结而来,人工智能公司早期都要经过外包业务为主的阶段,在发展过程中,一定会进行场景的跃迁。一项伟大的发明需要经历多个进化阶段才能最终面世,产品初期形态往往受到基础条件限制。具体到文因互联所在的金融信息科技领域,大致可以从以下几个方面判断中国人工智能现阶段基础条件的成熟度。
首先,数据是训练人工智能的原材料。想要实现智能化分析,需要大量结构化底层数据,再进行事件建模、回归分析等。中国金融市场中存在大量非结构化数据,处理起来是一个漫长的过程。在缺乏数据的条件下去打造产品,如同无米之炊。如果不改变产生数据的市场主体,处理期间还将源源不断地产生更多数据。改变这样的现状难以一步到位,需要层层渗透,使金融市场中的各个参与主体逐渐接受各种技术应用,也就是文因互联所专注于打造的“标准件”,促进大环境过渡到数据结构化阶段,才能为人工智能搭建更大的舞台。
其次,好的产品不仅需要技术人才,也需要更多的产业人才。中国人工智能研究起步晚,设立人工智能专业的高校非常有限,基础学科研究投入不足,技术人才稀缺,导致人力成本暴涨。据腾讯研究院统计,美国AI领域基础层人才数量是中国的13.8倍,产业人才总量是中国的两倍。因此,想要聚集起懂知识图谱,懂自然语言处理又懂金融的工程师、架构师和产品经理更是难上加难。
最后,打造好产品离不开种子客户助力迭代的过程。金融工作本身是关于信息的处理和判断,AI能提高效率,节约的是人力成本,但在可用性到达一定程度之前,AI能够替代的人力也只是最初级的人力,在中国市场中成本较低甚至没有成本。客户对产品价值的感知有限,付费意愿也就不够强烈。从短链条的应用做起,从价值更明确的小事做起,教育市场任重而道远。在每个发展阶段,人工智能公司可能需要服务不同的客户群体,在场景跃迁的过程中坚持下来很难得,鲍捷认为,这样的进化力才是企业组织最核心的能力,而非初始阶段的技术。
自上而下与自下而上,两条路径切入金融行业
ifenxi:人工智能技术能够对金融产生多大影响?
鲍捷:计算机能对金融产生多大影响,人工智能就能产生更大的影响。金融可能是所有人工智能应用领域里面最好的,因为本质上来说,金融的核心就是处理信息。信息的处理有传感器,有行动器,有分析器,现在的效率还是非常低的。传统的信息处理都是人工来做,但未来一定会用机器来替代人工。今后十年,人工智能技术会不停地渗透各个领域,会成百上千倍地提高各个环节的效率,这是必然会发生的事情。这可能会分成两个阶段,第一个阶段就是大家看到的提高效率,而效率提高之后就会使组织产生巨大的变化。
ifenxi:如何看待大数据加AI在风控领域的发展?
鲍捷:大数据风控到最后还是拼数据和运营能力,与技术关系不大。各个细分领域的风控都不一样,很重要一点就是切入业务场景的能力和进入系统的能力,因为风控是金融机构最核心的业务环节,相当程度上需要驻场到里面去。我把Fintech分为上半场和下半场。这种工作还是我所称为的Fintech上半场工作,就是原有业务的延伸,相对而言更容易;而下半场是原有业务的重构和新场景的构造,难度会更大。所以不管是支付也好,B2B也好,甚至所谓早期的风控也好,其实都是对原有业务做增量的改进,而不是本质的改进。
ifenxi:想要有所突破应该如何切入?
鲍捷:早期切入有两点,一个是自上而下,一个是自下而上。这两点是最有可能突破的,反而不是中间的。
先说中间层,比如国有四大银行之类的,未必是最早能够实现业务突破的地方,包括所有大家熟悉的传统业务。比如银行的风控、获客,比如券商、私募的投研,这些都大概率不是人工智能最早突破的地方,尽管这些地方是最有钱的地方。
真正实现突破的,第一个是自上而下,在监管合规和系统体系构造上,因为这是强刚需。十九大以来,从各大金融机构、监管机构发言中,可以看到核心的两个字,监管。这其实是一个蛮正面的事情,因为美国也是这样的,美国金融业历史,每一次大的突破,每一次行业的跃迁,其实都是国家意志推动。靠金融机构自发来实现这种突破都是不可能的,中国金融业也是这样的。只有国家做,但国家做这件事情的目的不是挣钱,而是从国家层面上保障最优的资源配置。所以从金融智能系统的演化来说,不管是开放数据还是统一数据,相信会在今后两三年内不断渗透下去。五年十年之后,现在的信息披露流程,信息处理流程,全都会变。现在从结构化数据到非结构化数据,然后再到结构化数据,中间浪费了太多人力,以后不会再有这样的事情。企业从财务科开始,到投资者那里,一条财务高速公路打过去,这才是金融,这才是优化资源配置。
另一方面是从下往上去,可能所有变革都会是这样。
目前最舒服的那些机构,或者最主流的机构,它的变革意愿是不强的,即使意愿强,想搞定内部所有部门简直不可能。即使是一个小银行,内部协调成本都是很高的,更不用说大银行,三年五年都很难做成事情。不过,全国有800个农商行,可能很多人看不起这些小银行,但这些银行是最愿意做技术革新的,我觉得希望在他们身上。越小的机构越具有突破性,新的业务,越没有历史积淀的业务,越容易突破,而传统的这种获客、风控,我不认为是这一轮突破的关键。
ifenxi:自上而下的突破可以理解为是监管科技吗?
鲍捷:对,当然比监管科技的范围可以再广一点。最近银监会发文,提出银行数据治理。中国的银行中除了十几家上市银行的财报是规范的,其他将近4,000家都是五花八门。不解决这个问题,再往下根本无法做数据治理,无法实现行业互通。现在证监会、银行业协会都很难从看到的数据去判断一家银行。监管的核心还是通过监管行为来促进标准件建设,也就是统一。另外一方面,监管往下会涉及到信息披露督导,然后评级体系等,都会随着监管发展发生变化。
再深一层,它可能真的会引发一个新的行业出现,金融情报分析。美国的金融信息服务大头都在情报这一块,中国这块市场几乎没有。
ifenxi:技术能为监管做什么?
鲍捷:现在很难判断做什么,但是监管科技早期肯定是要跟核心机构,包括政府在内,做很多服务工作。现在还在早期,金融机构真正开始用人工智能来做监管,也就是最近12个月的事情。大家在各个层面上都在尝试,包括最早的公告结构化,其实是好几家都在做的事情。然后企业层面就是把公告内容打通,包括建立所谓的企业画像,也是很多人在做的事情。还有一些跟学校的合作,包括市场微观结构的分析,通过交易数据来发现里面可能出现的风险点等。传统舆情公司没有把这块服务好,这也是新兴的人工智能技术才能够做到的事情。直接从数据准备开始,到信息披露标准化,再到这种所谓的情报分析。
比如说要打通一次并购事件,信息可能分散在几十个不同的公告里,情报分析能够实现不通过人工阅读,快速发现里面的脉络。所以中国市场还是蛮需要像Palantir那样的公司,但现在还没有。
ifenxi:监管科技的市场规模有多大?
鲍捷:这分为广义的和狭义的。如果看狭义的,给政府做项目可能只有几个亿,不是很大,但是要看到监管是有波动效应的,是有巨大的乘数效应的。当它扩散到券商的时候,可能就是几十个亿了;当它扩散到所有上市公司和新三板公司的时候,可能就是几百个亿了;再往下扩展,财报结构化之后,后面审计就可以自动化了。当这些一级一级地传导下去,传导到最终2,000万会计那里的时候,市场规模恐怕就不是几百亿了。所以,当一件事情被标准化以后,所能产生出来的新兴业务是现在难以想象的。
从标准件到情报网络,再到金融的神经系统
ifenxi:如何理解打造标准件的概念?
鲍捷:现在所有的哪怕是一线的人工智能公司,对金融场景的理解还是远远不够。我们能够提供的价值,实际上是在某些关键的地方进行服务。比如他的关节有点问题了,帮他换一个关节,当然一步步升级技术能力后,帮他换一个人工心脏,也是有可能的,但是早期需要从一些他迫切需要的标准件开始做。比如说他需要搜索,给他一个搜索,但搜索可能不是他最核心的业务。比如他需要产品文档结构化,就给他做个产品文档结构化。
知识图谱相当于是发动机,但是从发动机到轮胎那里要把力量传送过去,需要新时代的各种传动装置,文因互联也提供这样的传动。
收集数据就是传感器,把数据应用到各个领域里发挥作用,其实就是各种作用器。在具体的场景里,这些作用器基本上就是各种各样的规则,监管、信贷、审计等等。
给金融机构提供服务时,客户关心的是你能帮我解决什么问题,都是很现实的事情,未必要一个机器学习平台。提供一些标准件解决这些问题,才是这个时代我们该做的事情。
所以公告、年报、图表的提取,图表搜索,一些简单的市场监控,是这个阶段去切入市场比较正确的姿势,提供一个标准件给他。他本来要一年时间才能完成的事情,现在两星期就做了,这才是切切实实能为客户做到的事情。
ifenxi:下一步会做什么事情?
鲍捷:往前走,我们真正的使命是要做金融的神经系统,监控市场上、社会上发生的各种各样的经济情报。如果五年之后文因互联还屹立在市场上,肯定是这样一个身份,就是金融的神经系统。到那个时候,各级政府,各种企业,总共几百万家企业,要做一个经济决策,肯定要市场情报分析,经济情报分析。这种动态分析可能做得比某些政府部门还要好。现在我们监控的只有1.5万家公司,那么可能以后是监控1亿个不同的单位。
ifenxi:第二阶段与第一阶段最大的差别是什么?
鲍捷:实际上在第一个阶段,我们是一个点,客户是一个点,然后我们给客户提供一些东西,这是一对一的关系。到了情报阶段,可能经历过一对N的关系,然后是N对N的关系。我们构造了情报网络,最终卖的不是数据,卖的是这个关系。实际上是要构造一个高速公路公司,而不是一个收费站。我们希望高速公路上跑的东西越多越好,我们不需要提供所有数据,不需要知道所有事情。我们希望构造的是一个情报川流不息的,但能让每一个人看到最精准的东西,这样的网络。
效率提升与链条延伸带来客户价值
ifenxi:现在文因互联有哪几条业务线?
鲍捷:这个问题要从客户角度来说,我们目前可以提供四大类服务。
自动化报告,一键按需生成取新三板、A股企业的PPT版报告,也可根据企业需求定制化开发,比如券商、私募基金、信托等通过企业自动报告快速筛选标的,提高投资业务效率。
智能数据,利用人工智能技术从Word、PDF、HTML等文档中自动提取关心的数据点,包括但不限于公告数据、研报数据、年报数据等。处理100页的PDF只要10秒钟,降低了从文档中摘数据的人力成本。
智能资讯,希望能帮企业做舆情监控,也能提供新闻推送、摘要、自动化写作。
智能监管与审计,根据设定的规则,对Word、PDF文档内容进行自动检查,包括内容完整性检查、数据前后一致性检查、数据点之间的关系检查等等。如果是监管机构,能帮助节省人力检查成本,提高检查结果的可靠性;如果是文档撰写机构,可以帮助避免低级错误,提高文档过审率。
其实这个分类比较粗,我们内部还整理了一个比较细的菜单出来,很有意思。要把人工智能的技术和客户讲清楚很难,大多数客户走进饭店的那一刻不一定知道自己想吃什么,那就看看菜单,能提供什么样的服务,服务的具体内容是什么,如何部署,价格是怎样的,一目了然。
ifenxi:智能问答相当于智能投顾吗?
鲍捷:我们在推智能投顾3.0概念,会提出一整套解决方案,几个大的模块,但传统的智能选股、智能诊股,大家都看得太多了,但后面最重要的可能是智能资讯、智能陪伴,这才是未来的智能投顾,未来服务质量的差距都会体现在这里。因为靠所谓的诊股来提供高额收益,已经被事实证明是不可能发生的事情,最多是安慰剂。但是如何让用户在该有的机会发生时不错过,当他产生恐惧的时候去安慰他,让他发现希望,在发生变化的时候对他进行解释,这些事情以前都是要人才能做的,而现在80%的工作机器也可以做。这就是我们将来能够给未来的投顾带来的价值。
ifenxi:文因云包含哪些功能?
鲍捷: 文因云实际上是我们的过渡产品,它的本质还是对当前技术能力的展现,更好地满足客户的需求。我们能利用人工智能技术从Word、PDF、HTML等文档中自动提取关心的数据点,处理100页PDF只要10秒钟,并且基于此构建一个图谱数据库,进一步对知识图谱挖掘,利用规则引擎,针对实体属性或关系进行挖掘,用于发现未知的隐含关系。
ifenxi:这项技术如何满足客户的需求?
鲍捷:从我们这两年多的实践来看,这一技术的应用范围比较广泛,能够满足研究报告结构化,公告数据结构化,财务报表数据提取与校对等需求。
比如,券商研究部希望能提高上下游产业链梳理效率,提高研究报告生产效率;审计机构需要针对财务报告内数据进行自动数学运算结果核查、一致性检查。这一些是需要和企业沟通,做技术的远程内部部署的。
另一块,就是提取以后的数据。基础数据包括但不限于公告数据、研报数据、财报数据等,我们当前对外发布了19种公告的数据,估计今年到年底之前会发布50种公告数据,而且保证了quality insurance,可以满足机构对数据采购的需求,而且根据不同级别付费。比如核心机构客户,保证在十秒钟之内给他一个结果,目前在中国其他各家应该没有人敢做保证。
另外就是分析能力,包括现在各种财务造假模型,财务分析模型,财务勾稽模型,中国财务标准财务模型,文因互联都已经把它知识图谱化了,13种财务造假模型,50多种财务风险点分析,搜索技术包括公告搜索和研报搜索,目前都是有实际客户落地的。
ifenxi:在客户看来,你们给他们带来了什么样的价值?
鲍捷: 第一是解决效率问题,再有解决业务扩展问题。效率问题就是之前每天工作到深夜才能够做完事情,现在虽然还是要工作很长时间,但是可以做更多的事情。因为以前公告的处理覆盖率不到5%,现在扩大覆盖率了。
第二是链条又加深了,比如说公告摘要项目就是最典型的。文因互联要做公告的结构化,是因为要做后面的自动化,这才是最有价值的事情。现在上市公司的报告,里面出现的错误匪夷所思,而且监管机构还不能第一时间发现。这种错误以前用人力很难从几十万份报告里面发现出来,做了结构化以后就可以自动化审核。不管是国家也好,企业也好,券商中介机构也好,这都是大家喜闻乐见的事情。
还有一点,这也和我们的战略选择有关,我们不选择做那种动辄几千万的大项目,而是扎扎实实地打造一个一个快速部署便能看到效果的标准件。对大多数金融机构来说,不用一上来就烧掉几百上千万,能够用最小的成本就加上一点人工智能红利,我想这也是一种价值。