互联网在过去10年发生了巨大的变化,以下数据可以做参考:今天的数字化资源占到所有资源的98%,而10年前的比例是25%,其他都是纸张、唱片、胶卷等信息。到目前来说,互联网发展得非常迅速,98%的数字化数据说明我们的生活已经完全数字化了。如今一天上传到Youtube的视频数量超过以前50年的拍摄视频总量,这个数字是爆炸性的。
随着生活越来越数字化,互联网的边界趋于消失。关于大数据、互联网应用的论断已有很多,但我们还应从以下五方面进行思考。
第一,反过来问,最后边界在哪?
计算机能做什么,不能做什么?柏拉图在《洞穴寓言》里说,我们人类有没有反思过?如果我们是一群被铁链捆绑的人,你的脸一直看着的是那堵墙,这时候那堵墙就是你知道全部的世界。而真实世界是发生在你背后的,有正在移动的人、桌子、椅子、动物,他们都在一个火炬的光源前面移动过,而你看到的仅仅是那堵墙。
你会怎么理解这个世界?你永远不知道真的世界是怎么样的。你看到的只是一个平面,而不知道它背后发生了什么。他说,人类只有跳出锁链,进行联想,才能看到背后真的发生了什么事情,而这是机器做不到的事情。
第二,人和机器的差别在哪里?
“这个人怎么样”是描述性的语气,“如果我涨价,销量会变得怎么样?”是虚拟语气,但不是每一种文字都有专门的虚拟语气,例如:如果我是你,情况会怎么样?如果鸡不叫,天会不会亮?这是人类独特的特点,机器是做不到的。
现在许多机器能够学习和处理大量的数据。人有多少特征可描述?我的回答是无数个。给你一个苹果请你描述,你会问,用什么角度?因为有无数个角度,如形状、颜色、甜度、厚度等等。现在各行各业的指标有很多,如传统银行描述一个客户存贷款的变量之前有几十个,现在发展为几百个,阿里巴巴的变量则有上万个。怎么用这些指标?有了这些大量的数据(一天产生量是过去50年产生的量),机器是可以学习的,我们可以探索其中的所有关系,但是机器做不到“掂量”。
机器学习有一个重大的缺陷,它能提出许多的相关性,但是因果关系无法判断。只有人才能掂量哪个因素是重要的。我们所有学管理的人都在探讨马云为什么成功:他营销做得好?他平台做得好?还是他高瞻远瞩?有无数的理由。最近我听到一个理由说,阿里巴巴开始时都是亏的,后来才赚钱,最重要的原因是从小抱着计算机长大的那些人和相信计算机的人开始赚钱了。我们看到阿里巴巴成功的数据和整个大经济的状况,而所有这些数据展示出来时,从那么多的因果关系中筛选出最主要的,这是机器做不到的。
第三,人会欺骗,这也是独有的
互联网的时代是一个崭新的时代,但是以前有电报的时候,大家有没有想过那是新的时代?有电话的时候,又是很新的时代?其实,只有很少人有电话的时候,你确实是比别人高一点,但是人人都有电话的时候你就不会比别人高多少。这时候我们要回归一个本质,即最终决定胜负的是能不能建立非常牢固可靠的人与人之间的信任关系。在大街上遇到骗子问我要钱时我不会给他,如果他给我打电话我就会给他了吗?如果他有一个ID我就会给他了吗?我给阿里巴巴做了好几年经济顾问,其中一个重要的领域就是网规,建立起人与人之间的信任。实际上,人的聪明程度是远远超过机器,人们会利用它,然后会出现职业差评师。包括在社交网络里面转发什么样的帖子,是不是专发不靠谱的帖子,这些都会被记录。
第四,人需要激励
人们经常说互联网就是大数据,是所有人共享的。有些大公司喜欢说他们是全资共享的,但真拿出来的共享资料是有限的。我们会发现一些数据资源,特别是经过人工判断和因果关系判断的数据是很贵的,不会随便拿出来。别说是一个外人,就是公司内部也不是每个部门都同样能够得到这些数据的。不同部门把数据都保护得很好。另外,在一个公司里相同数据的使用受限程度也往往不同。
大数据不仅是大,而且要求活,要以具体的业务作为导向。很多人认为大数据非常廉价,比如说服务器、云,但机器越便宜的时候,人的判断、人的因果关系,“人的掂量”就越贵。
第五,大数据需要的人才必须非常专业
据我所知,美国只有为数不多的一些人在专门做大数据处理,他们都是跨行业的人才。大数据需要的人才有非常专业的,比如对技术非常了解的黑客,比如清理数据能力、建模能力、沟通能力都非常强的数据专家,这几个是不同的领域,人才也是非常专业的。但大数据更需要跨领域人才。因为沟通的成本最贵,如果能找到一个有若干本领的人才,在一个人的脑中就可以沟通,这就是非常有用的人才。
总之,数据是变化的,技术是变化的,所以我们还要回到人的本质,要分清什么是机器不能做而只有人才能做的。