几年前,美国佛州的一个小城市发生了一起恶性交通事故,肇事原因是一名退休警察超速行驶。在查阅了历年的交通事故记录之后,当地一名记者怀疑警察这个群体可能普遍存在开快车的行为。
为了证明她的猜测,这位记者抱着测速雷达在高速公路上守候,可以想象,这无异于守株待兔,取证极其困难。记者最后想出的办法,是向当地的交通管理部门申请数据开放,获得了100多万条警车通过高速路口收费站的数据记录。两个特定收费站之间的距离是一定的,每一辆警车通过收费站时都留有时间记录,两点之间的距离除以时间,即为该警车在这段路程之上的平均行驶速度。
通过对上百万条记录的处理,她果然发现,13个月间这个城市的3900辆警务车辆一共发生过5100宗超速事件,其中时速超过140公里/小时的个案占了90%以上,数据还能证明,这些超速行为绝大部分发生在下班时间。
凭借这些分析和报道,这位女记者获得了美国2013年度的普利策新闻奖。通过创造性的使用数据,为制约公权滥用提供了一条独特的方法和路径,这当然极具新闻效应。但这并不是我今天想强调的重点。我认为,在这则美国故事的基础上,中国社会可以更进一步,不妨设想:如果每一辆车行驶过每一个收费站的时候,都能够实时调取上一个收费站的数据,进行计算,如果超速,立刻进行处罚,对高速公路上的超速行为,是否能形成一种更加有效的监测?
我认为是可行的。十次车祸九次快,超速一直是马路上最大的杀手,现今监测的主要手段是警察巡逻加上雷达测速。这种方法人力成本、时间成本和设备成本都很高,而且实施范围有限,属于“点监测”。而上述的方法,可以监测一条道路上行驶的所有车辆,是全样本监测,可以打消驾驶员的侥幸心理。
关键是,这种方法几乎不增加成本。中国有成千上万个收费站,也有数据,缺少的是对数据的整合和使用。技术方案其实也有,那就是把一个地区所有收费站的数据都放到同一朵云上,每一个收费站都可以实时分析和整合其他收费站的数据。这意味着集中存贮,但这只是第一步,要实现实时监测,还需要一种“大计算”的能力,在每一台车经过每一个收费站的时候,都要经历一次计算,即在云上调取这台车在其他收费站的记录,实时进行计算,它是否超速?
这种计算,解决的其实不仅仅是超速问题。试想,一部同样车牌的车,可能某个时刻出现在城市的东面、而几乎同时又出现在城市的西面吗?这种计算,其实可以掌握每一台车的运行轨迹。
也就是说,如果一个城市所有收费站的数据能够放到同一片云上,就可以解决一个城市的问题,如果一个省,就可以解决一个省的问题。再把单位放大,那就是一个国家,如果中国所有收费站的数据实现云上联通,而且有一个大计算的平台,那中国的交通治理情况就会大为改观。超速车、套牌车或者黑车在全中国都将没有生存之地。
现实可应用的场景其实还远不如此。事实上,中国的交通数据远比美国丰富,除了收费站有大量的数据,很多中小型城市都已经在主要的路口和路段安装了照相机、摄像机。每一部经过的车辆,都至少留下了一张照片,通过照片,可以识别车辆的车牌号码,识别的正确率,目前的技术可以轻松达到95%以上。可以想象,如果把这些数据全部都放到一个大计算的平台之上,进行实时的计算,又可以发现多少隐藏的规律、异常的现象或者潜在的问题呢?
例如,我们可以实时、准确地获知每一条道路上的平均车速(这是目前困扰智慧交通建设的一大难题),如果这些数据可以实时推送给路上的用户,让他们及时掌握最新的交通信息,就可以优化自己的交通行为,不至于都堵在一条路上。又例如,如果一台从来没有出过县城的车,有一天突然穿越了几个省份、一直驶向一个方向,是否值得特别关注呢?这些都可以通过数据的计算自动地获取。
目前,这种大计算的平台也已经成熟,阿里云的飞天平台就是中国自主可控的大计算平台,阿里巴巴的电商平台就架设在飞天之上,2014年的双十一,平均每一秒钟,阿里云要处理8万笔交易,即一秒钟要完成8万次计算。
这才是“云”的真正力量,其力量不在于集中存贮、节约成本,而在于“计算”,在于提供一个大计算的平台,这种计算的能力,可以把全国的车辆在几秒钟之内全部计算一遍,当然,它也可以在几秒之内把一个国家当天新产生的视频、照片、网络新帖、微信微博全部计算一遍。类似于交通领域的这种大计算其实可以推广应用到其他很多国民生活领域。
就此而言,大数据只是问题和现象,大计算才是能力和本质。数据要产生价值,首先要联通、要整合,也就是需要上云,而最终,是需要大计算的能力来解决问题。