导读:杨鸣博士受《人民日报》主任编辑,北美特约记者陈一鸣专访,此文以“啤酒+尿布”? 解读“大数据”的三维特征”为题,在《人民日报》,“人民网”,“新华网”,“光明网”等重要媒体刊登。
一、大数据增添大智能
大数据(Big Data)概念和发展起于美国。最初由EMC集团(包括思科和威睿),甲骨文公司,和IBM倡议发展。大数据的定义方式因人而异,多种多样,但它通常描述数据的3 V(维)特性:1)巨大的信息量(Volumn),从TB(兆兆)级升到EB(千兆兆)级,又将跃升到Zettabytes (兆兆兆)级; 2)信息种类(Variety)繁多; 3)信息处理速度(Velocity)快,这指数据变为可用信息,并且可分析的速度。最近,大数据从3 V特性,逐步升格为4 V特性,即增加数据使用价值(Value),主要体现在数据的智能分析。
智能分析(Analytics)是一种对未来智慧的投资,分析的最终目标是做出更明智的决定。有些人误以为大数据只是数据技术处理的升级,即如何存储和备份所有的数据。但是,行家们谈论大数据,通常意味着用新的方式对数据进行分析并作出合理的解释。大数据的应用将有助于决策人灵活应对现实世界中“数据海啸”所引起的机遇和挑战。
大数据可以引起大动作,可以优化机构的决策和模式。2012年在美国企业和事业单位的技术总管所进行的有关大数据的调查表明了大数据对他们的单位起到了很重要的作用。76%的受访人认为大数据使机构的决策质量和速度大大改善。68%认为有利于机构作出更好的业务规划和预测;67%认为有利于提高机构内部运营效率;65%认为有利于改善外接客户与服务;65%认可减低运营或财务支出;67%认为有利于增加局势预测能力;60%认为有利于量化分析危机;56%认为有利于数据中心的实时操控和问题自动排解;等等。
二、大数据拓展大信息
大数据所涉及的信息与人密切相关。有关人的信息(人类信息)占世上现有所有数据90%,其中包括电子邮件,视频,社交网络,博客,呼叫中心的对话,以及更多种类。它以惊人的速度在增长:年复合增长率(CAGR)达62%。这种未来的信息计算,代表了一个根本转移人与物(物联网)和企业进行信息交互的方式。
“人类信息”将引起信息技术(IT)的再次进化。多年来,科技界一直在改变着信息技术(IT )中的技术(T)含量 – 例如通过引进大型计算机,客户端服务器,网络供应(IP),云计算,以及更多的技术重点。这当然改变了我们的信息技术落后局势,但并没有改变计算机与丰富的人类信息的互动方式。
人类信息的技术理解需要根本上的新方法和技术,为人类应对每天产生的和不断增殖的信息,提供洞察力,想法,和直觉。在有史以来的科技产业中,第一次信息 (I)在IT或 IS(信息科学)中正在发生变化,向着增加智能“I”(Intelligence)的方向发展。“信息科学”应该解读为科学信息,因为未来的信息计算,将以大数据模式,着重信息的智能化,引起人类社会信息交互方式的根本性转变。以智能分析为前提的信息应用将会以更大规模解读人类,解开人类信息的价值。
在美国2012年8月对1105家信息企业和集团进行的一项调查显示,在200名受访者中,几乎63%的人同意,除非他们实施和使用大数据,他们将更难以满足他们机构的使命。即使是在经济艰难的时期,49%的受访者预计他们要增加大数据预算,而另外46%的受访者计划要维持他们的大数据预算。
迅速发展的全球大数据市场(图表来自美国IDC 研究所)
三、大数据触及大社会
人类信息大多是非结构化数据,占所有信息的90%,非结构化信息正在以62%的年复合增长率发展,除了其庞大的规模,非结构化的信息的社会应用越来越多。当处理信息搜寻或揭露犯罪时,研究人员从犯罪人的电子邮件中寻找证据。当试图理解他们的客户群时,营销者开始寻找他们的客户的信息。但是客户不把信息发送给您的数据库,它们有自己的推特或博客。这使我们看到当今信息爆炸的社会媒体活动变得越来越复杂。
网络视频是一个运用大数据的生动的例子。创建和使用网络视频信息的人也越来越多。例如,君视屏(YouTube)成立于2005年初,该网站使用和消耗数据的速率在迅速增长:用户每分钟上传约35小时的视频;建网仅一年,YouTube上的视频就被浏览约200亿次;在过去的四年里,视频上传量已经增长了8倍;估计到2020年将超过35 Zettabytes。
视频信息在YouTube上的使用增长不是一个孤立的情况,苹果公司的iTunes和脸谱网(Facebook)已经越来越多地使用有关音乐和照片信息。这些组织根据消费者的需要,增加他们的在线状态,并试图利用消费者公布的数据。 YouTube和社交互联网进一步显示人类信息在今天的文化中的扩散。
数据集的增长如此之大,使现有的数据库和管理工具难以应付。困难包括采集,存储,检索,共享,分析和可视化。这种趋势还将继续下去,因为大数据集的分析有助于发现业务发展趋势,预防疾病,打击犯罪工作的好处,应用越来越广。大的数据集出现在多个学科,更多的、不断增长的大小数据集层出不穷,因为它们更频繁地聚集。
用传统的方法尝试处理如此庞大的数据集,需要数十,数百甚至数千台服务器上大规模运行软件和并行操作。此外,大数据的大小应用完全依赖于该组织的需求和能力。如果一个组织已经建立了一个可扩展的方式来管理数据,数百TB(兆兆)的容量不是一个问题。对于其他人,甚至几百MB(兆)字节,可能就需要一个全新的数据管理策略。
四、大数据共享大资源
信息技术通过云服务实现资源共享,包括共享昂贵的基础设施,无论这些基础设施是信息储存,硬件技术,或专业人才。由于云资源可以共享,并独立于时间和地点,导致社会实体之间越来越共享资源,即信息的供需,数据的储用,以及软件的集中与规模化。例如,图书电子版本可用于多用户,甚至同步使用。高校无须拥有与购置同一书籍的原始版本,可以选择由哪个机构进行那些卷策的数字化处理和由哪个机构存储原始的印刷版。这种合作可以降低成本(例如,数字化,存储)和拓展资源的利用。
例如,哥伦比亚大学和康奈尔大学的图书馆有一个合作项目,名为2CUL(绰号,发音为“Too Cool” (太酷),由图书馆的首字母缩写而成),对图书馆的藏书进行数字化和共享。尽管2CUL更广泛的倡议包括许多领域的共享库存服务,如收藏集开发,编目,和工作人员的专业知识,而项目的重点是发展的技术基础设施,使合作伙伴能提高图书和数字文件传递和电子资源管理,以及提供共享的电子材料的长期归档。哥伦比亚和康奈尔相信这个共享服务将改变图书馆系统为他们的选区所提供的内容和服务,认识到他们一起将比他们单独所能够实现的更多.
海西图书资料集团(HathiTrust)为共享基础设施提供了另一个例证。海西图书资料集团是个大型数字资料仓库,归六十多个美国的和一个欧洲的研究图书馆集体所有。HathiTrust的运作模式包括数字化材料的共同治理和财务,收集,保存和借用。此外,研究人员通过HathiTrust的研制发明和计算工具,能够搜索和分析数字化内容,包括书籍和期刊以外的数字化文件格式。截至2011年底,该集团的电子书库包含近1000万册的电子书卷,其中27%属于公共领域的图书。
其他类型的基础设施,如网络,处理能力和数据存储,也可以共享。例如,兆兆网格(TeraGrid)是一个进行网格计算的基础设施(高性能计算资源,数据库,工具及实验设施),总共汇总了十一所院校的资源。当然,教学工具也可以共享。例如,iLabs是可以通过互联网访问的在线实验室的集合,让学生在任何地方和任何时间均可进行实验室试验。开放课件汇集也可以被认为是一个共享的基础设施。例如,塞勒基金会的Saylor.org,是一个可供开放访问的在线学习平台,免费向公众提供可自控的大专层次的课件。