“不要被大数据(Big Data)的‘Big’误导,大数据更强调的不是数据大,而是数据挖掘。”在日前举行的第十届国家信息化专家论坛上,中国工程院院士、中国互联网协会理事长邬贺铨指出,大数据需要更强调数据挖掘利用,而针对目前存在的技术应用、人才、安全隐私等问题,最关键的是要有国家大数据战略,使其成为转变经济增长方式的有效抓手。
大数据的价值好似沙里淘金
NBA从上世纪80年代开始将球员在赛场上的表现数据化,经过30多年的积累已经达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。这就是大数据的价值体现。
大数据的价值究竟从何而来?邬贺铨认为,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。
微软的研究发现,Facebook 90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB。北京公交一卡通乘客每天刷卡4000万次、地铁1000万人次,每天累计的数据是MB级,一年下来也不到TB级,充其量只是中数据,但对这一数据量的挖掘显然就能得出北京人群使用公交的出行规律,对于优化北京公交线路的设置有足够的价值。因此邬贺铨指出,事实上小数据也值得重视,对未到TB级规模的数据的挖掘也有价值。
网络的数据并非都可信
Google的流感指数在2008年H7N1流感爆发时给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索因为,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。在谷歌流感指数的启
发下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对人体的侵袭状况,而且准确率高达90%,不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于Twitter的微博判断流感有片面性。
邬贺铨由此指出,网络的数据并非都可信。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于“谣言转发500次就是传谣”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。
他也指出,传感器收集的数据并非都是可信的,特别是历史上该传感器的数据与同类的其他传感器报出的数据差异很大时,该数据就应弃用。既然数据会有重复而且并非都是全部有用的,因此需要进行数据过滤,这对简化存储和提高可信性都是有意义的。还可以利用异构多源数据来提高可信性,收集多源异构的数据有利于对数据的理解。例如通过城市交通监控系统可以实时掌握交通流量,如果加上政府数据和网络数据,就可能知道发生交通拥堵的原因。
要重视数据的挖掘利用
大数据的挖掘深化了信息技术的应用,催生新的应用和新业态出现,大数据提升了管理和决策的智能化水平,邬贺铨提出要重视数据的挖掘利用,不仅是大数据,中小数据的挖掘也有意义。
大数据的量越大处理难度越大,但仅仅是需要更多的服务器或者说需要更高速的服务器。邬贺铨认为,大数据的主要挑战是实时性数据变化快。对于静态的数据,可以将数据带进程序来处理,但对于动态的数据,需要带程序进数据。大数据更大的挑战是品种多,特别是非结构化。对于结构化数据可以使用关系数据库技术来处理,对于非结构化数据则要用NoSQL来处理。针对结构化数据的虚拟存储平台采用了动态分层技术,根据数据被调用的频率,自动将常用的数据搬到最高层。针对非结构化数据使用内容归档平台,把结构化和非结构化数据集成到一个单一的动态归档架构中,设计一套软件和元数据库规则,通过给数据加标签的方式,建立不同维度,从而具有模糊查询功能。
邬贺铨指出,“大”仅仅是大数据的特征之一,大数据包括ABC三个要素:大分析(Analytic)、高带宽(Bandwidth)、大内容(Content)。实时性是大数据挖掘的挑战,而非结构化是大数据挖掘的主要挑战。目前国际上大数据处理技术主要还是结构性数据,据说大数据中80%以上都是非结构性数据。2012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率仅达到15.8%。可见非结构性数据的挖掘技术到实用还有相当距离。目前国内外都有很多大数据应用成功例子,但基本上还是结构性数据,对结构性数据的挖掘是大数据应用的切入点。
大数据的挑战最终是战略问题
邬贺铨指出,当前大数据面临的问题主要表现在技术和应用、人才、安全隐私、发展战略等方面。
首先是技术和应用问题。中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半(44%,即96EB)的数据得到保护。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。
其次是人才问题。500年前达·芬奇可以同时是画家、音乐家、工程师、科学家,100年前的医生可以了解医学领域的所有分支,今天一名初级医生必须同时了解大约一万种疾病和综合征、3000种药物和1100种检验方法。估计一个专业的医生也需要每天学习21小时才能跟得上学科的发展。Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。中国能理解与应用大数据的创新人才更是稀缺资源。
然后是安全与隐私问题。大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。安全与隐私保护的隐患仍大量存在,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。
最后是发展战略问题。信息化要从重视硬件到重视软件,再到重视数据的利用,不仅大数据,中小数据的挖掘也有意义。需要制定国家大数据发展战略,大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起在目的不明情况下到处建设大数据中心,到处搞“数据房地产”,而是需要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手。