大数据成为信息科技新关注点
栏目:新技术通报     发布人:超级管理员     发布时间:2012-07-16
 

最近,在信息科技领域,继云计算之后,“大数据”一词成为媒体争相追逐的焦点。科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。

信息社会的变化

什么是“大数据”?维基百科的定义是:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。“大数据”具有数据量大、种类多和速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。

数据成本下降促使数据量急剧增长,而新的数据源和数据采集技术的出现使数据类型增多,各种非结构化的数据又增加了大数据的复杂性。

60年前数字计算机使得信息可读,20年前因特网使得信息可获得,10年前搜索引擎将互联网变成一个数据库,现在Google及类似公司处理海量语料库如同一个人类社会实验室。国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB的数据量。

2012329,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。

重视大数据提出的技术挑战

美国有关大数据研究的计划最为重视的是数据工程而非数据科学,主要考虑大数据分析算法和系统的效率。对我国而言,大数据工程的技术挑战也应当得到重视。

几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”。现在要做的则是“从厚到薄”,要把“大数据”变成“小数据”。许多数据是重复的或者没有价值的,未来,我们的任务不是获取越来越多的数据,而是数据的去冗分类、去粗取精。

现有数据中心技术难以满足大数据的应用需求,整个IT架构的革命性重构势在必行。首先,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。其次,数据的移动已成为信息系统最大的开销,信息系统需要从数据围着处理器转改变为处理能力围着数据转。此外,高扩展高可用的数据分析技术、新的数据表示方法、高通量计算机等都是亟待解决的技术问题。

基本科学问题仍未达成共识

尽管学术界已注意到大数据带来的科学挑战,但对一些基本的科学问题仍未形成共识。

许多学者认为,计算机科学是关于算法的科学,数据科学是关于数据的科学。有些学者试图将“数据”当成一个“自然体”来研究,即“数据界”。然而,脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”的共性问题还不清楚。

不同于数据挖掘和统计学,从事大数据研究的学者应当更重视统计分布背后的知识和规律。“大数据”的复杂性主要来自个体之间的联系。数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。“网络数据科学”应是从整体上研究社会的一门科学,其重点是研究数据背后的社会网络。

因此,大数据已成为联系人类社会、物理世界和信息空间的纽带,需要构建融合人、机、物三元世界的统一的信息系统。大数据研究正在形成热潮,学术界需保持清醒。首先要明确大数据研究最有价值的应用领域,理清楚数据科学的边界和研究对象。只有明确了要研究的科学问题,网络数据科学才会走上良性发展的轨道。

 

      (安徽省科学技术情报研究所)

信息来源:
相关文件:
湖北省信息学会 地址:武昌洪山路2号湖北科教大厦D座11楼     邮编:430071
电话(传真):027-87837216,87717710