数据科学与信息服务产业:海量信息和海量数据的时代, 互联网,计算技术
2012-08-27
鄂维南

来源:科学网

我们生活在一个信息时代,一个海量信息和海量数据的时代:互联网,计算技术,电子商务和各种其它的新兴技术使我们获取数据、分析数据和利用数据的能力有了一个本质的变化。这个变化正在不断深入地、全面地影响着我们的日常生活。由此也影响着社会、文化、国防和国民经济的发展。信息服务产业已成为发达国家经济转型的主要支柱。以谷歌和脸书为代表的信息服务企业,在短短几年的时间里就进入了全世界最大、最受瞩目的企业的行列。它们的发展速度是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。另外,数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。

我们自然要问,信息时代对社会,对政府,特别是对我们的教育和科学研究体制提出了什么样的新的要求;信息服务产业的科学基础是什么?

传统工业,尤其是制造业的科学基础是自然科学。物理学提供了自然科学最基本的原理。在此之上、化学、生命科学、地球物理、天文学以及各种各样的工程科学为传统工业提供了科学指导。从大学、科研机构,到企业、政府部门,我们都已经建立起了一整套教学、科研、开发、生产到市场的机制。

信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成:即用数据的方法来研究科学和用科学的方法来研究数据。

先谈第一点。科学研究有两个最基本的模式,姑且叫做开普勒模式和牛顿模式。开普勒关于行星运动的三大定律完全是从前人所观察到的数据中所总结出来的。而牛顿则更进了一步,他寻求的是基本原理。他对行星运动规律的认识是建立在基本原理的基础之上的。牛顿不仅知其然,而且知其所以然。牛顿的认识无疑比开普勒要深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都是沿着一条以寻求基本原理为目标,而从根本上认识世界,认识自然这样一条道路走过来的。

时至今日,科学家们在对基本原理的寻求方面取得了长足的进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性——从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。而另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。

再谈第二点。从传统的角度来看,分析数据属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等各个领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。

这里特别值得一提的是数学的作用。从根本上来讲,自然科学的基本原理来自于物理;而数据科学的基本原理则来自于数学。数据分析的主要手段就是给数据建立起数学结构。这种数学结构可以是多方面的:拓扑的、几何的、或代数的。最简单的结构是图的结构。这也可以看作是一种拓扑结构。传统的统计学中最最常用的是分析方面的结构,如参数化模型。所以数据科学给数学也带来了许多根本性的问题:例如怎样把数据集(如网页)坐标化?怎样给数据集定义拓扑结构或曲率?怎样利用数据集中可能隐含的对称性?怎样设计高效的算法?怎样处理噪声,等等?数据和数,方程以及图形一样,也将成为数学研究的基本元素之一。这不仅能给数学的各个领域提供了新的问题,同时也会加深我们对数学中一些最基本的概念的认识。

数据科学中最受瞩目的成就之一是小波理论。系统的小波理论出现之前,人们对在信号处理中引进局部基函数和对信号按尺度作分解都有过很多的尝试。但这些工作都是经验性的,缺乏系统性。小波理论从根本上解决了这一问题。它使这些尝试性的工作由经验变成了科学。这样的转变是本质性的。它所带来的变化也是有目共睹的。压缩感知理论也经历了一个类似的过程。它所产生的影响也将是巨大的。

另外需要强调的一点是,由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用,与产业有着更为密切的联系。从小波理论的出现到它在图像处理方面的应用仅仅经过了几年的时间。正因为如此,对数据科学的研究更应该努力地走在最前沿:因为落后一步就意味着彻底失去机会。

目前数据科学的发展存在着如下几个问题:一是缺乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等等学科。他们之间还缺乏应有的联系。这使数据科学的发展受到了制约。二是数学作为数据科学的基础,其作用还没有被充分认识到,更没有充分发挥出来。这在一定程度上限制了数据科学研究的深度。三是企业界与学术界之间的相互影响还不够完善。企业界搜集的数据经常不够规范,企业界和学术界之间协同创新的模式还有待完善。

具体到我国的实际情况,在很多方面更是令人担忧。我国现行的教育和科研体制几乎将学科分类推到了极致。这更加不利于数据科学这样一个新型的,跨学科的领域的发展。另一方面,从谷歌、脸书等例子来看,信息服务产业中许多最有创造的想法都来自于年青人。而我们国家所通行的教育方式,如中学里的应试式教育和大学里的灌输式教育都极大地抑制了年青人的创造性。

认识到这些以后,我们自然要问:怎样应对数据科学和信息服务产业所提出的新的要求?

从大学的层面来看,应该充分认识到数据科学发展的巨大空间,将数据科学提高到一个和自然科学并列的高度。以数学、计算机科学、统计、生物信息、金融和经济学、社会学等学科为依托,建立起一个数据科学的教育和科研平台。要建立起一个完整的本科生和研究生培养计划。这个教学计划的基础课程应该包括线性代数、逼近论、离散数学、概率论和随机过程、以及数理统计等数学课程;同时也应包括数据库、数据结构、机器学习、数据挖掘等计算机科学的课程。

这里应该特别强调算法的重要性:没有高效的算法,所有的理论模型都将被束之于高阁。而在传统的框架下,算法被分割到了计算数学和计算机科学两个学科中。这两个学科对算法研究的风格和出发点各不相同,但它们所研究的许多问题在本质上是相同的。数据科学的发展更是要求把这两种不同风格,不同背景的算法研究紧密结合起来。

课程设置仅仅是这个教学计划的一部分,更富有挑战性的是怎样创造出一个能充分发挥学生主动性和积极性的教育环境,并能使教学计划和信息服务产业的前瞻性需求紧密结合起来。

从企业界的角度来看,要充分认识到创新的重要性。中国本身就是一个很大的市场。其很多方面,如政策、语言、经济等方面的特点给国内的企业在占据国内市场方面提供了很多优势。但应该认识到,仅仅依靠这样的自然保护是难以持久发展的。要保证中国的信息产业能走到世界的前列,就必须走创新的道路,必须开拓国际市场。企业界应该学会充分利用大学和其它研究机构等资源,来提高自己的创新能力。

从政府的层面来看,要把发展数据科学和信息服务产业作为一项战略计划来抓。充分认识到这是关系到国计民生,关系到国家的经济、科学、和文化发展的根本利益和长远利益的一件大事。从组织、资源、政策等多方面制定出一整套的相关计划。

从我国的具体情况来看,政府的指导作用尤其重要。首先,数据作为一种资源,我们必须有意识地积累这种资源并使之成为可利用的资源。这就需要政府在数据搜集、存储、特别是在开放数据等方面提供一系列的指导政策。其次,数据科学和信息服务产业的发展需要学术界和企业界的密切配合。政府可以通过各种方式鼓励这种配合,尤其是在前瞻性的研究方面。再次,数据科学是一门跨学科的领域,而我国目前的科研和教育体系对跨学科领域的发展是极为不利的。我们不能等体制方面的问题都解决了以后再去发展数据科学,而应该通过政府的一些引导性的措施来有效地避免体制方面的问题所造成的困难。

总的来说,数据科学的研究还处在一个初级阶段:尽管一些西方国家占据着领先位置,但所形成的差距还不是太大。从另一方面来讲,有理由相信数据科学和相关的信息产业比较适合于中国人的习惯性思维。关键是我们必须把握住这个历史时机,迅速建立起一整套适合于数据科学及相关的信息产业发展的体制和环境。要做到这一点,政府,学术界和企业界之间的密切配合是必不可少的。