用好大数据须有大智慧
——准确把握、科学应对大数据带来的机遇和挑战
拥有大数据是时代特征,解读大数据是时代任务,应用大数据是时代机遇。大数据作为一个时代、一项技术、一个挑战、一种文化,正在走进并深刻影响我们的生活。党的十八届五中全会提出,“实施国家大数据战略”。实施国家大数据战略,必须理性认识大数据,准确把握其带来的机遇,科学应对其带来的挑战,用大智慧实现大数据的大价值。
理性认识大数据
信息技术革命与经济社会活动的交融催生了大数据。大数据是经济社会、现实世界、管理决策的片断记录,蕴含着碎片化信息。随着分析技术与计算技术的突破,解读这些碎片化信息成为可能,这是大数据成为一项新的高新技术、一类新的科研范式、一种新的决策方式乃至一种文化的原由。大数据是指数量特别巨大、种类繁多、增长极快、价值稀疏的复杂数据,简而言之,是“大而复杂”的数据集。作为信息资产,大数据的价值需要运用全新的处理思维和解译技术来实现。
大数据具有大价值。在日常生活中,大数据的价值主要体现在:提供社会科学的方法论,实现基于数据的决策,助推管理革命;形成科学研究的新范式,支持基于数据的科学发现,减少对精确模型与假设的依赖,使过去不能解决的问题变得可能解决;形成高新科技的新领域,推动互联网、物联网、云计算等行业深入发展,形成大数据产业;成为社会进步的新引擎,深刻改变人类的思维、生产和生活方式,推动社会变革和进步。大数据的价值主要通过大数据技术来实现。大数据技术是基础性信息技术,它刻画了新一代信息技术中机器与机器、机器与人之间信息交换的内容特征,构成了现代信息技术的基本信息处理模式。因此,大数据从信息载体这一底层捕捉到了信息化的共性基础、未来发展与普适技术。这说明,大数据热潮的来临是一种必然,大数据技术不会是过眼云烟。
科学理解大数据的“大”。数据的积累是一个从量变到质变的过程。当数据积累不够多时,没有人能读懂这些“碎片”背后的故事。但随着数据的积累,特别是超过某个临界值后,这些“碎片”整体所呈现的规律就会在一定程度上被显现出来。可以认为,这一从量变到质变的临界值是区分数据“大”与“不大”的标准。所以,大数据的“大”是相对的,是与所关注的问题相关的。只有这样理解,才能避免产生大数据能解决所有问题的误读。
科学理解大数据的“复杂”。由于具有海量性、快变性、异构性和分布性等复杂特性,大数据技术是一项不断发展的技术,并非已经成熟。这当然并不妨碍运用现有大数据技术从现实的各种大数据中获得价值,但我们必须清楚:大数据的价值实现是无止境的,大数据理论、技术和产业将相伴而行。这是大数据发展的基本形态。
准确把握大机遇
大数据必将引领未来生活新变化、孕育社会发展新思路、开辟国家治理新途径、重塑国际战略新格局。实施国家大数据战略,是对大数据意义、价值与作用的深刻认识与准确把握。那么,大数据到底能给我们带来什么机遇?目前来看,大数据至少能在管理创新、产业发展、科学发现、学科发展四个领域为我们带来前所未有的机遇。
管理创新机遇。管理和决策问题通常是难以建模的。如今,基于大数据和大数据技术,人们可以使用极为丰富的数据资源对经济社会发展进行实时分析,并帮助政府更好地对社会和经济运行作出反应。大数据技术可以帮助我们实现梦寐以求的科学决策,实现科学决策具体化,从而推动管理理念、方式与方法的革命。在实践中,运用大数据对国家政策进行预评估已成为可能。
产业发展机遇。大数据是解决众多国家重大现实问题的共性基础,能够为产业发展升级提供帮助。特别是大数据技术的底层性使得它很容易与其他行业、技术嫁接,从而形成以数据为资产、以现代信息基础设施为基础、以数据价值挖掘为创新要素的大数据产业。大数据可以为大众创业、万众创新提供绝好平台。应用好大数据这一基础性战略资源,可以推动传统产业改造升级,培育经济发展新引擎和国际竞争新优势。
科学发现机遇。数据收集、处理与分析能力的提升,将显著拓展人们对客观世界洞察的深度和程序化探究问题的广度。随着数据积累和计算能力的提升,直接从大数据中获取知识成为可能。这种基于大数据分析的探究方式弥补了过去单纯依赖模型和假设解决问题方法论的不足,形成了一种新的科学研究范式:基于数据的科学发现。运用新的范式,一些过去不能解决或解决不好的问题现在变得可能解决。
学科发展机遇。大数据时代,数理科学与人文社会科学、管理科学等学科的深度交叉融合将彻底打破和革新学科领域,统计学面临革命,计算科学的内涵与外延将发生重大改变。一种融合统计、计算、信息与数学的数据科学正在形成。“解读大数据是时代任务”的要求也将深刻改变和影响各门学科。这一改变势必对大学的学科设置和人才培养产生重大影响,尤其将为大学培养国家创新发展急需的人才提供难得机遇。
科学应对大挑战
大数据为国家创新发展带来了大机遇,但要真正实现大数据的大价值,特别是将大数据转化为现实生产力,还面临一系列挑战。
科学基础的挑战。对大数据而言,分析才能出价值,关联才能出价值。传统用于分析关联数据的统计学方法以抽样数据为对象、以样本趋于无穷的极限分布为基础;而大数据所处理的对象是自然数据,既无明确的抽样机制,也不大可能存在稳定的极限分布。这样,传统分析数据的科学基础遭到动摇,必须重建统计学基础、计算基础与逻辑基础。
计算技术的挑战。大数据的核心技术除了依赖解译数据自身的方法论,采取什么样的计算架构去存储,采取什么样的计算模式去支持快速查询与处理,采取什么样的程序语言和算法去完成计算、分析和挖掘,这些都面临技术上的挑战,必须革新计算模式和计算方法。
真伪性判定的挑战。大数据具有大价值是无疑的,但如果从大数据中产生结论、形成决策的方法论基础不坚实,直接运用大数据结论就可能是不可靠的甚至是危险的,难免让大数据变成“大忽悠”。比如,国外一家企业发明的通过媒体、电商数据预测一个城市发生流感的大数据技术,近来就被科学家发现存在过分高估的情况,其原因正在于分析模型的偏差与统计科学基础的缺失。所以,真伪性判定仍然是我们面临的一个大挑战。
科学应对这些挑战,需要大智慧。当前从政府层面看,应着力抓好以下5个方面:
抓宏观规划与政策引导。国家大数据战略让我们明确了发展与运用大数据是国家意志,是实施创新驱动发展战略的重大举措之一。这个战略应由一系列的规划、政策、布局等构成。国家应在战略上特别是在促进数据资源开放和共享、重点行业先行、产业转型升级等方面统筹规划、出台政策、扎实推进。
抓数据资源管理与国家数据资源库建设。在“人人都产生并希望拥有数据、人人都希望从数据中获益”的大背景下,必须强化数据是国家资源的意识,重视建立国家数据资源库。这样的建设,首先应作为一项国家工程,统一规划;其次应切实解决分级、分层、分行业建设与管理体制问题。当前,应特别注意大数据资源意识所诱发的行业数据保护以及数据资源流失与滥用问题,切实将大数据资源用于服务人民、服务国家建设。
抓行业引领与重点示范工程。实施国家大数据战略,可从抓重点行业、重点工程入手。一些行业如电力、交通、金融服务、互联网、制造业等,对国家经济发展影响巨大,数据积累丰富,并且有专属性、共享相对容易等特点。率先推动这些行业运用大数据加快发展,有重要的带动性和示范性。另外,作为整体布局,在国家层面推动一批大数据应用工程也是重要和必要的。例如,推进税务、财政、投资监管等大数据应用工程,都可能产生意想不到的效果。
抓共性基础与核心技术研发。投资大数据、应用大数据已是当下大众创业、万众创新的热情所在与价值选择。谁为这样的大众热情负责?谁来保证各行各业大数据应用的健康可持续发展?这无疑是国家责任。担负这一责任,最重要的就是推动大数据科学基础的夯实和大数据关键技术的研发。我们不能再走“拿来主义”的老路,不能没有规划而任其自由发展。国家应组织力量,下大力气解决大数据应用的共性基础和关键技术突破。
抓大数据人才队伍培养。推动大数据产业发展,提升国家大数据运用能力,人才是第一位的。“懂数据、会分析”的复合型人才缺乏是当下国内外面临的共同困难。在这种情形下,我国应发挥体制优势,迅速动员各高校、研究机构快速设立一批适应各层次需求的大数据人才培养项目,加快形成支撑国家大数据战略实施的强大科学研究与应用人才队伍。
作者:徐宗本 中国科学院院士、西安交通大学教授