纵观科学的发展,无论是四百年前开普勒行星运动定律的提出,还是当今新粒子的发现、新医药的研制、数字地球的发展,等等,无不依赖于对实验、观测、调查、测量、模拟等所产生的原始数据及有关派生数据的分析和利用。正因为如此,信息技术一直以来的发展都以提高人类采集、传输、存储、管理与分析数据和信息的能力作为一项核心目标。在本世纪,上述能力的提高所导致的数据爆炸越来越显著,科学研究也日益表现出数据密集型和以数据为中心的特征,推动科学研究进入大数据时代。大数据作为知识经济时代的战略高地,是国家和全球的新型战略资源。围绕大数据引起的竞争不仅将决定国际信息产业格局,还将深刻影响经济发展、国家安全、科技进步和综合竞争力[1]。
数据成为检验科学研究价值的试金石。一方面,许多学科领域的科学发现以数据为基础,以新的数据发现为目标,辅以挖掘工具与分析手段,将数据与重要发现融合。另一方面,数据成为重复科学试验、确保研究成果真实可靠的检验基础。这一全新阶段在生命科学、高能物理、数字地球、全球变化、深空探测等领域的积极实践,无不彰显大数据与大科学紧密相连、密不可分的时代特色。科学数据走出深闺,成为科学研究的亮点和法宝,使推动产生新的科学发现成为可能。科学大数据作为大数据的分支体系,已成为继实验、理论和计算模式之后的数据密集型科学范式的典型代表,正在从模型驱动向数据驱动模式进行转化,带来了科研方法论的创新[2]。科学大数据已经并将继续在上述大科学领域中发挥重要作用,未来必将在大科学领域为科学发现做出更加重大的贡献[3]。