2015年科学研究数据共享现状调查

责编:

1、建议作者在数据样本描述里面说明一下“样本”部分,Q1、Q2等列下面的数值:0、1、2、...、7等的意义。

2、摘要部分建议将调查背景/目的写在最前面。

3、第1.1节中测量还是测度指标?与表格统一一下吧?

4、第1.2节中“来自IP”跟下文的“来源ip”不一致?如为同一项内容,请统一。

5、表2中:①表头中的英文需要在文中翻译。②表头分别指什么?需要文字补充。见第1条意见。

6、第3.2节中Cronbach’s Alpha在中文文献中不太常见,是否应加中文?

7、请考虑文中提到的5名专家要不要点名。

【2017-01-23】 评论来自:版本 1
作者:

1、篇幅所限暂未展开,详见数据集。

2、已补充。

3、已修改。

4、已修改。

5、酌情修改。

6、SPSS常用功能,暂未增加。

7、已修改。

8、对应数据集表头已刷新。

【2017-01-25】 评论来自:版本 1
责编委:

文章中部分字句的表述望再斟酌修改,以便更准确和流畅。具体字句包括:

1)摘要最后一句,“亦可用于后续连续性研究的年代数据基准归档”,想表述的意思是这些数据可作为后续连续性研究的年代基准数据归档(或这些数据可归档作为年代基准数据支持后续连续性研究),还是这些数据可用于归档(归档本身并不与“可为摸清当前科学研究数据共享情况提供一手材料”具有并列意义)。

2)引言中“以期望再现当前我国科学研究数据共享发展现状”,此句之前并无阐述当前现状的文字或参考资料,“再现”用得突兀。

3)“该数据集的取得主要由量表开发、数据采集、数据清洗和质量检验等主要步骤组成”,不需要两个“主要”。

4)1.1节中,“第一部分为定性量表,重点描述科学数据共享资源与环境的客观方面”,用“客观情况”或“客观方面的情况”是否更好些。

5)1.1节中,最后一句“最终形成计量问卷最终定稿”,不需要两个“最终”。

6)1.2节中,“其中科学数据共享供给者以政府、科研机构等管理机构人员为主,也包括科学界乃至社会更为宽泛的广义对象所指。科学数据共享需求方则包括科学数据共享用户、科学数据共享的推动者乃至科学数据共享的把关人——管理机构人员。”这一段表述得不够清晰,供给者和需求方有差别吗?以及将科研机构界定为管理机构,可能与多数人的分类不符。

7)3.1节中,“侧重增强了面向高级以上职称受访人群的有效问卷回收率”,是想表述侧重增强了面向高级以上职称人群的问卷投放和回收,还是只想表述侧重对面向高级以上职称受访人群的问卷回收?

8)3.2节中,最后一句“故暂无法进行面向特定学科领域特征深入的数据共享情况资料支持”,不太通顺,“无法为特定学科领域数据共享情况的深入分析提供支持”或其他表述,会更好些。

【2017-02-13】 评论来自:版本 1
作者: 根据修改建议,对以上八条涉及的内容进行了逐一修改,请指正。谢谢。 【2017-02-13】 评论来自:版本 1
专家:

同评专家一:

1. 问卷设计的依据还需描述得更详细一些。

2. 还需交代样本用户的情况,便于数据重用过程中对不同样本的结论进行比较。

3. 数据分析方法可更详细建议,如用哪些统计指标。

同评专家二:

        《2015我国科学研究数据共享现状调查数据集(讨论版)》选题有现实与学术价值,科学数据共享的影响因素的界定与问项设计有较强解释力,测量指标合理、较全面,数据采集与清洗、样本描述、数据质量控制和评估等描述清晰、科学,数据使用方法与建议可行,建议修改后采纳。

        修改建议如下:

        1、在数据质量评估部分,建议增加对共享文化、共享动机的测量结果效度相对较低原因的解释。

        2、共享文化的概念较宽泛,涉及到微观(个体意识、习惯和心理)、中观(组织机构中共享的传统、共享的组织文化等)、宏观(宏观政策传统、法规传统、社会观念、道德和法律水准等)等部分,感觉测量的三个问项略显单薄。如以后有第二轮甚至更多的数据收集、更新等工作,进一步细化该变量的测量。

        3、共享动机的测量可以参照动机心理学的相关理论和方法,有一定的细化空间。

【2017-03-07】 评论来自:版本 1
作者:

感谢评审专家批评指正。具体内容回复如下:

1、问卷设计依据详见“1.1量表开发”参考文献[1],原文有几个章节的铺垫,囿于篇幅,暂未展开。

2、样本用户情况为数据集一部分。已修改。

3、已修改。

4、由于部分测量低值原因多样,无法提供确切的答案,故暂未增加此部分的确切解释。

5、共享文化和共享动机方面的测量指标设计将根据专家意见在后续问卷调查的指标设计中继续深入完善。

【2017-03-15】 评论来自:版本 1
编委会成员:

根据编委投票结果,同意在本刊发表该文。

【2017-04-19】 评论来自:版本 2

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

2015年科学研究数据共享现状调查

浏览下载总计

网页浏览 论文下载
4382 22

2015年科学研究数据共享现状调查

作者发表的论文

1 中文搜索引擎查询与反馈词语特征研究
赖茂生,屈鹏. 中文信息学报[J],2009,23(4),40-47

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

2 情报学的学科发展与教育问题
赖茂生,张莉扬. 情报学报[J],2003,22(1),3-9

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

3 论信息资源产业及其范畴
赖茂生,闫慧,龙健. 情报科学[J],2008,26(4),481-484,490

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

4 我国高校图书馆引进网络版全文数据库的综合评价模型
汪媛,赖茂生. 情报科学[J],2004,22(9),1061-1065

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

5 企业知识管理集成的研究
傅湘玲,赖茂生. 情报学报[J],2004,23(3),259-264

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

6 网络信息检索工具评价实验(Ⅰ)??英文网络检索工具评价实验
韩圣龙,赖茂生. 情报科学[J],2001,19(3),293

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

7 政府信息开放与立法研究
赖茂生,周健. 情报学报[J],2001,20(3),276

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

8 信息经济学体系探索
王芳,赖茂生. 情报学报[J],2004,23(1),117-123

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

9 网络信息检索工具评价实验(Ⅱ)??中、英文搜索引擎检索评价实验
韩圣龙,赖茂生. 情报科学[J],2001,19(4),430

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

10 信用信息及其传播
慎金花,赖茂生. 情报科学[J],2004,22(5),520-522,577

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

11 视频检索的用户策略
陈芬,赖茂生. 情报科学[J],2007,25(1),121-124

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

12 知识型服务创新对信息和通信技术聚合的影响
申静,赖茂生,钱程. 情报科学[J],2005,23(10),1579-1582

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

13 企业内容服务的战略设计与实施
傅湘玲,赖茂生,黄崑. 情报学报[J],2005,24(3),363-370

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

14 浅议情报科学及其教育问题
赖茂生. 情报科学[J],1998,16(1),12

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

15 海峡两岸信息资源产业比较研究
赖茂生,闫慧,龙健. 情报科学[J],2008,26(5),647-651

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

16 论信息经济的制度变迁
王芳,赖茂生. 情报学报[J],2002,21(5),608-612

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

17 网络版全文数据库综合评价模型的测试应用分析
汪媛,赖茂生. 情报科学[J],2005,23(7),1076-1084

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

18 内容产业与文化产业的关系研究
赖茂生,闫慧,叶元龄,李璐. 情报科学[J],2008,26(11),1601-1605

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

19 自然语言检索的实现及其关键问题
耿骞,赖茂生. 情报科学[J],2007,25(5),733-741

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

20 基于信息构建的网站设计理念研究
岳珍,赖茂生. 情报科学[J],2006,24(11),1723-1727,1731

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

2015年科学研究数据共享现状调查

张丽丽1*,赖茂生2

1. 中国科学院计算机网络信息中心,北京 100190;

2. 北京大学信息管理系,北京 100871

*通讯作者(Email: zhll@cnic.cn)

摘要:为探讨科学数据共享问题,设计了面向我国科学研究数据共享现状的调查问卷,并于2015年依托问卷星平台面向国内科研人员展开调查。实际回收有效样本370份,可为摸清当前科学研究数据共享情况提供一手材料,亦可归档为年代基准数据,用于后续研究。

关键词:科学研究数据;科学数据共享;调查统计

Survey on the current state of scientific data sharing in mainland China (2015)

Zhang Lili1*, Lai Maosheng2

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, P. R. China;

2. Information Management Department, Peking University, Beijing 100871, P. R. China

*Email: zhll@cnic.cn

Abstract: This paper introduces a survey focusing on the current state of scientific data sharing in current state of mainland China. The survey had been carried out in 2015, and 370 valid samples were received. This dataset can cast light on the development of scientific data sharing in China which also provides basic archiving materials for similar researches in the future as well.

Keywords: research data; scientific data sharing; survey and statistics

数据库(集)基本信息简介

数据库(集)中文名称

2015年科学研究数据共享现状调查

数据库(集)英文名称

Survey on the current state of scientific data sharing in mainland China (2015)

数据作者

张丽丽、赖茂生

通讯作者

张丽丽(zhll@cnic.cn)

数据时间范围

2015年

地理区域

中国大陆

数据量

370条

数据格式

*.doc,*.xls

数据服务系统网址

http://www.sciencedb.cn/dataSet/handle/372

基金项目

国家社科基金项目“政府信息资源管理创新的理论与方法”(11BTQ032)

数据库(集)组成

数据集由“科学研究数据共享现状调查”问卷样表和有效样本数据2部分组成。问卷样表由12节共计31个问题组成;有效样本数据包括样本和编码2张表单,其中样本370条,每条样本数据共44个字段;编码表单定义了44个字段的名称、类型、宽度、定义标签和值域。

引 言

数据开放共享是当前国际热点话题。尤其随着大数据资源的战略地位日益提升,数据驱动的科学发现已成为全球新型科研范式。《促进大数据发展行动纲要》和《“十三五”国家信息化规划》等一系列国家政策文件明确提出强化信息资源共建共享、加快释放数据红利等内容。然而,科研数据共享仍存在诸多难题,共享瓶颈集中在共享文化、保障机制、共享动机和共享能力等方面[1-2]。为此,结合博士研究生毕业选题,笔者面向国内科研人员投放“科学研究数据共享现状调查”问卷,试图摸清国内当前科研环境中科研主体对开放科学数据的态度观点,为更好地推动科学数据开放共享提供统计数据支持。

1 数据采集和处理方法

本数据集的取得由量表开发、数据采集、数据清洗和质量检验等步骤组成。

1.1 量表开发

量表开发过程主要包括设计初稿、专家评审与落实定稿等内容。

首先,根据前期文献调研并结合科研第四范式、信息共享理论、公共物品理论、新制度经济学理论以及信息生态理论、数据权利等方面的基础理论框架与相关研究成果[1],本调查将“我国科学研究数据共享”焦点问题的影响要素归纳为共享文化、保障机制、共享动机和共享能力四大方面,并进一步提出二级分类测量指标,详细内容见表1,据此形成调查问卷样稿核心内容。

1 科学研究数据共享现状潜在影响要素量表

序号

潜在变量

测量指标

1

共享文化

a. 具有分享科学数据的传统

b. 社会(或科研共同体)倡导数据开放共享理念

c. 具有科学数据共享要求(如来自上级部门或资助机构等)

2

保障机制

a. 具有足够的经费支持数据共享活动

b. 具备科学数据共享所需的基础设施与环境条件

c. 建立了科学数据共享实施的框架方案

d. 建立了科学数据跨平台共享与利用的标准规范

e. 制定了完整的科学数据共享政策法规体系

f. 建立了恰当的科学数据共享激励和评价机制

3

共享动机

a. 乐于将所拥有的数据进行公开共享

b. 数据共享将带来科学声誉的提高

4

共享能力

a. 具有分享科学数据的技术能力和工具

b. 具有足够的经费支持数据共享活动

c. 具备科学数据共享所需的基础设施与环境条件

d. 制定了科学数据共享实施的具体方案

其次,依托潜在影响要素量表,结合定量与定性手段,将问卷主体内容设计分为三大部分。第一部分为定性量表,重点描述科学数据共享资源与环境的客观情况;第二部分为定量量表,重点描述受访科研人员对国家、组织层面科学数据共享现状与制度方面的主观感受;第三部分为受访者基本信息,就此形成问卷初稿。值得补充的是,实际返回数据样本中还包括第四部分,即样本回收相关信息,如提交答卷时间等。

此外,根据问卷初稿,定向邀请科学研究领域5位专家学者进行试填写,并通过他们的反馈意见对问卷中指向不明、表述不清或有遗漏的方面进行完善。

最后,综合专家意见及作者观点,形成最终定稿的问卷。

1.2 数据采集与清洗

1. 明确调查对象:本调查面向科学研究数据共享活动核心参与力量,即国内高校、科研机构、政府科研部门和企事业单位从事科学研究的相关人员展开。

2. 问卷发放:本调查集中于2015年3月初依托问卷星平台(www.sojump.com),采取随机抽样方式展开在线问卷调查。

3. 问卷回收:截止2015年3月31日共回收问卷415份。为保证调查问卷质量,对回收样本的相关条件做了进一步限定:①提交答卷使用验证码,防止恶意软件干预;②设置完整性限制,只回收填写完整的问卷;③根据本调查所设置题量情况,删除全部答题时间在90秒以下的反馈(结合笔者自测情况、综合考量后,将作答时间设置为90秒);④设置同一电脑/手机限制,防止受访者重复提交答案;⑤问卷星系统自动删除个别异常答卷(如前后问题答案选项高度相仿的答卷等)。全部筛选条件框定有效回收问卷样本为370份,其中委托问卷星定向回收有效问卷210份,采取公共平台推广回收有效样本160份(详见数据集“来源”字段数据)。

4. 数据清洗:在完成质量检验、确认问卷回收数据样本具备足够的可信度和可靠性前提下,根据实际需要,进一步对拟发布数据集进行整理。其中,为保护受访者信息,过滤掉易对号入座的IP地址信息,并将“IP来自”一项的详细数据加工整理为所在省份数据值,以便于了解样本分布。合并“来源”及“来源详情”两项为“来源”,便于查看数据回收渠道分布。同时针对各项返回值进行规范化编码,形成完整规范的数据集。

1.3 样本数据人口统计特征

本调查问卷所获得的370份有效样本的人口统计特征如下(详见数据集“受访者基本信息”相关项)。其中,受访者年龄分布方面,30~65岁之间的科研中坚与骨干力量占比87.3%,从事科学研究的工作年限方面具有10年以上丰富经验的比例约为37.84%,一年以下工作年限的仅为1.08%。受访者职称分布方面,具有高级职称(副高及以上)的受访者占比40.27%,中级职称为47.57%,中级以下职称为12.16%。所属研究领域分布方面,自然科学约占1/3,应用科学超半数,人文社会科学约为14.59%(详见表2)。

2 样本人口统计基本特征描述

样本特征

具体选项

样本数

百分比

年龄

30岁以下

46

12.43%

31~40岁

202

54.59%

41~50岁

93

25.14%

51~65岁

28

7.57%

66岁及其以上

1

0.27%

合计

370

100%

从事科学研究工作的年限

1年以下

4

1.08%

1~5年

55

14.86%

6~10年

171

46.22%

11~20年

94

25.41%

20年以上

46

12.43%

合计

370

100%

职称

正高级(教授、研究员、教授级高工等)

62

16.76%

副高级(副教授、副研究员、高工等)

87

23.51%

中级职称(讲师、助研、工程师等)

176

47.57%

初级职称(助讲、实习研究员、助工等)

39

10.54%

其他(如在读学生)

6

1.62%

合计

370

100%

研究领域

自然科学

109

29.46%

应用科学

207

55.95%

人文社会科学

54

14.59%

合计

370

100%

2 数据样本描述

清洗后的有效样本数据集中,单个样本涵盖四部分调查内容共计44个字段,其中“问卷填写情况”部分共计5个字段均为字符型,其余39个字段为数值型。选取第一份样本,内容展示见表3。其中,各表头编码的实际意义详见本数据集“编码”表单中的详细定义。囿于篇幅,这里不再展开。

3 样本示例

(问卷填写情况)

index

submittime

totalseconds

ipaddress

source

1

2015/3/11 23:44:04

301秒

北京

手机提交(直接访问)

注:每列的说明依次为序号、提交答卷时间、所用时长、IP来自、来源渠道。

(定性量表)

Q1

Q2

Q3

Q4_1

Q4_2

Q4_3

Q4_4

Q4_5

Q5_1

Q5_2

Q5_3

Q5_4

Q5_5

Q6

2

3

1

1

0

1

0

0

0

0

0

0

1

3

(定量量表)

Q7_1

Q7_2

Q7_3

Q7_4

Q7_5

Q7_6

Q7_7

Q7_8

Q7_9

Q8_1

Q8_2

Q8_3

Q8_4

Q8_5

Q8_6

Q9_1

Q9_2

Q9_3

Q9_4

Q9_5

Q9_6

Q

9_7

2

6

6

4

5

2

2

1

1

2

7

7

7

7

7

7

7

7

7

5

7

2

(受访者基本信息)

Q10

Q11

Q12

2

4

2

3 数据质量控制和评估

3.1 质量控制

样本回收的质量控制主要包括系统限定和人工干预两部分。其中,依托问卷星平台所进行的样本回收条件系统限定详见第1.2节的说明。人工干预内容主要包括邀请领域专家对量表设计予以把关,笔者人工查验回收样本的完整性等。其中,“IP来自”返回值中存在3个“未知”值,经查对应IP地址均为境外,判断为合理情况,故予以保留。

此外,调研过程中,为了能够更加真实地了解科学研究数据共享实际情况,侧重增强了面向高级以上职称受访人群的问卷投放。实际回收的370份有效样本中,具有高级职称(副高及以上)的受访者占到总数的40.27%、中级职称占47.57%、中级以下职称占12.16%。

3.2 质量评估

1)信度检验

本研究采用SPSS 20版本软件处理数据,利用针对李特式量表开发的Cronbach’s Alpha系数值对问卷中39项数值型字段进行可靠性检验(表4)。检验结果显示该问卷整体Cronbach’s Alpha系数为0.884,各项主要研究测量变量的系数均超过0.6,其中共享文化测量变量具有可信性,共享动力、共享能力变量很可信,保障机制变量为十分可信。由此可见,本问卷具有较强的信度值,可展开进一步统计分析。

4 问卷的可靠性统计

变量

问题项数

样本量(N

Cronbach’s Alpha

共享文化

3

370

0.662

保障机制

6

370

0.945

共享动机

2

370

0.702

共享能力

4

370

0.892

问卷整体

39

370

0.884

2)效度检验

采用KMO(Kaiser-Meyer-Olkin,取样足够度)样本测度和Bartlett球形检验对变量进行相关性检验测试,各项因子有效性检验结果见表5。科学数据共享四个潜在影响变量的KMO值均达到或超过0.5,且各项检测变量的Bartlett球形检验选项显著性p<0.05,这表明上述变量通过有效性检验。

5 科学数据共享潜在影响要素有效性检验

综上,本问卷设计的各项内容均通过了信度和效度检验,表明调查数据集具有一定的可信度和可靠度,适合展开进一步分析工作。但受制于资源与条件,该抽样调查问卷回收样本的随机性不可避免的受到笔者所在人际网络的影响。调查本身仍属宏观范畴,并未面向具体学科领域展开同一问卷的横断面样本比较调查。

4 数据使用方法和建议

本数据集可为了解我国科学研究数据共享进展提供一手资料,可供数据资源共享政策与实践研究使用,亦可为后续年代的数据共享进展调查提供横向比较的基准数据。可使用Excel综合统计,概括当前我国科研环境及科学数据共享诸方面发展态势。也可以使用SPSS等软件对所关心的问题交叉分析。例如依据样本人口统计特征分层,可获取年龄、科研工作年限、职称与研究领域等指标下的数据共享情况,以供横向比较分析等。

致 谢

感谢在完善调查问卷量表开发中贡献智慧的所有专家以及调查问卷中贡献观点的受访者。

数据作者分工职责

张丽丽(1984—),女,研究生,助理研究员,研究方向为科学数据开放治理。主要承担工作:问卷设计与数据整理。

赖茂生(1946—),男,研究生,教授,研究方向为信息资源管理、信息检索。主要承担工作:问卷设计与数据质量控制。

参考文献

[1] 张丽丽. 面向开放服务的科学数据共享模式研究[D]. 北京: 北京大学, 2015.

[2] 黎建辉, 吴超, 张丽丽, 等. 科学数据出版调查与分析[J/OL]. 中国科学数据, 2016, 1(1). DOI: 10.11922/csdata.120.2015.0009.

论文引用格式

张丽丽, 赖茂生. 2015年科学研究数据共享现状调查[J/OL]. 中国科学数据, 2017, 2(3). DOI: 10.11922/csdata.840.2017.0118.

数据引用格式

张丽丽, 赖茂生. 2015年科学研究数据共享现状调查[DB/OL]. Science Data Bank, 2017. DOI: 10.11922/sciencedb.372.

下载




《中国科学数据》编辑部
地址:北京海淀区中关村南四街4号349信箱(100190)
电话:(010)58812762
E-mail:csdata@cnic.cn
官网: www.csdata.org