数据论文 II 区论文(已发表) 版本 ZH2 Vol 4 (3) 2019
下载
2018年中国科学院继续教育网科研人员在线学习数据集
Online learning data set for scientists on CASMOOC in 2018
 >>
: 2019 - 04 - 14
: 2019 - 05 - 07
: 2019 - 04 - 19
: 2019 - 09 - 26
2291 18 0
摘要&关键词
摘要:为更好地面向科研人员提供学习服务,促进科技创新发展,中国科学院继续教育网为科研人员提供在线学习服务,科研人员自主选学课程。2018年1月1日至2018年12月31日,共积累219472条学习数据,学习时长为212382.74小时。初步数据分析结果显示,10–12时和14–18时是学习行为产生的高峰期,但晚上18–24时也有相当数量的学习行为,不可忽视。每次学习时长与性别年龄无显著相关,科研人员最感兴趣的学习内容更多聚焦在人工智能和大数据方面。通过数据集,可以分析不同专业技术职称、不同年龄、不同性别、不同工作年限科研人员的在线学习时间点倾向、学习内容倾向和学习时长倾向,为精准服务科研人员在线学习奠定基础。
关键词:科研人员;在线学习;继续教育网;学习分析
Abstract & Keywords
Abstract: In order to promote scientific and technological innovation and development, the Continuing Education Network of the Chinese Academy of Sciences (CASMOOC) provides online learning services where researchers choose courses independently. This study examines a time period from January 1, 2018 to December 31, 2018, through which 219,472 data entries were accumulated, amounting to a total learning time of 21,282.74 hours. It shows that online learning behavior arrives at its peak at 10am to 12am and 14pm to 18pm while we should not ignore that considerable learning behaviors occur at 18pm to 24pm. There is no significant correlation exists among learning duration, gender and age, and artificial intelligence and big data are on the highest demand. The data set provides a locus for analyzing the tendencies of researchers’ online learning time, content and duration across a variety of professional and technical titles, ages, genders and working years, which lays a precise foundation for online curriculum design of scientific researchers.
Keywords: scientific researchers; online learning; CASMOOC; learning analysis
数据库(集)基本信息简介
数据库(集)名称2018年中国科学院继续教育网科研人员在线学习数据集
数据作者赵以霞、金昆、郑晓欢、孔丽华
数据通信作者赵以霞(zyx@cnic.cn
数据时间范围2018年
调查范围中国科学院129个机构科研职工
数据量42299 KB,219472条
数据格式*.xlsx
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/752
基金项目中国科学院“十三五”信息化建设子课题“服务人才高地建设的智慧终身学习平台”(2017-2018)。
数据库(集)组成数据集由3个数据表单组成:“所有选学数据”“仅选学未学”和“选学且学习”。“所有选学数据”表单包括219472条数据;“仅选学未学”表单包括12716条数据;“选学且学习”表单包括206756条数据。“所有选学数据”表单和“仅选学未学”表单的样本数据共有11个字段,其中基本信息有5个字段;“选学且学习”表单的样本数据共有12个字段,基本信息有5个字段。
Dataset Profile
TitleOnline learning data set for scientists on CASMOOC in 2018
Data corresponding authorZhao Yixia (zyx@cnic.cn)
Data authorsZhao Yixia, Jin Kun, Zheng Xiaohuan, Kong Lihua
Time range2018
Survey scopeResearch Staff of 129 Institutions of Chinese Academy of Sciences
Data volume42,299 KB, 219,472 entries
Data format*.xlsx
Data service system<http://www.sciencedb.cn/dataSet/handle/752>
Source of fundingE-learning System Project of the 13th Five-Year Informatization Program of the Chinese Academy of Sciences (2017-2018).
Dataset compositionThe data set consists of three data sheets, namely, “All Selected Courses”, “Selected but not Attended” and “Selected and Attended”. “All Selected Courses” includes 219 472 pieces of data; “Selected but not Attended” includes 12,716 pieces of data; and “Selected and Attended” includes 206,756 pieces of data. Each entry of “All Selected Courses” and “Selected but not Attended” have 11 data fields, of which 5 fields account for basic information, while “Selected and Attended” has 12 fields, of which 5 fields account for basic information.
引 言
2011年,新媒体联盟(New Media Consortium,NMC)发布《地平线报告(高教版)》,预测学习分析技术将在4–5年内应用起来,并将学习分析定义为大范围收集学生的学习数据并加以分析,从而评价学生的学习进度、预测其未来的学习表现,并查找潜在的问题[1]。2011–2019年,旨在促进个性化学习的学习分析技术与自适应学习一直是新媒体联盟地平线报告所预测的技术趋势。随着MOOC(Massive Open Online Courses,大规模开放在线课程)的发展,在线学习数据迅速积累起来,进一步推动了基于在线学习数据开展用户分析。2014年6月,哈佛大学和麻省理工学院联合发布了经过整理的2012–2013学年edX平台(麻省理工和哈佛大学于2012年4月联手创建的大规模开放在线课堂平台,网址www.edx.org/course)16门课程开放数据供全球研究者使用[2]。2014年,罗切斯特大学计算机科学副教授菲利普·郭,针对edX数学和科学课程的862个视频课程,基于12.8万人的690万条视频在线观看记录数据,开展分析,研究受欢迎的课程媒体形式[3]。为提升专业技术人员能力,我国人力资源和社会保障部发布2015年《专业技术人员继续教育规定》,对专业技术人员的学习时间提出要求,并明确参加远程教育是有效的继续教育学习方式之一。不同于其他专业技术人员,国家相关行业会提出明确的公需课和专业课学习要求,并组织实施,自然科学研究人员的学习具有更强的自主性。为此,中国科学院专门建设中国科学院继续教育网,为科研人员提供自主学习服务,促进知识更新。本数据集是基于2018年中国科学院科研人员的学习习惯建立的学习数据,通过分析不同专业技术职称、不同年龄、不同性别、不同工作年限科研人员的在线学习时间点倾向、学习内容倾向和学习时长倾向,可以为精准服务科研人员在线学习奠定基础。
1   数据采集和处理方法
为获得科研人员学习数据,本研究构建起科研人员专属的在线学习平台,汇聚各类课程资源,进而记录科研人员在线选学课程和学习时长。
1.1   学习平台开发设计
为面向中国科学院100多个科研机构的科研人员提供有针对性的学习服务,研发中国科学院继续教育网,支持各院属机构组织管理培训,发布资源,管理人员,进行统计分析。科研人员登陆中国科学院继续教育网可以自主选学课件,报名培训班,并围绕课件、培训班等资源进行交流互动[4]
1.2   建设和汇聚在线学习资源
MOOC的发展,为用户带来了大规模学习资源的同时,也会带来信息过载问题。中国科学院继续教育网实现了自主研发资源和汇聚外部资源功能,主要由各科研院所自主上传和汇聚。截至2018年底,共积累3062个课件资源,包括三分屏课件、视频课件、微课件、单一文档(PPT、PDF、WORD等),以及外部优质资源链接。
1.3   在线学习数据记录收集与清洗
(1)数据收集:中科院继续教育网用户信息由各研究院所维护,本研究利用中科院继续教育网的职工在线学习统计功能,直接获得2018年1月1日至2018年12月31日科研人员在线学习数据。
(2)数据清洗:结合本研究目的,剔除管理人员、支撑人员、工人等人群的学习数据,最终得到科研人员在线学习数据集。由于部分院属单位对于人员的标识不完整,科研人员属性值缺失,本文仅保留具有明确的科研人员属性值且标识专业技术职称的学习数据。
(3)数据处理:由于涉及科研人员的个人信息,为保护隐私数据,本文采用编号标识科研人员唯一性,并将出生年月和入所工作时间进行计算,转换为年龄和工作年限予以标识。为进一步分析学习时间段特点,将数据集划分为12个时间段,即每2小时为1个时间段,从0–2时开始,至22–24时。
1.4   样本数据人口统计特征
本文最终得到219472条学习数据,来自10360名科研人员,其中选学并学习为206756条,仅选学并未学习有12716条。206756条学习数据由10245位科研人员产生,学时合计为212382.74小时。针对重点分析学习行为,本文重点统计10245人的基本信息,其人口统计特征如下(详见数据集性别、年龄、工作年限、职称)。10245名科研人员中,有6846位男性科研工作者,占比66.82%,3399名女性科研工作者,占比33.18%。在线学习科研人员年龄方面,31~50岁的科研人员占比78.87%;从事工作年限方面,集中在三个区域“1~5年”“6~10年”“11~20年”,共占比89.71%;受访者专业技术职称方面,初级占比7.67%,中级占比41.03%,副高级占比35.93%;正高级占比15.36%(详细见表1)。
表1   样本人口统计基本特征描述
序号样本特征具体统计样本数百分比
1年龄30岁以下
31~40岁
41~50岁
51~60岁
61岁以上
1098
5887
2193
1028
39
10.72%
57.46%
21.41%
10.03%
0.38%
2性别
6846
3399
66.82%
33.18%
3工作年限1年以下
1~5年
6~10年
11~20年
20~30年
30年以上
3
2123
3541
3527
637
414
0.03%
20.72%
34.56%
34.43%
6.22%
4.04%
4职称初级专业技术人员7867.67%
中级专业技术人员420441.04%
副高级专业技术人员368135.93%
正高级专业技术人员157415.36%
5合计10245100%
2   数据样本描述
本数据集的数据存储于Excel文件的3个数据表单中,“所有选学数据”表单存放10360名科研人员2018年课件选学和学习相关数据,共有219472条学习记录;“仅选学未学”表单存放具有选学行为、但未开始学习的12716条数据记录;“选学且学习”表单存放选学且有学习行为的206756条学习记录。这3个数据表单所包含的具体字段名称、类型及示例见表2。关于课程时长字段数值,取值范围在0.05~48之间,平均值为1.27小时。
表2   所有选学数据内容
字段名称数据类型示例
1人员ID字符型53143
2性别布尔型
3年龄(岁)数值型47
4工作年限(年)数值型5
5职级字符型正高级
6课程ID字符型1493371795041
7课程名称字符型微积分:8分钟白话(中文)
8课程时长(小时)数值型0.2
9学习日期日期型2018/1/1
10学习时间时间型9:10:16
11学习时长(小时)数值型0.13
3   数据质量控制和评估
3.1   质量控制
数据集质量主要通过系统限定实现,以人工干预为辅。在设计在线学习功能时,实现20分钟内需要答题继续记录学时,否则中断记录;在线学习统计功能,实现同一课件跨年度重新选学,课件学习时长小于课件时长记录,限制用户多个浏览器终端或浏览器同时学习,并实现课件继续学习功能,支持断点续学。
人工干预方面,主要是对最终收集的数据进行转换,剔除人员敏感信息,结合本文研究目的,分离仅选学未有学习行为和有学习行为的数据。虽然没有学习行为,但选学课程到个人学习空间,也代表用户的一种兴趣和需求,因此,本文将此类数据保留到了数据集中。
3.2   质量评估
本文提供的2018年科研人员在线学习数据集,通过研究院所维护保障人员信息的真实性,并通过设定系列学时计算规则控制数据质量,保障数据的可用性和真实性,可以基于此学习数据集开展系列学习分析工作。
(1)学习行为与选学行为比例分析
学习率在选学中达到94%,选学某个课件但从未点击开始学习的比例为6%,转化率较好,这为在线资源开发和推送提供依据(图1)。


图1   选学转化率
(2)不同职称男女学习比例分析
根据中国科学院统计年鉴,中科院科研人员专业技术岗位的男女比例约为2.2∶1。本数据集中,具有学习行为的男女科研人员比例为2∶1,说明女性在线学习积极度略高于男性科研人员。在副高级选学人数中,男女选学比例与实际人员数据男女统计比例基本一致;而在初级、中级和正高级的科研人员选学男女比例中,均显示女性科研人员在线选学比男性科研人员更积极一些(图2)。


图2   不同性别和职称学习数据对比
(3)不同职称不同性别人均年累计学习时长分析
对不同职称级别的男性和女性科研人员的年累计学习时长分别求平均值,可以看出男性科研人员的年累计学习时长均高于女性,在正高级科研人员中,尤为突出。而随着职称的提升,科研人员的人均年累计学习数据有较为明显的下降,女性科研人员人均年累计学时从23小时降低到16小时,而男性科研人员人均年累计学时从23小时降低到19小时(图3)。


图3   不同性别和职称人均学习时长对比
(4)学习时间段规律
初级、中级、副高级和正高级人员的学习时间段呈现较为一致的趋势,主要集中在上午10–12时、14–18时,而18–24时也是不可忽视的学习时间段,这为后续精准推送学习资源的时间提供了参考,使得资源能够更有效地为科研人员学习(图4)。


图4   不同职称人员学习时间段对比
(5)不同年龄每次学习时长特点
利用学习时长数据除以学习记录数据,得到平均每次学习时长,该学习时长与课件时长有较强相关性。结合不同年龄和性别进行分析,可以看出每次学习时长数和年龄、性别无明显相关,基本都在1小时左右(图5)。对数据进行深入分析,可得到更多学习规律。


图5   不同年龄和性别每次学习时长对比
(6)已学习课程与未学习课程分析
共汇聚3062个课件资源,1915个课程被选学,选学率仅达到63%,还有1147个课件从未被选学。通过分析1915个课程的特点,为后续研发课件资源提供支持。
(7)最受欢迎课程分析
按照选学人次对课程进行排序,选课人数在1000人以上的课程,共有11个,集中在大数据、人工智能、信息技术等方面,如表3所示。
表3   选学最多的课程排名
序号课程名称选学人数
1大数据与数据智能1587
2人工智能:天使还是恶魔?1477
3深度学习研究进展与现状1403
4信息技术发展趋势1373
5核化学与放射化学基础知识1333
6锶原子光晶格钟1188
7用心陪伴我们的孩子1120
8天旋、岁差与中西之争:清代思想史的故事1077
9天工论坛第19期-太阳能人工光合成1074
10以现代化经济体系支撑“两个一百年”的宏伟蓝图1044
11新量子革命:从量子物理基础检测到量子信息技术1021
4   数据使用方法和建议
2018年中国科学院继续教育网科研人员在线学习数据集以EXCEL存储,使用者可以通过EXCEL工具或转换格式导入到数据库进行查看、检索、分析、数据挖掘等操作。可以通过关联规则挖掘课程之间的关系,构建推荐系统,在基于学习行为分析的个性推荐方面开展深入研究和应用,进一步提升中科院继续教育网的智能化水平。
致 谢
感谢在中国科学院继续教育网开发及资源研发中贡献智慧的专家和研发人员。
[1]
New Media Consortium. 2011 Horizon Report[EB/OL]. (2011-02-08) [2019-09-23]. https://library.educause.edu/resources/2011/2/2011-horizon-report.
[2]
MITx and HarvardX. HarvardX-MITx Person-Course Academic Year 2013 De-Identified dataset, version 2.0[EB/OL]. (2014-06-09) [2019-09-23]. http://thedata.harvard.edu/dvn/dv/mxhx.
[3]
HAZLETT C. How MOOC Video Production Affects Student Engagement[EB/OL]. (2014-03-12) [2019-09-23]. https://blog.edx.org/how-mooc-video-production-affects.
[4]
赵以霞, 金昆, 金瑛. 网络环境下科研人员继续教育内容研究——以中国科学院继续教育网资源为例[J]. 科研信息化技术与应用, 2018, 9(06): 31-38.
数据引用格式
赵以霞, 金昆, 郑晓欢, 孔丽华. 2018年中国科学院继续教育网科研人员在线学习数据集[DB/OL]. Science Data Bank, 2019. (2019-04-14). DOI: 10.11922/sciencedb.752.
稿件与作者信息
论文引用格式
赵以霞, 金昆, 郑晓欢, 孔丽华. 2018年中国科学院继续教育网科研人员在线学习数据集[J/OL]. 中国科学数据, 2019, 4(3). (2019-09-18). DOI: 10.11922/csdata.2019.0012.zh.
赵以霞
Zhao Yixia
主要承担工作:基础数据处理与论文撰写。
zyx@cnic.cn
(1980—),女,研究生,高级工程师,研究方向为在线教育。
金昆
Jin Kun
主要承担工作:整体设计与数据质量控制。
(1984—),男,研究生,六级职员,研究方向为创新管理、继续教育。
郑晓欢
Zheng Xiaohuan
主要承担工作:技术指导。
(1981—),女,研究生,高级工程师,研究方向为信息技术应用。
孔丽华
Kong Lihua
主要承担工作:技术指导。
(1978—),女,研究生,高级工程师,研究方向为科研信息化。
出版历史
I区发布时间:2019年4月19日 ( 版本ZH1
II区出版时间:2019年9月26日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata