海南资源环境遥感产品数据集专题 II 区论文(已发表) 版本 ZH2 Vol 4 (2) 2019
下载
基于社交媒体的海南风灾监测数据集
Social media-based monitoring data for wind disasters in Hainan
 >>
: 2018 - 12 - 17
: 2019 - 05 - 04
: 2019 - 02 - 28
: 2019 - 05 - 23
524 9 0
摘要&关键词
摘要:台风是威胁人类生存与发展的主要自然灾害之一。有效的涉灾数据是政府开展防灾减灾救灾工作的重要基础。随着互联网的普及,社交媒体作为新兴的灾害数据源已得到广泛的应用。本数据集以受台风影响较重的海南岛为研究区域,基于社交媒体平台收集和整理了2010–2018共8年间的严重侵袭海南岛的14个台风的相关数据,旨在从公众观测视角对台风进行监测,以弥补传统监测手段的不足,从而为及时、高效的减灾服务提供重要的数据支持。本数据集主要包括台风的属性信息、涉灾社交媒体的描述性文本以及图片等3种数据形式。
关键词:台风;海南岛;社交媒体;信息挖掘
Abstract & Keywords
Abstract: Typhoon is one of the main natural disasters threatening human survival and development. Effective disaster–related data is an important basis for the government to carry out disaster prevention, mitigation and relief work. With the popularization of the Internet, social media has been widely used as a new disaster data source. At the social media platform, we collected and collated the data of 14 typhoons that seriously affected Hainan Island in the period of 2010–2018, which was to monitor the typhoons from the perspective of public observation, so as to make up for the shortcomings of traditional monitoring methods, and to provide important data support for timely and efficient disaster reduction services. This data set mainly includes three data forms: typhoon attribute information, disaster-related social media descriptive text and pictures.
Keywords: Typhoon; Hainan island; social media; information mining
数据库(集)基本信息简介
数据库(集)名称基于社交媒体的海南风灾监测数据集
数据作者张清兰,解吉波,刘战,杨腾飞,李振宇
数据通信作者解吉波(xiejb@radi.ac.cn)
数据时间范围2010–2018年
地理区域海南岛 (北纬18°10’–20°10’,东经108°37’–111°03’)
数据量164 MB
数据格式*.sql、*.xlsx、*.jpg
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/715
基金项目海南省重大科技计划项目(ZDKJ2016021)
数据库(集)组成本数据集存储为一个压缩文件(*.zip),数据量为164 MB,压缩后为138 MB。压缩文件中包括以台风编号命名的14个文件夹,每个文件夹由三部分数据组成,其一为微博文本数据(*.sql),其二是图片数据(*.jpg),其三是台风轨迹点数据(*.xlsx)。
Dataset Profile
TitleSocial media-based monitoring data of wind disasters in Hainan
Data corresponding authorXie Jibo (xiejb@radi.ac.cn)
Data authorsZhang Qinglan, Xie Jibo, Liu Zhan, Yang Tengei, Li Zhenyu
Time range2010–2018
Geographical scopeHainan Island (18°10’N—20°10’N, 108°37’E— 111°03’E)
Data volume164 MB
Data format*.sql, *.xlsx, *.jpg
Data service system<http://www.sciencedb.cn/dataSet/handle/715>
Sources of fundingMajor Science and Technology Program of Hainan Province (ZDKJ2016021)
Dataset compositionStored as a compressed file (*.zip), the data set has a data volume of 164 MB, and 138 MB after compression. The compressed file includes 14 folders named after respective typhoon code. Each folder consists of three parts of data, including micro–blog text data (*.sql), picture data (*.jpg), and typhoon trajectory point data (*.xlsx).
引 言
台风是频发于西太平洋和南海地区的自然灾害,每年给周边国家造成重大损失。据统计,近十年来,这些地区年均台风数量达23.8个。海南岛是我国遭受台风灾害侵袭最为严重的地区之一,不仅给社会经济带来巨大破坏,还严重威胁人
民的生命安全。因此,有效的灾害信息是开展救灾工作的基础,对于研究灾害防治、降低灾害风险具有重要意义。以遥感卫星、航空摄影、视频录像、地面调查为主的传统灾害信息获取方式所收集的涉灾数据各有优势,救灾减灾工作也因各种资源的充分应用而更加高效。
随着互联网用户不断增加以及社交媒体平台的多样化,社交媒体已成为人们传播信息和表达观点的重要渠道。与此同时,社交媒体以其广泛的参与性与多源的传播性也逐渐应用到减灾工作中。社交媒体数据在减灾工作中,相较于传统的数据采集手段具有诸多优点:(1)社交媒体信息直接包含发布者的空间位置信息,可以帮助救援组织准确地找到特定的帮助请求。此外,在地图上可视化此类数据可提供常见的灾难视图,并帮助相关部门直观地确定当前状态。(2)信息更新快速及时,有利于抓住灾后反应的黄金时期。具有自发性,提供了源源不断的信息;(3)信息来源广泛,产生自公众中,具有普遍性。相比传统的电话访谈、面谈、调研等方式,研究者能更迅速获取信息。(4)信息中常包含公众的感性认知,有利于减灾工作的针对性与有效性。收集数据,利用专业工具进行基本的分析(例如创建词云、趋势图),总结出最紧急的类别(例如医疗帮助、食物、住所或被困人员)。然后,救济组织可以专注于对救济工作最重要的问题和事件[1]。尽管有部分学者指出社交媒体在某些方面存在着一定的局限性,例如使用人群的局限性及信息的主观性。但因其信息的及时性、广泛性及具有空间属性的特征,社交媒体数据在未来的城市减灾工作中依然具有可靠的前景及研究应用价值。第三届世界减灾大会通过的《2015–2030年仙台减轻灾害风险框架》中提出,要充分利用传统技术和现代手段,借助大数据、社交媒体、移动互联网等方法,促进业务系统和服务平台建设,提高灾害监测、风险评估和服务能力[3-4]。在灾害的背景下,受灾区域的社交媒体数据蕴含丰富灾情信息,挖掘其中的灾害信息成为救灾工作的一种新方式。国内外众多学者已开展了许多相关研究,并取得较好的效果[5,6,7,8,9,10] 。每个社交媒体平台,例如国外的Twitter、Facebook以及国内的新浪微博、微信,都是一个巨大的数据库提供了海量的文本、图像、视频等数据。这些数据一般都具有内容动态化、存储碎片化、无规则化的特点,增加了从中获取有用灾害信息的时间成本与复杂度[11-12]
收集、整理以及挖掘社交媒体数据应用于台风灾害监测是一项很有意义的工作。2010–2018年,海南共遭受14次严重台风侵袭,对人民的生命财产造成了巨大威胁。本文针对台风灾害,设计了海南岛2010–2018年台风灾害期间的新浪微博规范化数据集合,并结合台风属性(风强、气压与轨迹等)完善数据集。通过公众观测的视角解读台风灾害的进程与影响,为后续的台风灾害预警模型与灾后影响分析提供有效的数据支持。新浪微博是国内应用最为普及的社交媒体平台之一,在拥有大批量用户的同时,其博文体现了明显的时空特征。在遭受台风灾害时,受灾区域的微博用户通过平台发布文字、图片及视频信息,其数据常包含重要的灾情信息。图1中展示了1条新浪微博的原始信息,这些信息中含有大量的受灾位置及灾损情况,这为利用社交媒体数据进行救灾减灾工作研究提供了可行性。本文重点关注文本和图像数据,以各个台风为单位获取原始数据后进行了数据的清洗工作。随后以2014年“威马逊”台风为例,展示并分析了灾区微博用户的情感分布信息以及微博量的时间变化规律。


图1   新浪微博原始博文展示
1   数据采集和处理方法
1.1   概况
本数据集记录了2010–2018年过境海南省的以下14个台风事件的信息:“山神”“艾云尼”“莎莉嘉”“鲸鱼”“海鸥”“威马逊”“海燕”“飞燕”“贝碧嘉”“山神”“尼格”“纳沙”“洛坦”及“康森”(表1)。
表1   2009–2018年台风列表
年份台风编号名称(英文)登陆时间
20181809山神(Sontinh)2018/07/18
1804艾云尼(Ewiniar)2018/06/06
20161621莎莉嘉(Sarika)2016/10/18
20151508鲸鱼(Kujira)2015/06/22
20141415海鸥(Kalmaegi)2014/09/14
1409威马逊(Rammasun)2014/07/18
20131330海燕(Haiyan)2013/11/10
1309飞燕(Jebi)2013/08/02
1305贝碧嘉(Bebinca)2013/06/22
20121223山神(Sontinh)2012/10/27
20111119尼格(Nalgae)2011/10/04
1117纳沙(Nesat)2011/09/29
1109洛坦(Nock–tan)2011/07/29
20101002康森(Conson)2010/07/16
台风的基本信息,例如登陆时间、中心气压及风速,来自于官方网站——中国台风网(http://typhoon.weather.com.cn/)。文本和图片数据来自非官方的大众社交媒体新浪微博(https://weibo.com/)。本文使用新浪微博平台的高级搜索功能来获取与台风事件相关的数据,选择台风的名称加上“台(台风)”作为设置检索条件的关键词,从新浪微博主要获取台风登陆当天,前一天及后三天的微博博文及相关图片。14个台风总计获取了93824条新浪微博博文。从新浪微博获取的数据主要从公众观察的角度描述当前灾难的情况。
为了更加直观地了解台风过境的具体发展进程及概况,本文收集整理了文本数据中的图片,并根据发布时间进行编号。读者通过图片内容可以更直观地了解台风的发展进程及其社会影响,是文本数据的有效补充内容。
1.2   数据收集过程
基于已开发的数据采集系统对数据进行采集与整理,如图2所示。通过收集模块获取来自不同平台的数据,然后将它们解析为结构化形式。来自中国台风网的数据经过预处理后存放到Excel表格中,来自新浪微博的数据以sql格式储存到MySql数据库中。然后进行数据清洗工作,数据的清洗主要包括删除重复信息,将繁体中文翻译成简体中文,将全角字符转换成半角字符等。最后,这些数据以结构化形式存储。同时利用已收集到的图片链接数据,利用批量下载工具收集图片,并人工删除无关图片,例如表情包等。数据结构如表2所示。


图2   社交媒体数据采集系统流程图
1.3   数据分类
社交媒体数据来源于公众对于事件的直接反馈与表述,其中包含大量的公众情感信息。例如,来自新浪微博的文字“风最大的时候,我家玻璃门靠餐桌以及我们的双手顶着!太恐怖了!”,表达了公众对于台风的负面信息。我们可以根据文字中包含的公众情感的倾向,将数据划分为正面情感、中性情感及负面情感等不同的类别。根据这3种情感倾向类型对数据进行分类,样例如表2。
表2   情感分类示例
情感类别数据数量
正面51
中性115
负面499
社交媒体中的图片信息在一定程度上更能直观反映事件的发展进程,图片中的内容也能有效反映事件的状态。我们可以根据图片中的不同描述内容将图片进行分类。例如,可以根据受损对象的不同,将图片分为树木倒塌、道路积水、房屋倒塌等不同种类。
2   数据样本描述
2.1   数据集信息
基于社交媒体的海南风灾监测数据集(2010–2018年)包括了14个台风的轨迹点数据及社交媒体中的文本数据与图片数据,如表3所示。本数据集中共含有14个文件夹,每个文件夹以台风的编号进行命名,每个文件夹下面包括3个下一级文件,包括1个Excel表格和2个文件夹,表格以台风编号命名存放该台风的轨迹点信息,另外两个文件夹分别存放来自社交媒体的文本数据与图片数据(在1002号台风康森登录海南岛前一天至后三天期间新浪微博平台上无有效图片数据可以利用)。其中文本数据的格式为sql,命名规则为“台风名称_城市_关键词_日期”;图片数据的格式为jpg,命名规则为“年份+月份+日+时+分+_+id+图片序号”。数据集详细信息如表3。
表3   数据集结构
文件夹(.zip)年份台风名称文件夹下一级文件夹
数据.zip2018山神1809轨迹点表格
文本数据
图片数据
艾云尼1804
2016莎莉嘉1621
2015鲸鱼1508
2014海鸥1415
威马逊1409
2013海燕1330
飞燕1309
贝碧嘉1305
2012山神1223
2011尼格1119
纳沙1117
洛坦1109
2010康森1002轨迹点表格、文本数据
2.2   数据样本
台风轨迹点数据的字段主要包括到达时间、经度、纬度、中心气压、风速、未来移向、未来移速等(表4)。可以将台风轨迹点数据加载到ArcGIS中,从而获得台风轨迹点的矢量数据,将轨迹点按时间顺序进行连接可以生成台风轨迹的线矢量数据,例如将编号为1409的威马逊台风的轨迹点数据加载到ArcGIS中生成相关矢量数据(图3)。
表4   台风轨迹点信息
台风编号1409
到达时间2014-07-12 14时
经度142.8
纬度13.4
中心气压1002百帕
风速18米/秒


图3   台风威马逊的轨迹
社交媒体中的文本数据字段包括id、关键字、省份、城市、内容、位置、图片链接、发布时间、平台、转发数、评论数、点赞数。数据中的主题主要包括公众对于台风的情感倾向及各种不同类型的灾难损失信息,如表5所示。
表5   来自新浪微博的数据
Idid563
keyword关键词威马逊š
province省份海南
city城市海口
content_text内容#台风“威马逊”#亲身经历过2005年“达维”超强台风,这次的“威马逊”更厉害,岛民深受其害,希望明天全民尽早灾后重建,翁田加油,文昌加油,海南加油。http://t.cn/RPzUePI 2 新大洲大道
location位置新大洲大道
picture图片链接http://ww2.sinaimg.cn/thumb150/3ede5b0fjw1eih7ftvsgoj20qn0hs3z5.jpg
time发布时间2014年07月18日 20:07
w_from平台Android客户端
transmiCount转发量2
commentCount评论量7
praiseCount点赞量3
图片数据根据时间信息进行编号命名。其具体命名规则为:年份+月份+日+时+分+_+id+图片序号。例如,编号为“201407201932_348_1”的图片(图4),其发布时间为2014年7月20日19时32分,发布的id为348,图片序号为1。图片中的描述内容直观地反映了台风对于公众生活的影响,例如图4中编号为“201407202149_138_1”的图片清晰地展示了台风造成了道路旁边的树木倒塌。


图4   图片样例
根据给出的数据,在统计类型软件中,可以清楚地了解到不同时期海南台风过境时,公众对于台风的反馈信息。可以制作台风过境前后公众反馈信息数量的变化趋势图,如图5表示威马逊台风登陆海口前一天及登陆后3天的社交媒体中文本及图片数据量随时间的变化趋势,图6分别表示威马逊台风登陆海口当日19–22时(即2014年7月18日)含关键词“威马逊”的社交媒体中文本数据量及图片数据量随时间的变化趋势。


图5   文本及图片数据量随时间的变化趋势


图6   台风登陆当日数据量变化情况
3   数据质量控制和评估
对指定台风事件有关的关键词进行多样化和优化,以确保从每个社交媒体平台最大限度地检索相关信息。数据收集完成后,人工手动检查数据的有效性,并删除与台风灾害无关或不完整的数据。此外,通过建立数据库索引来避免完全重复的数据。对于数据集中的分类示例,提前制定分类标准,并利用专业的自然语言处理工具对这些原始数据进行分类,以确保最终分类结果的正确性。最后,从每个平台随机抽取500个数据进行检查,发现数据准确率接近100%。
4   数据价值
海南省作为我国重要的旅游城市,其城市灾害的研究对旅游发展具有重要的意义。在国内还没有专门为海南省风灾编制基于社交媒体的数据集,特别是针对长时间的社交媒体数据进行追踪的数据集。本数据集主要收集了海南省2010–2018年的针对台风的社交媒体数据及台风基本信息数据,其中不仅有文本数据,而且含有图片,以便更加直观地了解台风的发展进程。通过分析收集整理的数据,可以进行海南省2010–2018年的风灾研究。例如,利用本文提供的台风轨迹点数据可以很容易对台风的进程进行可视化展示,同时轨迹点数据中的气压、风速等信息可以为灾情评估提供可靠的参考[13]。本文提供的社交媒体文本及图片数据可以根据公众在不同时间段对于台风的情感倾向进行重新分类及相关影响因素的挖掘[14]。同时通过数据集的数据可以对灾难损失信息进行提取和分类,并进行快速有效的灾害损失评估[3]
针对台风社交媒体数据的定性及相对定量化分析方面,通过论证社交媒体与灾害损失评估之间的相关关系,可以为减灾准备和响应提供新的研究视角。根据与台风灾害相关的社交媒体数据,为灾害发生前、发生中和发生后的情况意识和损害评估制定了新的指标模型。利用语义分析方法从社交媒体信息中抽取相关指标(例如灾情描述、公众需求),基于TF-IDF方法计算相关指标权重,最后综合对台风灾情进行评估并用于指导减灾工作[15]
[1]
王森, 肖渝, 黄群英, 等. 基于社交大数据挖掘的城市灾害分析——纽约市桑迪飓风的案例[J]. 国际城市规划, 2018, 33(4): 88-96.
[2]
GAO H, BARBIER G, GOOLSBY R. Harnessing the Crowdsourcing Power of Social Media for Disaster Relief[J]. IEEE Intelligent Systems, 2011, 26(3): 10-14.
[3]
严丽军. 自然灾害的灾情信息集成: 理论与实证研究[D]. 上海: 上海师范大学, 2016.
[4]
范一大. 我国灾害风险管理的未来挑战——解读《2015–2030年仙台减轻灾害风险框架》[J]. 中国减灾, 2015 (7): 18-21.
[5]
杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018 (07): 906-917.
[6]
YOO S, SONG J, JEONG O. Social media contents based sentiment analysis and prediction system[J]. EXPERT SYSTEMS WITH APPLICATIONS, 2018, 105: 102-111.
[7]
RUDRA K, GANGULY N, GOYAL P, et al. Extracting and Summarizing Situational Information from the Twitter Social Media during Disasters[J]. ACM TRANSACTIONS ON THE WEB, 2018, 12(173). DOI:10.1145/3178541.
[8]
CHEN Z, LIM S. Collecting Typhoon Disaster Information from Twitter Based on Query Expansion[J]. ISPRS INTERNATIONAL JOURNAL OF GEO–INFORMATION, 2018, 7(1394). DOI: 10.3390/ijgi7040139.
[9]
王艳东, 李昊, 王腾, 等. 基于社交媒体的突发事件应急信息挖掘与分析[J]. 武汉大学学报·信息科学版, 2016, 41(3): 290-297.
[10]
韩雪华, 王卷乐, 卜坤, 等. 基于Web文本的灾害事件信息获取进展[J]. 地球信息科学学报, 2018 (08): 1037-1046.
[11]
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015, 17(2): 127-134.
[12]
吕雪锋, 陈思宇. 自然灾害网络舆情信息分析与管理技术综述[J]. 地理与地理信息科学, 2016, 32(4): 49-56.
[13]
刘雅玉. 基于案例推理的台风灾害快速评估方法[D]. 武汉: 武汉大学, 2018.
[14]
LI J, HE Z, PLAZA J, et al. Social Media: New Perspectives to Improve Remote Sensing for Emergency Response[J]. Proceedings of the IEEE, 2017, 105(10): 1900-1912.
[15]
DENG Q, LIU Y, ZHANG H, et al. A new crowdsourcing model to assess disaster using microblog data in typhoon Haiyan[J]. Natural Hazards Journal of the International Society for the Prevention & Mitigation of Natural Hazards, 2016, 84(2):1-16.
数据引用格式
张清兰, 解吉波, 刘战, 等. 基于社交媒体的海南风灾监测数据集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.715.
稿件与作者信息
论文引用格式
张清兰, 解吉波, 刘战, 等. 基于社交媒体的海南风灾监测数据集[J/OL]. 中国科学数据, 2019, 4(2). (2019-05-04). DOI: 10.11922/csdata.2018.0095.zh.
张清兰
ZHANG Qinglan
主要承担工作:2014 – 2018年数据的收集与处理,论文主题部分的撰写。
(1993—),女,河南省鹤壁市人,在读硕士研究生,研究方向为:网络 GIS 与地理信息工程。
解吉波
XIE Jibo
主要承担工作:论文引言撰写,以及论文结构的指导与质量把关。
xiejb@radi.ac.cn
(1977—),男,北京市人,博士, 副研究员,研究方向为:地理空间数据基础设施,遥感,地理计算。
刘战
LIU Zhan
主要承担工作:2010–2013年数据的收集与处理。
(1990—),男,河南省周口市人,在读硕士研究生,研究方向为:3S集成与应用。
杨腾飞
YANG Tengfei
主要承担工作:论文方向的指导,文本语言的修改。
(1988—),男,河南省洛阳市人,在读博士研究生,研究方向:自然语言处理、灾害信息挖掘。
李振宇
Li Zhenyu
主要承担工作:论文文本校正及参考文献格式整理工作。
(1994—),男,海南省海口市人,在读硕士研究生,研究方向:自然语言处理、灾害信息挖掘。
出版历史
I区发布时间:2019年2月28日 ( 版本ZH1
II区出版时间:2019年5月23日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata