海南资源环境遥感产品数据集专题 I 区论文(评审中) 版本 ZH1
下载
基于社交媒体的海南旅游景区评价数据集
Evaluation data set for Hainan tourism scenic spots based on social media
 >>
: 2018 - 12 - 17
: 2019 - 02 - 20
: 2019 - 02 - 20
312 3 0
摘要&关键词
摘要:本文从社交媒体中采集并处理了2012–2018年海南所有4A及5A级景区的评论数据,并结合海南省旅游发展委员会公布的统计数据,构建了海南旅游景区评价数据集。本数据集旨在用于对海南旅游景区的质量评估、景区个性化推荐等研究。同时,结合多源化数据,本数据集可为研究海南省旅游发展提供数据支持。
关键词:海南旅游;社交媒体;景区评价;个性化推荐
Abstract & Keywords
Abstract: This paper collected and processed the commentary data of all 4A and 5A scenic spots in Hainan from 2012 to 2018 from social media, and then combined with the statistical data published by Hainan Tourism Development Committee to construct the evaluation data set of Hainan tourism scenic spots. This data set is used for the quality evaluation and personalized recommendation of Hainan tourist attractions, among others. It can also be used in combination with other multi-source data to provide data support for the study of tourism development in Hainan Province.
Keywords: Hainan tourism; social media; scenic evaluation; personalized recommendation
数据库(集)基本信息简介
数据库(集)名称基于社交媒体的海南旅游景区评价数据集
数据作者林振宇,解吉波,覃佐淼,杨腾飞,赵静
数据通信作者解吉波(xiejb@radi.ac.cn)
数据时间范围2012年1月–2018年10月
地理区域地理范围包括海南岛(北纬18°10′–20°10′,东经108.37°–111.03°)。
数据量59.57 MB
数据格式*.zip, *.sql,*.xslx
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/714
基金项目海南省重大科技计划项目(ZDKJ2016021)
数据库(集)组成本数据集由六部分数据组成,分别为美团、途牛、同城、携程旅游评论数据,2012–2018年海南省旅游统计数据和示例样本数据。这些数据保存为2个压缩文件共126.8 MB(海南省旅游评论数据.zip,海南省旅游统计数据.zip),其中海南省旅游评论数据.zip包括5个文件夹,每个文件夹下分别对应美团、途牛、同城、携程和示例样本数据的sql文件和xslx文件。海南省旅游统计数据.zip中包括7个文件夹,以xslx格式分别存放2012–2018每年的旅游统计数据。
Dataset Profile
TitleEvaluation data set of Hainan tourism scenic spots based on social media
Data corresponding authorXie Jibo (xiejb@radi.ac.cn)
Data authorsLin Zhenyu, Xie Jibo, Qin Zuomiao, Yang Tengfei, Zhao Jing
Time rangeJanuary 2012–October 2018
Geographical scope18°10′N–20°10′N, 108°37′E–111°03′E
Data volume59.57 MB
Data format*.zip, *.sql, *.xlsx
Data service system<http://www.sciencedb.cn/dataSet/handle/714>
Sources of fundingHainan Provincial Department of Science and Technology under Grant No. ZDKJ2016021
Dataset compositionThis data set consists of six parts of data. They are travel review data from Meituan, Tuniu, Tongcheng, Ctrip 2012–2018 Hainan tourism statistics, and sample data. These data are saved in two compressed files totaling 126.8 MB, that is, Hainan Tourism Review Data.zip, Hainan Province Tourism Statistics.zip). The former includes 5 folders, each of which corresponds to .sql files and .xslx files for Meituan, Tuniu, Tongcheng, Ctrip and sample data, while the latter includes 7 folders storing the annual tourism statistics of 2012–2018 in .xslx format.
引 言
旅游是海南省的经济支柱产业之一,对其他相关产业的经济发展有着较强的带动作用。研究和提高海南各景区的服务质量,满足游客多元化的旅游需求,对进一步促进海南旅游产业的发展至关重要。
随着旅游互联网的快速发展,大量和旅游景区相关的用户评论信息为旅游业的发展研究提供了有力数据支持。更多的潜在游客,会在出行前根据这些评论信息制定旅游路线,协助旅游决策[1,2,3] 。通常,这些数据信息多以文本、图片的形式出现在各大社交媒体平台上。这些信息通常表达了游客对于相关景区的意见、建议和满意度,从而为景区质量和服务的进一步提升提供有效参考。目前,国内外已有不少学者对景区的社交媒体信息展开相关研究,并从不同方面探讨它们的应用。如文献[4]以众包的形式收集秦皇岛高校大学生对当地旅游景区的评论信息,并结合这些数据提供者的个人信息开展用户画像的旅游情境化推荐服务研究,文献[5]利用多模态的景点信息(文本、地理标记图片以及视频生成景点的信息摘要),根据用户的查询为用户个性化地推荐景点。文献[6,7,8] 基于签到记录数据来进行旅游路线的推荐等。然而目前,可用的基于社交媒体的开放旅游景区评论数据集并不多。这严重制约了旅游信息挖掘的研究。为此,本文以海南省为研究对象,从主流旅游网站(包括美团网、途牛网、同城网以及携程网等)上收集和处理了2012–2018年间所有4A和5A级旅游景区的评论数据构建了数据集。同时,为方便更深入研究海南旅游的发展变化,本数据集还加入了海南旅游发展委员会官方网站收集的该时间段内的旅游统计数据作为补充。
1   数据采集和处理方法
本数据集的生产流程包括数据采集与清洗,数据管理和数据分类。数据制作流程如图1所示。


图1   数据集制作流程图
1.1   数据采集与清洗
1.1.1   景区评论数据的采集与清洗
该部分数据以海南省4A和5A级景区为研究对象,获取了2012–2018共7年的评论数据,这些数据主要来源于包括美团、携程、途牛以及同程在内的4个旅游网站。原始数据形式为HTML,本文通过Java编程语言对其进行了解析和清洗,最终形成了284 715条结构化文本数据。其中,数据清洗操作包括全半角字符的转化、繁简体文字的转化以及文本去重等。同时,为方便读者使用,该部分数据以sql和xlsx两种格式存储。表1显示了数据的基本结构信息。
表1   海南省旅游景点名称及评论数据量
序号名称等级美团携程途牛同程地址
1槟榔谷黎苗文化旅游区5A509526202601215保亭县
2海南呀诺达雨林文化旅游区5A9693287712702501保亭县
3海南分界洲岛旅游区5A83502771285980陵水县
4大小洞天旅游区5A632128546513469三亚市
5南山文化旅游区5A26 633294435093146三亚
6蜈支洲岛旅游区5A22 340297812614318三亚市
7七仙岭温泉国家森林公园4A175663715133保亭
8海南文笔峰盘古文化旅游区4A401625017176定安县
9海口观澜湖旅游度假区4A4633430103海口市
10海南热带野生动植物园4A11 414139475878海口市
11海口假日海滩旅游区4A0122900海口市
12中国雷琼海口火山群世界地质公园4A012842781054海口市
13南湾猴岛生态旅游区4A51301994530735陵水县
14博鳌亚洲论坛永久会址景区4A1725112728369琼海市
15三亚大东海旅游区4A305282700三亚市
16三亚西岛海洋文化旅游区4A8290285102162三亚市
17天涯海角游览区4A30 510296635093146三亚市
18亚龙湾爱立方滨海乐园4A7851949168三亚市
19三亚亚龙湾热带天堂森林公园4A175663715133三亚市
20清水湾旅游区4A033100陵水
21东山岭文化旅游区4A74057217196万宁市
22兴隆热带植物园4A1773203063375万宁市
23三亚水稻公园4A0981066三亚市
24鹿回头风景区4A23 100284633425007三亚市
1.1.2   海南旅游统计数据的采集与清洗
为帮助读者深入研究海南旅游的发展现状,本数据集补充了来自海南省旅游发展委员会公布的统计数据,该部分数据包括分国别(地区)旅游饭店接待外国游客情况、分市县接待过夜游客情况、分市县旅游饭店接待情况、各市县接待一日游游客情况、全省旅游接待和收入情况等信息。这些数据按照分月记载,我们收集后对其进行了分类整理。表2描述了该部分数据的基本结构信息。
表2   海南发展委员会统计数据表格
年份表格数量表格格式时间表格种类
201248xlsx1–12月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;全省旅游接待和收入情况表
201348xlsx1–12月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;全省旅游接待和收入情况表
201448xlsx1–12月分国别(地区)旅游饭店接待外国游客情况;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;各市县接待一日游游客情况表;全省旅游接待和收入情况表
201548xlsx1–12月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;全省旅游接待和收入情况表
201648xlsx1–12月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;全省旅游接待和收入情况表
201748xlsx1–12月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;全省旅游接待和收入情况表
201850xlsx1–10月分国别(地区)旅游饭店接待外国游客情况表;分市县接待过夜游客情况表;分市县旅游饭店接待情况表;各市县接待一日游游客情况表;全省旅游接待和收入情况表
1.2   数据分类
景区社交媒体评论信息蕴含着公众对于景区不同方面的评价,这对于发现和解决旅游景区存在的问题,提高游客满意度等具有重要的参考价值。为此,本数据集分别从单一主题对这些评论信息进行公众情感分类。
我们根据整个文本的情感倾向,将该文本分为正面情感和负面情感两个类别,用以从宏观上对该景区作出评价。从细粒度主题上分,我们则根据国家A级景区的评价指标,基于这些评价指标对该景区作出情感分类,旨在从单一主题方面刻画景区质量,以提供个性化服务需求。其中细粒度的主题指标包括景区交通、门票价格、景区卫生、商业氛围、景区服务质量、景区环境、景区特色等7个方面。图2为根据国家A级景区评价指标的细粒度分类标准。


图2   细粒度分类标准
2   数据样本描述
2.1   数据集信息
本数据集从美团、携程、途牛和同程4个旅游网站上收集并处理了海南省所有4A和5A级景区的评论数据,数据的时间跨度为7年(2012–2018)。同时,又补充了该时间跨度内的海南省旅游发展委员会公布的统计数据,以从更多角度为读者提供研究数据。
整个数据集由2个压缩文件包组成,即“旅游评论数据.rar”和“旅游统计数据.rar”,其中“旅游评论数据.rar”压缩文件包由5个文件夹组成。其中,4个文件夹分别以上述4个旅游网站命名,每个文件夹下分别为24个景区在该旅游网站中的所有评论数据,数据储存格式包括sql和xlsx,命名规则为“旅游网站+景区名称”;第5个文件夹以样例数据命名,该文件夹下为经过分类处理的数据,命名规则为“旅游网站+景区名称+正面/负面+分类细则序号(1景区交通,2门票价格,3景区卫生,4商业氛围,5景区服务质量,6景区环境,7景区特色)”。“旅游统计数据.rar”压缩文件包由七个文件夹组成,各文件夹分别以年份命名,其下分别包含了2012–2018年海南省旅游发展委员会公布的统计数据,文件格式为.xlsx。数据集详细信息如表3。
表3   海南省旅游数据集信息
序号文件夹名称数据格式文件数量和大小
1美团sql,xlsx40; 72.4 MB
2携程sql,xlsx48; 28.4 MB
3途牛sql,xlsx40; 6.93 MB
4同程sql,xlsx42; 14.8 MB
5样例数据sql,xlsx28;253 KB
6旅游统计数据xlsx338; 4 MB
2.2   分类样本描述
样本集以途牛网上分界洲岛旅游区的评论数据为基础,将这些原始数据进行单一主题的情感分类,从而得到表4所示的结果。
表4   示例样本情况
分类标准细则总数量时间情感分类数量
景区交通52015.3–2017.2正面4条,负面1条
门票价格492012.9–2018.9正面30条,负面19条
景区卫生82014.11–2018.10正面6条,负面2条
商业氛围122013.2–2017.12正面9条,负面3条
景区服务质量412014.2–2018.10正面31条,负面10条
景区环境762012.9–2018.10正面66条,负面10条
景区特色492013.12–2018.10正面36条,负面13条
3   数据质量控制和评估
评论海南景区旅游质量的社交媒体平台有很多。为保障数据的丰富性,我们通过比较选出了具有代表性的4个旅游网站,以确保最大程度地获取相关信息。数据收集完成后,我们人工检查了数据的有效性并删除了不完整的及与海南旅游景区无关的的评论数据。在分类样例中,本文所用的细粒度主题则是根据国家A级景区的评价指标来拟定。对于分类样例中的文本情感类别标签,我们安排了2个同事进行人工判读,并对结果进行复议和讨论,以确保最终分类的正确性。
4   数据使用方法和建议
本数据集包含海南省4A级以上所有景区2012–2018年以来284 715条社交媒体评论数据,同时又补充了该时间段内的海南省旅游发展委员会公布的统计数据。研究人员可通过自然语言处理方法从公众观测的角度对这些景区进行情感度分类,以服务于旅游景区的个性化推荐、景区热度分析、旅游质量评价分析、景区发展趋势等研究。结合海南省旅游发展委员会公布的统计数据,本数据集有助于研究海南旅游的整体变化情况,为促进海南省旅游的发展提供决策依据。
[1]
FANG B, YE Q, KUCUKUSTA D, et al. Analysis of the perceived value of online tourism reviews: Influence of readability and reviewer characteristics[J]. Tourism Management, 2016, 52: 498–506.
[2]
SCHUCKERT M, LIU X, LAW R. Hospitality and tourism online reviews: recent trends and future directions[J]. Journal of Travel & Tourism Marketing, 2015, 32(5): 608–621.
[3]
ZHU F, ZHANG X M. Impact of online consumer reviews on sales: the moderating role of product and consumer characteristics[J]. Journal of Marketing, 2013, 74(2): 133–148.
[4]
刘海鸥, 孙晶晶, 苏妍嫄, 等. 基于用户画像的旅游情境化推荐服务研究[J]. 情报理论与实践.
[5]
WU X, LI J, ZHANG Y, et al. Personalized multimedia web summarizer for tourist[C]// International Conference on World Wide Web, WWW 2008, Beijing, China, April, 2008.
[6]
HSIEH H P, LI C T. Composing traveling paths from location-based services[C]//Sixth International AAAI Conference on Weblogs and Social Media, Toronto, Canada, 2012: 618-619.
[7]
LIAN D, XIE X. Learning location naming from user check–in histories[C]// ACM Sigspatial International Symposium on Advances in Geographic Information Systems, Acm–Gis 2011, November 1–4, 2011, Chicago, Il, Usa, Proceedings, 2011.
[8]
ZHENG Y, XIE X. Learning Travel Recommendations from User–Generated GPS Traces[J]. Acm Transactions on Intelligent Systems & Technology, 2011, 2(1): 1–29.
数据引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.714.
稿件与作者信息
论文引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[J/OL]. 中国科学数据, 2019. (2019-02-16). DOI: 10.11922/csdata.2018.0094.zh.
林振宇
LIN Zhenyu
主要承担工作:数据收集与处理,论文撰写。
(1997—),女,河南省周口市人,硕士生,研究方向为3S技术理论与应用。
解吉波
XIE Jibo
主要承担工作:数据集结构设计与技术指导。
xiejb@radi.ac.cn
(1977—),男,山东省青岛市人,博士,副研究员,研究方向为地理空间数据基础设施、遥感、地理计算。
覃佐淼
QIN Zuomiao
主要承担工作:数据收集与处理,论文撰写。
(1994—),男,湖南省常德市人,硕士生,研究方向为空间数据挖掘。
杨腾飞
YANG Tengfei
主要承担工作:数据处理,技术指导,论文修改。
(1988—),男,河南省洛阳市人,博士生,研究方向为自然语言处理、灾害信息挖掘。
赵静
ZHAO Jing
主要承担工作:数据收集与检查。
(1988—),女,江苏省镇江市人,博士生,研究方向为信号与信息处理、全球变化(碳排放、气候和灾害)数据挖掘和分析。
出版历史
I区发布时间:2019年2月20日 ( 版本ZH1
参考文献列表中查看
中国科学数据
csdata