海南资源环境遥感产品数据集专题 II 区论文(已发表) 版本 ZH2 Vol 4 (2) 2019
下载
基于社交媒体的海南旅游景区评价数据集
Evaluation data set for Hainan tourism scenic spots based on social media
 >>
: 2018 - 12 - 17
: 2019 - 04 - 28
: 2019 - 02 - 20
: 2019 - 05 - 22
1851 32 0
摘要&关键词
摘要:本文从社交媒体中采集并处理了2012–2018年海南所有4A及5A级景区的评论数据构建了海南旅游景区评价数据集。本数据集旨在用于对海南旅游景区的质量评估、景区的容量管理、景区传播效果评价、景区网络舆情监测预警、景区网络口碑管理、景区形象管理、景区个性化推荐等研究。同时,结合多源化数据,本数据集可为研究海南省旅游发展提供数据支持。
关键词:海南旅游;社交媒体;景区评价;个性化推荐
Abstract & Keywords
Abstract: This paper collected and processed the review data of all 4A and 5A scenic spots in Hainan from 2012 to 2018 to construct the Hainan tourism scenic spot evaluation data set. This dataset is intended to be used for the quality assessment of Hainan tourist attractions, the capacity management of scenic spots, the evaluation of scenic spot communication effects, the monitoring and early warning of scenic spot network, the management of scenic spot network reputation, the management of scenic spot image, and the personalized recommendation of scenic spots. At the same time, combined with multi-source data, this data set can provide data support for the study of tourism development in Hainan Province.
Keywords: Hainan tourism; social media; scenic evaluation; personalized recommendation
数据库(集)基本信息简介
数据库(集)名称基于社交媒体的海南旅游景区评价数据集
数据作者林振宇,解吉波,覃佐淼,杨腾飞,赵静
数据通信作者解吉波(xiejb@radi.ac.cn)
数据时间范围2012年1月至2018年10月
地理区域地理范围包括海南岛(北纬18°10′–20°10′,东经108.37°–111.03°)。
数据量58.8 MB
数据格式*.rar, *.sql, *.xlsx
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/714
基金项目海南省重大科技计划项目(ZDKJ2016021)
数据库(集)组成数据集由1个压缩包组成,主要包括5个文件夹,数据量约125 MB,压缩后数据量约58.8 MB。5个文件夹分别为美团、同程、途牛、携程、样例数据,每个文件夹下由各旅游网站的景区评论数据组成,以两种数据形式存放(*.sql, *.xlsx)。
Dataset Profile
TitleEvaluation data set for Hainan tourism scenic spots based on social media
Data corresponding authorXie Jibo (xiejb@radi.ac.cn)
Data authorsLin Zhenyu, Xie Jibo, Qin Zuomiao, Yang Tengfei, Zhao Jing
Time rangeJanuary 2012–October 2018
Geographical scope18°10′N–20°10′N, 108°37′E–111°03′E
Data volume58.8MB
Data format*.rar, *.sql, *.xlsx
Data service system<http://www.sciencedb.cn/dataSet/handle/714>
Sources of fundingMajor Science and Technology Program of Hainan Province (ZDKJ2016021)
Dataset compositionThe dataset consists of 1 compressed package, which mainly includes 5 folders, the data volume of about 125MB, and the compressed data volume of about 58.8MB. The five folders are Meituan, Tongcheng, Tuniu, Ctrip, and sample data. Each folder is composed of scenic review data of each travel website and stored in two forms of data (*.sql, *.xlsx).
引 言
旅游是海南省的经济支柱产业之一,对其他相关产业的发展有着较强的带动作用。研究和提高海南各景区的服务质量,满足游客多元化的旅游需求,对进一步促进海南旅游产业的发展至关重要。
随着旅游互联网的快速发展,大量和旅游景区相关的用户评论信息为旅游业的发展研究提供了有力数据支持。更多的潜在游客,会在出行前根据这些评论信息制定旅游路线,协助旅游决策[1–3]。通常,这些数据信息多以文本、图片的形式出现在各大社交媒体平台上。这些信息通常表达了游客对于相关景区的意见、建议和满意度,从而为景区质量和服务的进一步提升提供有效参考。目前,国内外已有不少学者对景区的社交媒体信息展开相关研究,并从不同方面探讨它们的应用。如文献[4]以众包的形式收集秦皇岛高校大学生对当地旅游景区的评论信息,并结合这些数据提供者的个人信息开展用户画像的旅游情境化推荐服务研究;文献[5]利用多模态的景点信息(文本、地理标记图片以及视频生成景点的信息摘要),根据用户的查询为用户个性化地推荐景点;文献[6–8]基于签到记录数据来进行旅游路线的推荐等。然而目前,可用的基于社交媒体的开放旅游景区评论数据集并不多,这严重制约了旅游信息挖掘的研究。为此,本文以海南岛为研究对象,从主流旅游网站(包括美团网、途牛网、同程网以及携程网等)上收集和处理了2012–2018年间所有4A和5A级旅游景区的评论数据构建了数据集。
1   数据采集和处理方法
本数据集的生产流程包括数据采集与清洗,数据管理和数据分类。数据制作流程如图1所示。


图1   数据集制作流程图
1.1   景区评论数据的采集与清洗
该部分数据以海南岛4A和5A级景区为研究对象,将4A和5A级景区分为4种类型,分别为自然景区、历史人文景区、民俗风情景区、休闲度假景区。获取了2012–2018共7年的评论数据,这些数据主要来源于包括美团、携程、同程以及途牛在内的4个旅游网站。原始数据形式为HTML,本文通过Java编程语言对其进行了解析和清洗,最终形成了283072条结构化文本数据。其中,数据清洗操作包括全半角字符的转化、繁简体文字的转化、去除同一用户的多次评论以及文本去重等。同时,为方便读者使用,该部分数据以sql和xlsx两种格式存储。如下表1–4显示了数据的基本结构信息,如图2展示了旅游景区在海南岛的分布情况。
表1   海南岛自然景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1海南分界洲岛旅游区5A83502771966285陵水县
2三亚大小洞天旅游区5A632128353232651三亚市
3七仙岭温泉国家森林公园4A175662613315保亭
4海南热带野生动植物园4A11 410138985175海口市
5中国雷琼海口火山群世界地质公园4A012831007278海口市
6南湾猴岛生态旅游区4A51301977729530陵水县
7天涯海角游览区4A30 510296631463509三亚市
8亚龙湾热带天堂森林旅游区4A20 000297857894017三亚市
9东山岭文化旅游区4A74056019616万宁市
10兴隆热带植物园4A1773201137563万宁市
11三亚水稻公园4A0986610三亚市
12鹿回头风景区4A23 100284648273341三亚市
表2   海南岛历史人文景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1三亚南山文化旅游区5A26 633294428392028三亚
2海南文笔峰盘古文化旅游区4A401625016217定安县
3博鳌亚洲论坛永久会址景区4A1725112534128琼海市
表3   海南岛民俗风情景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1槟榔谷黎苗文化旅游区5A509526201139260保亭县
2海南呀诺达雨林文化旅游区5A9693287623621270保亭县
表4   海南岛休闲度假景区名称及评论数据量
序号名称等级美团携程同程途牛地址
1三亚蜈支洲岛度假中心5A22 340297841681261三亚市
2海口观澜湖旅游度假区4A4633410330海口市
3海口假日海滩旅游区4A0121700海口市
4三亚大东海旅游区4A305279300三亚市
5三亚西岛海洋文化旅游区4A8290282419370三亚市
6亚龙湾爱立方滨海乐园4A7851941689三亚市
7清水湾旅游区4A033000陵水


图2   旅游景区在海南岛分布情况
1.2   数据分类
景区社交媒体评论信息蕴含着公众对于景区不同方面的评价,这对于发现和解决旅游景区存在的问题,提高游客满意度等具有重要的参考价值。为此,本数据集从多个主题对这些评论信息进行公众情感分类。
我们根据整个文本的情感倾向,将该文本分为积极情感、消极情感和中性情感3个类别[9],用以从宏观上对该景区作出评价。从细粒度主题上分,我们则根据国家A级景区的评价指标,基于这些评价指标对该景区作出情感分类,旨在从多个主题方面刻画景区质量,以提供个性化服务需求。其中细粒度的主题指标包括景区饮食(饮食口味、饮食价格)、景区娱乐(娱乐趣味性、项目价格)、景区购物(物价、商业氛围)、景区游览(购票、景色、导游解说)、景区特色、景区卫生、景区交通、景区住宿、景区服务质量、景区安全10个方面。图3为根据国家A级景区评价指标的细粒度分类标准。


图3   细粒度分类标准
2   数据样本描述
2.1   数据集信息
本数据集从美团、携程、同程和途牛4个旅游网站上收集并处理了海南岛所有4A和5A级景区的评论数据,数据的时间跨度为7年(2012–2018年)。
整个数据集由1个压缩文件包组成,压缩文件包由5个文件夹组成。其中4个文件夹分别以上述4个旅游网站命名,每个文件夹下分别为24个景区在该旅游网站中的所有评论数据,数据储存格式包括sql和xlsx,命名规则为“旅游网站+景区名称”;第5个文件夹以样例数据命名,该文件夹下为经过分类处理的数据,命名规则为“旅游网站+景区名称+积极/消极/中性+分类细则序号〔1 景区饮食(11饮食口味,12饮食价格),2 景区交通,3 景区特色,4 景区游览(41购票,42 景色,43 导游解说),5 景区住宿,6 景区卫生,7 景区娱乐(71娱乐趣味性,72 项目价格),8 景区服务质量,9 景区购物(91 物价,92商业氛围),10 景区安全〕”。数据集详细信息如表5。
表5   海南岛旅游数据集信息
序号文件夹名称数据格式文件数量和大小
1美团sql,xlsx40;75.2 MB
2携程sql,xlsx48;28.4 MB
3同程sql,xlsx42;14.2 MB
4途牛sql,xlsx40;7.00 MB
5样例数据sql,xlsx80;642 KB
2.2   分类样本描述
样本集以途牛网上分界洲岛旅游区的评论数据为基础,将这些原始数据进行多个主题的情感分类,从而得到表6所示的结果。
表6   示例样本情况
分类标准细则分类标准细则总数量(条)时间情感分类数量(条)
景区饮食饮食口味42012.9–2018.10积极情感3中性情感0消极情感 1
饮食价格62012.9–2018.10积极情感2中性情感3消极情感 1
景区交通42012.9–2018.10积极情感3中性情感0消极情感 1
景区特色202012.9–2018.10积极情感17中性情感1消极情感 2
景区游览购票712012.9–2018.10积极情感53中性情感5消极情感 13
景色492012.9–2018.10积极情感43中性情感1消极情感 5
导游解说02012.9–2018.10积极情感0中性情感0消极情感0
景区住宿22012.9–2018.10积极情感1中性情感 0消极情感 1
景区卫生72012.9–2018.10积极情感5中性情感0消极情感 2
景区娱乐娱乐趣味性272012.9–2018.10积极情感10中性情感3消极情感 14
项目价格92012.9–2018.10积极情感1中性情感1消极情感7
景区服务质量182012.9–2018.10积极情9中性感情2消极情感7
景区购物物价02012.9–2018.10积极情感0中性情感0消极情感0
商业氛围22012.9–2018.10积极情感1中性情感0消极情感1
景区安全02012.9–2018.10积极情感0中性情感0消极情感 0
3   数据质量控制和评估
评论海南景区旅游质量的社交媒体平台有很多。为保障数据的丰富性,我们通过比较选出了具有代表性的4个旅游网站,以确保最大程度地获取相关信息。数据收集完成后,我们人工检查了数据的有效性并删除了不完整的及与海南旅游景区无关的评论数据。在分类样例中,本文所用的细粒度主题则是根据国家A级景区的评价指标来拟定。对于分类样例中的文本情感类别标签,我们安排了2个同事进行人工判读,并对结果进行复议和讨论,以确保最终分类的正确性。
4   数据使用方法和建议
本数据集包含海南岛4A级以上所有景区2012–2018年以来283072条社交媒体评论数据。研究人员可通过互联网文本情感分析算法抽取公众对景区不同主题特征的态度信息,同时结合时间维度从公众观测的角度探究景区质量的变化特征,为景区网络口碑、形象管理等提供数据参考。通过互联网主题聚类算法,如LDA(Latent Dirichlet Allocation)、K-means聚类算法、或者简单的词频计算等语义挖掘算法从各景区海量评论信息中抽取公众关注热点,以服务于旅游景区的个性化推荐、景区发展规划等。官方发布的诸如旅游景区统计年鉴等数据,可以与本数据集作为相互验证和补充的数据,将会在景区容量管理、景区传播效果评价、景区形象管理、景区热度分析、景区质量评价分析、景区发展趋势等研究上发挥重要作用。
[1]
FANG B, YE Q, KUCUKUSTA D, et al. Analysis of the perceived value of online tourism reviews: Influence of readability and reviewer characteristics[J]. Tourism Management, 2016, 52: 498-506.
[2]
SCHUCKERT M, LIU X, LAW R. Hospitality and tourism online reviews: Recent trends and future directions[J]. Journal of Travel & Tourism Marketing, 2015, 32(5): 608-621.
[3]
ZHU F, ZHANG X. Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics[J]. Journal of marketing, 2010, 74(2): 133-148.
[4]
刘海鸥, 孙晶晶, 苏妍嫄, 等. 基于用户画像的旅游情境化推荐服务研究[J]. 情报理论与实践, 2018, 41(10): 87-92.
[5]
WU X, LI J, ZHANG Y, et al. Personalized multimedia web summarizer for tourist[C]. Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 1025-1026.
[6]
HSIEH H P, LI C T. Composing traveling paths from location-based services[C]. Sixth International AAAI Conference on Weblogs and Social Media , Toronto, Canada, 2012: 618-619.
[7]
LIAN D, XIE X. Learning location naming from user check-in histories[C]. Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, ACM, 2011: 112-121.
[8]
ZHENG Y, XIE X. Learning travel recommendations from user-generated GPS traces[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(1): 2.
[9]
陆林, 朱申莲, 刘曼曼. 杭州城市旅游品牌的演化机理及优化[J]. 地理研究, 2013, 32(3):556-569.
数据引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.714.
稿件与作者信息
论文引用格式
林振宇, 解吉波, 覃佐淼, 等. 基于社交媒体的海南旅游景区评价数据集[J/OL]. 中国科学数据, 2019, 4(2). (2019-04-17). DOI: 10.11922/csdata.2018.0094.zh.
林振宇
LIN Zhenyu
主要承担工作:数据收集与处理,论文撰写。
(1997—),女,河南省周口市人,硕士生,研究方向为3S技术理论与应用。
解吉波
XIE Jibo
主要承担工作:数据集结构设计与技术指导。
xiejb@radi.ac.cn
(1977—),男,山东省青岛市人,博士,副研究员,研究方向为地理空间数据基础设施、遥感、地理计算。
覃佐淼
QIN Zuomiao
主要承担工作:数据收集与处理,论文撰写。
(1994—),男,湖南省常德市人,硕士生,研究方向为空间数据挖掘。
杨腾飞
YANG Tengfei
主要承担工作:数据处理,技术指导,论文修改。
(1988—),男,河南省洛阳市人,博士生,研究方向为自然语言处理、灾害信息挖掘。
赵静
ZHAO Jing
主要承担工作:数据收集与检查。
(1988—),女,江苏省镇江市人,博士生,研究方向为信号与信息处理、全球变化(碳排放、气候和灾害)数据挖掘和分析。
出版历史
I区发布时间:2019年2月20日 ( 版本ZH1
II区出版时间:2019年5月22日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata