基于大数据技术的黔东南旅游可视化研究与应用

2024-04-21 19:06梁旭楷周尚武
旅游纵览 2024年1期
关键词:黔东南州黔东南爬虫

梁旭楷 周尚武 杨 曦

(黔东南民族职业技术学院,贵州凯里 556000)

引言

近年来,贵州省作为全国首个大数据综合试验区,省政府频频出招,持续推动大数据领域交流合作。贵州省黔东南州具有丰富的旅游资源,伴随着当前旅游业网络化、散客化、大众化的趋势,以“亿万”计数的游客旅游活动过程就是大数据的产生过程,在移动互联网、5G 时代借助数据资产发展旅游产业化,能够提升产业收益、提高管理效率、满足个性化服务等方面的价值空间。通过利用互联网和大数据技术,可以实现旅游信息获取与分享、数据分析与决策支持、旅游信息舆情分析等方面的应用和提升,重构旅游产业的发展。随着大数据时代的到来,对大规模旅游数据进行有效地分析、处理和可视化是一项挑战[1]。

一、研究背景

(一)黔东南旅游概况

黔东南州全称为黔东南苗族侗族自治州,地处贵州省东南部,是全国苗族侗族人口最集中的地区,被称为“歌舞之州”“森林之州”“神奇之州”“百节之乡”“民间文化艺术之乡”“苗族侗族文化遗产保留核心地”“民族文化生态博物馆”等。截至2023年3 月2 日,黔东南州拥有国家A 级旅游景区81 个,其中5A 级景区1 个,4A 级景区18 个,3A 级景区55个,2A 级景区7 个[2]。黔东南州旅游总收入同比呈现上升趋势,游客数量明显回升,旅游市场复苏提速。

(二)黔东南旅游大数据发展概况

目前,黔东南州积极地实施大数据旅游云平台开发、涉旅数据采集、智慧旅游服务中心和信息化基础设施建设,围绕“吃、住、行、游、购、娱”六大要素,依托“一码游贵州”平台建设黔东南州文旅产品消费专区,实现门票预订、商品购买、导游导览、VR 体验、语音讲解、安全预警等功能体验。数据中心运用腾讯公司大数据,通过QQ、微信等定位信息确定游客是否到达黔东南州内、停留时长等数据,为游客线路定制、健康饮食、交通出行、购物消费等提供个性化的推荐服务等。在此基础上,通过对旅游数据的采集、分析和可视化的方式,可以帮助旅游企业和政府更好地了解市场需求、竞争情况以及消费者行为,找出游客需求和不足之处,从而进行有针对性的优化和改进,提高旅游体验和满意度[3]。

二、旅游可视化平台设计

本文介绍的平台功能模块如图1 所示。首先,利用Python 爬虫框架实现对旅游目标网页的爬取。通过发送URL 请求并解析返回结果,使用Python 基于Scrapy 爬虫框架所需数据进行解析,主要提取旅游线路、旅游景区、旅游评论、旅游酒店、旅游搜索等相关信息。其次,重复数据和空值行数据等进行数据预处理,读取导入系统的数据文件,连接MySQL 数据库并进行增删改查操作。最后,采用阿里云DataV 数据可视化平台实现结果的表达,连接对应的数据库信息,将采集的结果数据动态地添加到曲线图、词云等图表中。

图1 平台模块划分

三、平台模块实现

(一)数据采集层

为了快速地获取目标网页的数据信息并实现数据分析和可视化,本文系统采用网络爬虫技术来进行数据采集。考虑到本文系统需要处理大量数据,并且普通爬取技术效率低下且容易受到反爬虫机制的影响,因此选择了Scrapy 分布式爬虫框架。笔者选择了携程网、马蜂窝、去哪儿等网站作为数据获取的目标[4]。数据爬虫的基本流程包括发起请求、解析内容、获取响应内容和数据保存。整个数据采集过程类似于用户在网页上收集所需数据的过程。

(二)确定爬取对象

笔者的目标是爬取携程网、马蜂窝等旅游网站的相关数据,包括旅游线路、旅游景区、旅游评论、旅游酒店、旅游搜索等信息[5]。笔者使用浏览器自带的开发者工具查看网页的HTML 代码并对所需数据进行核查,将对爬取的数据进行预处理并进行数据分析。

(三)编写Scrapy爬虫程序

编写Scrapy爬虫程序的基本流程包括发起请求、解析信息、获取响应内容和存储数据。首先,程序发送HTTP 请求到目标网站,并等待服务器的响应。如果得到正常的响应,就会获得一个包含网页数据的响应的JSON字符串。然后,笔者将对响应进行解析,提取出所需信息。

(四)数据预处理

在平台的搭建过程中,使用正则表达式或BeautifulSoup 库去除HTML 标签,只保留文本内容,使用strip()方法去除字符串的前后空白字符,使用正则表达式或字符串方法去除特殊字符,识别并清除错误无效的数据。通过对获取的数据进行预处理操作,便在接下来的统计和分析过程中使用。

(五)数据存储层

将预处理后的旅游数据标准化、格式化存入MySQL 数据库,在Scrapy 项目中配置MySQL 数据库连接,在项目的settings.py文件设置数据库地址、端口号、用户名等数据库相关配置,通过pipelines.py文件中创建一个MySQL 连接池,配置pipelines.py 文件中创建一个新的Pipeline,并存储到MySQL 数据库中具体的数据库表名。

(六)数据展示层

数据展示层部分通过DataV 技术的使用涵盖了模块设计、文字和颜色设计以及图表选择等三个方面。

1.模块设计

根据旅游数据信息等爬取,本平台采用了单页在大屏上展示数据,展示内容涵盖了旅游数据概览、旅游搜索指数、热点旅游景区排名、旅游评价关键词、旅游实时舆情评价等方面。

2.文字和颜色设计

在可视化中,色彩和文字是非常重要的元素。色彩可以帮助人们快速区分不同的信息,而文字则可以用来简要说明内容,避免用户产生阅读疲劳。

3.图表选择

图表是图形化展示数据的主要方式。在本平台中,采用了曲线图、滚动图和词云图等不同的图表形式。曲线图用于展示黔东南旅游搜索指数并反映搜索的趋势,滚动图直观地展示热点旅游景点、旅游线路排名,词云图则用于表示游客对黔东南旅游的高频率和重要性评价,将数据转化为各种动态的可视化图表实时展示给用户。

四、平台运行

该平台系统采用Python 语言进行开发,展示层使用DataV 数据可视化控件进行页面布局,并使用连接数据技术进行数据调取。数据采集和存储部分采用Scrapy 爬虫框架和MySQL 数据库同步编程。黔东南州旅游大数据可视化平台包含“黔东南州搜索趋势”“旅游评价关键词”“热门景区排名”“旅游实时舆情评价”等模块,根据实际运行,旅游数据可视化展示效果良好,大屏首页如图2所示。

图2 可视化大屏首页

五、应用分析

该可视化平台可在黔东南州旅游在旅游搜索趋势分析、旅游舆情预警监测、旅游高频评价词云等领域进行应用,为政府、行业和企业提供了基于大数据视角的决策依据,促进了旅游的精细化、智慧化管理。

(一)旅游搜索趋势分析

基于可视化框架来分析旅游搜索趋势可以帮助笔者了解公众对旅游目的地、景点或旅行主题的兴趣和需求变化。可以通过API 接口获取搜索引擎(如百度、360 搜索、搜狗搜索)和旅游相关网站的搜索数据收集旅游搜索数据,包括搜索关键词、搜索量等。从近30天的可视化搜索趋势来看,元旦假期后黔东南旅游搜索热度上涨23.5%,围绕热门景区“西江千户苗寨”“肇兴侗寨”“镇远古城”和“村超”等旅游数据持续上升,搜索地域排名前三的为“广东”“浙江”“北京”,搜索人群以20 岁至29 岁人群为主,占比达到35%。通过这些可视化展示旅游搜索趋势的变化,可以更好地帮助旅游行业进行目标定位、产品开发和市场推广策略的制定。

(二)旅游舆情预警监测

基于可视化平台,利用旅游大数据通过对包括携程、马蜂窝、微博等旅游网站、社区论坛、社会媒体等渠道的实时监测和分析,及时发现和预警与旅游相关的负面舆情。通过数据可视化分析,游客对黔东南旅游景点评价良好,例如“西江夜景美妙”“侗寨景色迷人”“民族文化质朴”等满意的评价,在住宿、餐饮、购物等方面整体评价是积极的,但也存在如“服务不到位”“酒店设施不满意”等负面反馈。旅游舆情预警的建立和合理运用可以帮助旅游行业更好地应对,提升公众对旅游目的地、旅游产品或服务的满意度,保持黔东南旅游良好的声誉和持续的发展。

六、 结语

当前,对黔东南旅游数据的可视化应用研究仍然存在旅游数据本身的内涵价值挖掘不够、可视化结果简单、旅游数据之间缺乏关联性分析等不足。接下来将进一步地研究和探索,深化对黔东南旅游数据的挖掘,整合多维度数据,深入地挖掘数据中隐藏的相关关系,丰富可视化结果的表达方式,让用户能够更好地理解地数据。

猜你喜欢
黔东南州黔东南爬虫
利用网络爬虫技术验证房地产灰犀牛之说
捕鱼节上捉鱼忙
遇见黔东南
基于Python的网络爬虫和反爬虫技术研究
补妆
诗书画苑
寻味贵州——黔东南
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
黔东南州广场体育文化探析