基于点评文本的公园多尺度评价体系研究
——以成都市公园为例

2021-02-26 13:07李林东韩龙玫卿粼波计浩浩
智能城市 2021年2期
关键词:语句尺度语义

李林东 张 诚 韩龙玫 卿粼波 计浩浩

(1.四川大学电子信息学院,四川成都 610065;2.成都市规划研究院,四川成都 610041)

1 研究背景

现代城市日益发展,城市居民对公共空间尤其是城市公园有了更高的要求。如何准确评价城市公共空间,营造品质更优、城市居民更满意的城市环境,成了一个重要的课题。成都作为“公园城市”首提地,也同样面临这一课题。

社交媒体文本数据解决了传统方法无法适应评价对象较多、工作量较大的问题,但基于点评文本的评价研究存在对文本数据挖掘不够深入的问题。如王志芳等[1]利用大众点评评论文本对广州市公园进行的对比性评价研究,赵书、刘博敏[2]利用大众点评评论文本对南京主城区公园的访客感知研究,龚凯丽、张科伟[3]利用网易云音乐评论信息对歌曲进行评价研究,这些研究对文本数据的利用都停留在评论数量、词频、整体情感分析等较为粗浅的层面。用户评论往往包含评论对象多个尺度的评价要素,对文本内容进行多尺度划分及分析,可以得到更加精细化的评价结果。

为了实现对公园的精细化评价,本研究基于点评文本,选择成都公园为研究对象,构建了基于关键词检索法的情感倾向评价体系,将点评文本精确划分为交通、美学、维护和安全、市场价值、保护和继承等5个尺度,利用百度情感倾向分析API对点评短语句打分,对公园进行相关尺度的语义网络分析,从使用者角度对公园分尺度做出客观评价,为公园城市的建设提供有力的数据支撑。

2 研究对象与分析工具

2.1 研究对象

成都作为“公园城市”首提地,具有得天独厚的自然资源和人文环境,各种形式的公园分布在城市的各个角落,是人们茶余饭后的休息场所,更是成都“慢生活”的主要载体。本研究选择成都主城区评论总数在500条以上的13个公园作为研究对象,获取其点评文本。

2.2 数据获取和分析工具选取

本研究采用的点评文本来源于大众点评上的公园评价数据,其评论总数均在500条以上,避免了样本太少带来的分析误差。

本研究采用以下工具进行辅助研究:(1)大型免费社会计算平台ROSTCM6[4-5](语义网络分析);(2)中文分词工具jieba;(3)百度文本情感倾向分析API。

3 研究方法

本研究构建了一套完整的公园评价体系。首先,关键词检索法将点评文本切割为不同尺度的短语句;然后,通过百度情感倾向分析API对短语句进行打分;最后,根据打分结果对公园进行语义网络分析,得到影响公园评价的具体要素,通过多变量线性回归的方法对各尺度评价的重要程度进行评估。

为了便于说明,现将获取的评论文本数据做层次性的定义和解释:将数据划分为文档级、段落级、语句级和词语级,从大到小的包含关系,数据层次划分如图1所示。

图1 数据层次划分

文档级:将获取的评论数据按公园文档F分类,则各公园的文档组成所有研究数据D={F1,F2,…,Fn};段落级:公园文档F由诸多用户评论组成,把每位用户的评论都看成段落P,则所有的用户评论构成公园文档F={P1,P2,…,Pn};语句级:段落P由诸多语句S组成,各语句代表访客对公园各尺度的评价,则P={S1,S2,…,Sn};词语级:一条语句由诸多词语W组成,则S={W1,W2,…,Wn}。

3.1 基于关键词检索法的点评文本切割分类

用户评论内容往往包括公园评价的多个方面,本研究通过基于关键词检索的方法分别提取评论中多方面的内容。首先,对文档内容F进行分句,划分为内容单一的语句S;然后,对语句进行分词;最后,用基于关键词检索的方法对语句进行分类。

结合绿地系统评价指标[7]和对评价数据的词频分析,将公园评价分为交通、美学、维护和安全、市场价值、保护和继承5个尺度,并从高频词中分别找出能代表这5大尺度的词语,如表1所示。

设计意图:通过讨论与交流,学生逐渐形成基于事实证据,分析生物规律,理解生命本质的科学思维。教师充分利用实验资料,在学生原有认知上挖掘深层知识,初步渗透科学探究的方法教育。

表1 类别(尺度)词典

具体检索方法:对输入的已分词语句逐一检索每一个词,若词语Wi(i=1,2,3,..,n)存在于类别词典中,则返回该词对应的类别,并作为该语句Si(i=1,2,3,..,n)的类别。如果所有词语都不在类别词典中,则该语句不归属于任何类别。

3.2 基于百度API的点评文本情感倾向判别

通过百度情感倾向分析API分析段落和语句,得到段落或语句的评分,计算如下:

式中,p——段落或语句情感倾向为积极的置信度,范围[0,1],计算得到段落或语句的评分s,范围[0,5]。

对段落的评分或各类别下各语句的评分si(i=1,2,3,..,N)求均值,得到公园的总体评分或该类别的总评分m:

为了分析公园评价的积极因素和消极因素,将语句分为积极和消极两部分,计算如下:

式中:c——语句的情感倾向,积极或消极;pos——积极;neg——消极;p——语句情感倾向为积极的置信度。

3.3 基于多变量线性回归的评价尺度重要性判定

将计算得到的各类别评分xi(i=1,2,3,4,5)和公园总体评分y分别作为自变量和因变量,通过多变量线性回归的方法求得各类别的权重wi(i=1,2,3,4,5):

权重wi越大,对应尺度评分xi在公园总体评价中占比就越大,表明该类别是访客评价公园相对重要的因素。另外,多变量线性回归的拟合效果由决定系数评估,计算如下:

式中,fi——模型预测值;yi——标签值;-y——平均标签值。决定系数范围[0,1],越大表示拟合效果越好。

4 结果

首先对公园各尺度的得分和排序进行客观评价分析,然后根据公园本身得分情况和排名情况选取部分公园进行语义网络分析,讨论影响公园评价的具体因素所在,最后通过多变量线性回归的方法分析各尺度评价对公园总体评价的重要程度。

为了进一步分析影响公园评价的具体要素,对各尺度文本分别进行语义网络分析。在语义网络中,词语引出的线段越多,说明这个的词语的词频越高,与中心节点的距离越近,表示和中心词语的关系越紧密[7]。

4.1 公园各尺度得分

根据式(1)和式(2)计算公园各尺度的总评分进行排序,得到的结果如图2所示。

图2 各尺度评分排序

在交通方面,评分按照交通的便利程度从高到低排序。总体上,公园交通的便利程度与公园、交通站点(尤其是地铁站点)的联系紧密程度强相关,与区位的关系相对较弱。成都的单中心圈层式结构导致市中心地铁公交的线网密度较高,市中心的公园交通普遍比较便利,如人民公园、百花潭公园、浣花溪公园。但一环的望江楼公园没有紧邻地铁,交通评分只排在中游。较远的青龙湖公园因地铁直达,评分反而高于望江楼公园。交通语义网络对比如图3所示。

图3 交通语义网络对比

由图3对比可知,地铁在青龙湖公园的交通要素中占据了更加重要的位置。

在美学方面,根据表1,评分依赖于公园访客的主观感受和主观评价。各公园都取得了较高的分数,但塔子山公园和新华公园相对偏低。提取两公园美学方面的负面评价,发现基本与“特色”一词相关,占负面评价80%以上,说明这两个公园在景观、特色方面的建设有待加强。

在市场价值方面,访客主要关注消费情况,诸如门票、单车租赁、餐饮等。

消费性价比是公园市场价值评分的重要依据,统计13个公园市场价值方面的语义网络图发现除UPARK公园外访客评价都集中在公园门票上。其他消费也是影响评价的关注点。而UPARK公园与其他公园表现出截然不同的特点,UPARK公园是公园和商业的结合体,关注点多为商业相关。市场价值方面语义网络对比如图4所示。

图4 市场价值方面语义网络对比

在维护和安全方面,主要关注点在于公园设施、卫生、服务等。天府芙蓉园和东湖公园排名靠后。天府芙蓉园的消极评价主要集中在“设施”“垃圾”“管理”三个中心节点。结合其子节点可以看出该公园存在设施不够完善且有人为破坏现象,垃圾清理不够及时,疏于管理等问题。右图中的东湖公园也存在类似的问题。维护和安全消极评价语义网络如图5所示。

图5 维护和安全消极评价语义网络

在保护和继承上,百花潭公园、人民公园、浣花溪公园、望江楼公园、塔子山公园等具有悠久历史或由文化古迹区改造而成的公园以及成都露天音乐公园、天府芙蓉园、青龙湖公园等建成时间短但具有现代文化元素或特定文化背景的公园评分较高。

新华公园保护和继承语义网络如图6所示。

图6 新华公园保护和继承语义网络

承载一代成都人记忆的新华公园评分较低,可由图6的语义网络图中的相关节点得到推断:新华公园和记忆中的印象不符,在随时代的发展中,没有将历史文化元素较好的保护和继承下来。

4.2 评价尺度重要性比较

根据多变量线性回归方法拟合各尺度评分与公园总体评分,拟合效果评估参数R2≈0.67,同时为了分析访客负面评价的主要关注点,本研究统计了各尺度差评数并以比值方式呈现图中。

各尺度权重与各尺度差评占比如图7所示。

图7 各尺度权重与各尺度差评数占比

分析图7可知,从各尺度权重来看,访客关注度较高的是公园美学方面的内容,其次是交通、保护和继承两个方面,较少关注维护和安全、市场价值两方面;而从各尺度差评数比值来看,访客对公园的负面评价主要集中在市场价值、维护和安全两方面。

可能的原因有:访客对公园最直观的感受是对视觉元素的感知,其贯穿游览公园的全过程,故美学评分占据了总体评分接近50%。

保护和继承这一尺度是对美学评价的进一步评价,是对公园历史底蕴、现代文化等自身特色的评价,因此重要程度排在美学评价之后。

5 结语

本研究以成都市公园为例,利用点评数据,借助百度情感倾向分析API等工具,通过基于关键词检索法的评价体系对公园的交通、美学、维护和安全、市场价值、保护和继承等5个尺度进行了分析。该评价体系解决了基于点评文本的研究中对文本数据挖掘不够深入的问题,为利用海量的文本数据提供了有效的方法。

研究中也存在诸多有待改进和完善之处,主要体现在以下两点:

(1)百度文本情感倾向分析API是通用版本,缺乏对点评文本的针对性分析;

(2)社交媒体数据不只包括文本数据,还包括图像、打卡、消费等数据,多模态分析才能更加全面地对公园进行分析评价。

猜你喜欢
语句尺度语义
财产的五大尺度和五重应对
重点:语句衔接
语言与语义
宇宙的尺度
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
9
如何搞定语句衔接题
语义分析与汉俄副名组合
作文语句实录