试论基于公共微博数据和收视行为数据的电视用户画像

2020-09-27 08:59王奥然
数码设计 2020年10期

王奥然

摘要:以往的电视用户画像方法是先从电子节目表单系统获取节目标签,然后分析电视节目和用户之间的关系,进一步得到用户的画像标签,因为EPG的标签具有强烈的主观性,所以最后得到的标签覆盖面相对较窄。本文从电视用户收视数据清洗、微博爬虫实现、微博数据清洗三方面分析收视数据和微博数据处理,进一步研究电视用户画像,以供参考。

关键词:微博数据;收视行为;电视用户

中图分类号:TP393.092 文献标识码:A 文章编号:1672-9129(2020)10-0173-01

引言:随着社会的进步和时代的快速发展,我国各个领域都取得了一定的发展,基于公共微博数据和收视行为数据的电视用户画像技术也获得的相应的进步,电视技术和互联网的高速发展,使传统的单项接受信号变成双向获取信息,通过安装机顶盒来实现,同时还能够进行实时电视服务,准确获取到电视用户的全部操作数据,给电视用户推荐更适合的节目和广告,所以通过分析用户收视行为数据构建准确的用户画像十分必要。

1 收视数据和微博数据处理

1.1电视用户收视数据清洗。为了能够将不同平台的电视用户和微博用户相融合,需要对电视用户的收视数据和微博数据进行清洗,使每个电视用户和微博用户关注的电视节目进行有效结合,用户的特征便可通过该集合进行体现。由于电视技术和互联网技术的发展,很多家庭都已经安装宽带,使用智能电视和双向机顶盒,虽然先进的设备能够使服务商获得用户的具体操作数据,但是服务商获得的数据相对杂乱,需要进行清洗之后才能得到有效数据。一般来说,采用数据过滤法和新系统计算法,能够将大量的用户数据进行筛选,每一个用户都会有相应的用户名所命名的文件,在文件中会保存收看节目的时长、在什么时间段收看了什么节目等,得到一个向量。

1.2微博爬虫实现。微博爬虫的实现主要依靠关键词搜索、多账号登录、分布式存储和解析页面等,应用selenium技术,通过一个web自动化的有效测试工具,对页面进行抓取,可以完全模仿真人的操作行为,不会轻易被反爬虫策略发现。为了提升爬取的速度,一般采用多种机器进行分布式抓取,将待爬取用户分配到不同的机器上之后,能够有效避免重复爬取,最后都会统一存到分布式的MongoDB当中。在登录之前使用selenium调用浏览器,通过使用相应的代码打开浏览器,直接登录微博首页,默认情况下是没有登录,不登录的话无法正常使用搜索,也不能查看用户的基础信息,想要更好的抓取,需要进一步实现模拟登录[1]。

1.3微博数据清洗。在微博爬虫进行数据爬取之后,一个微博用户能够得到相应数据,包括性别、年龄、ID名等,在关注目录就能够看到用户关注的所有公众号,还能够进一步发现用户喜欢浏览哪些电视节目,想要从微博中有效挖掘出电视节目和微博用户的关系,操作过程十分复杂,微博用户具体发送的是非结构性的短文,如果通过单纯的切词方法,不能够准确判断用户是否观看了相应的节目,例如,在电视剧《奋斗》当中,只采用切词法,就会被识别成“今天需要好好奋斗啦”[2]。微博的数据量十分庞大,排除掉一些不经常使用的用户和部分刷广告的低质量用户,一般来说,一个用户的微博总数大概在三百条之上,对所有微博进行逐条分析没有意义,在微博抓取的过程中,还发现存在一个特殊的情况,即微博中的有效话题机制,能够通过加入#,两个#就包含用户选中的话题,当其他用户感兴趣时,就会搜索到相应的话题。

2 电视用户画像研究

2.1利用微博数据构建训练模型。虽然电视用户和微博用户不出在同一个平台,但是电视用户能够通过观看某个节目,表示出对节目的关注;微博用户也能够通过发表对某个电视节目的博文,来表达自己的观点,二者具有相同的特征集,所以可以将微博用户带有准确的画像数据看成训练的数据集,对预测的模型进行构建,然后对电视用户的画像进一步预测。可以通过性别标签的模型构造,微博用户填写有效的性别信息,作为分类结果,性别与观看节目有一定的关系,例如,男性一般喜爱收看欧冠、NBA等节目,在推荐相应节目时就有了一定的参考,类似的还有年龄标签模型、兴趣爱好标签模型等。

2.2使用微博用户数据模型预测电视用户的用户画像。用户画像通过描述用户的特征和喜好等一些标签,进一步挖掘微博用户的各类型数据,对电視用户构建精准的用户画像,对推荐广告和电视节目起到一定的帮助。通过微博爬虫能够添加自身的兴趣标签,自定义兴趣标签是用户随机编辑而形成,在用户注册账户时就会填写相应的有效信息,不同的兴趣标签说法也不尽相同,例如用户的标签是“动漫控”、“音乐”、“体育”、“明星”等,从中能够看出用户的喜爱和偏好,其中会将一些不规范的标签进行有效归类,防止影响到最后用户画像的准确性,能够用最少的标签信息将用户画像集合。

结论:综合来看,基于公共微博数据和收视行为数据的电视用户画像技术在双向获取信息中起到了至关重要的作用,公共微博数据能够进一步提升电视用户画像的准确率,进行准确的用户画像预测,主要通过介绍电视用户画像的意义和背景,得到画像信息,设计高效网络爬虫来获取微博数据,对大量的电视用户数据进行有效清洗等,检验了微博数据的电视用户画像方法。

参考文献:

[1]聂毅.S省魔百和业务基于用户画像技术的智能运营应用研究[D].电子科技大学,2020.

[2]陈加寿.基于公共微博数据和收视行为数据的电视用户画像研究[D].北京邮电大学,2018.