基于数据驱动的网络内容流行度预测研究

2019-10-21 07:34李晓颖赵安娜周晓静杨成伟
现代信息科技 2019年12期
关键词:数据驱动

李晓颖 赵安娜 周晓静 杨成伟

摘  要:高速发展的互联网时代使得越来越多的用户成为网络内容的创造者与分销商,数据信息的爆炸式增长加剧了各类在线内容对于用户关注度的竞争。用户的搜索浏览与消费交易信息反映了其行为习惯与兴趣爱好,从海量数据中挖掘出有效信息并将其转化为商业价值将大大增强企业的核心竞争力。本文以网络内容的重要组成部分——电商平台的服装销售为例,回顾了网络内容流行度的预测方法及服装流行趋势预测的发展历程,并就如何利用数据驱动的方法来对在线服装流行度进行预测展开了逻辑路径分析,具有一定的指导意义与应用价值。

关键词:数据驱动;网络内容;流行度

中图分类号:TP393.092;TP333     文献标识码:A 文章编号:2096-4706(2019)12-0020-03

Abstract:The rapid development of the internet era has made more and more users become the creators and distributors of network content. The explosive growth of data information has intensified the competition of various online content for usersattention. Userssearch,browse and consumption transaction information reflect their behavior habits and interests. Mining effective information from massive data and transforming it into commercial value will greatly enhance the core competitiveness of enterprises. Taking the clothing sales of e-commerce platform as an example,this paper reviews the development process of forecasting the popularity of network content and the trend of clothing popularity,and carries out a logical path analysis on how to use data-driven method to predict online clothing popularity,which has certain guiding significance and application value.

Keywords:data driven;network content;popularity

0  引  言

互联网上各类社交媒体与消费交易平台每日产生大量的用户社交与产品交易信息,这些内容是用户行为习惯、关注重点、审美喜好标准最直观的反映。面对数据信息的爆炸式增长,对网络内容流行度进行及时而准确的预测,一方面可以帮助用户快速寻找到所需内容,根据用户的需求主动分配资源;另一方面,可以增强在线内容运营商的市场竞争力。其在产品推荐、营销广告、用户行为分析及网络流量管理等方面均实现了广泛的应用。

在新零售背景下,服装销售渠道逐渐由线下为主转为以线上为主,淘宝、天猫、京东等各类电商平台积聚的大量服装销售数据成为网络内容的重要组成部分。服装流行趋势作为时尚的风向标,一直引领着消费者的购买倾向。在以数据驱动为主导的大数据时代,从网络内容流行度的角度出发,基于数据驱动的方法来预测服装流行度在未来一段时间内的发展趋势具有重要的研究价值。

1  网络内容流行度预测研究现状

预测网络内容在互联网上的流行程度如何随时间变化,根据用户的兴趣主动分配网络流量已成为一个较为活跃的研究领域。

1.1  网络内容流行度的主要研究类型

网络内容的流行度,即给定某个网络信息i,预测其在第t个时刻的流行程度Yi(t)。目前最受欢迎的研究内容主要有在线视频、新闻资讯、社交媒体等,而浏览量、评论量、转发量等则是预测的主要度量标准。

(1)在线视频。各大视频分享平台吸引了大量网络用户,YouTube每年的全球浏览量超万亿次,已成为一个活跃的大型在线社区平台。其流行度以浏览量作为主要度量,且随着时间的推移变化,可用幂律或指数分布来描述[1]。

(2)新闻资讯。在数字世界中,信息的主要来源为互联网上传播的大量新闻资讯,其及时、快速的特点导致人们对新闻资讯的关注度在发布后的几天内很快消减,而在线新闻与资讯的流行度通常由浏览量、评论量等表示,可以用幂律或对数正态分布来描述[2]。

(3)社交媒体。社交网络服务在互联网平台中占据极高的话题聚集度,基于内容共享的方式允許用户建立和维护在线社交关系,Twitter与微博已是当下被广泛运用的社交网络服务。不同话题的内容可通过社交网络进行传播,拓展内容的覆盖范围。接收内容的用户数量与内容的转发数量通常被用来衡量流行程度,Tweet的流行度也可用幂律分布来刻画[2]。

1.2  网络内容流行度预测的研究方法

目前,在网络内容流行趋势预测方面的研究中,较为广泛的研究思路为聚集用户的关注度来推断某在线内容未来的流行程度。这种研究思路的具体研究方法又可分为基于早期流行度的积聚增长、基于时间序列分析和网络传播影响力等的预测。

1.2.1  基于积聚增长的流行度预测

该方法通过测量某一个时刻或者某个时间点的网络内容积累数量作为当前时刻流行度预测指标。网络内容在发布早期的流行程度对于其后期的流行度具有很大的影响,因此,可以用早期流行度来预测该内容在未来一段时间内的流行度。回归分析模型经常被用于预测研究中,且对早期流行度与未来流行度进行对数处理后,二者将表现出非常强的线性相关性[3,4]。

1.2.2  基于时间分析的流行度预测

该方法主要是为了测量一段时期内的流行度演化趋势。对于那种在较长一段时间内持续获得关注度的网络内容,早期不同时刻的流行度对于未来某一时刻的流行度的影响程度是不同的,一般考虑对不同历史时刻的流行度建立加权多元线性回归模型[3]来预测未来某一时刻的流行程度。这种模型在网络连续剧的流行趋势预测中表现出了良好的性能[5]。还有一些研究将时间序列预测模型应用于网络内容在较长一段时间内的流行趋势分析,比如Gursun等人就对在线视频的日浏览量建立ARMA模型来预测给定的第n天视频的流行度[6]。在线内容往往具有几种常见的时间演化模式,通过聚类方法可以将具有相似流行趋势的网络内容划分到同一种演化模式的集群中,通过集群的演化趋势来推断其未来某一时刻的流行度[7,8]。

1.2.3  基于网络传播影响力的流行度预测

该方法通过测量网络内容在网络中传播的深度、广度预测其流行度。当某网络内容在一个网站被发布以后,其相关信息往往会在Twitter、微博等多个社交网络平台传播,研究表明,从多个信息来源提取特征值可以提高在线内容流行度的预测精度。在基于内容共享的社交网络平台上,网络信息呈爆炸式传播,大量研究[9,10]将描述信息传播的传染病理论应用于社交网络上内容流行度的预测。

2  服装流行趋势预测的发展历程及演化分析

服装流行趋势的预测贯穿于时尚产业的整个发展历程。服装流行度的预测可分为定性预测与定量预测两类。

定性预测即凭借专业知识与行业经验,对未来服装流行发展趋势进行定性的评判,其中主要包括直觉预测法和流行专家会议预测法等。其专业性与主观性较强,这对于有经验的权威机构来说有独特优势,但可操作性较差,不适合大范围的应用。

定量预测是采用合适有效的数理统计手段和数学模型推算出未来服装流行的发展变化。传统定量预测的数据来源大多为政府或权威机构发布的统计报告,存在着一定的滞后性,且数据量有限,往往不能满足较高预测精度的要求。在预测方法与模型应用上,运用回归分析法、马尔科夫预测法等传统数理统计方法建立预测模型[11,12]是最为基本的预测方法;随着预测技术的发展,又出现较为智能与复杂化的灰色GM(1,1)模型[13,14]、神经网络[15,16]等方法。从服装元素的角度来讲,研究涉及服装色彩、面料、图案、廓形款式等各方面,流行色因其较易量化与分析等特征在服装流行度预测研究中一直备受关注。但是就目前而言,现有的大多数针对服装流行度的预测仅仅涉及服装某单一因素的专业性研究,且数据来源较为有限,只有少数研究者试图通过利用互联网上的大量数据信息来分析预测服装的流行趋势,但并未达到理想的研究效果。

3  基于数据驱动的电商平台服装流行度预测逻辑路径分析

3.1  數据搜集与预处理

选取某一类服装作为研究对象,在热门电商销售平台连续采集一定时间段内的服装销售数据,对缺失值、重复值、异常值等进行数据预处理,得到基本数据集。

3.2  变量选择与流行度定义

电商平台中的服装产品一般包含成交量、收藏量、浏览量、好评率等多个反映用户购买喜好的产品交易信息,在这里可以将某一交易属性单独定义为流行度,也可选取几个典型的交易属性作为特征属性并采取加权等多种表示方式来综合定义研究的服装流行度。

3.3  模型建立与优化

面对获取的电商平台的海量服装销售数据,我们可以考虑将以往对网络内容流行度的相关研究模型和方法应用于服装流行度的研究,使传统的预测方法与在线内容的预测方法相结合,对于具体的服装商品而言,其前后的交易属性间都存在着较强的相关性。早期的成交量、浏览量、收藏量、好评率等都会以一定的概率影响后期的不同交易属性,可据此建立基于数据驱动的在线服装流行趋势的预测模型。

3.4  实验设计与效果评估

在实验设计这部分,针对建立或优化的预测模型构造执行算法,除了将不同的模型进行对比分析外,还可以将同一模型在不同数据分析工具上显示的预测结果进行对比。最后,将实验报告所得的结果整理汇总,列出流行度较高的服装商品,利用关键词分析等方法提取其服装元素,通过社会调查与服装企业专家评定等方法验证模型预测的应用真实效果与准确性。

4  结  论

在大数据时代,服装流行趋势的预测更加侧重于对消费者行为的分析与建模,数据来源的多样化、数据结构的复杂化要求更为精准的预测模型来指导服装产品生产与设计。虽然近年来针对不同领域的网络内容提出了大量的预测方法,其中包括媒体广告、趋势预测、流量管理、选举预测等。但由于网络内容的流行度之间有着复杂的在线交互和难以预测的信息级联等多种因素,网络内容流行度的预测准确度依旧面临很大的挑战。在线服装具有与其他网络内容相似的数据信息与传播方式,因此我们可以利用数据驱动的方式来为服装流行趋势的研究提出新的预测模型与发展方向,并可将其推广应用于其他网络内容流行度的预测研究中。

参考文献:

[1] Avramova Z,Wittevrongel S,Bruneel H,etal. Analysis and Modeling of Video Popularity Evolution in Various Online Video Content Systems:Power-Law versus Exponential Decay [C]//1st International Conference on Evolving Internet,INTERNET,2009:95-100.

[2] Tatar A,Amorim M D D,Fdida S,etal. A survey on predicting the popularity of web content [J].Journal of Internet Services & Applications,2014,5(1):8.

[3] Szabo G,Huberman B A. Predicting the popularity of online content [J].Communications of the ACM,2010,53(8):80-88.

[4] Kim S D,Kim S H,Cho H G. Predicting the Virtual Temperature of Web-Blog Articles as a Measurement Tool for Online Popularity [C]//IEEE International Conference on Computer & Information Technology. IEEE Computer Society,2011:449-454.

[5] Chang B,Zhu H,Ge Y,etal. Predicting the Popularity of Online Serials with Autoregressive Models [C]//Shanghai:ACM Press the 23rd ACM International Conference,2014:1339-1348.

[6] Gursun G,Crovella M,Matta I. Describing and forecasting video access patterns [C]//INFOCOM,2011 Proceedings IEEE.S.l.:s.n.,2011:16-20.

[7] Pinto H,Almeida J M,Gon?alves,etal. Using early view patterns to predict the popularity of youtube videos [C]//Acm International Conference on Web Search & Data Mining. ACM,2013.

[8] Ahmed M,Spagna S,Huici F,etal. A peek into the future:Predicting the evolution of popularity in user generated content [C]//Rome:Proceedings of the sixth ACM international conference on Web search and data mining,2013:607-616.

[9] Ma Z,Sun A,Cong G. On predicting the popularity of newly emerging hashtags in T witter [J].Journal of the American Society for Information Science and Technology,2013,64(7):1399-1410.

[10] Bao P,Shen H W,Huang J,etal. Popularity Prediction in Microblogging Network:A Case Study on Sina Weibo [C]//Rio de Janeiro:Proceedings of the 22nd International Conference on World Wide Web(WWW),2013:177-178.

[11] 張艳,苗刚,何秀丽.回归分析法在服装流行色预测中的应用 [J].佳木斯教育学院学报,2012(6):434-435.

[12] 常丽霞,高卫东,张万琴,等.马尔可夫预测法在国际服装流行色预测中的应用 [J].毛纺科技,2012,40(7):44-47.

[13] 常丽霞,高卫东,潘如如,等.灰色GM(1,1)模型在国际春夏女装流行色色相预测中的应用 [J].纺织学报,2015,36(4):128-133.

[14] 周捷,李健.离散GM(1,1)模型在服装流行色预测中的应用 [J].西安工程大学学报,2019,32(1):23-30.

[15] 许凡,王高媛,赵晶.基于灰色模型和神经网络的服装流行色预测 [J].纺织科技进展,2013(6):64-66+70.

[16] 赵黎,杨连贺,黄新.采用多蜂群协同演化算法的服装流行色预测 [J].纺织学报,2018,39(3):137-142.

作者简介:李晓颖(1997.11-),女,汉族,山东威海人,本科在读,研究方向:数据分析与挖掘、推荐系统、网络内容流行度;赵安娜(1998.08-),女,满族,河北承德人,本科在读,研究方向:数据分析与挖掘、推荐系统、网络内容流行度;周晓静(1997.06-),女,汉族,山东威海人,本科在读,研究方向:数据分析与挖掘、推荐系统、网络内容流行度;通讯作者:杨成伟(1981.01-),男,汉族,山东济宁人,讲师,博士,研究方向:数据流挖掘、网络智能算法等。

猜你喜欢
数据驱动
基于数据驱动的虚拟人运动合成方法研究
数据驱动下消费者购买互联网理财产品意向预测方法
数据驱动:从量化到化理
高职图书采编外包商选择模型研究
数据驱动和关键字驱动的研究与应用
基于网络与数据智能化的数码印花产品设计定制模式研究
数据驱动理念在大学英语课程中的应用
大数据背景下的警务模式创新研究
《计算机控制技术》课程教改探讨
数据驱动导向高校多维度教育信息系统开发研究