基于大数据的用户画像系统概述

2018-10-21 09:30许多
科技信息·下旬刊 2018年9期
关键词:数据分析大数据

摘要:随着信息技术的快速发展,人们对于网络的应用也是越来越多,与此同时用户所产生的数据也越来越多,用户所产生的数据之中包含着许多的信息。如今的时代是一个大数据的时代,要求我们能够从海量的数据之中来了解用户、分析用户,这对计算机技术有着一定的要求,用户画像技术的出现正是为了解决这一问题而出现的,通过用户画像技术对人体建立一个数学模型,可以通过这个模型来对用户进行行为方面内的预测,有着很高的真实性与准确性,可以帮助人们更加直观的了解用户。

关键词:大数据;用户画像技术;数据分析

随着互联网技术的不断发展,人们对于网络的应用也越来越多,在生活之中也越来越离不开网络,人们在进行各种网络活动时会留下痕迹,也会产生大量的数据,应用用户画像技术就可以对这些数据进行整理分析,通过这些数据可以建立一个模型,来模拟用户的消费习惯以及生活习惯等各方面的情况,这对于了解消费者有着极大的帮助。根据用户画像系统可以了解消费者的特征,包括行为特征,社交特征等多方面的特征。用户画像系统有着很大的发展前景,在学术界和产业界都有着很大的热度,而且通过对大数据的应用可以更加准确真实的建立起消费者的消费模型。用户画像的建立主要是通过预处理、模型形成、系统评测和实际应用这几个过程来建立的。通过大数据的应用为网络管理,舆论控制、群体细分等方面提供支持,这对产业的发展有着非常重要的意义。

一、用户画像概述

用户画像就是对用户信息的一种描述,对用户信息的整理、聚集形成一个标签,通过许多的标签来对用户进行定义、刻画出用户的特点。用户画像的工作目的就是描述客户,方便人们理解和利用计算机处理。用户画像是通过建立一个与用户相关的数学模型,然后通过这个模型来解释描述预测用户的行为特征和生活习惯。用户画像系统可以将用户的需求与相关的产品进行联系,这就达到了产品定位的功能,指导顾客心中所想,不仅是提高了服务质量还对于产业的发展有着极大的促进作用。用户画像系统可以通过用户在进行网络活动时所产生的大量的数据来进行用户需求的预测,然后相关的公司可以通过这些需求来生产产品,满足不同的用户的个性化需求。通过对用户信息的发掘可以建立起每个用户的特征从而来达到商业目的。用户画像的核心工作是建立标签,通过这些标签来描述用户的个性化特征,发掘出用户的兴趣爱好、习惯特点等多方面的信息。相关的企业通过应用用户画像系统能够有效的对顾客需求进行定位,这对于服务行业的发展有着非常重要的意义。

二、基于大数据的用户画像方法

2.1样本标注

由于样本有着数量巨大的特点,所以在进行样本标注的工作时,一般的是采用半自动半人工的方法来进行的,也就是人工标注与自动标注相结合。自动标注的方式也有着不同,其中一种自动标注的方法是根据样本中的一些特征或者是关键词来进行标注。而另一种标注方法则是利用半监督的方式首先对少量的样本进行标注,然后对没有进行标注的样本进行分类,主要是通过self-training(自训练算法),generative models生成模型,SVMs半监督支持向量机,graph-basedmethods图论方法,multiview learing多视角算法等,来进行分类。

2.2数据整理

人们在进行网络活动时会留下很多的痕迹,会产生大量的数据,我们需要对这些数据进行收集、整理、分类,这样才能够对这些数据进行利用,之后根据用户画像系统技术来建立相关的模型,数据的收集与整理也需要用到其他的软件技术,例如通过Sqoop 导入 HDFS或者是也可以用代码来实 现,比 如 Spark 的 JDBC 连 接 传统数据库进行数据的 Cache还可以通过将数据写入本地文件,然后通过 Spark SQL的load 或者Hive的export等方式导入HDFS,之后方便于用户画像系统的应用。

2.3面向应用

通过数据整理以及相关的数据平台的计算,可以生成一个有关于用户信息标签的表格。那么有关的前台就可以通过对表表格进行相关的操作来进行用户信息的收集与改变,这对于前台的操作业务有着极大的便利性,例如前台操作可以在一定的范围内对相关的客户进行筛选工作,然后与后台的数据库相连接这样就可以简单方便的得到筛选范围内的用户信息。这里就是通过 JDBC 的方式连接 Spark 的 Thrift Server,通过 集 群 进 行 HDFS 上 的 大 宽 表 的 运算求 COUNT。需要注意的是,很多SQL 聚合函数以及多表关联相当于Hadoop 的 Map Reduce 的 Shuffle,很容易造成内存溢出,这样便可以定位相应的客户数量,从而进行客户群、标签的分析,产品的策略匹配从而精准营销。

三、大数据用户画像的应用

随着互联技术的快速发展出现了很多的网上应用,这些应用软件不仅仅有着娱乐的功能还给人们的生活带来了极大的便利性,例如微博的出现,微博上有着大量的活跃用户,而这些用户的在微博上进行活动就会产生大量的数据信息,可以利用微博来进行用户系统技术的研究。从微博的用户画像研究中发现,每一个微博用户都是一个信息节点,每一个用户都可以进行信息的产生,传播,发布等行为。但是其中只有一小部分用户是属于优质节点,他们产生优质的信息,并通过微博这网络来达到传播的目的,他们属于能力节点,而在微博中其他的绝大部分用户都是属于消费节点,他们不产生或者是产生的信息很少或者是产生的信息质量不佳,他们的主要活动就是对能力节点产生的信息进行搬运传播。而在网络中优质的能力节点就可以利用信息的传播来产生影响,打造自己的品牌,这會进一步的提高自身的影响力,而这种信息的传播方式也对于挖掘消费节点的兴趣有着很大的帮助,也会进一步的提高其对这种类型的信息进行消费,提升节点的活跃性。所以通过用户画像的描述可以确定一些话题,通过这种话题将感兴趣的人聚集到一起,这样在对这类人有目的的进行推销工作,可以更加的准确,达到精准销售。

四、结束语

用户对企业来说,是企业发展的根本,能否抓住用户决定着企业的未来发展,所以企业要想办法来了解并满足用户的需求,现在随着网络技术的快速发展,人们对于网络的应用越来越多随之产生的数据也越来越多,企业可以对这些数据进行研究来确定用户的需求从而来促进企业自身的发展加强企业的竞争力。

参考文献:

[1]徐璐瑶,姜增祺,黄婷婷,刘云鹏.基于大数据的用户画像系统概述[J].电子世界,2018(02)

[2]王宪朋.基于视频大数据的用户画像构建[J].电视技术,2017,41(06)

猜你喜欢
数据分析大数据
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索