面向社会化商务的大数据分析系统研究方法

2018-05-21 08:46孙志刚
科学与财富 2018年7期
关键词:数据分析数据处理数据挖掘

孙志刚

摘 要: 本文围绕社会化商务呈现出的分析型应用需求,根据多源异构大数据特点,设计合理的数据结构和索引结构。将对传统的数据挖掘技术进行重新设计,提出了更多地采用基于磁盘的算法、增量算法、近似算法、和随机算法,使数据挖掘技术真正适于大数据计算,大数据计算真正能服务于社会化商务智能。同时将基于已有计算模型,通过模型的融合、优化、耦合,设计并实现具有高扩展性、高性能、跨异构数据的大数据计算框架。

关键词: 大数据;NoSQL;数据挖掘;数据分析;数据处理

一 研究目的和意义

融合社会网络的社会化商务比传统电子商务更为复杂,更迫切需要借助面向大数据的商务智能技术,才能有效实现一系列智能化电子商务应用,包括:海量客户关系管理、个性化推荐、口碑营销和精准广告投放等。而几乎所有的基于数据挖掘、处理和分析的商务智能技术无不与底层多源异构大数据存储、管理和分析密切相关。本文面向社会化商务这一新兴应用之需求,对适应大数据计算的数据挖掘分析、处理两个层面的若干关键技术问题展开描述。

世界范围的信息化变革使得几乎每个行业都面临着大数据(Big Data) 问题。社会媒体、云计算、物联网、移动互联网等新兴应用的逐步推广,进一步加剧了大数据的井喷态势,让大数据挑战成为一个迫在眉睫的问题。大数据是蕴含各类敏感信息和商业价值信息等的流动的“新石油”,是涉及国家安全的戰略资产。

随着Web 2.0理念的逐渐深入和社会网络的欣欣向荣,电子商务正在向着社会化商务 (social commerce)过渡。大型电子商务系统的用户和交易积累数据量和增量已经相当惊人,如淘宝每天新增数据量已超过20TB;社会网络则已成为全民盛宴,如全球最大的社会网络Facebook注册用户数达8亿多,成为排在中国和印度之后的全球人口第三大社会。融合社会网络的社会化商务比传统电子商务更为复杂,更迫切需要借助面向多源异构大数据的商务智能技术,才能有效实现对海量用户的客户关系管理,进行最有效的口碑营销和精准广告投放,并实现快速准确的战略和战术决策。

二 现有研究基础和条件

近年来,我们在数据挖掘、社会网络分析及商务智能应用做了大量的基础研究工作,具体包含以下几个方面:

方向一:数据挖掘

我们对余弦兴趣模式挖掘进行了深入研究,证明了余弦兴趣度满足条件反单调性 (CAMP, Conditional Anti-Monotone Property),进而提出基于FP树的余弦兴趣模式挖掘方法CosMinert,给出CosMinert挖掘余弦兴趣模式的例子,CosMinert能同时利用支持度和余弦兴趣度进行剪枝,大幅度提升了余弦兴趣模式挖掘的效率,并能有效发现稀有的兴趣模式。

方向二:社会计算

在对大规模社会网络抽取问题开展研究后,提出近似等价结构(Asymptotically Equivalent Structure, AES)来刻画局部结构,近似等价结构与其他等价结构的思想类似:公共邻居越多的节点越相似,这些节点组成紧耦合局部结构。抽取出的点就定义为被近似等价结构包含的节点。AES定义减轻了挖掘等价结构、clique的计算复杂性,因为挖掘 AES可以归化为余弦兴趣模式挖掘,从而借助于研究成果CosMinert来解决。

方向三:数据及系统安全

我们对推荐系统托攻击(shilling attack)检测进行深入全面的研究,这对提高系统安全性和健壮性具有重要意义。首先,分析了十种类型托攻击对不同协同过滤算法产生的危害性,定义托攻击检测的一系列指标,提出一种特征选择算法,这种特征选择方法能有效提高监督学习检测器的性能。其次,提出一种基于半监督学习的推荐系统托攻击检测算法,使用朴素贝叶斯分类器作为初始分类器,再用EM-算法来改进分类器。

三 主要研究内容

(1) 面向社会化商务应用的NoSQL数据库管理关键技术

社会化商务应用外延极广,将涉及大规模多源异构数据。研究内容致力于解决社会化商务涉及到的多源异构大数据的存储问题,RDBMS仅能满足传统商务交易数据存储需求,对于大部分NoSQL类型的数据,需借助于NoSQL数据库。大数据存储的基础上,集成大数据预处理和分析的共性模块,结合计算模型,高效提供大数据共性计算服务。

A. 社会化商务需求分析

社会化商务系统是一个多源异构复杂系统,必须广泛借助商务智能技术才能实现其社会化战略。本研究立足于两个典型社会化商务应用需求展开:1) 推荐系统:除了利用用户评分或产品属性实现传统的协同过滤或基于内容的推荐外,更重要的是结合社会网络信息进行社会化推荐,而这就需要跨平台大数据的联合分析;2) 网络口碑营销:借助商品评论系统,企业实现了初步的口碑营销,但借助联系更为紧密的消费者社会网络,企业则可以实现广告的精准投放和无缝的客户关系管理,从而实现真正的网络口碑营销。

B. NoSQL分布式数据库数据模型及索引结构设计

电子商务交易数据可以利用RDBMS进行管理,但对于文本数据、图数据、点击流数据等半/无结构化数据,则需诉诸于NoSQL技术。各类NoSQL技术在设计的时候,考虑了一系列新的原则,首要的原则就是如何对大数据进行高效、可扩展的存取操作,这对于微博平台等写入操作密集的应用而言尤为重要。目前较为流行的NoSQL数据模型包括键/值模型,以及基于键/值模型的列存储模型和文档存储模型。尽管这些数据模型都较好地满足了可扩展性要求,但和关系模型相比仍存在许多数据管理方面的不足,如对查询操作的支持较弱、索引结构较为复杂等。

C. 大规模异构数据预处理技术

大规模异构数据来源于多个数据源的未被加工、高维、冗余、含有噪音且非均匀分布的复杂数据,在数据模型、含义、模式、结构和语义上存在不一致性和冲突,因此需要研究大规模异构数据预处理技术,为进一步实施挖掘和分析奠定基础。

(2) 适应大数据计算的数据挖掘、分析、处理关键技术

传统数据挖掘技术更关注解决模型学习问题,与底层的数据管理衔接不紧。但当面对多源异构半结构化、非结构化大数据时,大规模数据迁移成本极高、完全内存计算容易导致空间不足,因此,亟需对传统的数据挖掘技术进行重新设计,使之适应大数据计算。本部分将沿着两条途径解决这一难题:1) 从内在角度,研究高扩展性数据挖掘算法;2) 从外在角度,借助于分布式计算框架,扩展现有典型框架包括BSP和MapReduce,使之更加适合大数据的挖掘与分析。

A. 高扩展性数据挖掘算法研究

针对大数据规模大、更新快的两个特征,需着重如何将完全基于内存的、迭代的批量算法调整为基于磁盘的、增量的算法。同时,商务智能的实现依赖于分类、聚类、关联规则等不同方面的数据挖掘算法,而且并不是每种算法都适合于向基于磁盘的、增量的算法扩展。

B. 基于磁盘存储的扩展BSP模型设计

BSP将待处理数据存储在内存,清晰分割计算任务和通信任务,提供一种可编程性极佳的分布存储MIMD计算模型,特别适于大数据高性能分析。很多实际系统如Pregel、Giraph、Hama等,都是基于BSP开发的。尽管BSP在迭代计算控制和可编程性方面具有优势,但是,BSP目前仅支持内存存储数据,缺乏对磁盘存储数据的支持,这是制约BSP用于大数据计算的关键因素。

C. 面向大数据的MapReduce存储优化与数据类型支持

与BSP模型不同,MapReduce将待处理数据存储在分布式文件系统,将作业分为本地计算的Map任务,以及合并Map任务结果的Reduce任务,MapReduce因其高度的可扩展性和容错性呈现出强大的生命力。MapReduce设计初衷是处理半/无结构化数据,传统商务交易数据却利用结构化模型存储,而很多应用经常需综合使用结构化和半/无结构化数据。因此,需要研究MapReduce支持的数据类型扩展机制。同时,还需对MapReduce存储优化展开研究。

猜你喜欢
数据分析数据处理数据挖掘
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于GPGPU的离散数据挖掘研究
基于POS AV610与PPP的车辆导航数据处理