号码百事通电子商务数据中心研究及实施

2011-03-11 09:02杨豪杰张玉忠
电信科学 2011年6期
关键词:王经理数据模型数据挖掘

杨豪杰,李 云,张玉忠

(中国电信股份有限公司广东研究院 广州 510630)

号码百事通电子商务数据中心研究及实施

杨豪杰,李 云,张玉忠

(中国电信股份有限公司广东研究院 广州 510630)

针对目前号码百事通电子商务平台各个子系统相互独立的情况,分析了建设数据中心的必要性和现实意义,梳理了数据中心与平台主要系统间的关系,提出了一整套可实施的系统框架和方案,解决了异构系统间数据共享的兼容性和安全性等问题,开创性地实现了数据中心与数据挖掘、客户价值模型的融合应用,最后针对电子商务移动化的趋势,提出了数据中心的移动性扩展。

数据中心;电子商务;分布式架构;号码百事通;移动电子商务

1 前言

根据艾瑞2010中国电子商务年度发展报告,全年交易规模达4.8万亿元人民币,同比增长33.5%;2013年有望突破10万亿元人民币[1]。正在向信息服务提供者转变的电信运营商自然不愿错过如此庞大的市场。其实早在2007年,中国电信就在上海成立了号码百事通(简称“号百”)信息服务公司,推出了订票、订房等商旅服务,初步实现电子商务平台功能。目前,号码百事通的商品涵盖机票、酒店、餐馆、礼品、红酒、小商品、电影票等,由于各种商品之间的差异较大,而与各个合作伙伴之间的合作方式不尽相同,导致不同的商品存在不同的订购系统,难以提供统一而融合的客户业务体验;同时,随着移动互联网的发展,用户的位置轨迹、终端类型等越来越成为电子商务的关键业务因素。因此,很有必要建设统一的数据中心,以实现各类数据的跨系统共享,以号码百事通作为统一品牌为客户提供统一而融合的业务体验。

2 应用场景

图1是数据中心在一个典型的电子商务流程中的应用例子。

(1)王经理出差,他拨打了“114”打算订机票和酒店。

(2)电话进入系统后,通过统一认证和客户管理系统实现了主叫鉴权并获得了用户基本信息,同时,从数据中心的信息发现王经理是VIP客户(数据挖掘的客户价值模型),优先接入话务专席。

(3)王经理在机票订购系统专席完成机票预定,数据中心实时从机票订购系统中同步了机票信息,包括时间、地点等。王经理还需要订酒店,因此话务员把话务转到了酒店订购系统专席。

(4)酒店专席可以看到王经理的用户信息,而且通过数据中心发现王经理刚预定了后天到北京的机票,因此询问王经理是不是要订后天晚上北京的酒店。

图1 应用场景

(5)酒店订购完成后,话务员通过数据中心发现王经理是“电影发烧友”,同时,通过客户管理系统可以发现王经理有1000个积分,因此推荐王经理兑换院线通电影票。

(6)王经理兑换电影票后,院线通系统发送二维码电影票到王经理手机。

(7)王经理到院线通二维码终端机取票后,数据中心提取时间、地点等信息供主动营销系统查询。

(8)主动营销系统主动发短信给王经理:距离电影开场还有一个小时,您可以去商场的XX层看看打折的XX商品。

整个流程展示了号百电子商务如何通过数据中心实现了信息的实时跨业务系统共享、用户关怀和交叉营销等电子商务的差异化经营。

3 系统架构及实施

3.1 数据中心与外系统间关系

数据中心主要包括数据总线服务和数据存储两大块。数据总线对外提供数据的同步和查询服务,数据存储实现了数据的持久化保存。数据中心不是一个独立的系统,系统的实施和运营依赖于外部系统。图2展示了数据中心与外系统间信息流转的关系。

·数据中心从客户管理系统同步客户信息,从电子商务各个子系统收集客户订购信息。

·数据挖掘系统从数据中心获取相关数据,进行挖掘。

·数据挖掘系统发布其成果,如客户标签到数据中心。

·数据中心通过数据总线服务对外系统发布客户信息、订购信息、数据挖掘成果等。

3.2 数据中心系统架构

数据中心作为沟通各个子系统之间的桥梁,对于系统的信息安全、可用性、吞吐量、数据存储等要求都比较高。在整个系统设计的过程中,笔者采用分布式系统设计框架。系统框架如图3所示。

图2 与外系统间的关系

图3 系统架构

(1)接口层

接口层提供了HTTP实时接口和文件方式非实时接口。以HTTP实时接口为主,以文件方式接口为辅。HTTP接口采用 RESTful (REpresentation state transfer)[2]Web service的方式对外提供,数据组织形式采用JSON[3]数据格式。

(2)访问控制层

不同的系统在数据中心的操作权限是不同的。需要对各个系统发送的请求进行身份识别和权限控制。笔者采用HMAC-SHA1[4]算法对请求及请求的内容进行摘要,通过对比业务系统计算的摘要和数据中心计算的摘要,实现对业务系统的身份识别;识别各业务系统身份后,通过数据访问权限控制器,以确定所请求的操作能否执行。

(3)数据缓存层

对于性能要求高的系统,数据缓存层的实现是提高性能的关键。从本文的应用场景可以看到信息的实时跨业务系统共享、用户关怀和交叉营销等电子商务的运营需求,会在短时间内相对频繁地访问某一部分数据。因此,把这部分频繁访问的数据保存在系统内存中,能有效减少对数据库的读取,提高系统性能。在实现上,笔者采用Memcached分布式内存对象缓存系统。

(4)数据访问控制层

数据中心的数据量庞大,如果集中存储,数据库很容易成为系统瓶颈,因此,对数据采用分布式存储。号百电子商务的客户具有明显的运营商特色,大多数客户可以通过电话号码来绑定识别,因此根据客户电话号码所属区域来分布式存储客户相关数据。

(5)数据持久层

数据中心处理的数据量巨大,性能要求高,因此对于SQL的性能要求比较高,为了便于实现SQL语句的性能优化,在数据持久层,采用ibatis这种灵活的持久层方案。

(6)分布式数据库层

由于数据的分布式存储,对于数据库的压力相对分散,采用开源的MySQL即能满足性能要求,同时也能降低成本。对于每一个数据节点,笔者采用了Multi-Master Replication Manager for MySQL来管理数据的实时备份和复制以及数据库的负载均衡。

图4 已购买商品数据模型

4 研究实施的难点及关键点

号百目前的各个订购系统都是已大规模上线运营的业务系统,而且由于系统由不同厂家提供,涉及的商品差异性极大,因此在数据中心的实施过程中,遇到的最大难题就是如何在确保现有运营系统顺利运营,并尽可能少改造的情况下,实现数据的跨系统共享。同时,需要确保数据的安全性。

4.1 可兼容的数据模型

各个订购系统是独立的,对于订单、商品等数据模型的定义存在很大差异。而且这些订购系统已经上线运营,如果完全统一这些数据模型,涉及全部系统的大规模改造,并不现实。针对这种独立系统的异构性信息共享需求,笔者定义了可兼容的非严格统一的客户、订单、商品等模型。对于相对统一的字段严格定义,差异化的内容以JSON字符串的方式保存。各个业务系统保留原有数据模型,从其他系统共享过来的数据采用数据中心的兼容数据模型。例已购买商品数据模型如图4所示。

4.2 数据的安全性

(1)认证鉴权

为保证数据安全,各业务系统接入数据中心必须经过认证鉴权。数据中心向服务接口调用者颁发key(sys_id+‘_’+app_id)及 secret(通过线下方式颁发),key 是用于识别接口调用者的身份惟一标识,secret是仅对应于一个key的密钥。

认证流程:调用数据中心接口的业务系统,对调用请求使用HMAC-SHA1算法签名,得到签名摘要sig;业务系统发送请求时,把sig作为调用参数之一与其他参数一起发送到数据中心;数据中心收到请求后,对调用请求使用HMAC-SHA1算法签名 (业务系统发送的sig参数不作为SBS),得到签名摘要sig’,比较 sig与 sig’,完成认证。

本方案采用签名算法对接口调用进行验证。签名包括两个步骤:对请求参数进行正规化;对正规化后的请求参数进行签名。

参数正规化:所有参数名及参数值都使用RFC3986[5]定义的百分号编码(%xx,即URLEncode);参数以字典序排序,如果多个参数同名,则以参数值进行排序;参数以顺序串接为一个字符串,参数名与参数值之间采用“=”分隔,每个参数名-值对采用“&”分隔。

计算签名:首先,将请求方法、除了参数以外的请求URL、正规化后的参数串接为一个签名基础字符串(signature base string,SBS); 采 用 HMAC-SHA1 (参 考RFC2104)对SBS进行摘要签名,使用secret作为共享密钥,Signature=URL-encode(BASE64(HMAC-SHA1(text=SBS,key=secret)))。

(2)权限控制

认证鉴权解决了接入系统识别的问题,权限控制则为了防止接入系统非法查询和更改数据。建立了一个权限控制表,在访问控制层拦截非法的操作请求。

图5的记录,说明来自ReqSysId系统的ReqAppId应用可以对OpSysId系统的OpAppId应用的Model数据模型的Attricbutes属性进行Operation操作。

图5 记录

5 与数据挖掘结合的客户价值模型应用

在业务应用上,笔者开创性地整合了数据中心的数据收集和分享流程与数据挖掘系统的分析挖掘流程,提出了综合客户价值评估模型,对客户价值作出全面的评估,并把评估结果应用到具体业务中。这也是在电信领域首次把数据中心、数据挖掘、客户价值模型三者整合应用。

在价值评估模型中,选取消费近度R、消费频率F、消费金额M,这3个维度多方位地描述了客户价值的全景视图,定义了综合价值C的计算公式:

其中,C表示RFM 3个维度的综合价值打分,W表示RFM 3个维度的权重比例。

整个应用流程如图2所示,数据中心归集各个业务系统以及客户管理系统的数据。由数据挖掘系统对用户的RFM的3个维度进行分析,得到客户综合价值。根据价值得分,为用户标上相应标签定义,通过数据中心的总线服务,分享给各个业务系统。目前,客户价值模型的分析结果通过数据中心已经实时同步到号百坐席客户端、号百客户管理系统等系统平台中。话务员和营销人员能实时地看到数据挖掘的分析结果,对接入的客户进行针对性的营销。

6 数据中心的移动性信息扩展及展望

随着移动互联网的发展,用户的电子化消费行为可以发生在“Anywhere,Anywhen(任何地点,任何时间)[6]”,移动电子商务越来越成为电子商务的发展趋势。数据中心也需要相应的发展以支持电子商务的移动化。

(1)客户位置信息的记录与共享。客户的消费行为是与客户当前的位置息息相关的。客户在步行街附近,表示该用户非常有可能需要逛街购物。数据中心实时或者准实时地更新客户的位置信息,各个业务系统分享到这些信息就可以向客户推荐附近合作商家的优惠活动。

(2)客户消费记录的位置性信息与时间性信息提取和共享。从一些客户的消费记录可以预测到客户在某段时间的位置和行为。如客户预定了某天上午某家电影院的电影票,可以预测电影放映介绍后,客户需要餐饮消费。数据中心把这些信息整理并共享出来,能极大地提高主动营销、交叉营销的成功率。

目前,已经从客户的订购电影票、订购机票等消费记录中,获取了客户的位置性和时间性信息。但如何吸引客户愿意提供并主动提供实时或者准实时的位置信息;同时数据中心如何与其他系统结合,合理有效地利用这些客户的移动性信息,也需要进一步探索。

1 张艳平.2010年中国电子商务年度数据发布.艾瑞咨询,http://ec.iresearch.cn/html/131667.shtml

2 Richardson,Leonard.RESTful Web Services.O'Reilly

3 Crockford D.The application/JSON media type for JavaScript object notation(JSON).RFC 4627,July 2006

4 Krawczyk H,Bellare M,Canetti R.HMAC:keyed-hashing for message authentication.RFC 2104,February 1997

5 Berners-Lee T,Fielding R,Masinter L.Uniform resource identifier(URI):generic syntax.RFC 2104,January 2005

6 Noel M E.Finding anyone,anywhere,anywhen.Firefly Books

7 金铎,徐雄,梁冰,李云.号百电子商务平台架构建设探讨.电信科学,2010,26(8)

8 罗志强,沈军.移动电子商务用户溯源认证技术研究与应用.电信科学,2009,25(6)

Research and Implement of Data Center for Bestone e-Commerce

Yang Haojie,Li Yun,Zhang Yuzhong
(Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China)

In this paper,we analyze the need and the practical significance of data center construction,for the separation of subsystems of bestone e-commerce,and sort through the relationship between data center and Bestone’s major systems.And then we propose a set of system framework can be implemented,solve the model compatibility and data security issues of sharing information among heterogeneous systems,and apply integration of the data center,data mining and customer value model to beston’s business systems.Finally,for the trend of mobile e-commerce,we discuss the mobile expansion of data center.

data center,e-commerce,distributed architecture,bestone,mobile e-commerce

2011-05-13)

猜你喜欢
王经理数据模型数据挖掘
探讨人工智能与数据挖掘发展趋势
面板数据模型截面相关检验方法综述
基于并行计算的大数据挖掘在电网中的应用
Differences between Chinese and Western Courtesy Expressions
一种基于Hadoop的大数据挖掘云服务及应用
基于分位数回归的电力负荷特性预测面板数据模型
基于GPGPU的离散数据挖掘研究
最好的自己
监控黑屏了
一种顾及级联时空变化描述的土地利用变更数据模型