论A/B测试在电子邮件营销中的运用

2019-01-14 09:14杨山山
现代营销·学苑版 2019年12期

摘要:在国外,通过设计A/B测试,改善产品的使用流程,提升用户体验,不断促进用户或收入的增长,已经形成了一套非常科学的流程和方法论。除一些大型互联网企业外,A/B测试的流程和方法还没有得到较好的应用。近年来,随着越来越多传统企业的互联网化,如何提升产品设计和运营的效率,加强市场竞争力,减少犯错机会,已经是一个迫在眉睫需要解决的问题。本文旨在以PDCA思路为基础,详细阐述A/B测试的相关细节,为中小企业的产品设计和运营效率的提升,提供一些行之有效的参考方法。

关键词:A/B测试;邮件营销;PDCA

一、概述

A/B测试是指通过对真实访客进行随机分组,让不同分组的访客访问不同的设计方案(变量),并借助统计学原理对收集到的访客行为数据进行假设检验分析,从而找出最佳方案的一种方法。通俗一点说,即一部分用户访问方案A,另外一部分用户访问方案B,A、B方案间仅存在一个因素(变量)差异,排除其他干扰因素,最终通过观察数据确定访客的行为方式和行为内容。

A/B测试作为一种数据驱动的精细化科学运营方法,在互联网行业有着非常广泛的应用,能够帮助企业在用户增长、广告效果优化、获客成本优化、转化率优化、用户体验优化等方面快速找到最佳方案。目前,A/B测试在国外已经非常普及,并形成了一整套的成熟工具、系统的解决方案。但在国内,A/B测试应用得还不是特别普遍,很多中小型互联网企业甚至都没听过A/B测试。因此,本文将以电子邮件营销的A/B测试为例,基于PDCA思路系统阐述A/B测试的流程,具体如下图所示:

二、确定改善指标&目标

在正式A/B测试前,应首先明确对什么指标进行改善,以及希望达到多大的改善。一个好的数据指标应做到:1.具体的且可量化的;2.指标改善能够促进业务发展;3.体现产品关键行为;4.指导团队的努力方向;5.促进资源合理分配;6.易于被各个部门理解和沟通。一般来说,设定一个好的指标与目标,可以让执行团队对结果负责,并逐渐形成一种以结果为导向的文化氛围。

由于不同团队的电子邮件营销的目的各不相同,这就会导致不同团队的改善指标也会有很大的差异。通常来说,在电子邮件营销中,常用的改善指标有开封率(独立打开邮件用户数/送达用户数)、点击率(独立点击用户数/送达用户数)、CTO(点击率/开封率)。根据邮件服务商webpower统计,我国电子邮件的平均开封率在7%左右,平均点击率在2%左右。

三、设计测试方案

在设计A/B测试方案时,应根据MECE(穷尽不交叉)原则对所有可能会影响改善指标的因素进行拆解,并根据自己对这些因素影响大小进行假设,对实施简单且对指标改善影响大的因素优先开始执行,对实施困难且对指标改善影响小的因素最后执行。

根据经验,可以用来作为邮件营销的测试因素有:推送时间、标题文案、标题字符数、单双标题、句式差异(如陈述句式与疑问句式)、限时限量、图片或文案的放置位置、图片大小与类型(如女性照片与男性照片对比)、字体大小与颜色、内容列表数量(如5条内容与10条内容的差异),地域名词差异(如北京与延庆)、简写与全拼、增加客服联系方式、数量名词(如产品有多少用户)、专家或机构名称,等等。一般来说,推送时间越合理,标题越吸引人,邮件设计越合理,开封率、点击率就会越高,反之则较低。

在实践中,A/B测试通常执行的是单变量测试,即一个因素的变化对指标改善的影响。但是,有时候为了提高测试效率,当测试的是多因素多水平对指标改善影响的时候,建议可以使用多变量测试。需要注意的是,当执行多变量测试时,由于排列组合较多,建议可以引入正交实验思路进行处理,或者使用软件对因素和水平随机抽样来处理。

四、选择合适的抽样方法

抽样好坏直接影响着最终测试结论的可信性。抽样应保证样本是从同一总体中随机抽样的相似样本,符合统计学上的无偏性、有效性和一致性。在电子邮件营销的A/B测试中,考虑到实施方便、随机化等原则,推荐使用系统抽样作为首选的抽样方法。

具体实施过程如下:

根据A/B测试要推送的用户总体N,按照用户的访问时间(或其他合适标志,如用户IP地址的奇偶性)进行排序;然后依据设定的样本量大小n,确定间隔k=N/n;从k中随机抽取2个数字为起始点,然后每隔n个用户抽出一个样本,直到抽满两组样本为止。

由于在实际电子邮件营销中,n通常比较大,因此不考虑N/n不是整数的影响。或者采用简化的处理方法,将kd(kd=N-nk)个抽样单元舍弃掉。这种做法略显粗暴,但从效果上看并无太大影响。

五、计算样本量

样本量的大小直接影响着抽样误差的大小。一般来说,样本量越小,抽样误差就会越大;样本量越大,抽样误差就会越小,但也会带来不具备实施条件、成本过高,甚至是完全没必要等问题。因此,在抽样设计中,确定合理的样本容量n是实施抽样的必要前提,如果样本容量n无法确定,就无法展開后续工作。对于A/B测试的样本量确定步骤如下:

第1步:根据A/B测试要求,确定估计精度水平,包括绝对误差限度d和置信度1-a。

第2步:对总体方差S2进行估计。可以利用以前的调查结果、预调查结果或专家经验进行估计。对于总体比例估计,如果P未知,可遵循方差最大选择,即P=0.5。

第3步:根据上述的精度水平、总体方差S2的预估结果,并考虑N的大小,计算出初始样本量n1。对于总体比例的估计而言,S2=P(1-P),具体的计算公式为:

[n1]:初始样本容量

N: 待抽样的总体规模

d: 绝对误差限度

P: 总体中具有某一特征的比例。如果未知,取P=0.5。

z: 在某一置信度下对应的分位数。常用的是95%的置信区间对应的z为1.96。

通过公式1可以看出,影响样本数量的主要因素有总体规模、总体中某一特征的比例、某一置信区间下的z分数、误差限度。

第4步:根据不同的抽样方式,确定设计效应deff,并对初始样本[n1]进行调整,对于系统抽样,deff近似取1。

第5步:在实际邮件推送中,受硬弹、软弹、用户投诉等因素的影响,邮件送达率并不能做到100%,会有一定的损耗,这里假设送达率为a,对样本量再次进行调整,从而确定最终抽样样本数。

示例1:假设某企业要开展一项新业务,符合这项业务的目标用户群是N=10000人,根据过去的邮件推送记录,这10000人的整体开封率是P=7%,我们希望新业务的开封率提升到10%(d=10%-7%=3%),10000用户的送达率是a=98%。根据公式1和2,可以计算出在95%的置信区间下(z=1.96)样本数量为276个样本。

如果上述业务缺乏总体开封率的统计,那么可以假设P=50%,误差限度3%,从而计算出在95%的置信区间下(z=1.96)样本数量为984个样本。

六、假设检验

假设检验是利用样本去估计总体的一种统计学方法,其基本思想就是小概率事件,即当某一事件出现的概率非常小的时候,我们就认为其不会发生。在执行电子邮件营销A/B测试的假设检验时,推荐使用的统计方法是两总体比例之差进行假设检验。此外,考虑到执行A/B测试主要两个目的:1.哪种设计方案更好?2.相比较差方案,较好的方案改善了多少?下面分别介绍这两种情况的假设检验过程。

(一)检验总体比例p1、p2是否相等

假设A组的开封人数为a1,送达人数为n1,则p1=[α]1/n1;B组的开封人数为b2,送达人数为n2,则p2=b2/n2。根据统计原理,如果n1p1、n1(1-p1)、n2p2、n2(1-p2)都大于等于10时,就可以认为是大样本,从而基于正态分布对两样本的比例之差p1-p2的抽样分布进行假设检验。

H0:两组开封率无差异,即p1=p2

H1:两组开封率有差异,即p1?p2

z=[p1-p2p(1-p)(1n1+1n2)]  (公式4)

p: 在原假设成立的情况下,将两个样本合并为一个样本的开封率,即p=(x1+x2)/(n1+n2)。

在统计上,一般原假设H0是希望被拒绝的假设,备择假设H1则是希望通过实验证明能够被接受的假设。在执行A/B测试时,是希望找到有改善的解决方案,故原假设为p1=p2。然后通过如果计算z值,如果|z|>[zα/2],则拒绝原假设,否则则接受原假设。

示例2:假设某项新业务在执行推送时间对邮件开封率影响的A/B测试,其中A组为上午8点推送,送达984人,开封70人;B组为晚上7点推送,送达983人,开封98人。直观上看,B组的开封率更高一些,那么这两组是否有统计学上的显著差异呢?根据公式4,可计算出z=2.265。假设置信区间为95%,那么[zα/2]=1.96,由于|z|>[zα/2],我们可以拒绝原假设,晚上7点推送的B组的设计方案更好。

(二)检验总体比例p1-p2是否等于某个常数d0

H0:两组开封率之差小于或等于d0,即p1-p2≤d0

H1:两组开封率之差大于d0,即p1-p2> d0

z=[p1-p2-d0p1(1-p1)n1+p2(1-p2)n2]  (公式5)

如果计算的z值|z|>[zα/2],则拒绝原假设,否则则接受原假设。

在实际执行A/B测试中,我们不仅要检验哪组效果更好,通常我们也会将测试结论分享给其他部门或领导,并明确通过A/B测试将指标提升了多少,这里就可以借助两总体比例之差是某个常数进行假设检验。继续以示例2为例,相比A组,B组开封的效果是否提升了43%(即d0=3%)?根据公式5,可计算出z=-0.115,假设置信区间为95%,那么[zα/2]=1.96,由于|z|<[zα/2],接受原假设,即尽管B组效果更好,但相比A组,未提升43%。

七、确定合理的α值

在统计学上,原假设正确,而我们却当作错误加以拒绝的概率,称为显著性水平α,即小概率事件发生的可能性大小。α值在不同的行业有不同的选择,如果拒绝原假设的风险越大,成本越高,那么建议将显著性水平α值设置得较小一些;如果拒绝原假设的风险很小,成本不高,那么这时可将显著性水平α值设置大一些。常用的显著性水平α值有0.01、0.05、0.1。

在电子邮件营销的A/B测试中,依然推荐使用常用的显著性水平α值。但根据个人经验,如果严格执行上述标准,将α设置得较小,可能会让很多测试结果找不出统计学上的差异性,长期下来,会让大量的测试没有结论,打击测试团队的积极性。因此,在要求不高的情况下,将显著性水平α设置成0.2或0.3,也是完全可以接受的。

八、A/B测试总结报告

当通过一组测试,发现某个变量对改善指标有比较明显的影响时,应将相关测试数据和检验过程发送给相关部门的负责人,并请示测试方案是否可以向总体进行推广应用。此外,对A/B测试结果应制作成月度報告,在全公司范围内进行展示。这样做的好处是,一方面可以展示测试成果,突显测试团队的价值,争取到更多的资源;另一方面可以使公司的其他部门快速获取A/B测试经验,加快业务推进;最后,还可以营造一种测试文化,吸纳更多的测试创意。需要注意的是,通过样本测试发现的有益方法,在向总体应用时,有时会表现得并未像测试那样好,导致这个问题的原因有很多,如抽样是否做到足够随机、改善指标是否有周期性、是否存在测试方案外的其他关键影响因素等。

参考文献:

[1]金勇进,杜子芳,蒋妍.《抽样技术》(第四版)[M].北京:中国人民大学出版社,2015.

[2]贾俊平.《统计学》(第六版)[M].北京:中国人民大学出版社,2015.

作者简介:

杨山山(1982.4-  ),男,汉族,辽宁省大连市普兰店,中国人民大学在职研究生,研究方向:数理统计。