本系列文章将深入探讨六个核心议题,构建数据分析师进行AB测试所需掌握的技巧体系。以下是本系列的首章内容:“AB测试及统计学原理简介”。
1. 什么是AB测试?
2. AB测试的统计学基础是什么?
3. 统计功效的意义何在?
4. 深入探讨:AB实验的时长及样本量如何抉择?
5. 如何精准分析AB实验结果?
6. AB实验中的常见注意事项。
在开始正题之前,让我们先来看一个引人入胜的案例。奥巴马竞选团队在当年竞选时,面临着一个关键决策:如何优化竞选页面以提高用户注册率和募捐金额。团队设计了六个各具特色的页面,但需要从中选择最优的一个。他们采取了AB测试的方法,在小范围内随机推送这些页面,并记录每个页面的用户注册率和募捐情况。
结果发现,其中一个页面的注册率达到了11.6%,相较于最初的8.26%有了显著的40.6%的提升,并且额外带来了约6,000万美元的捐款。通过这个案例,我们不难看出,仅凭定性的判断往往难以抉择出哪个页面表现最佳,而AB测试作为一种定量的实验方法,为我们的决策提供了有力的支持。
关于AB测试的进一步解释:
王晔博士对AB实验的定义如下:AB实验是为了验证新的产品交互设计、功能或策略、算法的效果而设计的一种实验方法。在相同的时间段内,将用户随机分组,一般分为对照组(未改变组)和实验组(经过优化的组),通过数据分析来评估优化前后的效果差异。
为了更好地理解这一概念,我们可以将其比喻为“交通”。路改造后,交通会通过设立路障的方式随机分配车辆行驶在两个不同方向的道路上,以此比较两个方向的交通流量和安全性。同样地,在互联网产品中,我们也可以切出一部分用户作为实验对象,将他们随机分为两组或多组,进行不同的策略或功能测试。
AB实验的核心价值在于降低风险和准确评估改动影响。在快速迭代的互联网行业中,如何减少错误尝试带来的损失以及准确评估每个改动对产品的影响至关重要。而AB测试正是一种有效的方法。
统计学原理的探讨:
AB实验的核心统计学原理是“假设检验”。假设检验是一种统计推断方法,用于判断样本与样本之间或样本与总体之间的差异是由抽样误差引起还是本质差异造成的。
举个例子来说明假设检验的基本思路:我们怀疑按钮从圆形改为正方形可以提高用户的人均点击数。因此我们设定原假设为“策略无效”,备择假设为“策略有效”。我们通过实验收集数据,如果发现实验组的点击数均值明显高于对照组,且这一差异落在了非红域(即小概率事件发生的区域),那么我们就有理由拒绝原假设,认为策略有效。
值得注意的是,假设检验可能存在两类错误:第一类错误是错误地拒绝了原假设(如误认为策略有效),第二类错误是错误地接受了原假设(如误认为策略无效)。在统计学中,我们用显著性水平(α)来衡量第一类错误的概率,用统计功效β来衡量第二类错误的概率。
显著性水平(α)的设定关系到我们愿意接受犯第一类错误的可能性。业界普遍将显著性水平设定为5%,意味着我们认为有95%的信心认为实验结果是可靠的。