外观
如何分析您的实验结果
本文档旨在帮助所有用户更好地解读实验结果页,从而做出更明智的决策。
背景
本文档聚焦于如何科学地解读 AB 实验结果,在我们平台上可获取的数据,以及如何全面评估实验效果。为了确保数据的准确性和稳定性,我们一般建议实验至少运行 7 天(一个完整的工作周期)。
建议按照以下顺序逐步阅读和分析实验结果:
1、阅读「建议」
2、检查累计曝光量
3、通过基础分析解析指标值
建议
建议部分根据以下规则为您提供实验摘要。但最终决策还需结合具体的指标细节和业务逻辑等多方面因素综合考虑。规则如下:
累计曝光量
累积曝光量显示了每个实验组每天获得的累积独立用户曝光量,您可以通过该图表了解用户曝光量是否符合预期。将鼠标悬停在图表上可以看到更详细的信息。右侧的信息显示了截至今天(或实验结束日期)的累积曝光用户数。
当出现样本比例不匹配(SRM)时,图中会出现红色数据点。这是由于实验组的累积曝光量比例与实验设置页面上的分配比例不符所导致的。您可以将鼠标悬停在红色数据点上,查看 SRM 的原因和解决方案。
基础分析
虽然您可以通过建议和累积曝光量来初步了解实验结果,但如果您想要进行更详细和科学的分析,可以使用基础分析功能:
① 切换小组
可将第一个处理组设为默认比较组,将对照组设为默认基准组。您也可以同时比较多个处理组与对照组。
② 时间筛选
您可以筛选时间范围来查看结果。需要注意的是,起始时间与实验开始时间一致,无法修改。
③ 指标列表
您可以通过指标列表进行筛选、搜索或其他操作。
④ 指标值
箱型图展示了相对差异和置信水平。
- 相对差异 =(实验组指标值 - 对照组指标值)/ 对照组指标值
- 置信区间是一个值的范围,它的上下限由两个相对差异值界定。这个范围很可能包含了两个实验组的真实相对差异,但这个真实差异是未知的。置信水平指的是抽取多个随机样本时,这个置信区间包含真实群体参数的概率或确定性的百分比。换句话说,“我们有 95%的把握(置信水平)这些样本(置信区间)大多数都包含了真实的总体参数”。
箱型图中不同颜色的含义:
- 绿色: 相对差异显著为正
- 红色: 相对差异显著为负
- 灰色: 相对差异不显著
此外,将鼠标悬停在箱型图上还可以看到更多指标值信息:
- 实验组和对照组的指标值
- p 值
- 基于贝叶斯推断的优胜概率
- 点击"详情"可查看指标的详细信息,以及指标值的趋势
⑤ 趋势图
您可以观察非累积指标的相对差异的趋势图。点击趋势图还可以查看指标趋势波动的详细信息,如下图所示:
⑥ 切换指标
您可以切换对比当前两组的不同指标。
⑦ P-Value
A/B 实验本质上是一种假设检验。原假设是两个变量之间没有统计学意义的差异。备择假设是与原假设相反的假设。P 值是当原假设为真时,样本观测结果或者更极端结果出现的概率。我们使用 P 值来判断是否有足够的证据来拒绝原假设。
当原假设成立时,P 值很小,意味着实验结果出现的概率非常小,因此我们可以拒绝原假设。
以抛硬币为例来解释:
- 实验结果:连续抛 5 次,全是正面
- 原假设:硬币是公平的,正反面概率各 50%
- 备择假设:硬币是不公平的
- 如果原假设成立,也就是硬币是公平的,那么我们观察到的结果出现的概率只有 p=0.03<0.05,这是一个非常小的概率事件。由于 p<0.05,我们有足够的证据拒绝原假设。当 P 值小于显著性水平(默认为 0.05)时,就认为对照组和处理组之间没有差异。在结果页中,指标值的箱型图会根据显著性用不同颜色区分,绿色表示显著为正,红色表示显著为负。
8 最小可检测效应(MDE)
最小可检测效应(MDE)是在实验条件下可以有效检测到的指标的相对差异。一旦 MDE 小于设定的阈值(默认为 1%),右侧就会出现蓝色勾号,表示样本量已经足够。此时显著差异是最可靠的,可作为实验决策的依据。
累积数据和非累积数据
在基础分析中,显示的相对差异是基于累积数据计算的。在指标详情卡片中,我们还提供了基于累积数据和非累积数据两种方式的指标相对差异趋势。
这里是一些统计学上的定义,以平均指标为例:
- 非累积数据:分子是按天统计的用户行为数据之和,分母是去重后的用户数,例如:人均观看时长。
- 累积数据:分子是多天用户行为数据的累积和,分母是去重后的用户数。
更多功能
显著性水平设置
显著性水平 (α)
显著性水平,也称为 alpha 或 α,是一种衡量证据力度的指标。如果 p 值小于显著性水平,我们可以拒绝原假设,并得出结果有统计学显著性。显著性水平是在原假设为真的情况下错误地拒绝它的概率。例如,显著性水平为 0.05 表示有 5% 的风险会得出存在差异的结论,但实际上并没有差异。默认的显著性水平通常设为 5%。
统计功效 (1-β)
统计功效是不犯第二类错误的概率。例如,一项研究的统计功效为 80% 意味着,当真实存在差异时,该研究有 80% 的概率检测出显著性结果。统计功效的默认值通常设为 80%。
多重检验校正
多重检验校正可调整从多重统计测试中得出的 p 值,以纠正假阳性的发生。在 A/B 测试中,假阳性是错误的结果,即两个测试组之间不存在的影响或差异被错误地识别为显著。