跳到主要内容
MENU-ICON.PNG.

 

x
优化 Knowledge Base

运行实验多久了

本文将帮助您:
  • 改善您的规划 by learning 样本大小如何影响 experiment duration
  • 使用 优化's 样本大小计算器计算时间长度 可能会有一个实验 根据样本大小运行
  • 选择一个 基线转换率 最小可检测效果 对于您的规划估计

你有一个关于如何改善你的理论 兑换率,你建立了你的测试,你’准备好打开它。恭喜!那么,你需要多长时间等你知道你的理论是否正确?传统上,你 不得不弄清楚你需要的总样本大小, 将其除以您的日常流量,然后停止测试您计算的精确样本大小。

优化’s 统计发动机 删除 要求 to calculate the 您提前需要的示例大小,因为它 收集证据,因为您的测试运行以声明显着的结果,并尽可能快速准确地向您展示获奖者和失败者。

即便如此, 如果您了解,您可以更准确地计划 样本大小如何影响实验长度和 can estimate 实验总长提前。继续阅读,学习如何或前往我们的 优化 Academy course on planning and prioritizing experiments.

 

 

样本大小的重要性

即使你不再了 需要 要计算样本大小作为实验运行,您应该理解为什么在做出决策时具有健康的样本大小是重要的。

健康的样本大小是准确统计结论的核心以及我们创造的原因的强烈动机 统计发动机。当您的测试具有低转换率的给定样本大小时,这意味着还没有足够的证据来得出结论,您所看到的效果是由于基线与变异而不是机会之间的实际差异。在统计术语中,您的测试受到了动力。

下表估计 您需要准确地检测不同级别的样本量 改进 (转换率的相对差异)跨越不同的基线转换率 based on Optimizely’s 样本大小计算器 and 统计引擎。它需要 fewer visitors 检测转换率的巨大差异—看任何行以查看它是如何工作的。

这同样是真的 高的er 基线转换速率:随着基线转换率升高,您需要更小的样本量来测量 改进。 从上到下阅读每列,看看这是如何工作的。

STATS引擎让您评估结果,因为它们进来并避免在具有低的测试中做出决定(a“weak conclusion”), without 在运行测试之前致力于预定的样本尺寸。您希望避免根据支持的测试进行业务决策,因为 当您实现变体时,您认为的任何改进都不太可能搁置 result in 花宝贵的资源和实现 no benefit.

当你正在运行实验时,优化 向您估算您需要多少访客 reach 统计上 significant results.

attsig-remaining.png

当您的变化达到统计学意义时大于您所需的显着性水平(默认情况下,90%),优化将声明赢家或失败者的变化。当您的变化达到重要性时,您可以停止测试。

如果您的一些变化尚未达到意义, 决定您是否能够等待达到意义或使用所需的访客人数 样本大小计算器 计算你需要多少访客,如果 改进 percentage changes.

你会看到一个 high 改进 百分比 with a 统计学意义 of 0% 如果您的实验受到动力,并且没有足够的访客。随着更多访客遇到您的变化 并转换,你会开始看到 统计学意义 增加,因为优化是收集证据,以宣布获奖者和输家。

即使使用统计发动机到位,您也可能仍然想知道您可以期待您的实验需要多长时间 计划。本文将通过此过程。

优化's 样本大小计算器

使用 our 样本大小计算器 确定您需要多少流量 对于您的转换率实验。它是 有助于提前估算实验长度,这有助于规划。 Also, 其他计算器 account for 传统的固定地平线测试 will not give you an accurate 估计优化’s test duration.

基于两个输入(基线转换率和最小可检测效果),计算器 返回所需的示例大小 为您的原始和您的变化来满足您的统计目标。你也可以改变 统计意义,应该匹配 the 统计学意义 您选择优化项目的级别。您为计算器输入的值对于每个实验和目标都是唯一的。

这里’计算器看起来像什么。为了帮助您使用计算器进行转换率测试,我们’ll走过每个输入 下面更详细。

Sample-size-calculator.png


伟大,我’M完成计算样本大小!现在,运行我的实验需要多长时间?

您将将示例大小转换为估计的天数,以进行两种计算运行实验:

计算#1

    Sample size
×  实验中的变化数量
   ---------------------------------------------------------------- ---------
   您需要的访客总数

计算#2

    您需要的访客总数
÷  每天的平均访客人数
   ---------------------------------------------------------------- -------------- --------------
   估计运行实验的天数

If 您正在尝试计算实验长度,但您的网站流量低,查看了一些策略 测试提示 low-traffic sites.

基线转换率

基线转换率是当前的转换率 for the page you’测试。转换率是数量 换算 除以游客总数。

您通常可以使用来自数据的数据计算基线转换速率 分析平台如Google Analytics或以前的优化实验。如果您没有以前的优化实验,则可以运行一个 监督运动: 一个优化的实验,只有原始的,没有变化,以测量基线转换。

最小可检测效果(MDE)

这是一个简单的想法,但很长的解释。如果你玩的话 样本大小计算器,它可能会 很快变得清晰,然后你可以跳过这段长的解释。

在你之后 在计算器中输入了基线转换率,您需要决定基线(电梯有多大或小的电梯)有多少变化 detect. You’LL需要减少流量来检测大变化 和更多的流量来检测少量变化。优化 结果页面和样本大小计算器将 相对于基线转换率的测量变化。

展示,让’S使用具有20%基线转换率和5%MDE的示例。基于这些值, your experiment 当变异的潜在转换率实际上是19%或21%(20%,+/- 5%时,将能够检测到80%的时间 × 20%)。如果您尝试检测小于5%的差异,则考虑测试 underpowered.

权力是一种衡量您可以区分您从无到不同的差异的程度。所以 运行不动力的测试是相当于无法强烈宣布的 您的变化是赢得还是失去。

记住,你的实验 主要指标 确定是否有变化 "wins" or "loses"—it tracks how your 更改会影响您的访客’行为。了解有关主要指标的更多信息 in 小学和次要指标和监测目标.

优化,效果 (or lift) is labeled 改进 on the 结果页面。效果(或升降机) 总是呈现为亲属,不是绝对的。

如果将基线转换速率和MDE输入示例大小计算器, 计算器将告诉您原始的样本大小 每个变化。计算器的默认设置是 建议的水平用于您的实验统计学意义。你可以 change the 统计学意义 value according to the 正确的风险水平 for your experiment.

您还可以使用MDE来基准测试测试的时间以及您可能会看到的影响。这种方法可以帮助 尽管提供指导方针 测试的不确定性,因此您可以根据预期的投资回报进行实验优先考虑实验。了解更多,阅读"使用 MDE优先考虑测试."

统计学意义

统计意义回答了这个问题,“我的实验结果有多大可能会说我实际上没有赢家’t?” We usually consider 90%的统计显着性。 另一种说同样的方式是我们将接受10%的假阳性率,结果不是真实的(100% - 10%= 90%)。

样品大小计算器默认为90%的统计显着性,这通常是如何运行实验。您可以增加或减少实验的统计显着性水平,具体取决于您的实验 这 right level of risk for you.

您可以更改统计显着性水平 优化用于宣布获奖者和失败者的实验 设置 > 先进的:

statsig-setting.png. 

优化使用1尾或2尾测试吗?

在A / B测试中,1尾测试告诉您是否可以识别获胜者。一种 2-tailed test 检查两个方向上的统计显着性。以前,优化使用的1次尾测试,因为我们相信给您可行的业务结果,但我们现在可以更准确地为您解决这个问题 虚假发现率控制.

对您的正确风险程度

当你运行一个 实验,您可能需要考虑 迅速运行实验之间的权衡和减少 结果中不准确的机会(误报和假阴性)。实验 通常以90%的统计显着性运行。您可以根据不准确的风险程度调整此阈值 you can accept.

在一天结束时,您应该了解基于您的实验制定时间敏感的业务决策时准确的数据和可用数据之间的权衡。 For example, imagine 您的实验需要大量的样本大小来达到统计学意义,但您需要在未来2周内进行业务决策。根据您的流量水平,您的测试可能不会 在该时间框架内达到统计学意义。你做什么工作?如果您的组织认为假阳性的影响(不正确地称之为胜利者) is low, you may decide to decrease the 统计学意义,以便更快地宣布宣布。

为什么没有’我的实验达到了意义吗?

一般来说,较小的差异需要更长时间才能检测 因为您需要更多数据来确认优化观察实际, 统计学意义差异 rather than 转换模式随机变化。

如果你的实验 一直在运行相当多的时间,你仍然需要更独特的访客来达到重要意义,这可能是因为优化是观察分散的数据—随着时间的推移不稳定和不一致的转换。如果您的数据具有很高的变化,则在显示出显着性之前,统计引擎将需要更多的数据。

当您测量像视频播放或电子邮件时的冲动驱动的目标时,数据往往会更加分散,因为 访客行为往往是不稳定的,并且受到许多小冲动的影响。但是,当您正在衡量涉及仔细称重决策的目标时, 如高价值购买,您将看到更稳定,可变数据较少。优化’S统计引擎自动计算可变性并相应调整。

这里's an example of data variability:

 

低可变性数据: 蓝线显示数据集 基线转换率从3.2%变化到4.8%。如果变异将这种度量提高到5%,我们可以说明它很重要。

高可变性数据: 绿线显示数据集,其基线转换率在2%和6%之间变化。如果变型将此度量提高至5%,我们将需要更多数据来调用显着的结果 因为5%的落在基线转换范围内。

访客部分

正如我们所提到的,并非所有访客都表现得像您的普通游客,以及访客行为可以 affect 统计学意义。 For example, 测试弹出促销优惠的实验可能 generate positive lift  全面的,但是一个统计上的显着损失 移动设备上的访客,因为弹出窗口很难关闭小屏幕。

优化 允许您过滤结果,以便您可以看出某些访问者总体的访客是否与您的访客不同。这 is called 分割。通过分段,您可以发现能够帮助您运行更有效的实验的见解。继续我们 example, when you run similar 弹出促销的实验 在未来,您可能会排除 移动访客基于您的内容 learned.