ABtest 和置信度相关,进行 AB 测试的时候样本量要如何选取?
AB 测试与置信度紧密相连,置信度体现了我们对测试结果的信任程度。
首先,要理解置信度的概念。比如我们设置置信度为 95%,这意味着如果我们重复进行多次 AB 测试,有 95% 的情况下得到的结果是可靠的,即真实的差异确实存在于 A 组和 B 组之间。
样本量的选取取决于多个因素。一是基础指标的方差。如果指标的方差较大,比如用户停留时间这个指标,不同用户之间差异巨大,那么就需要更大的样本量来准确估计差异。例如,对于一个网站,用户停留时间可能从几秒到几个小时不等,其方差较大。
二是预期的提升幅度。如果我们预期新策略(B 组)相对旧策略(A 组)只有微小的提升,比如转化率从 10% 提升到 10.5%,那么就需要较大的样本量才能检测出这种细微差异。相反,如果预期提升幅度较大,如从 10% 提升到 20%,相对较小的样本量可能就能发现差异。
三是测试的风险容忍度。如果对错误结论的容忍度较低,比如在医疗领域的药物测试或者金融领域的高风险投资策略测试,就需要更高的置信度(如 99%)和相应更大的样本量。