A/B实验避坑指南:为什么不建议开AABB实验

e24cf3550ee17128764ab61fbc8abe6e.gif

本文将针对日常开设 A/B 实验过程中一个不太合理的使用方法——AABB 实验进行详细的解释,告诉大家为什么不建议开 AABB 实验。

在开始之前,先来回顾一下“什么是 A/B 实验”,A/B 实验是针对想调研的问题,提供两种不同的备选解决方案,然后让一部分用户使用方案 A,另一部分用户使用方案 B,最终通过实验数据对比来确定最优方案。

489bdf3c9a41e1e084e181d94a5c22c1.png

什么是 AABB 实验

众所周知,AB 实验就是我们在总流量中分流出两组用户,一组使用原策略 A,一组使用新策略 B,比较两个策略的效果。

那么 AABB 实验是什么呢?

简单来说,在做实验的时候,会从总流量中分流出2个原策略组(A1、A2)和2个新策略组(B1、B2)。两个原策略组的实验配置一模一样,两个新策略组的配置也是一模一样的。实验者会综合比较 A1、A2、B1、B2 各组之间的指标差异(但其实多数实验者分析的方法并没有理论依据,文章后面会作出解释),这样的实验被称为 AABB 实验。

当然,也有实验者会分流出更多策略组(AAABBB、AAAABBBB 等),或者引入多个不同的新策略(AABBCCDD 实验等)。这些实验与 AABB 实验存在的问题趋同,本文中姑且先以 AABB 实验为主要分析对象。

325f74979253f4c60705d5084d6712ea.png

为啥总有人想开 AABB 实验

在进行了部分用户调研后,火山引擎 DataTester 团队发现,开设 AABB 实验的实验者通常想解决以下问题:

  • 验证用户分流是否“均匀”

部分实验者担心火山引擎 DataTester 平台的用户分流不科学,因此开设 AABB 实验,通过比较 A1与A2、B1与B2之间的实验指标差异,来检验用户分流是否合理。

理想状态下,如果用户分流是随机的,那么相同的策略组(A1和A2之间),在实验中检测出的指标差异应该很小 。这是用户对于实验结果指标的预期。这时候,假如实验结果中,A1、A2的指标出现很大的差异,甚至于呈现“显著”,实验者就会认为,是火山引擎 DataTester 后台的分流机制有问题。然而,这个判断是不科学的。为什么呢?请阅读下文中的错误 No.1。

  • 比较“AA组内差异”和“AB组间差异”

有的实验者认为:开设 AABB 实验,假如 AA 之间的实验结果差异很小,AB 之间的实验结果差异较大,那么在这种情况下,我的B策略应该就是有用的。这种想法本身没有问题,但是火山引擎 DataTester 的大部分指标提供了置信度功能,此时这种做法就显得有些画蛇添足了。详细的原因参考下文中错误 No.2和错误 No.4。

67592f6502343787113e10ca1fa0124e.png

AABB 实验到底错在哪儿

  • No.1 AA组内指标差异显著/置信并不代表分流不科学

A1、A2组之间的实验指标差异大,甚至出现显著,就能说明分流不科学吗?其实并不能。实际上,在对比 AA 组间指标差异时,以下的几种情况都是完全可能发生的:

1.AA组内的指标必然存在差异:虽然A1、A2两组所采用的策略完全一样,但进入A1、A2组的用户是完全随机的,这是随机抽取的两份样本,必然存在抽样误差,因此指标值不可能完全一样。

2.AA组内的指标差异可能还不小:如果样本中的用户量太少,或样本用户中存在极端个例(比如抽20个人算中国人的平均收入,抽样的时候抽到了农夫山泉董事长钟睒睒和月薪5000元的某人),那么在观察常见的均值等类型指标时,AA组内指标差异很可能还“不小”。

3.AA差异可能“显著”:在检验假设的过程中,我们容易犯的一类错误是:策略原本无用,但实验结果显示该策略有用。A1、A2组指标差异显著,正是对应了这类错误——其实两个策略是一样的,但是实验结果显示A2有用。在 A/B 实验中,这类错误出现的概率是5%。也就是说,假如你开100次 AA 实验,出现5次显著是合理的。如果 AA 实验指标差异呈现统计显著,也不过是一个概率问题,并不代表分流不科学。

综上,我们再来回顾一下什么是“统计显著”。顾名思义,这是一个统计术语,并不等同于指标在实际业务中发生了“显著变化”。更不能以此推论出“因为 AA 有差异,且 AA 的策略相同,所以分流结果有问题,AB 的结论也不可信”。

  • No.2 AABB实验中,统计指标更容易犯错

先来明确一点,目前火山引擎 DataTester 的统计学原理是双样本假设检验。也就是说,目前火山引擎 DataTester 的假设检验都是按照一个对照组(旧策略组A)和一个实验组(新策略组B)来设计的。在1次比较中,我们犯第一类错误的可能是5%。AABB 实验中,实际上有6组对比(排列组合一下:A1A2,A1B1,A1B2,A2B1,A2B2,B1B2)。组合增多,那么我们犯错的概率必然会增大。

如果实验者将实验组增多(AAABBB),或者参与实验的策略增多(ABCDE,AABBCCDD等多个新策略),那么排列组合就会更多了,犯错的概率就会越来越大。再加上在实验中,我们可能会观察多个指标,这样我们犯错的概率就更大了。

  • No.3 AABB实验一定程度上会影响实验的灵敏度

实验调用的样本量越多,实验结果就越灵敏。相较于A/B 实验(只设置一个A组和一个B组)来说,AABB 实验将实验组的数量增加到了4个。此时实验者不得不面临几个选择:

1.实验总流量不变,各实验组的流量减少一半,这会造成实验灵敏度下降;

2.单实验组的流量不变,将分流进实验的总体流量增加一倍,这意味着实验者可能会承担更大的风险(如果新策略造成负向影响,会有更多的用户受到影响);

3.也有一些聪明的实验者选择延长实验时长,让更多用户进入实验之中,但这会产生更多的时间成本。

既然如此,我们为什么不干脆把AABB实验合并为A/B实验呢?这样反而可以使得实验更灵敏、风险更小、结果更可靠。

  • No.4 p-value已经帮助我们比较了“AB差异”与“AA差异”

经过一些用户访谈,我们了解到大多数用户开设AABB实验的动机是:判断“ AB差异”是否高于“ AA 差异”,并以此辅助自己进行决策。事实上,仔细理解显著性水平的原理,我们就会发现,p-value 已经从更科学的角度帮助我们完成了这个任务:p-value 小于0.05,就是在保证了“ AB 差异”一定大于95%以上的“ AA 差异”。

既然 p-value 已经帮我们比较了“ AB 差异”与“ AA 差异”,我们为什么还要自己开设 AABB 实验进行比较呢?从某种程度上说,利用一次 AABB 实验来观察“ AB 差异”是否大于“ AA 差异”,仅仅是在浪费实验资源而已。

e7864251faa5e70731424b6ebb4d9773.png

核心:让险“可量化”且“可控”

总体来说,A/B 方法论的核心是要让风险“可量化”且“可控”,火山引擎DataTester 团队围绕这个目的使用假设检验范式设计了一整套系统。AABB 的实验设计作为一种客观存在,并没有什么绝对的对错,只是根据火山引擎的观察,对于绝大多数实验者和绝大多数业务场景,它的 ROI 是远远不足以让你选择的。

 

c5084b7bf63a5d88585fb32a476e4e33.gif

 

359189a0ec56fb5aee7b6514ace32cdc.jpeg

☞没有这些,别妄谈做 ChatGPT 了
☞被“误解”的游戏开发者
☞刚自愿降薪 40% 的库克,要被“踢出”苹果董事会了?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27673.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万亿模型训练需 1.7TB 存储,腾讯混元如何突破 GPU 极限?

Gartner 将生成式 AI 列为 2022 年五大影响力技术之一,MIT 科技评论也将 AI 合成数据列为 2022 年十大突破性技术之一,甚至将 Generative AI 称为是 AI 领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的 AIGC 模型有望成为新的技术…

华为起诉小米专利侵权,国家知识产权局已受理;iPhone 等设备电池正式涨价;FFmpeg 6.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

老黄:ChatGPT是AI届iPhone/ 马斯克半夜在推特修Bug/ 国内C刊:用聊天机器人不许隐瞒...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 新的一周开始啦。 最近正值开学季,日报君在此温馨提示:大家上班(上学)尽量早点儿出门哟~ 话说回来,咱们的科技新鲜事可不会堵车还是会照常奉上,不妨一起看看吧&a…

库克现身米哈游总部/ 周鸿祎演示360GPT/ 微软必应有广告了…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好,今天是3月30日星期四。 三月马上就过完了,在这个特殊的日子里,你不得…… 看看科技圈发生了哪些大事吗? 库克现身米哈游总部 真是双厨狂喜啊。 今天上午,库克突然现身…

直击WAIC:天壤连发三款大模型产品,为开发者打造全栈式支持体系

十分钟创建超越期待的大模型应用。即使是不懂AI和编程的小白,也可以轻松创建个性化的AI应用。这种技术的“平民化”无疑代表了AI的未来。 7月8日,在2023年的世界人工智能大会(WAIC)上,天壤隆重推出「天壤小白」大模型…

CA认证(Certificate Authority)

什么是CA认证? CA认证,即电子认证服务是指为电子签名相关各方提供真实性、可靠性验证的活动。证书颁发机构(CA, Certificate Authority)即颁发数字证书的机构。是负责发放和管理数字证书的权威机构,并作为电子商务交易…

CZTP认证是什么?零信任专家认证值不值得考?

(1)CZTP是什么? CZTP(Certified Zero Trust Professional)即零信任专家认证,这个认证目的是通过对零信任架构、身份管理与访问控制、软件定义边界、微隔离等方面多维度进行系统性学习;结合场景、案例、规划与部署等角…

PAP认证、CHAP认证

概述 实验目标 掌握PAP、chap认证方式的配置与验证方法 实验描述 路由器(带串口) 2 台V.35 线缆(DTE/DCE) 1 对 2技术分析 PPP 协议位于 OSI 七层模型的数据链路层,PPP 协议按照功能划分为两个子层:LCP…

如何拿到带名字的PA认证证书

最近很多小伙伴私信问到一个问题:参加了PA认证考试,但是考试通过后,下载的PA证书没有名字怎么办?不用紧张哦,按照下边的步骤操作一下,就可以获得带有自己名字的专属PA认证证书啦! 都看懂了吗&am…

PG 认证是什么认证?有用吗?

PostgreSQL 考试认证中心 (简称:PGCCC) 最近收到了许多小伙伴的私信提问考 pg 到底有没有用,首先来回答一下,先给个结论就是有用。但是我依然得提醒大家想要在工作中实际运用还是得多实践。 简单说一下 pg 是 postgreSQL 的简称&#xff0c…

Docker搭建ChatGPT

Docker搭建ChatGPT 镜像下载 docker pull pengzhile/pandora启动容器 docker run -e PANDORA_CLOUDcloud -e PANDORA_SERVER0.0.0.0:8899 -p 8899:8899 -d pengzhile/pandora查看Token https://chat.openai.com/api/auth/session 访问该链接,登录自己的openAI 账…

好用的画图软件

visio过期了,不想用了,随手搜了下有什么好用的画图软件 在线画图: 1、简单的各种形状画图 https://c.runoob.com/more/shapefly-diagram/ 2、画连接图 https://csacademy.com/app/graph_editor/ 3、画简单的函数图 https://www.desmos.co…

强大的开源跨平台绘图软件 - diagrams

1、diagrams 介绍 diagrams.net is open source, online, desktop and container deployable diagramming software diagrams 是一款开源的跨平台绘图软件,支持mac、linux、win等系统,功能强大,且支持在线、客户端及容器的应用,谓…

画笔Paint及模拟画图工具

画笔:Piant 学习Piant的时候我记得当时学习Python的海龟作图的时候就写过奥运五环,没想到在Java也能实现。 想看python的奥运五环参照:奥运五环 package 狂神说__Paint;import java.awt.*;public class TestPaint {public static void main(…

超赞的五款绘图软件

前段时间准备比较设计,论文里需要配很多流程图,关系图等等的类型的图表,用比较擅长excel做了一下结果效果都不太好,我觉得给我的论文拉分了,所以就在网上找了一些大家推荐的绘图软件做,大概了解了几款&…

QPainter绘图

QPainter 提供了高度优化的功能来完成大多数绘图 GUI 程序所需的工作。它可以绘制从简单的线条到复杂的形状(如馅饼和弦)的所有内容。它还可以绘制对齐的文本和像素图。通常,它在“自然”坐标系中绘制,但它也可以进行视图和世界变…

八个热门绘图软件

很多刚刚开始学习或刚工作的设计专业新人,遇到的棘手问题就是找不到趁手的设计软件,也不知道如何加强操作。这篇文章我就来给大家分享八个windows系统可用的八个热门绘图软件供大家挑选。 Pixso——一款国内出品的矢量设计软件 作为本土研发的设计软件…

电子电气架构——测试工具:CANoe快速入门

我是穿拖鞋的汉子,魔都中坚持长期主义的工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 人不该过分自省,这样使他变得软弱,理智的做法只有做很小的决定时才有效,至于改变人生的事情,你必须冒险.意义非凡的事情总是碰巧发生,只有不重要的事,才有…

增加Google服务包 索尼Xperia Z1台版ROM刷机攻略

Z1确实不错,很有索尼的味道。特别是拍照界面,点开之后就是熟悉的界面,连点开相机开机的声音,也和索尼相机一模一样。用了一天下来,整体非常不错,在我心中,Z1这样的机器才能真正的称的上是我大索…