A/B测试能五杀超神?巧用A/B测试让转化率提升200%

969 阅读11分钟

每一个运营大牛都是隐藏的五杀超神达人,可是你见过用A/B测试方法来实现转化率的五杀超神吗?标题开路,段子先行。切入正题前,先来一波A/B测试必备段子:

%e5%be%ae%e4%bf%a1%e5%af%b9%e8%af%9d%e6%a1%86

并非面试官机车,而是抓住了问题的本质:任何实验都要遵循一个基本原则即控制变量,A/B 测试亦是如此。开发新功能与业绩提升之间会遇到各种外部因素影响(季节性、活动、广告流量等)。其实,大多数人没有真正弄懂 A/B 测试究竟是什么。今天我们就以亚洲民俗共享平台 AsiaYo 为例来剖析 A/B 测试试验该怎么做,助你在转化率提升方面五杀超神!

%e5%8a%9f%e8%83%bd%e6%80%a7%e5%81%87%e8%ae%be%e4%b8%8e%e8%a1%8c%e4%b8%ba%e5%bf%83%e7%90%86%e5%81%87%e8%ae%be%e7%9a%84%e5%8c%ba%e5%88%ab

一杀:试验假设

试验假设是 A/B 测试方法的灵魂精神,降低外部因素干扰最有效的方法就是再A/B测试试验加上假设检验。不过,千万不要天真以为,改按钮颜色变成红橙黄绿蓝靛紫色,就是试验假设。实际上,好的试验假设,都是基于使用者行为与心理脉络发展而成;而不太理想的试验假设,往往是基于功能性的假设。看完下面的案例,您就会明白两者之间的巨大差异:

好的行为心理,通常是从观察真实使用者行为反应所诞生。而行为心理假设,最主要好处有:

➤ 行为心理假设通常可在各种平台或场景中重现并被不断重复利用,但功能性假设通常较难重制于各种情境;

➤ 行为心理假设通常有故事性,能增强团队成员的认同感,但功能性会引起一堆论战;

➤ 行为心理假设会让你有不断试错的勇气 (i.e., 失败也许是 UI 设计/流程的问题,而不是假设错了),而功能性假设你一失败可能再也不会尝试;

➤ 行为心理假设在 UI/UI Flow 设计思考范围更宽广、影响力更大,但功能性假设只能就事论事,受限较多。

二杀:统计假设检验

谈完试验假设,接下来简单聊一下 A/B 测试与统计假设检验的渊源。从统计学来说,假设检验会设立虚无假设(H0) 与 对立假设(H1) ,而对立假设通常是你想要的结果,虚无假设则是相反结果。简单来说,统计假设检验简单来说是想办法”拒绝” 虚无假设来证实对立假设。

在无法普查所有使用者的状况下,需要透过统计与抽样来计算对立假设成立与否。但抽样的风险是,有可能发生弃真错误与取伪错误。

%e7%bb%9f%e8%ae%a1%e9%aa%8c%e8%af%81%e5%81%87%e8%ae%be%e8%a1%a8%e6%a0%bc

举个例子,以小明检测艾滋病来说,小明希望证明的当然是没有艾滋病(对立假设 H1)、而虚无假设(H0)则为有艾滋病。

➤ 弃真错误:小明实际有艾滋病,但检测结果错误说他没艾滋病。

➤ 取伪错误:小明实际没艾滋病,但检测结果错误说他有艾滋病。

弃真错误发生的机率( α )与取伪错误(β)发生机率是相对的,想缩小弃真错误机率,就会增加取伪错误机率;反之亦然。所以,决策时需要明确想要避免哪种错误风险,而唯一降低两种错误风险就是把样本数扩大(越接近普查越准确)。

ps.弃真错误发生的机率 = α , 1- α 即是常见的信心水平 (Confident Level),通常至少会抓 95% 为显著。

%e6%ad%a3%e6%80%81%e5%88%86%e5%b8%83%e5%9b%be

再回到主题 A/B 测试来说,基本上目标都是提升转化率(CVR)。所以我们想证明的对立假设应该是转化率有提升。在这种状况下,应该要降低哪种错误风险?

弃真错误:实际上转化率没优化,但错误解读为有优化。

取伪错误:实际上转化率有优化,但错误解读为无优化。

从 AsiaYo 用户产品团队角度来说,由于目标是优化转化率,我们想尽量避免型一错误(转化率没优化甚至变差,却推出给使用者)。也就是型一错误发生机率 (α) 越低越好(confindent level 越高越好)。

三杀:试验设计与资源分配

试验设计不外乎要注意:如何选择正确受试群、降低其他变因影响、设立明确目标等,但对大多数初创公司来说,更重要的是资源如何配置。除非你是工具型 App、或是往 10 -> 100 迈进的路途,绝大多数 1 -> 10 之类的初创公司(尤其是 transaction model),样本数往往非常不够用。所以初创公司 A/B 测试常碰到最大的问题以及有限资源会是样本数,我们希望 Fail Early and Often (越快失败 = 越快成功), 但受限于使用者人数大小,怎么估算样本数、试验要跑多久,是一件非常重要的事。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e4%b8%89

有效运用你超有限的资源,却又能快速试错验证假设是一门高深艺术,那如何决定每个试验所需样本数呢?计算所需样本数需要三个要素:

➤ 原始转化率 (Baseline Conversion Rate)

➤ 最小改善程度 (Minimum Detectable Effect, MDE)

➤ 置信区间 (Confident Level, 1-α)

这时候问题来了,除了原始转化率外,要如何决定 MDE 以及 Confident Level?这时还需要考虑另外两个要素限制:

➤ 平均试验失败机率:以 AsiaYo 过往经验来说,平均四次试验成功一次算中规中矩,也就是试验成功机率大约 25%。

➤ 期望的平均试验运行周期:试验运行周期如能越短,失败就越快(成功也越快)

有了上述五种要素,我们可以得出下表(所有数字都被随机数调过,仅供参考)。透过以下表格可以决定在 「不同情境 + 有限资源」 下,应该设立多高的 confident level 以及 MDE,以利样本数、试验运行周期的估算。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e5%9b%9b

四杀:试验分析

试验结果分析最常见的第一大雷不外乎是…

%e5%bf%bd%e7%95%a5%e8%bf%9e%e7%bb%ad%e6%80%a7

什么是连续性脉络?通常使用者的各种行为都有相关性,而 A/B测试方法最忌只看单一步骤指标。

举例来说,如果是更改测试 订房 Call to Action 按钮文字,指针只看「按钮点击率」是否有显著提高,但没有同时观察「成交率」是否有提升。最常见的是第一步点击率提高,但最终成交率却是不变甚至降低了(原因是用巧妙手法去诱使使用者点击,但并没有真正满足使用者需求)。除了前面步骤的转化率,更要同步观测最终步骤的转化率变化

第二常见的大忌是…

%e5%bf%bd%e7%95%a5%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4

没跑统计置信区间请别说过你做过 A/B 测试,请使用网络上提供的工具 A/B测试calculator (大多状况应该都是跑单尾置信区间)。

五杀:行动方案

最后一阶段就是试验结果揭晓!但后续行动要做什么?以下分享一些 AsiaYo 碰到的实际案例:

❶ 试验结果显著与不显著

试验假设:旅宿页面加强急迫感,会提醒使用者有订不到房的可能性与压力,进而提升转化率;

试验设计:挑选 Web user 做试验,试验组的 UI 设计新增:如房间只剩 < N 间房,我们会加上最后一/几间房的提醒;

试验结果:试验组 比 控制组 申请订房点击率没有显著差异- 下单转化率试验组好上 20% (confident level: 99%)

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e4%ba%94

PC 版急迫感 UI

如果我们只单看订房按钮点击率,很有可能就会停止此试验,但在同步观察最终指标(下单转转化率)状况下,我们发现试验其实是成功的。

而在 Web 取得成功案例后,我们认为同样的心理行为脉络一样可以在 Mobile Web 重制,于是在 Mobile Web 设计了类似的第二个试验。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e5%85%ad

急迫感试验 on Mobile Web

出乎意料的,在 Mobile Web 试验结果并不显著。经过一番讨论,我们认为应该是在手机上此版试验 UI 并不够明显吸引使用者注意。于是我们再尝试了第二版 Mobile Web 试验,并设计了许多不同 UI 呈现方式。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e4%b8%83%e5%89%af%e6%9c%ac

4 种不同 UI 设计

这次的试验结果则是有两个试验组分别达到 95%、99% confident level,下单转化率相比控制组优化了 24%。(右上角的 UI 获胜!)

会有上述讨论,很重要的是原先假设是根据使用者的心理行为脉络、而非功能性假设。如果是功能性假设我们很有可能就会停止试验。

❷ 反向显著

并不是每一次A/B测试试验最终都导向预期假设,往往会证明原版本效果更加。在这里举一个极端的例子,我们曾设计了新版 Mobile Web 搜寻结果的 UI ,控制组是列表版、而试验组是大图版(我们认为房间图片增大,能看得更清楚会更吸引使用者并能辅助订房决策)。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e5%85%ab

结果试验结果大出我们意料之外,呈现反向显著(控制组显著地比试验组好)。后续成员们在探讨原因认为是使用者在手机上想要一次能浏览多间民宿,而大图版反而造成浏览困难。反向显著有时会是让你找到其他 insight 的好帮手!它能够帮助你洞见真实存在的用户需求,排除一些主观臆断的伪需求。

❸ 不显著但依旧 100% Release

试验结果,是一种决策依据,并不是决策本身。即使试验结果不显著,也存在最后决议 release 功能的情况。这个案例是原本单一旅宿的 Search Bar 在页面上方,而不是房间上方,我们认为这样造成日期搜索使用动很不方便,所以试验组设计将 Search Bar 下移至房间上方。

%e4%ba%94%e6%9d%80-%e8%a1%a8%e6%a0%bc%e4%b9%9d

试验组 Search Bar 位置下移

验结果转化率并没有显著提升(目前我们的 MDE 最低为 15%),团队成员讨论后,找了约十多位内部受访者访谈、测试易用性,发现高达 9 成受访者都觉得 Search Bar 在房间上方使用上比较顺手,虽然没有显著提升转化率,但我们认为易用性是有提高的,于是最终我们决议依旧上线此版本。

以上都是初创公司在有限资源(样本数与时间)状况下的情境。如果你的使用者非常多,恭喜你不用受样本所苦,但也有其他注意要点:

☑ 你选择的受试族群是否有偏误吗, 建议可以做 A/A 测试;

☑ 如想要大幅降低 Type I Error ,除了降低样本数也可多重制几次相同试验、并小幅度增大受试族群;

☑ 有些脉络可能是影响长期行为,要注意 lagging metrics;

☑ 可以保留一些 holdback groups ,供未来检视;

☑ 推荐阅读书籍 Designing with data;

任何方法都存在边界问题,A/B 测试也存在边界。虽然A/B测试有可能是目前人类所能掌握的最高级的科学工具,但是并不是所有场景都是做 A/B 测试,比如:

⚑ 0 -> 1 阶段,还在求生存寻找 PMF 时,不用浪费时间 A/B测试,怎么活下去才是重点;

⚑ 与既有 funnel 脱钩的新功能 / Flow ;

⚑ 策略、战略方向必须要做的功能;

⚑ 人家不依……就是要做这个功能

A/B 测试只是一个科学工具,但是如何用好A/B测试工具优化产品决策,却是一项需要不断精进的艺术,是一项需要不断尝试的科学探索。

(本文由吆喝科技独家编译、整理,部分内容有删改)