数据驱动设计：如何用A/B测试提升用户体验

时间：2019-05-05 14:35:01 阅读：178 评论：0 收藏：0 [点我收藏+]

技术图片

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

作者 | [美]罗谢尔·肯，伊丽莎白F.邱吉尔

内容出自《数据驱动设计：A/B测试提升用户体验》一书

来源 | 大数据（ID：hzdashuju）

导读：设计师最关注的可能就是提供良好的用户体验。良好的业务指标应时时把用户考虑在内。当希望借助数据更好地了解用户时，面临的第一个问题是选择哪些用户进行数据收集。

通过高效的实验方法收集用户数据，将在用户行为多样性、相似性、差异性及设计对用户影响等方面获得大量洞察。实际上，实验是一种与用户对话的方法，能了解用户的想法。收集实验数据有助于落实“用户至上”的理念，并且在打造最佳体验的前提下进行设计决策。

A/B测试本质上是一种线上实验。它们的概念几乎相同，都是设置变量，并与对照组衡量比对。但久而久之，A/B测试形成了自己的一套与现有业务用语更加一致的表述。接着，我们将把业务中常见的概念与A/B测试专业术语进行对应，并额外介绍其他实用且重要的概念。

技术图片

本文将利用一个形象的比喻帮助阐述一些概念与场景。

我们邀请你扮演夏令营的拥有者。每年，你将迎接大约200名儿童，并将与他们一起远足，开展户外活动，一同进餐。由于夏令营的规模很大且活动丰富，一些营员的反馈也许不能代表整体营员的感受。

夏令营已运营了一些年头，每年都有一些老营员光顾，但这毕竟是在做生意，你希望能够持续吸引更多新成员。夏令营是一个循环往复的过程，这也解释了你为何希望采用新方式来改进夏令营的体验，进而提升你的业务。

01线上用户抽样

在冲向营地的比喻中，我们探讨了应如何分配小屋中的营员以达到测试的目标。这个部分对A/B测试来说极其关键。样本量很大时，即使实验分配有细小差异，也会干扰对照条件，导致混乱不可靠的实验结果。这是为何进行随机分配的原因。随机分配使得各组情况基本保持一致。

到目前为止，我们一直在谈论不同的条件。比如，实验组与对照组。A/B测试中，这些条件通常被称作测试单元。这与我们曾经介绍过的概念相同：测试单元指包含随机分配样本的各个体验组，基于不同的方法产生变化。

01用户队列与细分

当希望借助数据更好地了解用户时，面临的第一个问题是选择哪些用户进行数据收集。研究合适的用户群体非常重要，并将影响研究结果。

用户群体多种多样。将用户通过两种方式划分成不同的队列或进行细分，有助于根据不同的用户行为或动机获取不同的洞察。相比将用户整体当作一个大组，你能够通过这种方式观察到更多有价值的信息。

队列是一组拥有共同经历的用户群体。这种经历也许是基于时间的（同一时间注册产品或服务的用户）或由某些因素造成的（例如，毕业于2015年的学生）。

例如，许多人在1月开始使用你的产品及服务，也许是因为他们在圣诞节购买了手机。与其他时间加入的用户相比，这些用户在动机或在其他方面有所差异。回到夏令营的比喻，一组用户可能代表2016年夏季第一批营员。当时开展的活动类型以及营销宣传构建了夏令营的基调与营员的期待。

或者，你也可以基于人口统计因素等更加稳定的特征（例如，性别、年龄、国籍）或行为特征（例如，新用户、高级用户）将用户群体细分成不同群组。夏令营的细分方式也许是基于年龄或居住城市，比如纽约。营员的成长地点与年龄都有可能影响他们所热衷的营地活动类型。

现在，需要意识到，基于不同需求的不同分组对所提供的产品或体验可能产生不同的反应。

比如，据Coursera前任首席执行官John Ciancutti所述，在线课程学习网站Coursera在打造产品之初考虑了几种不同的用户群体：终身学习者、有经验的专业人士、缺乏经验的专业人士。不同用户的需求不同，他们通过不同方式使用产品，或多或少为Coursera产品买单。

当你思考A/B测试时，选取哪种用户队列或细分群体进行测试非常关键。集中对单一队列用户进行抽样有助于深入了解某特定用户群体所面临的特殊问题与需求。

比如，你决定关注其中一组用户，即2015年第一批加入夏令营的营员，而从其他相似营员中，也许能够获得更多有意义的洞察。比如，处于中学阶段、拥有相似家庭背景的营员。因为在2015年你只接收中学生，主要是纽约附近的郊区居民。

但假如你只对此用户队列进行研究，数据结果将无法适用于其他类型的潜在营员，比如家庭营员（假如改造成了家庭营）、高中营员，或来自西海岸、其他国家的营员，因为他们的信息没在初始用户队列中体现。

如你所知，A/B测试的样本将决定哪些洞察可以进行大范围推广，所以应推广那些从有代表性的用户样本中得到的洞察。

技术图片

02人口统计信息

有时，你希望基于更稳定的特征对用户进行细分，比如人口统计特征。以下问题将帮助你确定需要了解的信息类型，以及如何收集此类信息：

可基于用户收集哪些基础统计信息（假设你已通过注册流程中的问题了解了你的用户，或想通过购买用户报告了解那些尚未成为你的用户的目标受众）？
居住地点、年龄、性别、种族、身体是否健全，以及收入等信息会如何影响与新的体验相关的用户需求？
用户有哪些行为习惯？时间或地点信息会对这些行为产生哪些影响？
用户的现有设备有哪些？
用户的价值观和产品期望是什么？
用户对技术、设备和互联网的接受度与经验如何？对于使用新技术或体验的态度是什么？

当你试图了解更多用户信息时，并非所有这些问题都是相关的，但希望你可以了解到，收集的信息与数据将如何影响你的设计。随着时间的推移和用户群体的不断发展与增长，你需要不断适应和调整已有经验。正因如此，了解用户、收集用户数据将是一个长期而持续的过程。

03新用户与现有用户

在大多数产品及设计决策中，你可能希望在现有用户的基础上，拓展新用户。数据可以帮助你更多地了解现有用户与未来潜在用户。从新用户还是现有用户中进行抽样是A/B测试中一个至关重要的考虑因素。

现有用户是拥有先前产品或服务使用经验的群体。因为如此，他们才带着先入为主的观念想象你的产品或服务。这些已习得的行为会影响他们的思考方式、期待，以及他们如何使用你的产品或服务的新功能，这些都是针对现有用户进行新功能测试时需要考虑的重要因素。

相比现有用户，新用户没有相关的产品使用经验。当你试图拓展业务，你更希望了解新用户，因为他们不会受现有产品体验的影响。

为了生动阐述新用户与现有用户之间的差异，假定你计划在淡季调整营地布局，将盥洗室调整到离餐厅更近的位置。之前的布局如图2-5所示。

技术图片

▲图2-5：旧的布局图。老营员已经养成步行至小木屋外侧街道，再步行至盥洗室的习惯

位置调整后你会发现，住在3号木屋的老营员步行路程增加了，而新营员选择了线路更短的直线抵达盥洗室。一切都在情理之中，他们基于已有经验选择线路。返营的老营员需学习新的路线，而之前的行为习惯根深蒂固，他们总不由自主地选择这条道路，无论什么情况。

相比之下，新营员由于不受盥洗室最初位置与旧有习惯的干扰，能够轻易找出抵达盥洗室的最近路线。图2-6体现了这些行为差异。

技术图片

▲图2-6：新老营员前往盥洗室的路线。老营员的已有习惯影响了他们的路线选择，即使小木屋位置有了变动。新营员不受影响，会选择一条更接近直线的路线

这类已习得的行为习惯将引起A/B测试偏差，因此要注意，参与测试的用户是哪种类型。

规划实验时间时也要考虑“学习效应”。谷歌的Jon Wiley分享了他的相关经验。产品体验调整后，用户需要一段时间克服已习得的经验或行为带来的干扰。他说：

当我们进行了一些视觉上或任何明显的调整时，因为学习效应曲线，我们会采用更长的实验周期。我们知道，当用户受到全新界面或设计带来的冲击时，会产生难以预料的反应及行为。

几年前在设计改版时，我们做了一个重大的视觉调整。A/B测试的结果一次次告诉我们，此类改变，需要很长的学习时间。这意味着改动后的最初一段时间，我们的数据指标将非常混乱，之后会趋于稳定。

这是因为，一个人需要花费几倍时间来适应新的体验，形成所期望的正常或更好的行为习惯。不同改动对应的适应时间也不同。较小的调整，学习曲线对应的时间更短。

我曾经是2010年搜索引擎第一次重大视觉调整的首席设计师之一。作为设计师，我对自己的设计非常有信心。然而，指标结果表明，新设计的接受度并不是很好。这让我完全不能接受。于是我开始寻找其中的问题，与分析师和工程师紧密合作，深入研究这些数据。

因为学习效应，第一件事就是提出问题：“为什么我们不看看高频用户的数据呢？就是那些经常使用谷歌搜索、大量输入问题、进行频繁搜索的用户。他们的数据结果如何？”

结果发现，高频用户组的数据有很多差异。我们所担心的几个部分的数据相对好很多。这是我们得到的第一个线索——也许一切都与学习效应有关。我们决定延长实验时间。然后发现，相当长一段时间后，低频用户和中频用户的行为开始逐渐与高频用户保持一致。

这是一个非常清晰的案例，Jon积极地定义探索设计方案的衡量过程及结果。当设计师对数据结果感到好奇，这会促使他们更积极地推进了解他们试图影响的用户潜在行为背后的真实原因。

除了习得的行为习惯效应，你也需要考虑现有用户及潜在用户之间人口统计特征方面的差异。比如，现有用户相对潜在用户可能存在统计偏差。

假如你的最初方案强烈吸引着技术群体及年轻受众，那么很有可能，现有用户样本中年轻用户及技术用户的占比将超过总体的平均水平。那么你需要好好思考一下，假如你的原始用户正是一年内你所期望的群体类型，那么你会继续以技术群体作为目标用户，还是希望得到更多主流用户的青睐，减少技术用户的份额？

与此类似，当你考虑吸收新用户时，你认为未来的用户人口统计特征是什么样的？正如之前提到过，你希望确保你所了解的用户能够代表未来的潜在用户。

我们介绍了3个关于A/B测试用户样本的注意事项：你希望在实验结果中得到哪些用户队列或细分用户的信息，哪些人口统计的考量是互相关联的，你对哪类用户更感兴趣，新用户还是现有用户？

你应当在每一次A/B测试前重新审视这三个问题。同时花些时间考虑前期的用户抽样以确保从正确的受众中收集到合适的洞察，这是A/B测试有效进行的关键。

技术图片

02指标：A/B测试的因变量

目前为止，我们介绍了一些A/B测试从用户总体中抽样的考量事项，同时简要介绍了测试单元的概念。接下来，我们将回顾一下A/B测试中的因变量。因变量指观察到的自变量所引起的结果。本节中，我们希望更为具体地了解A/B测试中的因变量通常有哪些。

一般来说，度量（measure）指观察、捕捉与计算得到的信息。比如，度量可能是网站某个页面的用户访问量，或成功完成某个流程的人数。

度量指标（metric）指一种预设的评估基准，具有一定的商业价值。指标在某种意义上是若干度量比对后的结果，通常类似于比率。使用指标是因为它能够提供令人信服的信息，以了解业务或设计的健康状况。采集率、留存率与活跃率都是指标。

指标是A/B测试中的因变量，即你所衡量的、用于判定测试结果的变量。比如，冲向营地中，指标是时间，尤其指从起始位置到营地花费的时间。

通常情况下，指标帮助你度量与量化设计或产品改变产生的影响，因而衡量用户行为变化导致的成功或失败。主要通过企业关键指标来观察这些改变。

关键指标（key metric）是业务的核心，是希望提升的核心指标，是设计是否成功的判定因素。它应以驱动业务成功的指标为基准——你可以认为它是一种与成功相关的用户行为的衡量方法。

通常来说，你希望增加一些对业务至关重要的指标（比如用户留存率或转化率，即采取预期行动的用户占比），那么这些指标便决定你的设计成功与否。然而在开展测试以及进行结果分析时，你应当考虑如何定义更多新的业务指标。这些指标将数据、设计原则与业务紧密结合在一起。

一个例子来自在线学习平台Coursera。Coursera采用一种证书驱动的商业模式，即从用户完成课程后的证书（资质证书）购买费用中赚钱。关键指标之一是售卖的证书数量，或证书购买带来的收入。

你也许对此表示怀疑且理由充分：Coursera的课程通常以13周为一个周期，衡量设计改动对指标的影响将花费很长时间，这不现实。于是，John Ciancutti详细阐述了Coursera确定其他指标的过程，这些指标可直接监测用户行为造成的影响：

Coursera的商业模式是驱动用户购买证书，购买的提前是完成课程，所以我们希望用户进行课程学习，于是划分了课程模块，用户完成的课程模块数量与完成度存在一些关联。在此之前，我们还发现了令人有所启发的两件事。

一是：他们是否通过了首次测验？这很重要。我们可以提前提供教材与课程内容，以便他们更早测验，因为学习者会得到更多投资。

二是：他们会分两到三次完成课程。这是出于一种承诺。假如你计划分两天戒烟，你会想：“我不打算第三天仍然继续，虽然两天完成很困难。但我不想全部的努力付之东流。”

通过这两种方式，你可以将整体业务目标拆分成几个部分进行测试，使团队更快地进行迭代。

技术图片

假如不能轻松确认关键指标造成的影响，则可选择代理指标。这类指标能够衡量用户行为，与相关联的关键指标一样，能够影响用户行为。

代理指标比关键指标或主导指标更易衡量你已成功改变了用户行为。为了选择合适的代理指标，需寻找与关键指标密切相关的指标，同时思考，哪些迹象能够及早暗示用户已逐渐产生了预期行为。

借助一些关键指标，可以立即得到答案，例如，如果衡量收入，每次课程结束时，你就能确认用户是否有购买行为。

由此可以发现，A/B测试很大一部分的设计工作量集中在衡量指标的选择上，即追踪哪些数据类型，如何进行决策？

你所处的业务领域将影响对业务整体健康程度与成功标准的衡量。业务健康状况是一个极其复杂的概念，包含由大量不同类型的度量编织成的一条“业务底线”以定义业务的可行性。

类似指标包括工程分析（服务交付与稳健性指标）、业务分析指标（关注于盈亏平衡及商业影响评估）及市场与业务竞争力分析。

最终，无论你关注一组还是多组迥然不同的用户，当今市场的动态质量表明作为设计师，我们应关注用户的行为。虽然你的工作可能主要集中在用户体验设计上，但它怎样影响业务状况的核心指标值得你再三思考。你的工作与其他度量指标的关联取决于三件事：

所处业务类型。
收入模型。
现有业务的成熟度情况。

你的答案将决定你期望收集的数据类型。

这里不再深入探讨不同因素如何影响所应考虑的指标等问题，但这是一个好的开始，询问和了解你所在的企业使用了哪些指标。时间或金钱相关的指标通常与业务紧密相关。比如，你也许对用户“参与度”感兴趣。

活跃用户（AU）是用户参与度的一个基本度量指标，了解产品或服务日均或月度用户使用量。业务报告通常包含日活跃用户量（DAU）与月活跃用户量（MAU）的汇总情况，假如业务复杂，这部分数据可能会包含许多不同类别的信息。对于维基百科而言，日活跃用户可能指当日贡献了一篇以上内容的用户。

据华尔街日报所述，Twitter认定活跃用户的标准是每月登录一次。对社交平台而言，活跃用户指30天内至少登录一次的用户。对商业平台而言，一周中至少两天浏览平台信息的活跃度即看作成功。对于新闻媒体，每天查看一次的活跃度就足够。

作为设计师，最关注的可能就是提供良好的用户体验。良好的业务指标应时时把用户考虑在内。比如，假如你的产品体验非常糟糕，你将不会期望用户频繁使用这种糟糕的产品。

我们支持你不断质疑那些与良好用户体验相悖的指标——停下来并评估是否需要更换指标，如果需要，考虑提供一种更能体现用户体验与长期激励用户流程的指标。记住，一项成功的业务应始终优先考虑向用户提供出色的体验。

技术图片

03探察分组差异

当谈到实验基础时，我们提到，假如要判断改动是否产生了效果，需先观察因变量是否有差异。但如何得知这种差异是真正的关键？假如第2组超越其他组提前30秒抵达营地，是否足以证明差异的效果，然后购买更多指南针？这是一个统计显著性问题。

我们希望站在设计角度思考这些统计概念应承担的角色，以帮助你了解并体会具有统计思维的成员在A/B测试中的诸多考虑。我们认为，了解一些术语表述将有助于你参与显著性与功效的相关讨论，使你能够在设计A/B测试以了解真实效果时提出问题。

统计显著性是一种度量结果差异的随机概率的方法。通过度量测试结果的显著性，能够判定观察到的实验差异到底源于指标的随机变化，还是实验改动产生的有意义的结果。因此需要判定彼此间因果关系的可能性或概率。

尽管通常在测试结束时计算统计显著性，你依然需要考虑能否在A/B测试的设计流程中进行度量。功效（power）指准确检测到实验组与对照组之间真实差异的统计显著性结果的概率。你期望所设计的测试足以检测到分组之间真实存在的差异。

不同于统计显著性计算，功效计算在测试开展前进行。两者的差异在于：功效预测能否在实验中观察到差异，而统计显著性指出是否在实验样本观察中发现了差异。

你可以把这个想象成，在一个设计不佳的测试中，你戴着一副度数过低不足以矫正视力的镜片：如果没有足够的提示，你甚至难以辨别猫与狗的差异，最终你所看到的一切都将是模糊不清且不可信的。

技术图片

这两个概念的细节与功效计算不再详述。下面介绍一些用于测试需求的功效的影响因素。

01预设差异大小

除了期望了解不同分组是否存在差异外，另一个显而易见的问题是，这些差异有多大？效应值（effect size）指对照组与实验组之间的差异大小。统计显著性指明是否存在差异，而效应值量化差异的大小。

科学研究中，效应大通常比效应小更有意义。这对产品设计也同样适用，由于设计改动能对体验或关键指标产生重大影响，因此坚持实践效应值大的设计改动能够获得更多收益。

在产品设计中，我们将期望观察到的测试条件与控制条件之间的最小差异定义为最小检测效应（MDE），以此作为A/B测试的成功标准。MDE取决于一些业务因素，比如，至少多大的指标差异才能引起收益增长。

直观来说，测试与改动实践应通过某种方式获得“回报”，比如通过具有显著意义的指标改动，这是业务健康发展与成功的关键，也是对用户体验的巨大提升。你也可以基于之前的A/B测试定义MDE的大小，以往观测到的效应大小可以作为未来实验效应值定义的一个参考。

测试的统计功效取决于最小检测效应。较大的差异更容易被捕捉到。比如，假定部分营员可搭乘的士去往山顶，则不同分组抵达山顶的时间将产生巨大差异。相较而言，MDE较小时，则需要功效更强的实验以有效捕捉差异。

02抽取充足的样本量

基于定义的最小检测效应，你可以定义测试的功效大小。样本量是影响测试功效的一项因素。

假设1名营员说他们在盥洗室后面看到一只臭鼬，你比较可能会认为他们把松鼠或浣熊当作了臭鼬。假如5名营员都这样说呢？你将更加倾向于相信这件事，为他们的安全隐隐担忧。假如50名营员都这样说呢？

你将更加坚信附近出现了臭鼬，以至于担心营员在往返盥洗室的路上再次偶遇它们，而安排营员暂时使用教员盥洗室。

再一个例子。假设许多营员病了，4个分组中每组仅有1名营员参与徒步。也许你能观察到分组间的差异，但对基于小样本量进行决策表示怀疑。

假如其中1名营员速度更快，如何确定不是他的身高因素或更强的运动能力引起的？假如每组有40名营员参与徒步，情况又如何？假设所有分组一同徒步，由于样本量充足，假如第4组最快登顶，你将更有把握就此进行决策。

分组差异的效果将趋同，40人赶超其他120名营员的结果将会比1名营员赶超3人更具说服力。

这种直觉背后的原则在于，样本量越大，你对响应的结果就越认可。对结果而言，样本量越大，效应更明显：假如样本量较大，即使是时间或幸福感之类的细微差异，也具有很强的说服力。反之，假如仅有一名或若干营员样本，该结果将不具有说服力。

技术图片

03显著性水平

P值代表观察到的随机因素产生的差异概率。比如，当我们观察到P值=0.01，说明观察到的，由随机因素引起的而非分组有意义的差异引起的差异的概率为1%。P值多小才足够，这取决于你的期望。

在许多社会实验领域，比如心理学，任何P值<0.05（5%）都被看作具有统计显著性，即观察到的差异不是随机因素引发的结果。换种说法，即观察到的数据的效应存在5%的概率是由数据中随机产生的干扰。在其他领域，比如物理学，仅当P值<0.000 000 3时才被看作具有统计显著性。

这个数值对于产品设计，甚至最大的互联网网站的设计调整而言，都有些不切实际。

A/B测试的一部分设计工作是提前确定测试结果所具有的置信程度。比如，能否接受测试结果5%的错误概率？这是绝大多数互联网团队的标准置信范围。10%呢？20%呢？直至达到团队成员均可接受的程度为止。

放宽置信程度的主要原因是，风险越大，统计功效越小。功效越小说明样本量越小，意味着实际上可能进行了耗时更短、成本更小的测试，因为有时你需要更快地从少量用户中获取数据。

如你所知，A/B测试的设计需权衡具体情况中的各种因素。但是，测试产生的统计数据仅是获取用户信息的其中一个重要环节。针对目标提出充分的假设同样重要。

关于作者：

Rochelle King，Spotify产品设计创意全球副总裁，擅于融合运用设计与数据，并且曾担任一些技术企业的负责人。

Elizabeth Churchill博士，人机交互（HCI）领域专家，曾在许多硅谷企业中主导以用户为核心的研究，近专注于设计和开发者工具方面的研究。

Caitlin Tan，Spotify的用户研究员，毕业于麻省理工学院。

本文摘编自《数据驱动设计：A/B测试提升用户体验》，经出版方授权发布。