A/B Test给我的三个哲学启发
本文摘要:订阅专栏撤销订阅 人人都是产品主管内容运营团队62992710许多互联网公司都会以A/B Test的形式来进行产品决策——通过展示A方案和B方案,通过最完结果来判断哪一个方案更好。本文笔者将与我们分享自己关于这种决策方式的一些考虑。A/B Test,这是如今互联网行
订阅专栏撤销订阅 人人都是产品主管内容运营团队

6299

27

10

许多互联网公司都会以A/B Test的形式来进行产品决策——通过展示A方案和B方案,通过最完结果来判断哪一个方案更好。本文笔者将与我们分享自己关于这种决策方式的一些考虑。

A/B Test,这是如今互联网行业开发中常用的方法。它的做法很简略,某个问题假如有A和B两个方案,却无法抉择哪一个更好。那么不要争论,直接投入出产进行测试,把用户分红两群(划分规范可所以时间、地域、消费能力等等各种因素,但要样本足够大,足够有代表性),分别展示A方案和B方案,通过最完结果来判断哪一个方案更好。

这看起来简略粗犷,可是一种适当有用的方法。据说:今天头条就很多使用A/B Test来进行产品决策,所以迭代速度很快,功率也很高。不过,今天我想换个角度,谈谈A/B Test给我的哲学启发。

我触摸A/B Test是许多年前,那时分A/B Test的概念还没有盛行,当时我乃至没传闻过这个概念。可是,这无妨碍我用它的思维来解决问题。

当时我们开发的体系里的单据管理页面有个“大一统”查找框,设计初衷很好,期望用户“一站式”查找到想看的内容。

可是,单据的属性太多,原有体系的设计又很糟糕,用户在查找框输入信息之后,程序要对所有属性进行逐一匹配检索,查询的功率特别低。假如遇上多个用户同时查询,体系根本就失掉呼应了。这个问题让客户十分不满,诉苦声此起彼伏。

我们在细心分析了用户的查找行为之后发现:用户查找时,很多输入的只有三个属性——客户代码、日期、订单编号。

这三个属性的特征很显着,匹配检索也能够专门优化,速度会大大提高。所以,改善方案也很简略:收到用户提交的查找请求时,先判断一下是否这三个属性,假如是就走专门优化的渠道。假如检索不到则弹出另外一个界面,引导用户进行“完好查找”。

据测试:这个方案很有用,呼应速度提高很多,我们也十分有自信心。可是,临到要上线,却被事务(出售)给叫停了。他们的理由也很充沛:这样改动看起来有道理,可是客户现已习惯了本来的逻辑,行为成果会变化(“你怎么知道我的大客户没有特殊习惯呢?”)。并且,这个行业的客户大多专注于生意,文化水平不高,最怕的就是体系改了要从头习气。这种改动肯定不会受用户欢迎。

一边是体系的运转压力和技能人员的职责心,一边是出售描述的客户的惯性阻力。两边看起来都有道理,究竟应该怎么抉择?

当时我有了A/B Test的模糊主见——不进行全体硬切换,让不同的用户走不同的逻辑,乃至可以动态调整大客户的查找逻辑,假如客户不满意随时复原。好说歹说,终于说服了出售,可以上线测试。

测试成果显示:绝大部分客户都满意改善之后的查找逻辑,能感知到速度大大提高,即便有少数客户感觉怪异。可是耐心加以解释,比照了常用查找的体现之后,他们都比较情愿“花一点时间学习和习气”。所以,最终,这次改善的成果适当令人满意。

这是A/B Test给我的第一个启发:

在解决问题之前,假如有多种方案需要抉择,极可能每种方案都有理由,都有支撑的声音,并且理由紧密完好,声音铿锵有力。自说自话,总是能无懈可击。可是,评价决策的最终规范不该当是这些理由和声音,而是实践的成果。

看看我们周围,有没有数热烈的文章在解释世界,在把某种抉择描绘得无比英明。可是,支撑真实世界运转的其实不是这些炫意图解释,而是现实的逻辑。所以,也才会有“不看广告看疗效”的说法。

扯远点说,卡尔·波普尔很早就发现:许多炫意图理论之所以让人入神,是因为它们“历来都不可能犯错”,即便出了错也能无懈可击。

波普尔认为:这些理论其实不是科学的理论,因为科学理论包括有必要有犯错的风险,只有不断通过“触目惊心”的事实查验,理论的科学性才干得到证明。

许多人大约会记得,在前些年小米喜气洋洋的时分,有没有数专家在声称。小米把握了“互联网方法论”,当然能在手机市场上所向无敌,这是致胜的法宝。

然后,小米出货量下滑,而oppo和vivo崛起了,于是我们的口风瞬间转变,“线下胜过线上”、“互联网企业做实业根基不稳”的论调开始大行其道。之后小米改变了下跌的趋势,为小米树碑立传的声音又开始躲起来。

依照IDC最新的数据:2019年1季度,主攻线下的oppo手机出货量呈现了6%的下跌,不知道这些专家又要说什么……

不过不管他们说什么,都无法改变一个事实。那就是,假如你只看这些专家的说法,必定会有和许多人相同的困惑——“看书看来了许多道理,自己仍然不会做决策”。

上一年我看了《命运攸关的选择:1940-1941年间改变世界的十个决策》,也很有这方面的意思。比如:关于不列颠之战,如今许多人都在讴歌丘吉尔毫不屈从的坚决意志。但作者要分析的是:当时丘吉尔面对的情境是怎样的?他是怎么决策的?假如他不选择抗战,成果大约会是什么样?…… 有必要招认,这样的分析视角,会给人更多的启发和收获。

回头来说A/B Test,仍是许多年前,仍是在体系开发中,我又遇到过另外一件事。

那时分,客户往往需要整批提交格局化的数据。依照日常经历,这种数据显然应当用Excel的格局最适宜。用户依照我们给定的模板把数据分门别类录入好,终究在阅读器里上传到作业体系即可。

可是这样操作也会有问题。Excel文件的交互能力比较弱,假如一次提交几百上千条记载,某一条又出了错,很难奉告精确奉告客户过错的方位和类型,修正起来也很不便利。

另外,许多客户是一天提交一次Excel的,假如在Excel制造的过程当中电脑死机或者文件损坏,极可能半途而废,之前的工作成果要悉数从头来过。

在尝试了几回优化上传界面之后,我们抉择完全废弃之前的做法,直接给客户提供一个客户端软件。客户登录之后,可以逐一录入数据,数据录入时软件会直接和效劳器交互进行验证-保存,犯错了则即时提示。

这种软件开发起来不难,但也很好玩,里边有不少设计需要花点心思,我们也乐在其间。开发完之后,我们自信心满满地介绍给出售同事,期望他们能推进客户使用。在我们看来,这是三赢的局势:技能没必要重复查错,客户没必要重复提交,出售没必要重复交流。

不出意外,出售同事第一反响就是质疑,因为客户现已习惯了原本的操作,让他们改变操作习惯,本钱太高。不过,因为之前的查找栏改善的例子,质疑并没有成为对立,我们约好这个改善也来实地测试一番。

这次的测试成果大大出乎我们的意料,绝大部分客户在试用新软件之后都不满意,又回到老的Excel的操作方式上来。“怎样,说了客户的操作习惯不是那么容易改变的吧!” 这一次,获胜的是出售同事了。

可是我们其实不满意,一方面,对自己开发的软件有足够的自信心(和期望),另外一方面,“用户操作习惯不那么容易改变”其实不能成为万金油,总有那么强的说服力。

但是,A/B Test的成果又清楚证明,确实我们想错了。那么,问题究竟出在哪里呢?

不甘心的技能人员走出办公室,深化到客户的使用场景去调查,本相才浮出水面:本来,开发时犯了想当然的过错。

开发人员的电脑配置比较好,开发使用的是.Net技能框架,而客户的电脑并没有那么新潮,许多仍然在用Windows XP,并没有自带.Net Framework,这就让许多客户望而生畏了。即便知道要下载.Net Framework,又面对版本问题,国内各种下载站绑缚其它软件的问题。装置好之后,因为电脑配置低,程序运转起来呼应也很缓慢,反而不如Excel爽性利落。

找到问题之后就好办了。把软件原本的操作逻辑都保留,.Net完成都废掉,以原生的Visual Basic重写。虽然这样有点折腾,新时代的程序员大多不会写VB了,要从头学习,但成果对错常好的。从头下发的版本在客户的机器上跑得很快,乃至比Excel还要快,迅速赢得了客户的信赖,也在出售同事那里找回了体面。

这是A/B Test给我的第二个启发:

即便一个问题有了最终答案,也不能单纯相信最终答案所依托的那种解释,因为它多是不对的。虽然这些解释能无懈可击,但也只是顺理成章,或者流于表面。换句话说,A/B Test这样的测试只能证明“哪一种方案好”,而不能说明“为何好”,不能代替人工的分析。要认清本相,我们不该忘掉详尽探寻其间的理由。

我的第三个例子不是来自自己,而是来自朋友。

近年,A/B Test现已大为盛行,会用A/B Test的人也愈来愈多。对应的,情愿评论的人也愈来愈多了。一次吃饭时,有位朋友跟我说了这么个故事。

这个朋友开发的用户登录界面里边临一个问题:输下手机号接收短信验证码的界面,是否需要用户先输入图形验证码?假如不要求,则这个界面可能被滥用,心怀叵测的人可以使用这个界面给其别人发送废物骚扰信息。假如要求,正常的用户流程又不行顺畅,随便多了一重阻拦。

因为单纯凭评论无法抉择,他们选用了A/B Test。最终发现:如今大约黑产肆虐,羊毛党猖獗,假如要求输入图形验证码,每天的无效和风险登录次数少了很多,正常用户的登录次数却没有太大的动摇。从成果来看,组织图形验证码显然是一个更好的选择。

听完这个故事,我现场给他展示了一下登录流程。在输下手机号,满心期待可以等来短信之前,硬生生弹出一个“请输入图形验证码”的界面。

我问他:“你作为普通用户,你的体验好吗?”

他老老实实答复说:“欠好。”

所以,从概率上看,A/B Test的成果确实防住了很大一部分黑产、羊毛党,但假如你不幸处于“不需要防住”的那一部分,对你来说这个成果就十分悲惨剧了。

你说这个问题确实存在,可是要怎么改善A/B Test呢?

实践上,所有这类决策都会有决策本钱。依照80-20原则,你抓住了80%,就抛弃了20%。何况现实中未必处处都是80-20,有时分你抓住的只是60%,抛弃的是40%,乃至抓住的是55%,抛弃的是45%。虽然从总数上看是不错的,但实践本钱太高,抛弃的太多。

那么,怎么解决这种问题呢?

解决这种问题其实不是靠A/B Test,而需要输入更多的信息。

假如你的登录界面只输入一个手机号,让用户收一个短信验证码,就是把A/B Test做出花来,也没有什么用。假如你输入的不只有用户的手机号,还有用户的IP、阅读器版本等等信息,假如是在专属App里登录,还可以加上Wi-Fi网络、地舆方位、设备ID等等信息……

你的信息更丰厚了,决策逻辑就能够更杂乱,可以调整的空间也更大。假如要做A/B Test也能够做更详尽,可以从多层次、多角度来做A/B Test。

这位朋友听了之后若有所思,回头找安全、风控等等行业的朋友聊了一圈,得到了更完好的方案。再过几个月我去看他们的体系,现已根本做到了“对正常用户勿打扰,对风险用户主动验证”的水平,用户体验比之前粗犷弹出图形验证码好了很多。

实践上,这是我前些年考虑的成果,也是A/B Test给我的第三个启发:

A/B Test不是全能的,不能迷信。

它只能教我们怎么从给定的选项中择优,但许多时分选项本身的层面不对,或者粒度太粗。所以,即便做了A/B Test,成果也未必尽善尽美。许多时分我们需要跳出来,输入更多的信息,或者改善A/B的粒度,往往能取得更抱负的成果。

假如你有印象大约会记得:,公安部在北京、天津、深圳、杭州四个城市推广了个性化车牌。个性化车牌有6位,前三位可以由用户自行选择数字或者字母。这种给予极大自在的政策,一经推出就引发民众热捧。不幸的是,政策公布之后还不到两周,就因为“技能原因”叫停了。

据媒体报导:这项政策被叫停的真正原因在于,许多用户自定的车牌有争议,比如BWM-001、FBI-001、USA-911、PLA-081之类,乃至还有SEX-001等等“出格”现象,被认为“不契合精力文明建设”。后来还有不少“专家”引用这个例子,证明“社会现阶段不能太过自在,不然就会出各种幺蛾子,影响安稳”之类的结论。

在我看来,这恰恰是个典型的因为粒度过粗、层次不妥的例子。假如只是粗豪规则“用户可以选择/不选择个性化车牌”,对“个性化车牌中不容许哪些内容”又没有任何详尽的规则,成果当然八门五花,出人意料。

拿它当例子来证明“社会不能太过自在,不然就会影响安稳”,就更是匪夷所思——自在历来都是和规则相联络的,没有什么正派的人主张社会需要毫无约束的自在。

体系智能与否,体现在它能动用多少信息,对多少状况进行详尽的分析,给出对应的处理,而不是一两条简略的if-else万事。

相同的道理,解决问题水平的凹凸,也体现在问题的解决者可以动用多少信息,事前制定多少分门别类的规则,事后依据多少详尽的分析,而不是简略粗豪得到一个结论了事。

终究做个简略总结:

A/B Test很好,可以用来戳穿各种貌似合理的奇谈怪论。 做A/B Test不只是技能上做点事情就完了,没有详尽仔细的分析,仍是可能走弯路。 要想给出更优的解决方案,其实不能完全依赖A/B Test,输入更多的信息,把握更多的核算能力,才可能得到更优的解决方案。

 

作者:余晟,微信大众号:余晟认为(ID:yurii-says)

来历:mp.weixin.qq/s/VVS49gO9M8gMgWQ73KdKvA

本文由@余晟认为 授权发布于人人都是产品主管,未经答应,禁止转载。

题图来自Unspalsh, 基于CC0协议。


人人都是产品主管(woshipm)是以产品主管、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位效劳产品人和运营人,建立9年举行在线讲座500+期,线下分享会300+场,产品主管大会、运营大会20+场,掩盖北上广深杭成都等15个城市,内行业有较高的影响力和知名度。平台集合了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一同生长。