火山引擎是如何用A/B测试承载其数据驱动理念的?

导语:

字节跳动在to B领域又有了新动作。

今天上午,字节跳动的to B品牌火山引擎召开发布会,首次对外亮相。算上巨量引擎和飞书,字节跳动集齐了to B的三驾马车。

火山引擎的诞生源于客户需求的驱动。2017年,某手机厂商找到字节跳动,希望对浏览器和应用商店的算法做一些优化,字节跳动略为迟疑地接下了这一“分外之事”,却意外获得了良好效果。

这次合作启发了字节跳动:9年来,字节跳动凭借着直面用户的理念、数据驱动的工作模式获得了健康持续的增长,如果把这背后沉淀出的技术能力对外输出,能够对行业产生巨大的价值。

2019年底,火山引擎业务团队正式组建。但数据驱动也讲了数年,如何把理念更具体、务实地传递出去?火山引擎落实到了一款产品上——A/B测试。

“很多企业讲数据驱动,但真正能把理念实践起来的企业却很少,而A/B测试就是践行数据驱动理念最有代表性的产品。”火山引擎总经理谭待告诉「甲子光年」。

A/B测试是什么?它是如何承载火山引擎的数据驱动理念的?

科学决策,复利增长

2007年,谷歌产品经理丹·西罗克向公司请假,去为当时身为参议员的奥巴马在芝加哥举行的总统竞选活动助力。

为了提升捐助额,西罗克在竞选网页做了一个A/B测试:

1、针对竞选页面,团队选择了4种按钮(下图左)和6种media(下图右),其中前3种media是图片,后3种media是视频;

火山引擎是如何用A/B测试承载其数据驱动理念的?

奥巴马团队竞选页面的4*6排列组合方式

2、把登录网站的用户随机分配到这些排列不同的页面上,通常各页面的访问人数相等;

3、对相关数据进行监视,一段时间后,挑选效果好的组合保留和进一步优化。

最终的测试结果是:LEARN MORE和那张黑白色的家庭照片的组合是最受欢迎的。这一组合为奥巴马队额外获得了三百万的支持者,增加了5700万美元的捐款额。

火山引擎是如何用A/B测试承载其数据驱动理念的?

4种按钮和6种media的A/B测试结果

这就是A/B测试,又被称为小流量实验。针对想改进的某个功能/UI/逻辑策略等,提供两种或多种不同的备选方案,从总体用户中抽取一小部分,随机地将抽取出的流量分配给不同方案,最终结合一定的统计方法,通过实验数据对比来确定最优方案。

A/B测试最早起源于科研领域,后来,硅谷的互联网公司引入了A/B实验的思想,广泛应用于“业务增长”中。

谷歌每年运行超过1万次A/B测试;

Facebook的CEO扎克伯格会亲自参与众多A/B测试的实施;

领英(LinkedIn)将A/B测试作为产品研发上线过程中的基本流程;

Booking.com通过大量试验实现超过同行业2~3倍的转化率;

亚马逊称自己为“A/B测试公司”,在前期推广信用卡广告时凭借A/B测试带来了年化上亿美元的营收增长。

为什么大批互联网头部企业都将A/B测试奉为圭臬?

首先,A/B测试使企业真正实现了科学决策。

很多决策往往很难依靠个人的洞察力来“拍脑袋”决定,只能依靠数据说话。微软必应(bing)曾经做过一个A/B测试的优化,仅仅对搜索结果内容的颜色做了几行代码的调整,肉眼几乎无法看出区别,但用户点击率大幅提高,广告收益增加了1000多万美元。

A/B测试给企业带来的另一大价值是规避风险。

火山引擎A/B测试产品架构师李想告诉「甲子光年」,产品迭代往往需要一定的间隔期,一旦方案做错了,失去的不仅是一个方案,还有半个或一个月的时间窗口。其次,如果某个方案会对企业业务带来负面影响,A/B测试能够将其“扼杀在摇篮”。

科学决策和风险规避最终确保了企业的每个决策都能带来正向收益,持续循环下,公司将实现复利式增长。

2010年起,随着以美团、滴滴、字节跳动为代表的中国本土互联网公司崛起,A/B测试西风东渐,逐渐成为企业决策的一项重要工具。

为了更方便地进行A/B测试,国内的大型互联网公司也像谷歌一样建立了自己的A/B测试平台,比如滴滴阿波罗、今日头条Libra、美团点评Gemini。

其中,张一鸣可以说是A/B测试的头号拥趸。2016年在接受媒体采访时张一鸣以取名举例,多数团队有了好名字之后会说,“这个名字很好,干杯!”而张一鸣会说,再做个AB测试吧,哪怕你99.9%正确,测一下又有什么关系呢?

放眼整个互联网圈,A/B测试几乎成为了优秀企业的标配。

火山引擎是如何用A/B测试承载其数据驱动理念的?

成功使用A/B测试的企业代表,图片来自《A/B测试,创新始于试验》一书

不过,尽管A/B测试的价值显而易见,但仍然局限在头部互联网圈子,在更广泛的企业圈层,国内的普及程度并不高。

供给缺失,需求紧迫

为什么A/B测试止于互联网头部企业?第一个原因是存在较高的技术壁垒。

分流是A/B测试的基础门槛,企业需要建立靠谱的A/B测试平台,保证科学的流量分割、流量层直接的正交互斥,使得实验不受干扰。

比如一个在生活中常见的现象:从下表看出,尽管两个学院男生录取率都高于女生,但综合考虑两个学院的情况时,男生的总体录取率却要低于女生。

火山引擎是如何用A/B测试承载其数据驱动理念的?

这种现象在统计学中被称为辛普森悖论[1]。如果实验组和对照组的样本流量分布不一致,就可能产生辛普森悖论。

不科学的分流在企业中也很常见。李想告诉「甲子光年」,在做A/B测试时,有的客户会用手机尾号对用户分流,但人们都喜欢尾数为6和8的号码,号码并非平均分布;有的客户会在小米和华为的应用商店做分流,但两家的调性本来就不同。

其次,A/B实验平台的指标设计和解读、置信度的统计方法,需要投入的研发资源也很高。如果实验做不好,可能会带来南辕北辙的结果。

这种高技术门槛也就导致了高成本,只有少部分头部互联网企业能够成为A/B测试的应用者。非互联网企业和其他中小互联网企业虽然可以使用第三方工具来代替自建,但市面上有实力的服务商寥寥无几。

一边是供给的缺失,另一边却是需求的紧迫。

在抖音、快手为代表的短视频平台之后,新的流量平台尚未形成。智能汽车或许是新的流量终端,但要想成规模估计也是2025年之后的事情。

流量红利见顶、流量越来越贵,过去跑马圈地、粗放式经营的时代一去不复返,企业普遍陷入“增长的烦恼”。

而A/B测试正好能满足这样的增长需求,这也是火山引擎看到的市场机遇。

从“独乐乐”到“众乐乐”

和很多创业公司先做产品可行性验证(mvp)再大规模推向市场不同的是,火山引擎的A/B测试早已在字节跳动旗下的今日头条、抖音等产品中走完了产品验证阶段。

早在2012年成立之初,张一鸣就在内部使用A/B测试,2016年升级、进化为内部广泛使用的平台——Libra,2018年开始服务少数外部的种子客户,2020年通过火山引擎正式对外商业化。

今年4月26日,在火山引擎举办的一场A/B测试为主题的技术开放日上,字节跳动副总裁杨震原透露:字节跳动现在每天大概新增1500个实验,服务了400多项业务,累计已经做了70万次实验。

火山引擎是如何用A/B测试承载其数据驱动理念的?

字节跳动副总裁杨震原

火山引擎的A/B测试经历了字节跳动多年的打磨,积累了非常成熟的技术基础,这体现在很多方面,比如实验自动分流、流量正交互斥、指标设计和解读、置信度统计等。

准确的分流是A/B测试的基础门槛,一旦数据分流出现失误,A/B测试的结果就毫无科学性可言。在这点上,火山引擎的客户深有体会。

在与火山引擎合作之前,蜗牛睡眠也曾尝试过以自研的方式来进行A/B测试,例如测试新用户的价格敏感度,但是结果并不准确。蜗牛睡眠CTO竹东翔分析后发现,这是做对照试验时有多个变量,无法在同一时间对流量做精准分流而导致。

除此之外,蜗牛睡眠还有一个特殊需求。从2017年起,蜗牛睡眠就在使用一家软件公司的数据埋点服务。如今,随着数据量越来越大,单机版的算力已经不能满足需求,必须要升级到更高算力的集群版。

竹东翔告诉「甲子光年」,要让专业的人干专业的事。因此,蜗牛睡眠放弃了自研A/B测试工具的方案,开始在市场上寻找服务商,要同时满足精准分流,以及数据迁移。

在对比多家供应商之后,竹东翔最终选择了火山引擎的A/B测试工具。“这不仅仅是因为火山引擎优秀的底层分流能力,也源于火山引擎在指标的设计解读、置信度统计方法等方面。对于一款A/B产品来说,这些看似简单的细节实则更加考验产品实力。”他表示。

另外,火山引擎也结合了用户的不同需求,在产品中融入了大量特殊实验,比如可视化实验、Push实验,甚至应用贝叶斯原理的动态调优实验等等,将产品进一步向场景化、智能化发展,满足客户更为复杂的业务需求。

火山引擎是如何用A/B测试承载其数据驱动理念的?

如今,蜗牛睡眠已经在火山引擎的支持下做了3个版本的迭代,每次都做3~5个平行试验,效果也是立竿见影。在其中的一个版本中,蜗牛睡眠的用户时长等数据相比之前提高了整整一倍。

火山引擎成熟的产品能力也为其带来了客户粘性。李想就遇到这样一个客户,从初次接触火山引擎至今,虽然经历了数次工作变动,他仍然推荐并影响所在的团队继续使用火山引擎A/B测试。

目前,火山引擎已经服务了包括京东、苏宁、建设银行、银河证券、福特、B站、华润、虎扑、vivo等多个行业知名企业。

理念辐射

尽管价值显性,但“A/B测试并不赚钱”,谭待对「甲子光年」表示,“如果仅从收入来看,A/B测试给火山引擎带来的收入甚至算不上核心产品。”

但A/B测试是火山引擎数据驱动理念的最佳代表,是落实数据驱动的最佳工具。相比收入,理念的落实,进而辐射、渗透到企业的骨髓、血脉中,才是A/B测试更大的价值。

顺着理念辐射的线,火山引擎希望将字节跳动积累九年的技术能力、增长方法论,更多输出到行业、企业中。

火山引擎品牌发布会上,谭待详细介绍了字节跳动对外输出的能力。

首先是增长方法。过去九年,字节跳动沉淀了很多增长的方法和经验,包括创意生产和内容创造、千人千面的个性化匹配、精细化用户运营等。

其次是工具。好的方法和流程,都需要工具进行固化。在字节内部有数千人的工具研发团队,这些工具都通过火山引擎对外开放。

有了方法和工具,还需要技术能力来支持业务发展。火山引擎把抖音、今日头条等全系产品上的同款技术拿出来,包括基础服务能力、个性化推荐算法、音视频的理解和处理等技术,帮助企业更好地触达用户和提升互动体验。

综合方法、工具和平台,火山引擎提供了一套全链路的技术方案,一整套智能增长技术。

火山引擎是如何用A/B测试承载其数据驱动理念的?

至此,字节跳动在to B领域已经组建起飞书、巨量引擎、火山引擎三架马车。其中,飞书负责企业协同与组织,帮助解决企业的“内事”;巨量引擎负责广告业务,把字节App矩阵的流量变现;火山引擎负责技术输出,帮助企业进行数字化转型。

中国的to B市场竞争激烈,字节跳动凭借三驾马车躬身入局。我们已经见证了字节跳动在消费互联网时代崛起,如今继续在to B领域深耕,有望成为产业互联网的一颗新星。

END.

[1] 辛普森悖论由英国统计学家E.H辛普森于1951年提出。其主要内容是:几组不同的数据中均存在一种趋势,但当这些数据组合在一起后,这种趋势消失或反转。其产生的原因主要是数据中存在多个变量。这些变量通常难以识别,被称为“潜伏变量”。潜伏变量可能是由于采样错误造成的。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )