陳文琦:一年8萬次A/B測試,誰是抖音兇猛的幕后英雄|深響

從勇者為王到精益創(chuàng)業(yè),一代又一代的企業(yè)在這個(gè)瞬息萬變的商業(yè)世界中追尋著增長的脈動與規(guī)律。大到國外的Google、Netflix、亞馬遜,國內(nèi)的字節(jié)跳動、BAT,小到十個(gè)人的創(chuàng)業(yè)公司、一個(gè)人的產(chǎn)品思考,所有人都渴望撥開重重迷霧、錨定真正的增長引擎。

在眾多的增長方法中,以數(shù)據(jù)驅(qū)動為核心理念的A/B測試是當(dāng)下最為炙手可熱的嘗試之一。為了進(jìn)一步厘清這一增長方法的來龍去脈、可行性與適用范圍、真正價(jià)值與常見誤區(qū),「深響」在充分的國內(nèi)外案頭研究基礎(chǔ)上,訪談到多位一線操盤手,沉淀出當(dāng)下市場對于A/B測試、數(shù)據(jù)驅(qū)動的主流理解與實(shí)際落地應(yīng)用的情況。

追求極致

怎樣讓用戶看視頻的體驗(yàn)更好?

作為支持抖音的數(shù)據(jù)分析師,蘇嘉沐的工作總是在嘗試解決這個(gè)沒有盡頭的問題。

瘋狂生長的抖音已有超過6億的日活躍用戶,龐大的用戶量要求團(tuán)隊(duì)對每一個(gè)微小細(xì)節(jié)的改動都異常謹(jǐn)慎。在這個(gè)出了名的“用數(shù)據(jù)說話”的公司,A/B測試像是一道關(guān)卡,是產(chǎn)品迅速的更新迭代中,必不可少的一環(huán)。

今年年初,抖音的UI設(shè)計(jì)師提出,或許可以優(yōu)化文字和視頻內(nèi)容之間的蒙層,讓視頻界面上的文字更突出,用戶刷視頻的體驗(yàn)會更舒服,從而停留在App上更久一點(diǎn)。

那么蒙層的高度和透明度如何設(shè)置,才能達(dá)到預(yù)期效果呢?這只有通過A/B測試能知道。確定了優(yōu)化目標(biāo)之后,蘇嘉沐的團(tuán)隊(duì)著手開始設(shè)計(jì)實(shí)驗(yàn)方案,調(diào)整蒙層的高度、透明度這兩個(gè)主要參數(shù),后續(xù)交給研發(fā)團(tuán)隊(duì)做實(shí)現(xiàn),最終分流給不同用戶。

“這是一個(gè)不斷趨近它的局部最優(yōu)解的過程。”蘇嘉沐說。圍繞兩個(gè)變量的組合,團(tuán)隊(duì)對小小的蒙層進(jìn)行了為期半個(gè)月的實(shí)驗(yàn)。每個(gè)方案,不同參數(shù)的組合,會需要7天左右的觀測時(shí)間,來收集用戶觀看時(shí)長、留存等指標(biāo)。

最終,敲定了最佳方案(下圖2),相較原版本,它讓人均App使用時(shí)長提升了約0.2%,人均App活躍天數(shù)提升了約0.1%。一年8萬次A/B測試,誰是抖音兇猛的幕后英雄

仔細(xì)對比左右兩圖,在標(biāo)題和視頻內(nèi)容中間的蒙層有細(xì)微差別 團(tuán)隊(duì)通過A/B測試結(jié)果,最終選擇了右圖方案

類似上面蒙層的例子數(shù)不勝數(shù),比如抖音原來的界面設(shè)計(jì)里,為了簡潔美觀,以偏符號性的按鈕設(shè)計(jì)為主,類似愛心代表點(diǎn)贊,省略號代表評論。但是在評估用戶體驗(yàn)時(shí)團(tuán)隊(duì)發(fā)現(xiàn),這樣的設(shè)計(jì)對不熟悉產(chǎn)品功能的新用戶來說并不友好,他們很少主動使用。通過A/B測試,團(tuán)隊(duì)添加了更直觀的文字提示去引導(dǎo)用戶行為。

A/B測試貫穿了抖音的整個(gè)生命周期,從產(chǎn)品命名、功能、交互設(shè)計(jì)到推薦算法策略,這是字節(jié)跳動的基因。

2012年,公司剛成立,掌舵人張一鳴還在自己一行一行地敲代碼時(shí),A/B測試就開始了,通過科學(xué)、可量化的方法去協(xié)助人做產(chǎn)品決策。

“其實(shí)A/B測試在某種程度上,使得信息更透明,大家去對話的時(shí)候更公平有據(jù)。而且對于我們各種各樣的協(xié)助方來說,能累計(jì)對產(chǎn)品的認(rèn)知,完整理解業(yè)務(wù)?!碧K嘉沐告訴「深響」。

現(xiàn)在,單抖音一個(gè)產(chǎn)品,每年會開6-8萬次實(shí)驗(yàn)。整個(gè)公司內(nèi)部,目前每天約新增1500個(gè)實(shí)驗(yàn),服務(wù)涵蓋廣告優(yōu)化和市場活動等400多項(xiàng)業(yè)務(wù),累計(jì)已做了70萬次實(shí)驗(yàn)。說A/B測試是字節(jié)跳動創(chuàng)造增長神話的秘密武器,毫不為過。

若沒有一個(gè)通用的工具,要完成如此量級的A/B測試,近乎不可能的任務(wù)。幕后,是字節(jié)很早就開始打磨內(nèi)部的A/B測試平臺Libra。

打磨利器

Libra這步棋,字節(jié)下的很有前瞻性。

2014年,公司已經(jīng)開始推動A/B測試的平臺化,“讓它更嚴(yán)謹(jǐn),以及發(fā)現(xiàn)它的問題,在公司中更廣泛地使用”,副總裁楊震原在4月的一次技術(shù)開放日的演講上說。到2016年,Libra已正式在內(nèi)部推行。

這是真實(shí)需求推動的結(jié)果。字節(jié)內(nèi)部數(shù)據(jù)驅(qū)動的價(jià)值觀深入人心,對于A/B測試這種量化和科學(xué)評估的方法,需求越來越高頻。

“剛開始產(chǎn)品少,主要圍繞今日頭條的推薦算法去做A/B測試,但隨著業(yè)務(wù)不斷壯大,團(tuán)隊(duì)有很多新的idea,(A/B測試工具的)規(guī)模化就有訴求了?!盠ibra PM 慧開告訴「深響」,“A/B實(shí)驗(yàn),比較依賴于數(shù)據(jù)計(jì)算分析能力,數(shù)據(jù)中臺化,很早就在字節(jié)萌芽,這都為我們做Libra提供了很好的基礎(chǔ)。” 有了數(shù)據(jù)建設(shè)和工具的基礎(chǔ)設(shè)施,她用了“水到渠成”這個(gè)詞來描述Libra的發(fā)展。

但字節(jié)跳動產(chǎn)品眾多,增長飛輪不斷加速,在這樣的背景下,如何去打造一個(gè)通用性的平臺?一年8萬次A/B測試,誰是抖音兇猛的幕后英雄

字節(jié)龐大的產(chǎn)品矩陣 圖源:官網(wǎng)

事實(shí)上,中臺和業(yè)務(wù)的多樣性,本身是不沖突的。但難點(diǎn)在于,不同的產(chǎn)品,訴求千差萬別。信息流產(chǎn)品、工具類產(chǎn)品、直播產(chǎn)品等,相應(yīng)的A/B測試的實(shí)驗(yàn)場景不同。而且,在使用Libra之前,內(nèi)部不同團(tuán)隊(duì)可能都有自研,或正在使用的A/B測試工具了,這又給Libra帶來了新的挑戰(zhàn)和競爭。

一步一步來。Libra的研發(fā)團(tuán)隊(duì)深入業(yè)務(wù),去了解每個(gè)產(chǎn)品的技術(shù)形態(tài),需要怎樣的A/B工具接入;了解數(shù)據(jù)是如何流轉(zhuǎn)的,而應(yīng)對不同數(shù)據(jù)規(guī)模,Libra又應(yīng)該如何做處理。

“我們盡量把其中共性的東西提煉出來,構(gòu)建技術(shù)支撐,并把一些核心能力和場景梳理好;另一方面,針對業(yè)務(wù)的特殊需求,投入專人去做?!盠ibra研發(fā)人員子牧解釋道。

不過眾所周知,“中臺”類型的工具如果得不到內(nèi)部業(yè)務(wù)端的支持,最終就會淪為雞肋。Libra能在字節(jié)里持續(xù)進(jìn)化,離不開字節(jié)內(nèi)部的高效協(xié)同。

蘇嘉沐告訴「深響」,在使用過程中,遇到Libra難以解決的問題時(shí),提出需求,研發(fā)會快速跟進(jìn)?!凹僭O(shè)我們在某個(gè)實(shí)驗(yàn)中,需要一個(gè)功能,是對特定用戶分流,或者是,需要新增一個(gè)指標(biāo)的顯著性計(jì)算等等,我們都能迅速、直接地找到他們(研發(fā)團(tuán)隊(duì))。”她說。

字節(jié)產(chǎn)品多,業(yè)務(wù)線龐大,A/B實(shí)驗(yàn)需求旺盛,但是通過雙向的溝通,Libra成為了功能強(qiáng)大、場景覆蓋廣闊的測試平臺。它能從統(tǒng)計(jì)學(xué)上比較科學(xué)地去解決用戶分流的難題。在實(shí)驗(yàn)進(jìn)程中,Libra提供了一個(gè)全面指標(biāo)監(jiān)控體系,使數(shù)據(jù)變化實(shí)時(shí)可追蹤,幫助后續(xù)決策。

經(jīng)受幾十萬次實(shí)驗(yàn)的打磨,Libra不僅積累了字節(jié)A/B測試的技術(shù)手段,也沉淀著對這一方法的認(rèn)知。

需求來了

Libra在字節(jié)內(nèi)部生根發(fā)芽,與此同時(shí),商業(yè)世界,特別是互聯(lián)網(wǎng)公司對于A/B測試的認(rèn)知也在擴(kuò)散。

國外科技巨頭谷歌亞馬遜、FB、Netflix等都是A/B測試的擁躉者。國內(nèi)騰訊、阿里、百度、美團(tuán)、滴滴等頭部互聯(lián)網(wǎng)公司也在積極采用這一增長方法。而一些中小創(chuàng)業(yè)公司看到了A/B測試的功效,正在試圖用數(shù)據(jù)驅(qū)動的理念,讓公司跑得更快、更穩(wěn)。

這給了字節(jié)跳動把內(nèi)部工具Libra外化的環(huán)境契機(jī)。

2017年,一些對字節(jié)技術(shù)非常認(rèn)可的客戶主動提出了需求。這些需求促使字節(jié)團(tuán)隊(duì)試水,輸出了以A/B測試工具為核心的一系列數(shù)據(jù)分析工具。2019年,在初步嘗試之后正式立項(xiàng),字節(jié)開始決心做一個(gè)對外的A/B測試平臺,讓更多外部客戶可以使用這個(gè)增長利器。

“本質(zhì)的驅(qū)動點(diǎn)是,這個(gè)工具能服務(wù)內(nèi)部,也有機(jī)會在外部市場上產(chǎn)生價(jià)值, ”子牧參與了A/B測試產(chǎn)品化的推動,他說,To B的事情,團(tuán)隊(duì)也是從零開始,但是結(jié)合內(nèi)部的經(jīng)驗(yàn)和外部的市場預(yù)期,大家很有信心。

不過,雖然數(shù)據(jù)導(dǎo)向已是共識,科技公司對A/B測試的認(rèn)知開始成熟,但是落到實(shí)際操作,A/B測試的應(yīng)用依然不廣泛。

究其原因,其一,A/B測試的時(shí)間、研發(fā)、資金投入成本高,對中小團(tuán)隊(duì)來說,為A/B測試做數(shù)據(jù)基建未必是一個(gè)高收益率的選擇。其二,技術(shù)壁壘高,A/B測試原理簡單,但在應(yīng)用中,根據(jù)case的復(fù)雜程度,實(shí)驗(yàn)設(shè)計(jì)要求非常精細(xì)。若在分流、指標(biāo)設(shè)計(jì)、統(tǒng)計(jì)和解讀環(huán)節(jié)有漏洞,A/B測試只能說是事倍功半。市面上有獨(dú)立的第三方A/B測試工具,但尚在分散狀態(tài),未見明顯領(lǐng)軍者。

字節(jié)的A/B測試工具是火山引擎在智能營銷套件產(chǎn)品應(yīng)用層的重要產(chǎn)品。面對上述痛點(diǎn),這個(gè)工具希望為企業(yè)提供專業(yè)的分流能力、科學(xué)的統(tǒng)計(jì)算法與豐富的實(shí)驗(yàn)功能。

從內(nèi)部工具到對外輸出,這款工具的邏輯思路發(fā)生了微妙的變化。子牧用兩個(gè)關(guān)鍵詞——“化繁為簡”、“從簡單到豐富”——來概括這樣的變化。

一方面要讓這個(gè)A/B平臺相比Libra更簡單易用。

“早期孵化時(shí)期,我們多做減法,抽象精簡,盡量降低門檻和用戶成本,而非直接開放Libra?!彼f。但外部市場的很多客戶在A/B測試方面的技術(shù)投入和能力差距比較大,讓用戶先接觸這個(gè)工具,有機(jī)會把它用好,是必須要走的一步。

另一方面是拓展到各個(gè)行業(yè),以及在常用場景上做深度迭代,即“從簡單到豐富”。

最初一批種子用戶主要來自泛互聯(lián)網(wǎng)行業(yè),主打的訴求就是增長、增效。這是字節(jié)的優(yōu)勢場景,內(nèi)部已有很多實(shí)踐,頭條、抖音等成功產(chǎn)品,經(jīng)驗(yàn)和方法沉淀、體現(xiàn)在產(chǎn)品中。其實(shí),有數(shù)字化轉(zhuǎn)型訴求的傳統(tǒng)行業(yè),比如金融,也有A/B測試的需求,這要求實(shí)現(xiàn)跨行業(yè)通用的產(chǎn)品支持。并且,在廣告、營銷等有重點(diǎn)需求的場景,做更精細(xì)化的運(yùn)營。

經(jīng)過2019年一整年的內(nèi)部孵化,2020年初,火山引擎的A/B測試工具已經(jīng)開始了規(guī)?;瘒L試。

A/B測試是火山引擎智能數(shù)據(jù)產(chǎn)品中最強(qiáng)的單品之一。在整個(gè)火山引擎To B架構(gòu)應(yīng)用層中,還形成了彼此強(qiáng)關(guān)聯(lián)的產(chǎn)品體系,包括UBA、CDP、GMP等。它們通過數(shù)據(jù)分析和洞察——策略設(shè)置——實(shí)驗(yàn)上線驗(yàn)證——功能上線——效果再驗(yàn)證,這一整套完整的閉環(huán)全方位助力解決企業(yè)的增長困局。

種子用戶的體驗(yàn)已經(jīng)初步驗(yàn)證了上述思路。

比如預(yù)約出行服務(wù)平臺悟空租車。租車出行場景里,不可缺少的環(huán)節(jié)之一是押金繳納。押金繳納有多種形式,如直接繳納、第三方信用免押等。對于用戶來說,在付款環(huán)節(jié)若無法使用信用進(jìn)行免押,就必須同時(shí)支付一筆額外的數(shù)額較大的押金,增加的現(xiàn)金流成本會影響用戶決策,這直接波及平臺的成單率。

悟空租車團(tuán)隊(duì)希望找到一種方式,降低押金開銷帶來的對決策的負(fù)面影響,提升下單轉(zhuǎn)化率。因此,團(tuán)隊(duì)通過火山引擎A/B測試產(chǎn)品,設(shè)計(jì)了一組實(shí)驗(yàn):

  • 對照組:現(xiàn)行支付流程,用戶在下單頁面需要同時(shí)支付租金與押金;
  • 實(shí)驗(yàn)組:新方案,用戶在訂單支付完成后,再進(jìn)入押金繳納頁。

一年8萬次A/B測試,誰是抖音兇猛的幕后英雄

悟空租車設(shè)計(jì)的A/B測試,新方案分離了押金繳納頁。

實(shí)驗(yàn)運(yùn)行兩周后,團(tuán)隊(duì)發(fā)現(xiàn)針對“最終下單完成”這一指標(biāo),實(shí)驗(yàn)組比對照組上升了7%。用真實(shí)數(shù)據(jù)說話,實(shí)驗(yàn)之后,悟空租車決定開放新方案給全量用戶。

字節(jié)自身的經(jīng)驗(yàn)賦予火山引擎A/B測試這一產(chǎn)品極大的優(yōu)勢。子牧認(rèn)為,相較國內(nèi)外其他A/B測試平臺,目前從產(chǎn)品能力的完備性和實(shí)驗(yàn)場景的豐富度上來講,火山引擎A/B產(chǎn)品毫不遜色。

這既包括實(shí)驗(yàn)基礎(chǔ)的流程管控能力,也包含實(shí)驗(yàn)后的報(bào)告分析能力。背后依托是頭條、抖音這些大數(shù)據(jù)規(guī)模場景下的驗(yàn)證。同時(shí),內(nèi)部很多成長中的業(yè)務(wù),也為產(chǎn)品提供了高覆蓋度。

ToB市場的客戶需要的不僅是一個(gè)產(chǎn)品,還有方法來落地。“不僅在推進(jìn)對接客戶中,而且在后續(xù)的實(shí)驗(yàn)方法論培訓(xùn)、重難點(diǎn)分析支持、運(yùn)維等方面,我們也提供服務(wù)。”他說。

我們回過頭來看A/B測試本身,這絕非易事。很多時(shí)候,方法原理越是樸素,可延展性就越高。用慧開的話來說,對A/B測試,她經(jīng)歷了四個(gè)階段:你并不知道自己不知道;知道自己不知道;我知道自己知道;我不知道自己知道。

最初接觸A/B的時(shí)候,覺得實(shí)驗(yàn)分流、統(tǒng)計(jì)分析并不難實(shí)現(xiàn),非常容易復(fù)刻。但是隨著各項(xiàng)產(chǎn)品發(fā)展的速度,復(fù)雜棘手的問題頻頻出現(xiàn),簡單的方案無法滿足業(yè)務(wù)需求,人的經(jīng)驗(yàn)和對業(yè)務(wù)的深刻理解愈發(fā)重要,A/B測試背后那么多門道,她認(rèn)識到“方法比功能更重要”。再往后,順應(yīng)業(yè)務(wù)發(fā)展,人也在迭代,摸清了一些規(guī)律,發(fā)現(xiàn)問題后能夠更多維度去尋找解答?!案弦粚?,是我們要努力的方向吧,可以得心應(yīng)手地用A/B測試去解決各種各樣的問題。”

A/B測試工具是一個(gè)有力的把手,其延伸開來是火山引擎提供的整套的解決方案——基于字節(jié)跳動的成長理念,火山引擎將服務(wù)字節(jié)跳動從0到1、從1到N的能力與工具產(chǎn)品化輸出的具象體現(xiàn)。

結(jié)語

其實(shí)說起來,“抖音”這個(gè)名字并不是A/B測試結(jié)果的第一名。

當(dāng)時(shí)產(chǎn)品已有demo,但還未正式發(fā)布,于是團(tuán)隊(duì)把產(chǎn)品用不同的名字和logo包裝,在應(yīng)用市場商店做A/B測試,并且保證對方案們投入同樣的預(yù)算,同樣的位置以測出用戶對名字的敏感度,吸引力程度,下載轉(zhuǎn)化率等等。

“抖音”排名第二。團(tuán)隊(duì)討論認(rèn)為,相比第一名,“抖音”長期來說更符合認(rèn)知,更能體現(xiàn)產(chǎn)品形態(tài),于是采納了這個(gè)名字。

A/B結(jié)果是為決策提供依據(jù),最終做出判斷的還是人。

蘇嘉沐告訴「深響」,有一次團(tuán)隊(duì)對內(nèi)容策略進(jìn)行調(diào)整,按理說內(nèi)容供給很重要,需要鼓勵用戶去發(fā)布內(nèi)容提升平臺豐富度。但A/B測試的結(jié)果卻讓團(tuán)隊(duì)犯了難——如果算法多給用戶推薦可模仿的模板視頻可以提高投稿率,但同時(shí),過多的同質(zhì)化視頻會讓用戶整體消費(fèi)的時(shí)長變短。

“在平臺更多的內(nèi)容輸入和用戶整體的消費(fèi)體驗(yàn)之間,必須做出權(quán)衡?!碧K嘉沐說:“這就還得回歸到產(chǎn)品的價(jià)值觀來做決定?!赣脩糇罱K的使用黏性」成為這個(gè)案例里的評估尺度?!?/p>

A/B測試不是靈丹妙藥。理解它的工具屬性,或許是正確認(rèn)知的第一步。

—— 如果覺得文章還OK,請轉(zhuǎn)發(fā) ——

特別提示:關(guān)注本專欄,別錯過行業(yè)干貨!

PS:本司承接 小紅書 / 淘寶逛逛 / 抖音 / 百度系 / 知乎 / 微博/大眾點(diǎn)評 等 全網(wǎng)各平臺推廣;

咨詢微信:139 1053 2512 (同電話)

首席增長官CGO薦讀:

更多精彩,關(guān)注:增長黑客(GrowthHK.cn)

增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/mcn/douyin/41393.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-06-23 11:53
下一篇 2021-06-23 15:08

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論