A/B實驗是最直觀且科學(xué)的一種評估策略因果效應(yīng)的手段,如果我們想數(shù)據(jù)賦能業(yè)務(wù),A/B 實驗是我們的基本工具。我們需要多個流量組提出多個策略想法,然后通過比較不同組的指標(biāo)表現(xiàn)來選擇最合適的方案。做ab實驗需要兩個條件為前提:同質(zhì)性和無偏性。
實驗中的不同組應(yīng)該是同質(zhì)的,這意味著它們都相同或極其相似以確保結(jié)果可比性,這通常通過平臺工具隨機分流來實現(xiàn)。實驗也應(yīng)該是公正的,核心指標(biāo)只受實驗策略本身的直接影響。只有控制了全部干擾因素,才有可能接近Treatment和Result之間的因果關(guān)系。
為什么優(yōu)先做AB實驗,而不采用前后對比等方式?
相比前后對比等方式,AB實驗有以下優(yōu)勢:
同質(zhì) – 保證可比性
- 可以有效控制其他干擾因素。舉例來說,如果我們采用前后對比方式來觀察某項策略上線對核心指標(biāo)的提升效果,我們無法有效控制前后兩個時段的其他外部環(huán)境變量是一致的,例如其他策略影響或者周期性波動等。而AB實驗是對比不同用戶群體在同一時間的數(shù)據(jù),可以有效控制這些外部的干擾因素。
- 可以避免選擇性偏差。舉例來說,如果抖音上線了一個新的功能,我們通過對比”使用過這個功能的用戶”和”未使用過這個功能的用戶”之間的數(shù)據(jù),來論證使用這個功能可以提升用戶的消費興趣這個觀點,則會犯了選擇性偏差這一錯誤。原因是,會使用新功能的用戶本身就是對抖音更感興趣、使用更高頻的用戶,如果將會使用新功能的用戶和未使用新功能的用戶進行對比,衡量的其實是高頻用戶和低頻用戶之間的差異,而非新功能帶來的策略效果。而AB實驗由于會進行隨機分流,對比的是同質(zhì)的用戶群體,因此可以避免選擇性偏差帶來的影響。
無偏 – 保證效果復(fù)現(xiàn)
- 通過實驗設(shè)計構(gòu)建上線后的真實情況以保證 A/B 觀測到的指標(biāo)收益可以真實地作用在全量上線后,避免單一實驗觀測到很好的效果,但上線后大盤指標(biāo)未達預(yù)期等矛盾的現(xiàn)象;
- 即便有以上所有的措施對實驗結(jié)果進行保證,我們?nèi)匀挥锌赡苡^測到虛假的效果。因此,在分析實驗數(shù)據(jù)時我們需要加上置信與否的概念,通過統(tǒng)計概率模型保證實驗收益在上線后也有較高的可復(fù)現(xiàn)性;
AB實驗的步驟是什么
如果希望執(zhí)行一個嚴(yán)謹(jǐn)科學(xué)的AB實驗,我們通常需要遵循以下六步曲:
1、明確策略假設(shè)以及實驗變量
AB實驗的第一步就是明確實驗需求產(chǎn)生的背景以及實驗?zāi)繕?biāo),即我們希望借助實驗驗證什么猜想假設(shè),并且我們需要從用戶角度以及數(shù)據(jù)角度去論證假設(shè)的可能性。
在有了一個明確且有數(shù)據(jù)支持的假設(shè)后,我們需要考慮我們的策略評估是否可以利用AB實驗進行。盡管A/B實驗是策略評估的常用方法之一,但其有著特定的適用場景,在以下幾個場景,AB實驗是無法應(yīng)用或者成本過高的:
- 策略已經(jīng)全量上線,需要后置的評估策略上線效果;
- 某些策略的滲透率過低,使用實驗方法很難達到置信的樣本量,所以不開實驗;
- 策略本身不具備實行隨機AB實驗的條件,比如一部分用戶無法使用某類功能而另一類用戶則可以,這一情況會引發(fā)輿情問題;
- 進行AB實驗成本較高,ROI較低的情況。比如從開發(fā)角度,維護多套代碼成本過高。
確定可以采用AB實驗對策略效果進行評估后,這時需要確定實驗變量。通常一個好的實驗變量需要滿足以下幾點:
- 實驗變量需要根據(jù)假設(shè)創(chuàng)建。如果實驗變量與假設(shè)無關(guān),那么實驗就失去了意義;
- 需要符合單一變量原則,這樣我們才能通過對比發(fā)現(xiàn)因果性,并根據(jù)實驗結(jié)果量化正向和負(fù)向的影響程度。舉例來說,如果實驗組的策略是A1+B1,對照組的策略是A2+B2,那么我們就無法得知實驗組和對照組的指標(biāo)差異是由于A策略的改動導(dǎo)致的,還是B策略的改動導(dǎo)致的。
2、定義關(guān)鍵指標(biāo)
對一個業(yè)務(wù)來說,指標(biāo)多種多樣。哪些指標(biāo)需要重點關(guān)注,哪些是僅僅關(guān)注,哪些可以不關(guān)注。這個指標(biāo)的定義為了說明業(yè)務(wù)的什么情況?指標(biāo)變化代表了什么?
從指標(biāo)重要程度來看,指標(biāo)可以分為主要指標(biāo)、次要指標(biāo)和護欄指標(biāo)三類:
- 主要指標(biāo):需要優(yōu)化的目標(biāo)指標(biāo),決定這個實驗的最終發(fā)展方向。這類指標(biāo)不需要多;
- 次要指標(biāo):次要指標(biāo)可以從多個角度反映實驗策略的效果,輔助進行全量決策;
- 護欄指標(biāo):用于輔助保障 A/B 測試的質(zhì)量,衡量 A/B 測試是否符合業(yè)務(wù)上的長期目標(biāo),不會因為優(yōu)化短期指標(biāo)而打亂長期目標(biāo),防止發(fā)生“撿芝麻掉西瓜”的情況;
從指標(biāo)類型來看,可以分為平均、計數(shù)、求和、比例、留存等等;
3、確定實驗分流方式
分流指的是我們直接將整體用戶切割為幾塊,用戶只能在一個實驗中。AB實驗的核心思想在于尋找兩組同質(zhì)且與大盤類似的小流量對象群體,通過觀察不同策略在這兩組同質(zhì)對象群體上的表現(xiàn),來預(yù)估策略應(yīng)用到全量后的效果。因此,如何合理的分流找到這樣的對象群體,則成為了影響AB實驗評估準(zhǔn)確性的關(guān)鍵因素。
這里需要注意分流對象與隨機單元。
- 分流對象是需要根據(jù)核心指標(biāo)來確定的根據(jù)什么來進行分流,例如在短視頻場景,我們的策略是提升消費指標(biāo)則分流對象就是用戶,而如果我們的策略是提升創(chuàng)作者活躍度則分流對象就是創(chuàng)作者;
- 隨機單元就是AB實驗要達到隨機的最小單元。例如一個網(wǎng)站中,最小分流單元可能是頁面級別、訪問/會話級別,或者是用戶級別;
我們需要保證實驗的分流是均勻的,一般實踐中,主要采取AA空跑的方式來驗證:
- AA空跑:針對選定的實驗組和對照組,在上實驗策略前先空跑一段時間。如果空跑期的樣本量和各項指標(biāo)均無顯著差異,則認(rèn)為實驗分流是均勻的。這種方式的缺點是需要空跑期,會延長實驗所需時間。(審核員分流也可以前置在隨機分流時觀測兩組歷史數(shù)據(jù)的差異,差異大建議重新分流)
- 回溯:在進行實驗后,將實驗期的用戶選出來,觀察這些用戶在實驗前的表現(xiàn)。如果實驗期用戶在實驗前的表現(xiàn)無顯著差異,則認(rèn)為分流是均勻的。
4、樣本量測算
對于AB實驗來說,在實驗的第Ⅰ/Ⅱ類錯誤率確定的前提下,實驗?zāi)軝z測到的敏感度會與實驗樣本量呈現(xiàn)負(fù)相關(guān)關(guān)系。也就是說,實驗希望能檢測到的指標(biāo)精度越高,所需要的樣本量就越大,這樣可以使實驗的敏感度大于我們預(yù)期的策略效果提升(MDE)。
因此,針對我們希望檢測到的預(yù)估效果MDE(通常由離線測算所得,如5%/10%等),我們需要計算實驗所需要的最小樣本量。在給定錯誤容錯率下,最小樣本量由MDE、均值、方差共同決定。此處需要注意的是不同的指標(biāo)類型的方差計算方式是不同的,在實操中如果分流單元和分析單元不一致需要特殊處理。
5、進入實驗期
在進入實驗期后,需要對實驗數(shù)據(jù)進行日常監(jiān)測,日常監(jiān)測主要觀察以下幾方面:
- 樣本量。在實驗的過程中,應(yīng)當(dāng)日常觀測實驗組和對照組的樣本量是否均勻。如果在進入實驗期后,實驗組相比對照組的樣本量出現(xiàn)顯著差異,應(yīng)當(dāng)立即排查樣本量不平的原因(實驗策略導(dǎo)致分流不均?實驗策略埋點上報有問題?…)
- 各項實驗指標(biāo)。如果在實驗的過程中,實驗組和對照組的指標(biāo)出現(xiàn)不符合預(yù)期的差距,也應(yīng)當(dāng)立即排查該現(xiàn)象出現(xiàn)的原因。
- 核心護欄指標(biāo)。如果實驗策略對實驗組的核心護欄指標(biāo)產(chǎn)生嚴(yán)重的負(fù)向影響,如商業(yè)化廣告收入嚴(yán)重下降,也應(yīng)立即同步各方,決定是否停止實驗。
6、實驗結(jié)果分析
在實驗周期結(jié)束后,需要根據(jù)實驗數(shù)據(jù)進行分析。分析的框架可以根據(jù)實驗指標(biāo),衡量對主要指標(biāo)、次要指標(biāo)、護欄指標(biāo)分別的影響,從而給出是否全量的建議。在分析實驗數(shù)據(jù)時,通常會有以下問題:
實驗指標(biāo)不顯著怎么辦?
可以看一下核心指標(biāo)的走勢,如果有單調(diào)遞增的趨勢,可以適當(dāng)延長實驗時間再看一下效果,大樣本是王道。其次判斷統(tǒng)計功效問題,如果在進行了樣本量計算后,實驗指標(biāo)依然不顯著,則一方面需要通過觀察實驗指標(biāo)的相對/絕對差值考慮是否實驗策略真的沒有顯著影響,另一方面可以通過CUPED等方法減小指標(biāo)方差,或者更換監(jiān)測指標(biāo)剔除無滲透用戶以提高指標(biāo)檢測精度。
是否可以通過實驗數(shù)據(jù),找到對實驗策略敏感的用戶群體?
找敏感用戶群體可以通過維度拆解的方式,觀察實驗策略對不同用戶群體的影響差異;也可以通過causal tree/uplift model的方式,從模型角度計算單個用戶群體/單個用戶的CATE,從而對實驗效果的異質(zhì)性進行探究。
關(guān)注的多個實驗指標(biāo)有正有負(fù),如何判斷是否可推全?
首先,確認(rèn)哪邊的指標(biāo)是本實驗更重要的指標(biāo),同時關(guān)注護欄指標(biāo)和北極星指標(biāo)的情況(若護欄指標(biāo)和北極星指標(biāo)顯著負(fù)向,拒絕推全)。其次,判斷正負(fù)指標(biāo)是否存在相關(guān)性或者是否存在兌換關(guān)系,綜合盤整體收益是如何。
如果實驗效果不好,沒有推全,是否說明這個實驗沒有任何價值?
事實上在各大公司中,大部分的AB實驗結(jié)果都是失敗的。如果某個實驗沒有推全,我們依然可以通過實驗數(shù)據(jù),去探尋本次實驗失敗的原因,從而發(fā)現(xiàn)是否有新的可能的改進點。根據(jù)新的改進點繼續(xù)進行實驗,最終進行策略的快速迭代。
作者| 趙小洛 數(shù)據(jù)分析師
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/78119.html