97久久久久人妻精品区一,国产高清1024永久免费,特黄aa影院免费最新章节列表

A/B實驗是最直觀且科學(xué)的一種評估策略因果效應(yīng)的手段，如果我們想數(shù)據(jù)賦能業(yè)務(wù)，A/B 實驗是我們的基本工具。我們需要多個流量組提出多個策略想法，然后通過比較不同組的指標(biāo)表現(xiàn)來選擇最合適的方案。做ab實驗需要兩個條件為前提：同質(zhì)性和無偏性。

實驗中的不同組應(yīng)該是同質(zhì)的，這意味著它們都相同或極其相似以確保結(jié)果可比性，這通常通過平臺工具隨機分流來實現(xiàn)。實驗也應(yīng)該是公正的，核心指標(biāo)只受實驗策略本身的直接影響。只有控制了全部干擾因素，才有可能接近Treatment和Result之間的因果關(guān)系。

為什么優(yōu)先做AB實驗，而不采用前后對比等方式？

相比前后對比等方式，AB實驗有以下優(yōu)勢：

同質(zhì) – 保證可比性

可以有效控制其他干擾因素。舉例來說，如果我們采用前后對比方式來觀察某項策略上線對核心指標(biāo)的提升效果，我們無法有效控制前后兩個時段的其他外部環(huán)境變量是一致的，例如其他策略影響或者周期性波動等。而AB實驗是對比不同用戶群體在同一時間的數(shù)據(jù)，可以有效控制這些外部的干擾因素。
可以避免選擇性偏差。舉例來說，如果抖音上線了一個新的功能，我們通過對比”使用過這個功能的用戶”和”未使用過這個功能的用戶”之間的數(shù)據(jù)，來論證使用這個功能可以提升用戶的消費興趣這個觀點，則會犯了選擇性偏差這一錯誤。原因是，會使用新功能的用戶本身就是對抖音更感興趣、使用更高頻的用戶，如果將會使用新功能的用戶和未使用新功能的用戶進行對比，衡量的其實是高頻用戶和低頻用戶之間的差異，而非新功能帶來的策略效果。而AB實驗由于會進行隨機分流，對比的是同質(zhì)的用戶群體，因此可以避免選擇性偏差帶來的影響。

無偏 – 保證效果復(fù)現(xiàn)

通過實驗設(shè)計構(gòu)建上線后的真實情況以保證 A/B 觀測到的指標(biāo)收益可以真實地作用在全量上線后，避免單一實驗觀測到很好的效果，但上線后大盤指標(biāo)未達預(yù)期等矛盾的現(xiàn)象；
即便有以上所有的措施對實驗結(jié)果進行保證，我們?nèi)匀挥锌赡苡^測到虛假的效果。因此，在分析實驗數(shù)據(jù)時我們需要加上置信與否的概念，通過統(tǒng)計概率模型保證實驗收益在上線后也有較高的可復(fù)現(xiàn)性；

AB實驗的步驟是什么

如果希望執(zhí)行一個嚴(yán)謹(jǐn)科學(xué)的AB實驗，我們通常需要遵循以下六步曲：

1、明確策略假設(shè)以及實驗變量

AB實驗的第一步就是明確實驗需求產(chǎn)生的背景以及實驗?zāi)繕?biāo)，即我們希望借助實驗驗證什么猜想假設(shè)，并且我們需要從用戶角度以及數(shù)據(jù)角度去論證假設(shè)的可能性。

在有了一個明確且有數(shù)據(jù)支持的假設(shè)后，我們需要考慮我們的策略評估是否可以利用AB實驗進行。盡管A/B實驗是策略評估的常用方法之一，但其有著特定的適用場景，在以下幾個場景，AB實驗是無法應(yīng)用或者成本過高的：

策略已經(jīng)全量上線，需要后置的評估策略上線效果；
某些策略的滲透率過低，使用實驗方法很難達到置信的樣本量，所以不開實驗；
策略本身不具備實行隨機AB實驗的條件，比如一部分用戶無法使用某類功能而另一類用戶則可以，這一情況會引發(fā)輿情問題；
進行AB實驗成本較高，ROI較低的情況。比如從開發(fā)角度，維護多套代碼成本過高。

確定可以采用AB實驗對策略效果進行評估后，這時需要確定實驗變量。通常一個好的實驗變量需要滿足以下幾點：

實驗變量需要根據(jù)假設(shè)創(chuàng)建。如果實驗變量與假設(shè)無關(guān)，那么實驗就失去了意義；
需要符合單一變量原則，這樣我們才能通過對比發(fā)現(xiàn)因果性，并根據(jù)實驗結(jié)果量化正向和負(fù)向的影響程度。舉例來說，如果實驗組的策略是A1+B1，對照組的策略是A2+B2，那么我們就無法得知實驗組和對照組的指標(biāo)差異是由于A策略的改動導(dǎo)致的，還是B策略的改動導(dǎo)致的。

2、定義關(guān)鍵指標(biāo)

對一個業(yè)務(wù)來說，指標(biāo)多種多樣。哪些指標(biāo)需要重點關(guān)注，哪些是僅僅關(guān)注，哪些可以不關(guān)注。這個指標(biāo)的定義為了說明業(yè)務(wù)的什么情況？指標(biāo)變化代表了什么？

從指標(biāo)重要程度來看，指標(biāo)可以分為主要指標(biāo)、次要指標(biāo)和護欄指標(biāo)三類：

主要指標(biāo)：需要優(yōu)化的目標(biāo)指標(biāo)，決定這個實驗的最終發(fā)展方向。這類指標(biāo)不需要多；
次要指標(biāo)：次要指標(biāo)可以從多個角度反映實驗策略的效果，輔助進行全量決策；
護欄指標(biāo)：用于輔助保障 A/B 測試的質(zhì)量，衡量 A/B 測試是否符合業(yè)務(wù)上的長期目標(biāo)，不會因為優(yōu)化短期指標(biāo)而打亂長期目標(biāo)，防止發(fā)生“撿芝麻掉西瓜”的情況；

從指標(biāo)類型來看，可以分為平均、計數(shù)、求和、比例、留存等等；

3、確定實驗分流方式

分流指的是我們直接將整體用戶切割為幾塊，用戶只能在一個實驗中。AB實驗的核心思想在于尋找兩組同質(zhì)且與大盤類似的小流量對象群體，通過觀察不同策略在這兩組同質(zhì)對象群體上的表現(xiàn)，來預(yù)估策略應(yīng)用到全量后的效果。因此，如何合理的分流找到這樣的對象群體，則成為了影響AB實驗評估準(zhǔn)確性的關(guān)鍵因素。

這里需要注意分流對象與隨機單元。

分流對象是需要根據(jù)核心指標(biāo)來確定的根據(jù)什么來進行分流，例如在短視頻場景，我們的策略是提升消費指標(biāo)則分流對象就是用戶，而如果我們的策略是提升創(chuàng)作者活躍度則分流對象就是創(chuàng)作者；
隨機單元就是AB實驗要達到隨機的最小單元。例如一個網(wǎng)站中，最小分流單元可能是頁面級別、訪問/會話級別，或者是用戶級別；

我們需要保證實驗的分流是均勻的，一般實踐中，主要采取AA空跑的方式來驗證：

AA空跑：針對選定的實驗組和對照組，在上實驗策略前先空跑一段時間。如果空跑期的樣本量和各項指標(biāo)均無顯著差異，則認(rèn)為實驗分流是均勻的。這種方式的缺點是需要空跑期，會延長實驗所需時間。（審核員分流也可以前置在隨機分流時觀測兩組歷史數(shù)據(jù)的差異，差異大建議重新分流）
回溯：在進行實驗后，將實驗期的用戶選出來，觀察這些用戶在實驗前的表現(xiàn)。如果實驗期用戶在實驗前的表現(xiàn)無顯著差異，則認(rèn)為分流是均勻的。

4、樣本量測算

對于AB實驗來說，在實驗的第Ⅰ/Ⅱ類錯誤率確定的前提下，實驗?zāi)軝z測到的敏感度會與實驗樣本量呈現(xiàn)負(fù)相關(guān)關(guān)系。也就是說，實驗希望能檢測到的指標(biāo)精度越高，所需要的樣本量就越大，這樣可以使實驗的敏感度大于我們預(yù)期的策略效果提升(MDE)。

因此，針對我們希望檢測到的預(yù)估效果MDE（通常由離線測算所得，如5%/10%等)，我們需要計算實驗所需要的最小樣本量。在給定錯誤容錯率下，最小樣本量由MDE、均值、方差共同決定。此處需要注意的是不同的指標(biāo)類型的方差計算方式是不同的，在實操中如果分流單元和分析單元不一致需要特殊處理。

5、進入實驗期

在進入實驗期后，需要對實驗數(shù)據(jù)進行日常監(jiān)測，日常監(jiān)測主要觀察以下幾方面：

樣本量。在實驗的過程中，應(yīng)當(dāng)日常觀測實驗組和對照組的樣本量是否均勻。如果在進入實驗期后，實驗組相比對照組的樣本量出現(xiàn)顯著差異，應(yīng)當(dāng)立即排查樣本量不平的原因（實驗策略導(dǎo)致分流不均？實驗策略埋點上報有問題？…）
各項實驗指標(biāo)。如果在實驗的過程中，實驗組和對照組的指標(biāo)出現(xiàn)不符合預(yù)期的差距，也應(yīng)當(dāng)立即排查該現(xiàn)象出現(xiàn)的原因。
核心護欄指標(biāo)。如果實驗策略對實驗組的核心護欄指標(biāo)產(chǎn)生嚴(yán)重的負(fù)向影響，如商業(yè)化廣告收入嚴(yán)重下降，也應(yīng)立即同步各方，決定是否停止實驗。

6、實驗結(jié)果分析

在實驗周期結(jié)束后，需要根據(jù)實驗數(shù)據(jù)進行分析。分析的框架可以根據(jù)實驗指標(biāo)，衡量對主要指標(biāo)、次要指標(biāo)、護欄指標(biāo)分別的影響，從而給出是否全量的建議。在分析實驗數(shù)據(jù)時，通常會有以下問題：

實驗指標(biāo)不顯著怎么辦？

可以看一下核心指標(biāo)的走勢，如果有單調(diào)遞增的趨勢，可以適當(dāng)延長實驗時間再看一下效果，大樣本是王道。其次判斷統(tǒng)計功效問題，如果在進行了樣本量計算后，實驗指標(biāo)依然不顯著，則一方面需要通過觀察實驗指標(biāo)的相對/絕對差值考慮是否實驗策略真的沒有顯著影響，另一方面可以通過CUPED等方法減小指標(biāo)方差，或者更換監(jiān)測指標(biāo)剔除無滲透用戶以提高指標(biāo)檢測精度。

是否可以通過實驗數(shù)據(jù)，找到對實驗策略敏感的用戶群體？

找敏感用戶群體可以通過維度拆解的方式，觀察實驗策略對不同用戶群體的影響差異；也可以通過causal tree/uplift model的方式，從模型角度計算單個用戶群體/單個用戶的CATE，從而對實驗效果的異質(zhì)性進行探究。

關(guān)注的多個實驗指標(biāo)有正有負(fù)，如何判斷是否可推全？

首先，確認(rèn)哪邊的指標(biāo)是本實驗更重要的指標(biāo)，同時關(guān)注護欄指標(biāo)和北極星指標(biāo)的情況（若護欄指標(biāo)和北極星指標(biāo)顯著負(fù)向，拒絕推全）。其次，判斷正負(fù)指標(biāo)是否存在相關(guān)性或者是否存在兌換關(guān)系，綜合盤整體收益是如何。

如果實驗效果不好，沒有推全，是否說明這個實驗沒有任何價值？

事實上在各大公司中，大部分的AB實驗結(jié)果都是失敗的。如果某個實驗沒有推全，我們依然可以通過實驗數(shù)據(jù)，去探尋本次實驗失敗的原因，從而發(fā)現(xiàn)是否有新的可能的改進點。根據(jù)新的改進點繼續(xù)進行實驗，最終進行策略的快速迭代。

作者| 趙小洛數(shù)據(jù)分析師

本文經(jīng)授權(quán)發(fā)布，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://gptmaths.com/quan/78119.html

為什么要做A/B實驗？

關(guān)于作者

kuko1028

發(fā)表回復(fù)

為什么要做A/B實驗？

關(guān)于作者

kuko1028

增長黑客Growthhk.cn薦讀更多>>

3分鐘看透《增長黑客》：增長黑客的概念，AARRR漏斗模型，AB測試

劉生：Martech 營銷自動化從 AB測試開始｜直隸暗察使

對話張錦波：數(shù)據(jù)驅(qū)動增長-字節(jié)A/B實驗揭秘

陳文琦：揭秘Google、Netflix、亞馬遜的通用增長神器A/B測試｜深響

神策數(shù)據(jù)：游戲企業(yè)如何做產(chǎn)品A/B測試？三大案例一次搞懂

硅谷增長專家Andrew Chen：AB測試的陷阱

發(fā)表回復(fù)

為什么要做A/B實驗？

3分鐘看透《增長黑客》：增長黑客的概念，AARRR漏斗模型，AB測試

陳文琦：揭秘Google、Netflix、亞馬遜的通用增長神器A/B測試｜深響

神策數(shù)據(jù)：游戲企業(yè)如何做產(chǎn)品A/B測試？三大案例一次搞懂