一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試|華章科技

作者:羅恩·科哈維(Ron Kohavi)、黛安·唐(Diane Tang)、許亞(Ya Xu)

01 設(shè)立實(shí)驗(yàn)

我們用一個(gè)虛構(gòu)的線上銷售小部件的電子商務(wù)網(wǎng)站作為具體的例子。我們可以測(cè)試各類改動(dòng):新功能的引入、用戶界面的改動(dòng)、后端的改動(dòng)等。?

在我們的例子里,市場(chǎng)營(yíng)銷部門希望通過發(fā)送含打折優(yōu)惠券的促銷郵件提高銷量。這涉及潛在業(yè)務(wù)模型的改變,因?yàn)樵摴局皼]有發(fā)過優(yōu)惠券。然而,公司有員工最近了解到Dr. Footcare公司在添加優(yōu)惠券后大幅流失營(yíng)收的案例,也通過GoodUI.org了解到移除優(yōu)惠券會(huì)產(chǎn)生正面的影響。

因?yàn)檫@些外部數(shù)據(jù),公司擔(dān)心在結(jié)賬頁(yè)面增加優(yōu)惠券輸入框會(huì)降低營(yíng)收,即使沒有優(yōu)惠券,僅僅因?yàn)榭吹竭@一欄也會(huì)拖慢用戶的結(jié)賬速度,并導(dǎo)致用戶開始搜索優(yōu)惠券甚至放棄結(jié)賬。

我們希望評(píng)估僅添加優(yōu)惠券輸入框帶來的影響。這里可以用“偽門法”或“畫門法”——如同造一個(gè)假門或者在墻上畫一個(gè)門——來看看多少人會(huì)試圖打開它。

在這個(gè)例子中,我們實(shí)現(xiàn)了一個(gè)在結(jié)賬頁(yè)面添加優(yōu)惠券輸入框的微小改動(dòng)。這里我們不是要實(shí)現(xiàn)一個(gè)真正的優(yōu)惠券系統(tǒng),因?yàn)椴]有優(yōu)惠券可用。不論用戶填寫的是什么,系統(tǒng)都會(huì)顯示:“此優(yōu)惠券不可用。”

我們的目的僅是評(píng)估添加一個(gè)優(yōu)惠券輸入框本身對(duì)營(yíng)收的影響,并確定是否有必要擔(dān)心它會(huì)分散用戶結(jié)賬的注意力。

由于這是一個(gè)很簡(jiǎn)單的改動(dòng),我們將測(cè)試兩種UI的實(shí)現(xiàn)方式。同時(shí)測(cè)試多個(gè)實(shí)驗(yàn)組去評(píng)估一個(gè)想法而不是一個(gè)實(shí)現(xiàn)是很常見的實(shí)驗(yàn)設(shè)置。在這個(gè)例子里,“想法”是添加優(yōu)惠券輸入框,“實(shí)現(xiàn)”是指一個(gè)特定的UI改動(dòng)。

這個(gè)簡(jiǎn)單的A/B測(cè)試是評(píng)估這一新業(yè)務(wù)模型可行性的關(guān)鍵一步。

思考如圖2.1所示的漏斗形的線上購(gòu)物過程有助于我們將UI改動(dòng)方案轉(zhuǎn)換成一個(gè)假設(shè)??蛻魪木W(wǎng)站主頁(yè)開始,瀏覽一些小部件,往購(gòu)物車?yán)锾砑有〔考?,開始付款過程,最終完成付款。

一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試,看這篇就夠了

▲圖2.1 一個(gè)用戶線上購(gòu)物漏斗模型。用戶不一定會(huì)在這個(gè)漏斗里線性前進(jìn),可以跳過、重復(fù)或是往返于步驟間

當(dāng)然,這個(gè)漏斗是簡(jiǎn)化的模型,客戶很少會(huì)這樣線性化地完成每個(gè)步驟,他們會(huì)在步驟之間往返,有些重復(fù)訪問的客戶也會(huì)跳過某些中間步驟。然而,這個(gè)簡(jiǎn)單模型對(duì)我們?nèi)婵紤]實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)分析很有幫助,因?yàn)閷?shí)驗(yàn)的目的通常是有針對(duì)性地改善這個(gè)漏斗中的某個(gè)特定步驟。

對(duì)于這個(gè)實(shí)驗(yàn),我們?cè)诮Y(jié)賬頁(yè)面添加一個(gè)優(yōu)惠券輸入框,測(cè)試如圖2.2所示的兩個(gè)不同的UI,并評(píng)估它們對(duì)營(yíng)收的影響。我們的假設(shè)是:“添加優(yōu)惠券輸入框會(huì)降低營(yíng)收。”?

一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試,看這篇就夠了

圖2.2 a對(duì)照組:舊的結(jié)賬頁(yè)面 b實(shí)驗(yàn)組1:優(yōu)惠券或禮品券輸入框位于信用卡下方 c實(shí)驗(yàn)組2: 優(yōu)惠券或禮品券彈出框

為了測(cè)量這一產(chǎn)品改動(dòng)帶來的影響,我們需要定義目標(biāo)指標(biāo),也稱為成功指標(biāo)。如果只有一個(gè)目標(biāo)指標(biāo),那么我們可以直接將其用作綜合評(píng)估標(biāo)準(zhǔn)(Overall Evaluation Criterion, OEC)。對(duì)于這個(gè)實(shí)驗(yàn),營(yíng)收可能是個(gè)顯而易見的選擇。

請(qǐng)注意,即便想要提高的是營(yíng)收總和,也不建議將營(yíng)收總和作為指標(biāo),因?yàn)樗蕾囉谧凅w對(duì)應(yīng)的用戶數(shù)量。即使各變體被等量分配,實(shí)際用戶數(shù)也可能因?yàn)榕既恍远兴煌?。我們推薦按實(shí)際樣本量歸一化的關(guān)鍵指標(biāo),因此人均營(yíng)收才是一個(gè)好的OEC。 

下一個(gè)關(guān)鍵問題是決定哪些用戶被計(jì)入人均營(yíng)收這一指標(biāo)的分母中:

  • 所有訪問該網(wǎng)站的用戶。這是可行的,但會(huì)帶來噪聲:未進(jìn)入結(jié)賬頁(yè)面的用戶也會(huì)被包括進(jìn)來。由于我們的改動(dòng)發(fā)生在結(jié)賬頁(yè)面,這些用戶不會(huì)受到任何影響。將他們排除在外可以提高A/B測(cè)試的靈敏度。
  • 僅包括完成付款的用戶。這是不正確的,因?yàn)樗僭O(shè)這個(gè)改動(dòng)只會(huì)影響付款額度,而不影響完成付款的用戶的比例。如果更多的用戶付款,那么即使總營(yíng)收增加,人均營(yíng)收也可能會(huì)降低。
  • 僅包括開始付款流程的用戶。考慮到改動(dòng)發(fā)生在漏斗中的環(huán)節(jié),這是最好的選擇。我們包括了所有潛在受影響的用戶,且排除了不被影響但會(huì)稀釋實(shí)驗(yàn)結(jié)果的那部分用戶(從未進(jìn)入結(jié)賬頁(yè)面的用戶)。 

現(xiàn)在細(xì)化后的假設(shè)是“在結(jié)賬頁(yè)面添加優(yōu)惠券輸入框會(huì)降低開始付款流程的用戶的人均營(yíng)收”。 

02 假設(shè)檢驗(yàn):確立統(tǒng)計(jì)顯著性

設(shè)計(jì)、運(yùn)行或分析實(shí)驗(yàn)之前,先來復(fù)習(xí)一些與統(tǒng)計(jì)假設(shè)檢驗(yàn)相關(guān)的基礎(chǔ)概念。 

首先,我們通過理解基準(zhǔn)線均值及其標(biāo)準(zhǔn)差來刻畫一個(gè)指標(biāo)。標(biāo)準(zhǔn)差表明了指標(biāo)估值的變動(dòng)有多大。我們需要知道這一變動(dòng),以正確地估計(jì)實(shí)驗(yàn)所需的樣本量,以及在分析時(shí)計(jì)算統(tǒng)計(jì)顯著性。對(duì)于大多數(shù)指標(biāo),我們測(cè)量它們的均值,但是也可以選擇其他的概述統(tǒng)計(jì)量,比如百分位數(shù)。

靈敏度,或者說檢測(cè)到統(tǒng)計(jì)上顯著差異的能力,會(huì)隨著標(biāo)準(zhǔn)差的降低而提高。提高靈敏度的典型做法是分配更多的流量進(jìn)入變體,或者拉長(zhǎng)實(shí)驗(yàn)的運(yùn)行時(shí)間(通常用戶量會(huì)隨著時(shí)間增加)。

然而,實(shí)驗(yàn)開始的幾周后,后面這種方法可能沒有前者有效果,因?yàn)橹貜?fù)訪問的用戶使得去重用戶量的增長(zhǎng)呈次線性,而有些指標(biāo)本身的方差也會(huì)隨著時(shí)間而增長(zhǎng)。

運(yùn)行實(shí)驗(yàn)時(shí),我們會(huì)為多組樣本,而非單組樣本,刻畫一個(gè)指標(biāo)。具體來說,在對(duì)照實(shí)驗(yàn)中,實(shí)驗(yàn)組有一組樣本,每個(gè)對(duì)照組各有一組樣本。如果零假設(shè)是來自實(shí)驗(yàn)組的樣本和來自對(duì)照組的均值相同,我們會(huì)定量測(cè)試兩組樣本的差異的可能性大小。

如果可能性非常小,則我們拒絕零假設(shè),并宣稱差異是統(tǒng)計(jì)顯著的。確切地說,有了實(shí)驗(yàn)組樣本和對(duì)照組樣本的人均營(yíng)收的估計(jì)值,我們可以計(jì)算估計(jì)值的差異的p值,即在零假設(shè)為真的情況下觀測(cè)到這種差值或更極端的差值的概率。

如果p值足夠小,則我們拒絕零假設(shè),并得出實(shí)驗(yàn)有效應(yīng)(或者說結(jié)果統(tǒng)計(jì)上顯著)的結(jié)論。但是多小是足夠小呢? 

科學(xué)的標(biāo)準(zhǔn)是使用小于0.05的p值,也就是說,如果事實(shí)上是沒有效應(yīng)的,那么100次里我們有95次能正確地推斷出沒有效應(yīng)。另一種檢驗(yàn)樣本差異是否統(tǒng)計(jì)顯著的方法是看置信區(qū)間有沒有包含零值。95%置信區(qū)間是一個(gè)可以在95%的時(shí)間里覆蓋真實(shí)差異值的區(qū)間。

對(duì)于較大的樣本量,這個(gè)區(qū)間通常以觀測(cè)到的實(shí)驗(yàn)組和對(duì)照組差值為中心點(diǎn),向兩邊各擴(kuò)展1.96倍于標(biāo)準(zhǔn)差的寬度。圖2.3展示了p值和置信區(qū)間這兩種方法的等價(jià)性。?

一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試,看這篇就夠了

▲圖2.3

  • 上圖:用p值評(píng)定觀測(cè)到的差值是否統(tǒng)計(jì)顯著。如果p值小于0.05,則認(rèn)為是統(tǒng)計(jì)顯著的。
  • 下圖:用95%置信區(qū)間Δ-1.96σ,Δ+1.96σ評(píng)定統(tǒng)計(jì)顯著性的等價(jià)方法。如果零值落在置信區(qū)間之外,則認(rèn)為是統(tǒng)計(jì)顯著的

03 設(shè)計(jì)實(shí)驗(yàn)

現(xiàn)在可以開始設(shè)計(jì)實(shí)驗(yàn)了。我們已經(jīng)有了一個(gè)假設(shè)和一個(gè)實(shí)際顯著的邊界,并且刻畫了指標(biāo)。我們將接著做以下決定來敲定設(shè)計(jì): 

  1. 隨機(jī)化單元是什么?
  2. 我們的目標(biāo)群體是什么?
  3. 實(shí)驗(yàn)需要多大的樣本量?
  4. 實(shí)驗(yàn)需要運(yùn)行多久?

這里我們假設(shè)隨機(jī)化單元是用戶。

以一個(gè)特定群體為目標(biāo)意味著你只想對(duì)具有某一特征的用戶運(yùn)行實(shí)驗(yàn)。例如,要測(cè)試新的僅限于某幾種語(yǔ)言的文本,這時(shí),可以選擇界面語(yǔ)言設(shè)置為這幾種語(yǔ)言的用戶。其他常見的目標(biāo)屬性包括地理區(qū)域、平臺(tái)和設(shè)備類型。在我們的這個(gè)例子里,假設(shè)以所有用戶為目標(biāo)。

實(shí)驗(yàn)的樣本量大?。▽?duì)我們而言就是用戶量)對(duì)結(jié)果的精確度有直接影響。如果你想要檢測(cè)出很小的變化或者對(duì)結(jié)論更有信心,那么就要運(yùn)行一個(gè)有更多用戶的實(shí)驗(yàn)。這里我們列出一些可能要考慮的調(diào)整:

  • 如果用購(gòu)買指示符(即用戶買/沒買,無論買了多少)而不是人均營(yíng)收作為OEC,那么標(biāo)準(zhǔn)差會(huì)更小,意味著更少的用戶就能達(dá)到同樣的靈敏度。
  • 如果提高實(shí)際顯著水平,比如我們不再關(guān)心1%的變化,而只關(guān)心更大的變化,由于更大變化更容易被檢測(cè)到,我們就可以縮小樣本量。
  • 如果想用更小的p值閾值,比如0.01,以使得我們能更確信結(jié)果有差異而拒絕零假設(shè),則需要增大樣本量。

其他一些決定實(shí)驗(yàn)樣本量的考慮因素如下:

  • 實(shí)驗(yàn)的安全性如何?對(duì)于一些重大的改動(dòng),由于無法確定用戶會(huì)有什么反應(yīng),你可能想要先從一小部分用戶開始測(cè)試。這個(gè)考量不影響實(shí)驗(yàn)最終所需樣本量,但是會(huì)影響放量策略。
  • 這個(gè)實(shí)驗(yàn)是否需要和其他實(shí)驗(yàn)共享流量?如果是,怎么平衡流量需求?概括來說,如果有其他的變動(dòng)也要測(cè)試,可以選擇同時(shí)運(yùn)行或者依序運(yùn)行。如果必須在多個(gè)同時(shí)運(yùn)行的測(cè)試間分割流量,那么每個(gè)測(cè)試將只能得到更小的流量。

另一個(gè)重要的問題是實(shí)驗(yàn)需要運(yùn)行多久。我們需要考慮如下這些因素:

  • 更多的用戶:對(duì)于線上實(shí)驗(yàn),用戶隨著時(shí)間流入實(shí)驗(yàn),時(shí)間越長(zhǎng),用戶數(shù)越多。統(tǒng)計(jì)功效通常也會(huì)隨之提高(當(dāng)測(cè)量累積指標(biāo)時(shí)會(huì)有例外,比如會(huì)話數(shù),其方差也隨著增大,統(tǒng)計(jì)功效則未必會(huì)隨用戶數(shù)增加而提高)??紤]到同樣的用戶會(huì)反復(fù)訪問,用戶隨時(shí)間的累積可能是次線性的:第一天有N個(gè)用戶,兩天的總用戶數(shù)會(huì)小于2N,因?yàn)椴糠钟脩暨@兩天都會(huì)來訪問。
  • 周內(nèi)效應(yīng):周末訪問的用戶群體可能和周中訪問的不一樣。即使同一用戶在周中和周末也可能有不一樣的表現(xiàn)。確保實(shí)驗(yàn)?zāi)芨采w一周的周期是很重要的。我們建議實(shí)驗(yàn)至少要運(yùn)行一整周。
  • 季節(jié)性:還有一些用戶可能有其他不同表現(xiàn)的重要時(shí)期需要考慮,比如節(jié)假日。如果你的用戶遍布全球,美國(guó)假期和非美國(guó)假期可能會(huì)有影響。例如,禮品卡可能在圣誕期間銷量很好,但在一年的其他時(shí)期則不行。這被稱為外部有效性,即實(shí)驗(yàn)結(jié)果可以被歸納推廣到什么程度,這里指被推廣到其他時(shí)間段。 
  • 初始和新奇效應(yīng):有些實(shí)驗(yàn)在初始階段有較大或較小的效應(yīng),并在之后的一段時(shí)間趨于穩(wěn)定。例如,用戶可能會(huì)嘗試一個(gè)新的很亮眼的按鈕,然后發(fā)現(xiàn)它并不好用,這個(gè)按鈕的點(diǎn)擊量則會(huì)隨著時(shí)間而減少。而有些新功能會(huì)有一個(gè)被接受的過程,需要一定的時(shí)間來建立用戶基礎(chǔ)。 

至此,我們的實(shí)驗(yàn)設(shè)計(jì)如下: 

  1. 隨機(jī)化單元是用戶。
  2. 我們以全體用戶為目標(biāo),并分析那些訪問結(jié)賬頁(yè)面的用戶。
  3. 為了能以80%的統(tǒng)計(jì)功效檢測(cè)出至少1%的人均營(yíng)收的變化,我們會(huì)通過功效分析來確定樣本量。
  4. 根據(jù)所需樣本量,實(shí)驗(yàn)要按34%/33%/33%的比例將流量分配到對(duì)照組/實(shí)驗(yàn)組1/實(shí)驗(yàn)組2,且至少運(yùn)行4天。為了確保了解周內(nèi)效應(yīng),我們將運(yùn)行實(shí)驗(yàn)一整周,如果發(fā)現(xiàn)新奇效應(yīng)或初始效應(yīng),則可能需要運(yùn)行更長(zhǎng)時(shí)間。 

一般來說,實(shí)驗(yàn)的統(tǒng)計(jì)功效過大是沒有問題的,甚至是推薦的,因?yàn)橛袝r(shí)候我們需要檢查細(xì)分群(例如,地理區(qū)域或平臺(tái)),且有時(shí)候需要保證實(shí)驗(yàn)有足夠的統(tǒng)計(jì)功效來檢測(cè)多個(gè)關(guān)鍵指標(biāo)的變化。例如,我們可能有足夠的統(tǒng)計(jì)功效來檢測(cè)對(duì)所有用戶的營(yíng)收的影響,但沒有足夠的統(tǒng)計(jì)功效來觀測(cè)針對(duì)加拿大用戶的影響。

還有一點(diǎn)值得注意的是,雖然這里的對(duì)照組和實(shí)驗(yàn)組有近似相同的樣本量,但如果實(shí)驗(yàn)組數(shù)量增加,則可能要考慮讓對(duì)照組的樣本量比實(shí)驗(yàn)組多。 

04 運(yùn)行實(shí)驗(yàn)并獲得數(shù)據(jù)

現(xiàn)在我們運(yùn)行實(shí)驗(yàn)并收集必要的數(shù)據(jù)。這里只簡(jiǎn)單概述一下要點(diǎn)。

為了運(yùn)行實(shí)驗(yàn),我們需要:

  • 工具化日志記錄來獲得用戶和網(wǎng)站互動(dòng)的日志數(shù)據(jù),以及這些互動(dòng)是屬于哪個(gè)實(shí)驗(yàn)的。
  • 基礎(chǔ)設(shè)施來支持實(shí)驗(yàn)的運(yùn)行,從實(shí)驗(yàn)配置到變體分配。

一旦開始運(yùn)行實(shí)驗(yàn),并且使用工具化日志記錄收集了日志數(shù)據(jù),就可以開始著手處理數(shù)據(jù)、計(jì)算概述統(tǒng)計(jì)量并可視化結(jié)果了。

05 分析結(jié)果

實(shí)驗(yàn)有數(shù)據(jù)了!分析實(shí)驗(yàn)對(duì)人均營(yíng)收的影響之前,需要先做一些合理性檢查來確定實(shí)驗(yàn)的運(yùn)行是正確的。

多種漏洞都會(huì)使實(shí)驗(yàn)結(jié)果無效。為了抓住這些漏洞,我們會(huì)關(guān)注護(hù)欄指標(biāo)(guardrail metric)或不變量(invariant)。這些指標(biāo)不應(yīng)該在對(duì)照組和實(shí)驗(yàn)組之間存在差異。如果有差異,那么實(shí)驗(yàn)中測(cè)量到的差異有可能是由其他變動(dòng)而不是被測(cè)試的改動(dòng)導(dǎo)致的。

不變量指標(biāo)有兩種類型:

  1. 與可信度相關(guān)的護(hù)欄指標(biāo),比如對(duì)照組和實(shí)驗(yàn)組的樣本量應(yīng)該和實(shí)驗(yàn)構(gòu)建時(shí)的預(yù)期一致,或者它們有同樣的緩存命中率。
  2. 機(jī)構(gòu)的護(hù)欄指標(biāo),比如延遲指標(biāo)。延遲指標(biāo)對(duì)機(jī)構(gòu)很重要,而且在很多實(shí)驗(yàn)中不應(yīng)該有變化。對(duì)于結(jié)賬頁(yè)面的實(shí)驗(yàn),如果延遲改變了會(huì)令人感到意外。

如果合理性檢查失敗,那么很有可能背后的實(shí)驗(yàn)設(shè)計(jì)、基礎(chǔ)設(shè)施或數(shù)據(jù)處理是有問題的。

完成基于護(hù)欄指標(biāo)的合理性檢查之后,我們可以開始看結(jié)果(表2.1)。

一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試,看這篇就夠了

表2.1 結(jié)賬頁(yè)面實(shí)驗(yàn)的人均營(yíng)收結(jié)果

由于兩個(gè)對(duì)照組的p值都小于0.05,我們拒絕實(shí)驗(yàn)組和對(duì)照組有相同均值的零假設(shè)。

這意味著什么呢?我們證實(shí)了在用戶界面添加優(yōu)惠券輸入框會(huì)降低營(yíng)收。如果進(jìn)一步研究數(shù)據(jù),結(jié)果表明營(yíng)收降低是因?yàn)橥瓿筛犊钸^程的用戶更少。

因此,任何發(fā)送優(yōu)惠券的營(yíng)銷郵件需要扣除的不僅是實(shí)現(xiàn)優(yōu)惠券添加系統(tǒng)帶來的處理和維護(hù)成本,還有最開始添加優(yōu)惠券輸入框的負(fù)面影響。

由于這一市場(chǎng)營(yíng)銷模型被預(yù)測(cè)可以小幅增加部分目標(biāo)用戶的營(yíng)收,而A/B測(cè)試顯示它會(huì)顯著降低所有用戶的營(yíng)收,最終我們決定放棄引入優(yōu)惠券的想法。畫門法的A/B測(cè)試節(jié)省了我們很多精力!

06 從結(jié)果到?jīng)Q策

運(yùn)行A/B測(cè)試的目標(biāo)是收集數(shù)據(jù)以驅(qū)動(dòng)決策。很多工作都用來確保實(shí)驗(yàn)結(jié)果是可重復(fù)的且可信賴的,以做出正確的決策。接下來我們對(duì)幾種可能發(fā)生的不同情況梳理決策過程。

對(duì)于每一種情況,我們都已經(jīng)有了實(shí)驗(yàn)結(jié)果,且目標(biāo)是將實(shí)驗(yàn)結(jié)果轉(zhuǎn)化為產(chǎn)品功能發(fā)布/不發(fā)布的決策。強(qiáng)調(diào)決策部分是因?yàn)橐粋€(gè)決策既需要考慮從測(cè)量結(jié)果得到的結(jié)論,也要考慮更廣泛的背景,例如:

  • 你是否需要在不同的指標(biāo)之間權(quán)衡取舍?如用戶互動(dòng)度增加,但營(yíng)收降低,應(yīng)該發(fā)布嗎?另一個(gè)例子是,如果CPU利用率增加,運(yùn)行服務(wù)的成本卻可能超過這一變化帶來的效益。
  • 發(fā)布改動(dòng)的成本是什么?包括:
  • 發(fā)布之前完整搭建這個(gè)功能的成本。有些功能可能在實(shí)驗(yàn)之前就已經(jīng)完全建好。對(duì)于這種情況,從1%到100%的發(fā)布沒有額外的成本。也有其他的情況。像我們的例子,實(shí)現(xiàn)“畫門”是低成本的,但實(shí)現(xiàn)完整的優(yōu)惠券系統(tǒng)則需要付出很高的成本。
  • 發(fā)布之后持續(xù)維護(hù)的工程成本。維護(hù)新的代碼可能更加昂貴。新代碼容易有更多漏洞,且邊界情況的測(cè)試不完善。如果新代碼的復(fù)雜度更高,那么在其基礎(chǔ)上搭建新的改動(dòng)會(huì)有更多的阻力和成本。

如果成本很高,則必須確保預(yù)計(jì)的收益高于成本。對(duì)于這種情況,需要確保實(shí)際顯著的邊界設(shè)立得足夠高。反過來,如果成本很低或沒有成本,你可以選擇發(fā)布任何有正面影響的改動(dòng),也就是說,實(shí)際顯著的邊界很低。

決策錯(cuò)誤的代價(jià)是什么?不是所有的決策都是等價(jià)的,也不是所有的錯(cuò)誤都是等價(jià)的。發(fā)布沒有影響的改動(dòng)可能沒有任何壞處,但放棄有影響的改動(dòng)可能機(jī)會(huì)成本很高,反過來也是一樣。例如,你在網(wǎng)站上測(cè)試兩個(gè)頭條推廣,且推廣只存續(xù)幾天的時(shí)間。由于改動(dòng)的生命期很短,做出錯(cuò)誤決策的代價(jià)很低。此時(shí),你可能愿意降低統(tǒng)計(jì)顯著性和實(shí)際顯著性水平。

構(gòu)造統(tǒng)計(jì)顯著性和實(shí)際顯著性閾值的時(shí)候,需要考慮以上這些背景。從實(shí)驗(yàn)結(jié)果出發(fā)來做決策或采取行動(dòng)的時(shí)候,這些閾值非常關(guān)鍵。假設(shè)我們?cè)趯?shí)驗(yàn)開始之前已經(jīng)考慮了這些背景并更新了閾值,現(xiàn)在來用圖2.4中的例子解釋如何用這些閾值指導(dǎo)決策。

一個(gè)案例、6個(gè)步驟全程詳解A/B測(cè)試,看這篇就夠了

▲圖2.4

圖2.4 關(guān)于決策是否發(fā)布時(shí)理解統(tǒng)計(jì)顯著性和實(shí)際顯著性的例子。實(shí)際顯著的邊界由兩條虛線表示。各個(gè)示例結(jié)果的估計(jì)差異值(及置信區(qū)間)由黑框表示

  1. 結(jié)果不是統(tǒng)計(jì)顯著的,顯然也不是實(shí)際顯著的。很容易得出結(jié)論:該改動(dòng)沒有什么影響??梢宰龅蛘叻艞墶?/li>
  2. 結(jié)果是統(tǒng)計(jì)顯著的,也是實(shí)際顯著的。同樣很容易得出結(jié)論:發(fā)布!
  3. 結(jié)果是統(tǒng)計(jì)顯著的,但不是實(shí)際顯著的。這時(shí)候,你對(duì)差異值的量級(jí)是有把握的,但是這個(gè)量級(jí)可能不足以勝過其他因素,比如成本。這一改動(dòng)也許不值得發(fā)布。
  4. 跟例1一樣,這是個(gè)中性的例子。然而,這里置信區(qū)間越過了實(shí)際顯著的閾值。如果運(yùn)行一個(gè)實(shí)驗(yàn)然后發(fā)現(xiàn)它可能增加或降低10%的營(yíng)收,你真的會(huì)接受這個(gè)實(shí)驗(yàn)結(jié)果并認(rèn)為結(jié)果是中性的嗎?更好的說法是沒有足夠的統(tǒng)計(jì)功效來得到一個(gè)有力的結(jié)論,也就是說,沒有足夠的數(shù)據(jù)來支持發(fā)布或不發(fā)布的決策。對(duì)于這個(gè)結(jié)果,我們推薦通過運(yùn)行跟進(jìn)實(shí)驗(yàn)來測(cè)試更多的單元,以獲得更大的統(tǒng)計(jì)功效。
  5. 結(jié)果可能是實(shí)際顯著的,但不是統(tǒng)計(jì)顯著的。即便最好的猜測(cè)是這個(gè)改動(dòng)有影響,也很有可能實(shí)際上完全沒有影響。從測(cè)量的角度來說,最好的建議是重復(fù)這個(gè)實(shí)驗(yàn),同時(shí)增大統(tǒng)計(jì)功效以提高結(jié)果的靈敏度。
  6. 這個(gè)結(jié)果是統(tǒng)計(jì)顯著的,并且可能是實(shí)際顯著的。像例5一樣,有可能這個(gè)改動(dòng)并不是實(shí)際顯著的。因此,跟前面幾個(gè)例子一樣,我們推薦重復(fù)實(shí)驗(yàn)并增大統(tǒng)計(jì)功效。不過從發(fā)布/不發(fā)布的決策角度來說,選擇發(fā)布是一個(gè)合理的決定。

要記住的關(guān)鍵一點(diǎn)是,有些時(shí)候?qū)嶒?yàn)結(jié)果給不了清晰的答案,但仍然要做出決策。對(duì)于這種情況,我們需要明確考慮的因素,尤其是這些因素如何影響實(shí)際顯著和統(tǒng)計(jì)顯著的邊界設(shè)定。這些考慮會(huì)為未來的決策提供基礎(chǔ),而非局限于當(dāng)前的單一決策。

關(guān)于作者:羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術(shù)院士,曾任微軟的技術(shù)研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數(shù)據(jù)挖掘和個(gè)性化推薦總監(jiān)。他擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,論文被引用超過40 000次,其中有3篇位列計(jì)算機(jī)科學(xué)領(lǐng)域引用最多的1 000篇論文榜。

黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數(shù)據(jù)分析和基礎(chǔ)設(shè)施、線上對(duì)照實(shí)驗(yàn)及廣告系統(tǒng)方面的專家。她擁有哈佛大學(xué)的文學(xué)學(xué)士學(xué)位和斯坦福大學(xué)的碩士及博士學(xué)位,在移動(dòng)網(wǎng)絡(luò)、信息可視化、實(shí)驗(yàn)方法、數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)挖掘和大數(shù)據(jù)方面擁有專利和出版物。

許亞(Ya Xu)是領(lǐng)英數(shù)據(jù)科學(xué)與實(shí)驗(yàn)平臺(tái)負(fù)責(zé)人,曾撰寫了多篇關(guān)于實(shí)驗(yàn)的論文,并經(jīng)常在頂級(jí)會(huì)議和大學(xué)演講。她曾在微軟工作,擁有斯坦福大學(xué)的統(tǒng)計(jì)學(xué)博士學(xué)位。

—— 如果覺得文章還OK,請(qǐng)轉(zhuǎn)發(fā) ——

特別提示:關(guān)注本專欄,別錯(cuò)過行業(yè)干貨!

PS:本司承接 小紅書 / 淘寶逛逛 / 抖音 / 百度系 / 知乎 / 微博/大眾點(diǎn)評(píng) 等 全網(wǎng)各平臺(tái)推廣;

咨詢微信:139 1053 2512 (同電話)

首席增長(zhǎng)官CGO薦讀:

更多精彩,關(guān)注:增長(zhǎng)黑客(GrowthHK.cn)

增長(zhǎng)黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營(yíng)銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長(zhǎng)…

本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/44274.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2021-07-20 19:12
下一篇 2021-07-20 22:59

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論