如今的企業(yè)營(yíng)銷決策變革主要在兩個(gè)維度發(fā)生改變:
左手是市場(chǎng)導(dǎo)向型戰(zhàn)略,即公司業(yè)務(wù)的市場(chǎng)增長(zhǎng)邏輯、增長(zhǎng)區(qū)間在什么地方,偏宏觀戰(zhàn)略;
右手是消費(fèi)者行為研究,即如何深入理解消費(fèi)者偏好、促進(jìn)精準(zhǔn)營(yíng)銷轉(zhuǎn)化,偏微觀策略。
今天,數(shù)據(jù)驅(qū)動(dòng)決策的理念、思維、工具都在革新左右手的增長(zhǎng)邏輯。重要的是如何決策,即大數(shù)據(jù)應(yīng)該走向決策數(shù)據(jù)。
過去企業(yè)經(jīng)常談以消費(fèi)者為中心,很容易陷入空洞的口號(hào),主要過于依賴員工的理解和執(zhí)行,造成落地難度很大。如今,大量數(shù)字化觸點(diǎn)的建設(shè),使多維度數(shù)據(jù)的可獲得性大大提高,帶來了全新的連接關(guān)系。無論是 Martech 的前鏈路還是后鏈路營(yíng)銷,這種連接直接促成了互動(dòng)行為的數(shù)字化,一個(gè)最終的消費(fèi)決策被分割成無數(shù)微觀的階段性消費(fèi)者行為切面。而 AB 測(cè)試,就是對(duì)消費(fèi)者行為切片進(jìn)行量化反饋的過程,扮演著大數(shù)據(jù)向決策數(shù)據(jù)轉(zhuǎn)變的催化劑作用,也是數(shù)據(jù)決策的重要抓手。
早在 2007 年,谷歌就建設(shè)了完善的 AB 測(cè)試系統(tǒng),隨后實(shí)驗(yàn)的頻率越來越高?,F(xiàn)在谷歌每個(gè)月都會(huì)上線幾百個(gè) AB 測(cè)試,谷歌通過這些實(shí)驗(yàn)可獲得全年 20%+ 的增長(zhǎng),增加超過 10 億美元的營(yíng)收;Facebook 的 CEO 會(huì)親自參與眾多的 AB 測(cè)試;Linkedin 把 AB 測(cè)試作為產(chǎn)品研發(fā)上線過程中的基本流程;國(guó)內(nèi)大廠中,小米是 AB 測(cè)試的先驅(qū)者,從 2010 年 8 月 16 日首個(gè) MIUI 內(nèi)測(cè)版發(fā)布,就開始進(jìn)行系統(tǒng)性的 AB 測(cè)試,測(cè)出天使米粉對(duì)哪些功能更感興趣并進(jìn)行快速迭代,每個(gè)員工、米粉都積極參與到 AB 測(cè)試,并形成了小米“參與感”的文化底蘊(yùn);另外,字節(jié)跳動(dòng)也是 AB 測(cè)試的應(yīng)用典范,自 2012 年成立以來,字節(jié)跳動(dòng)先后將 AB 測(cè)試應(yīng)用在產(chǎn)品命名、交互設(shè)計(jì)、推薦算法、用戶增長(zhǎng)、廣告優(yōu)化和市場(chǎng)活動(dòng)等方方面面的決策中。
AB 測(cè)試背后,折射出的是企業(yè)“讓數(shù)據(jù)和事實(shí)說話”、“避免拍腦門”的決策機(jī)制。AB 測(cè)試堪稱是成功企業(yè)留住客戶、進(jìn)行商業(yè)變現(xiàn)的奠基石。
在消費(fèi)品行業(yè),AB 測(cè)試同樣大有所為。比如元?dú)馍终峭ㄟ^ AB 測(cè)試,在氣泡水這一細(xì)分賽道里突圍而出。首先進(jìn)行口味測(cè)試,測(cè)出天使用戶對(duì)哪一種口味更感興趣;再進(jìn)行電商測(cè)試,看看驗(yàn)證型的產(chǎn)品在電商渠道的情況,是否達(dá)到規(guī)模化標(biāo)準(zhǔn),再去進(jìn)行線下鋪開;在門店測(cè)試中,通過各種 IOT 設(shè)備監(jiān)測(cè)消費(fèi)者的互動(dòng)和購買行為,調(diào)整選品和陳列策略,最終完成整個(gè) DTC 測(cè)試。這套測(cè)試方法,本質(zhì)上就是推動(dòng)從大數(shù)據(jù)到?jīng)Q策數(shù)據(jù)轉(zhuǎn)變的過程。
很多人一直把 AB 測(cè)試?yán)斫獬梢粋€(gè)技術(shù)行為,其實(shí)它是一種業(yè)務(wù)經(jīng)營(yíng)行為,而且是一種科學(xué)的經(jīng)營(yíng)行為。 我們不應(yīng)當(dāng)僅僅拿它作為一個(gè)工具,而應(yīng)當(dāng)將它變成一種思維,一種方法論,一種企業(yè)經(jīng)營(yíng)策略。
AB 測(cè)試有很大的作用,但能用好 AB 測(cè)試的公司并不多,本文立意是 Martech 領(lǐng)域中如何用 AB 測(cè)試?yán)斫馕⒂^層面的消費(fèi)者偏好并進(jìn)行精準(zhǔn)營(yíng)銷自動(dòng)化,以及闡釋 AB 測(cè)試的底層邏輯。
什么是 AB 測(cè)試?
簡(jiǎn)單來說,當(dāng)企業(yè)面臨決策的不確定時(shí),可以從整體流量中劃出小部分流量,隨機(jī)、均勻地分出兩組,分別由兩組用戶進(jìn)行測(cè)試,最終通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比確定更優(yōu)方案。實(shí)證科學(xué)本質(zhì)就是一種 AB 測(cè)試,將實(shí)驗(yàn)對(duì)象分組、比較、校準(zhǔn),形成可復(fù)制的經(jīng)驗(yàn)。用胡適的話,“大膽假設(shè)、小心求證”,而今由于行為數(shù)據(jù)的豐富,AB 測(cè)試成為 Martech 的底牌之一。
從心理上,消費(fèi)者往往不知道自己要什么,但從行為上,我們能知道他們的真實(shí)選擇偏好,企業(yè)也由此可以動(dòng)態(tài)做出決策。通過 AB 測(cè)試,確保每個(gè)決策都為企業(yè)帶來正向收益,實(shí)現(xiàn)復(fù)利效應(yīng),帶動(dòng)持續(xù)增長(zhǎng)。
下邊解釋幾個(gè) AB 測(cè)試相關(guān)術(shù)語:
流量互斥層
是為了讓多個(gè)實(shí)驗(yàn)?zāi)軌虿⑿胁幌嗷ジ蓴_,且都獲得足夠的流量而研發(fā)的流量分層技術(shù)。把總體流量“復(fù)制”無數(shù)遍,形成無數(shù)個(gè)流量層,讓總體流量可以被無數(shù)次復(fù)用,從而提高實(shí)驗(yàn)效率。各層之間的流量是正交的,你可以簡(jiǎn)單理解為:在流量層選擇正確的前提下,流量經(jīng)過科學(xué)的分配,可以保證各實(shí)驗(yàn)的結(jié)果不會(huì)受到其他層實(shí)驗(yàn)的干擾。
流量正交實(shí)驗(yàn)
每個(gè)獨(dú)立實(shí)驗(yàn)為一層,一份流量穿越每層實(shí)驗(yàn)時(shí),都會(huì)隨機(jī)打散再重組,保證每層流量數(shù)量相同。舉個(gè)例子。假設(shè)現(xiàn)在有 2 個(gè)實(shí)驗(yàn)。實(shí)驗(yàn) A(實(shí)驗(yàn)組標(biāo)記為 A1,對(duì)照組標(biāo)記為 A2)分布于實(shí)驗(yàn)層 1,取用該層 100% 的流量;實(shí)驗(yàn) B(實(shí)驗(yàn)組標(biāo)記為 B1,對(duì)照組標(biāo)記為 B2)分布于實(shí)驗(yàn)層 2,也取用該層100% 的流量。(要注意,實(shí)驗(yàn)層 1和實(shí)驗(yàn)層 2實(shí)際上是同一批用戶,實(shí)驗(yàn)層 2 只是復(fù)用了實(shí)驗(yàn)層 1 的流量)如果把 A1 組的流量分成 2 半,一份放進(jìn) B1 組,一份放進(jìn) B2 組;再把 A2 組的流量也分成2半,一份放進(jìn) B1 組,一份放進(jìn) B2 組。那么兩個(gè)實(shí)驗(yàn)對(duì)于流量的調(diào)用就會(huì)如下圖所示。此時(shí)實(shí)驗(yàn) A 和實(shí)驗(yàn) B 之間,就形成了流量“正交”。
我們可以發(fā)現(xiàn),因?yàn)?A1 組的一半流量在 B1 中,另一半流量在 B2 中,因此即使 A1 的策略會(huì)對(duì)實(shí)驗(yàn) B 產(chǎn)生影響,那么這種影響也均勻的分布在了實(shí)驗(yàn) B 的兩個(gè)組之中;在這種情況下,如果 B1 組的指標(biāo)上漲了,那么就可以排除 B1 是受 A1 影響才形成上漲。這就是流量正交存在的意義。
互斥實(shí)驗(yàn)所有互斥實(shí)驗(yàn)使用同一流量層用戶,但不共享用戶,如果一個(gè)用戶 / 設(shè)備命中了實(shí)驗(yàn) A,就不會(huì)命中互斥的其他實(shí)驗(yàn)。
實(shí)驗(yàn)指標(biāo)在開始一個(gè)實(shí)驗(yàn)時(shí),目的是對(duì)比對(duì)照組和實(shí)驗(yàn)組的某個(gè)或者某幾個(gè)指標(biāo)。如,分析活動(dòng)頁面主圖的點(diǎn)擊次數(shù)時(shí),需要上報(bào)注冊(cè)的點(diǎn)擊事件,然后在 AB 測(cè)試中配置指標(biāo),即可看到實(shí)驗(yàn)中及實(shí)驗(yàn)后的指標(biāo)對(duì)比。
流量過濾對(duì) AB 測(cè)試的目標(biāo)用戶增加一些限制條件,規(guī)定被實(shí)驗(yàn)命中的用戶必須符合(或不符合)條件,比如針對(duì)某個(gè)用戶分群,某些用戶標(biāo)簽進(jìn)行過濾,進(jìn)而精準(zhǔn)找到測(cè)試目標(biāo)人群,這種限制條件即“流量過濾”。
白名單用戶在實(shí)驗(yàn)正式開啟之前,通常需要先選擇幾名用戶進(jìn)入測(cè)試階段,觀察實(shí)驗(yàn)是否能夠正常獲取想要收集的數(shù)據(jù),或執(zhí)行流程是否符合預(yù)期。參與這一步的用戶被稱為“白名單用戶”。
置信區(qū)間置信度區(qū)間就是用來對(duì)一組實(shí)驗(yàn)數(shù)據(jù)的結(jié)果進(jìn)行估計(jì)的區(qū)間范圍。舉個(gè)例子,我們現(xiàn)在進(jìn)行一個(gè)實(shí)驗(yàn)來體現(xiàn)活動(dòng)落地頁中的圖案改變對(duì)用戶購買率的影響,其中采用了新策略 B 的實(shí)驗(yàn)組,購買率提升均值為 5%,置信區(qū)間為[1.5%,8.5%]。怎么理解此處的置信區(qū)間呢?由于在 AB 實(shí)驗(yàn)中我們采取小流量抽樣的方式,樣本不能完全代表總體,那么實(shí)際上策略 B 如果在總體流量中生效,不見得會(huì)獲得 5% 的增長(zhǎng)。如果我們?cè)O(shè)策略 B 在總體流量中推行所導(dǎo)致的真實(shí)增長(zhǎng)率為?μ,那么在這個(gè)案例中,μ?的真實(shí)取值會(huì)在 [1.5%,8.5%] 之間。值得注意的是,μ 并不是 100% 概率落在這一區(qū)間里,在計(jì)算置信區(qū)間的過程中,我們會(huì)先取一個(gè)置信度,計(jì)算這一置信度下的置信區(qū)間是多少,AB 實(shí)驗(yàn)中我們通常計(jì)算 95% 置信度下的置信區(qū)間?;氐絼倓偟睦樱覀兙涂梢缘弥?,μ 的真實(shí)取值有 95% 的可能落在 [1.5%,8.5%] 之間。
置信度在實(shí)際操作中,會(huì)遇到實(shí)驗(yàn)結(jié)論顯示新策略有用,但實(shí)際上全量發(fā)布新策略后沒用。在統(tǒng)計(jì)學(xué)中稱為第一類錯(cuò)誤,用顯著性水平 ( α ) 來描述實(shí)驗(yàn)者范這一類錯(cuò)誤的概率,置信度 = 1 – α,當(dāng)某個(gè)實(shí)驗(yàn)結(jié)論顯著性指標(biāo) α < 5%,則置信度 > 95%,我們認(rèn)為這個(gè)實(shí)驗(yàn)結(jié)論指標(biāo)大概率是可信的,系統(tǒng)有超過 95% 的信心確認(rèn)這個(gè)實(shí)驗(yàn)結(jié)論是準(zhǔn)確的。在 AB 測(cè)試中,由于只能抽取流量做小樣本實(shí)驗(yàn)。樣本流量的分布與總體流量不會(huì)完全一致,這就導(dǎo)致沒有一個(gè)實(shí)驗(yàn)結(jié)果可以 100% 準(zhǔn)確,即使數(shù)據(jù)漲了,也可能僅僅由抽樣誤差造成,跟我們采取策略無關(guān)。在統(tǒng)計(jì)學(xué)中,置信度的存在就是為了描述實(shí)驗(yàn)結(jié)果的可信度。
校驗(yàn)靈敏度 ( MDE )實(shí)際操作中,會(huì)遇到新策略其實(shí)有效,但實(shí)驗(yàn)沒能檢測(cè)出來。在統(tǒng)計(jì)學(xué)中稱為第二類錯(cuò)誤,用 β 來描述實(shí)驗(yàn)者范這一類錯(cuò)誤的概率,統(tǒng)計(jì)功效 = 1 – β,統(tǒng)計(jì)功效表示如果新策略是有效的,有多大概率在實(shí)驗(yàn)中能夠檢測(cè)出來。通常認(rèn)為統(tǒng)計(jì)功效 > 80% 為有效檢測(cè) 。通過設(shè)置 MDE,并與新策略的目標(biāo)提升率進(jìn)行比較,來避免實(shí)驗(yàn)在靈敏度不足的情況下被過早做出非顯著結(jié)論而結(jié)束,錯(cuò)失有潛力的新策略。MDE 越小,意味著要求測(cè)試的靈敏度越高,所需的樣本量也越大。如果 MDE 設(shè)置過于精細(xì),不僅會(huì)浪費(fèi)不必要的流量,同時(shí)實(shí)際收益可能不能彌補(bǔ)新策略的研發(fā)和推廣成本。靈敏度不足,比如預(yù)期 1% 就達(dá)標(biāo),但實(shí)驗(yàn)靈敏度僅能檢測(cè) 5% 及以上,會(huì)導(dǎo)致錯(cuò)失有潛力的新策略。
AB 測(cè)試究竟有什么魅力,能夠?yàn)槠髽I(yè)帶來如此大的收益,被各大互聯(lián)網(wǎng)公司視為法寶。一方面 AB 測(cè)試只用整體流量中的一小部分進(jìn)行實(shí)驗(yàn),避免了一個(gè)錯(cuò)誤決策對(duì)整個(gè)公司用戶的嚴(yán)重影響,另一方面又能夠依靠數(shù)據(jù)對(duì)每個(gè)特征進(jìn)行影響力量化,使得我們可以以較小的風(fēng)險(xiǎn)對(duì)新特性進(jìn)行評(píng)估,積極試錯(cuò)積累經(jīng)驗(yàn),并且這個(gè)方法有能力排除其他因素(如同時(shí)開發(fā)的其他特性、時(shí)間因素等)的干擾;除了“好’或者‘不好“,也能夠給出定量的結(jié)果。之所以 AB 測(cè)試能夠用小部分流量進(jìn)行抽樣,并量化誤差,得到相對(duì)準(zhǔn)確的預(yù)測(cè)結(jié)論,根源在于中心極限定理的存在。中心極限定理定告訴我們,如果我們從總體流量里不斷抽取樣本,做無數(shù)次小流量實(shí)驗(yàn),這無數(shù)次抽樣所觀測(cè)到的均值,近似呈現(xiàn)正態(tài)分布。這個(gè)分布以真值(所有抽樣的平均值) 為中心,抽樣均值越接近真值,出現(xiàn)的概率就越大;反之均值越偏離真值,出現(xiàn)的概率就越小。
對(duì)于一個(gè)待投放的營(yíng)銷素材而言,假設(shè)以消費(fèi)者點(diǎn)擊率為實(shí)驗(yàn)指標(biāo),只要小流量抽樣次數(shù)足夠多,可以得到一個(gè)正態(tài)分布圖,抽樣次數(shù)越多,正態(tài)分布均值越趨近于真實(shí)的消費(fèi)者點(diǎn)擊率。開啟實(shí)驗(yàn)前,哪一個(gè)版本表現(xiàn)更好往往是未知的。傳統(tǒng)的 AB 測(cè)試依賴于統(tǒng)計(jì)顯著性的經(jīng)典假設(shè)檢驗(yàn),為對(duì)照版本和實(shí)驗(yàn)版本分配定額流量,一般不允許在實(shí)驗(yàn)期間變更每個(gè)版本的流量,因此該類實(shí)驗(yàn)的缺陷比較明顯,即便已發(fā)現(xiàn)實(shí)驗(yàn)版本明顯優(yōu)于對(duì)照版本,實(shí)驗(yàn)期間我們還需要在對(duì)照版本上繼續(xù)花費(fèi)流量直至實(shí)驗(yàn)結(jié)束,以便獲得具有統(tǒng)計(jì)學(xué)意義的結(jié)論。但是在廣告投放、營(yíng)銷活動(dòng)推送等場(chǎng)景下,運(yùn)營(yíng)人員期望盡快獲得最大收益。此種場(chǎng)景就需要考慮如何在快速發(fā)現(xiàn)并收斂到高價(jià)值素材和不放棄對(duì)新素材的嘗試這兩者之間取得平衡( EE 問題),以追求收益的最大化。Martech 營(yíng)銷自動(dòng)化就是為了解決這類實(shí)驗(yàn)場(chǎng)景,依托多臂老虎機(jī)?(MAB)強(qiáng)化學(xué)習(xí)手段,通過概率分布的思想找到最可能成為最優(yōu)解的實(shí)驗(yàn)版本,快速加大分配流量,并實(shí)時(shí)計(jì)算實(shí)驗(yàn)收益,達(dá)到收益最大化。
應(yīng)用舉例某公司準(zhǔn)備進(jìn)行一次營(yíng)銷活動(dòng),通過營(yíng)銷自動(dòng)化 AB 測(cè)試工具進(jìn)行一次實(shí)驗(yàn),選出最佳素材,流程如下:
1. 設(shè)計(jì)團(tuán)隊(duì)準(zhǔn)備 3 個(gè)素材,交付到運(yùn)營(yíng)投放團(tuán)隊(duì);
2. 在營(yíng)銷自動(dòng)化平臺(tái)開啟 AB 測(cè)試,按照目標(biāo)人群標(biāo)簽過濾出 9000 人流量;配置實(shí)驗(yàn) 1、實(shí)驗(yàn) 2、實(shí)驗(yàn) 3,分別對(duì)應(yīng)素材 1、素材 2、素材 3,初始流量比例各占 1/3;開啟互斥實(shí)驗(yàn);定義實(shí)驗(yàn)指標(biāo)為用戶點(diǎn)擊率,記錄每個(gè)用戶看到素材后的點(diǎn)擊行為;
3. 實(shí)時(shí)獲取數(shù)據(jù),每隔 30 s 統(tǒng)計(jì)一次實(shí)驗(yàn)效果;
4. 采用基于貝葉斯推斷的湯普森采樣,使用 Beta 分布對(duì)用戶點(diǎn)擊率的概率分布進(jìn)行繪制,它有兩個(gè)正值參數(shù),α 和 β,決定了概率分布的形狀,兩個(gè)參數(shù)默認(rèn)值都為 1。
Beta 分布的均值是:α/(α+β)
Beta 分布的方差是:αβ/(α+β)2(α+β+1)
使用 Python matlab 模擬不同 α 和 β 情況下 Beta 分布(如下圖),可以得到兩個(gè)重要信息:
1)α / (α + β) 越大,概率密度分布的中心位置越靠近 1,依據(jù)此概率分布產(chǎn)生的隨機(jī)數(shù)更大概率靠近 1,反之越靠近 0;
2)α + β 越大,分布越窄,集中度越高,這樣產(chǎn)生的隨機(jī)數(shù)更接近中心位置,從方差公式上能看出來。
依據(jù)以上特性,結(jié)合本次實(shí)驗(yàn)指標(biāo),定義 α 為素材被用戶點(diǎn)擊次數(shù),β 為素材未被用戶點(diǎn)擊素材次數(shù)。舉例來說,當(dāng)某個(gè)用戶看到素材 1 時(shí),如果他點(diǎn)擊了素材,則 ?α += 1,否則,β + = 1。
經(jīng)過 30 s,進(jìn)行實(shí)驗(yàn)效果統(tǒng)計(jì)時(shí),發(fā)現(xiàn)素材 1 的 α = 170,β = 82,素材 2 的 α = 82,β =170,素材 3 的 α = 30,β = 20,則 3 個(gè)素材點(diǎn)擊率的概率分布圖如下:
通過分布圖可以看到 素材 1 的點(diǎn)擊率平均值 0.674,素材 2 的點(diǎn)擊率平均值 0.325,素材 3 的點(diǎn)擊率平均值 0.6。可以看到在抽樣流量下素材 1 的效果明顯好于素材 2,但素材 3 由于命中的流量比較少,概率分布圖的方差很大,此時(shí)如果直接選擇素材 1 則有可能失去一次對(duì)更好素材的探索機(jī)會(huì)。這時(shí)湯普森采樣會(huì)從各素材的 Beta 分布中隨機(jī)獲取一個(gè)值,并選出隨機(jī)值最大的素材進(jìn)行流量分配。比如素材 1 隨機(jī)得到 0.71,素材 2 隨機(jī)得到 0.286,素材 3 隨機(jī)得到 0.73,此時(shí)下一個(gè)用戶就會(huì)命中素材 3,并根據(jù)用戶點(diǎn)擊數(shù)據(jù)的真實(shí)反饋,重繪素材 3 的 Beta 分布。選擇湯普森采樣的好處就是平衡了 EE (?Exploration?& Exploitation?) 的問題,總體上點(diǎn)擊率越高,獲得的流量越大,同時(shí)兼顧了探索新素材的可能;
5. 具有一定初始流量后,各素材繪制的 Beta 分布圖逐漸產(chǎn)生差異,使用湯普森采樣,平均值靠近 1 的素材會(huì)更容易獲得新流量,而命中次數(shù)比較少的素材,因?yàn)榧卸鹊?,也有一定概率獲得流量。隨著真實(shí)流量的增加,最終收斂到某個(gè)最優(yōu)素材;6. 蒙特卡洛模擬是在已知各素材 Beta 分布的基礎(chǔ)上,多次從各素材隨機(jī)抽取,然后經(jīng)驗(yàn)地計(jì)算出每一個(gè)素材的點(diǎn)擊率,此方法可以模擬海量流量,最大趨近于全量發(fā)布方案效果。當(dāng)真實(shí)流量放大到一定程度,與模擬收益相符最優(yōu)素材勝出,實(shí)驗(yàn)收斂并結(jié)束。
總結(jié)
Martech 營(yíng)銷自動(dòng)化工具突出利用算法和大數(shù)據(jù)進(jìn)行 AB 測(cè)試并自動(dòng)化決策和執(zhí)行,取得收益最大化。這與傳統(tǒng) AB 測(cè)試最大區(qū)別是時(shí)間短、靈活度高,在廣告投放、營(yíng)銷活動(dòng)推送等場(chǎng)景下,運(yùn)營(yíng)人員可以嘗試更多營(yíng)銷方案同時(shí)盡快收斂最大收益方案,這平衡了 EE (?Exploration?& Exploitation?) 問題。傳統(tǒng) AB 測(cè)試,長(zhǎng)時(shí)間穩(wěn)定流量觀察數(shù)據(jù),得到具有統(tǒng)計(jì)意義的結(jié)論
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/cgo/market/45826.html