在移動(dòng)互聯(lián)網(wǎng)飛速發(fā)展的時(shí)代,用戶規(guī)模和網(wǎng)絡(luò)信息量呈現(xiàn)出爆炸式增長,信息過載加大了用戶選擇的難度,這樣的背景下,推薦系統(tǒng)應(yīng)運(yùn)而生,為用戶提供個(gè)性化的內(nèi)容推薦。推薦系統(tǒng)在不斷迭代中,其算法、策略、特征、功能和用戶界面時(shí)常得到更新和優(yōu)化,其中推薦算法的調(diào)整尤為關(guān)鍵。然而,由于深度學(xué)習(xí)模型的廣泛應(yīng)用,推薦算法調(diào)整后的用戶體驗(yàn)和效果難以通過經(jīng)驗(yàn)直接判斷。
為了更準(zhǔn)確地評估和優(yōu)化推薦系統(tǒng),A/B實(shí)驗(yàn)成為了一個(gè)不可或缺的工具。A/B實(shí)驗(yàn)?zāi)軌蛄炕黜?xiàng)指標(biāo)的變化,從而對推薦系統(tǒng)的效果進(jìn)行科學(xué)評估,并為后續(xù)的優(yōu)化提供數(shù)據(jù)支持。本文將以火山引擎數(shù)智平臺(tái)VeDI旗下的A/B測試平臺(tái)(DataTester)為例,介紹字節(jié)跳動(dòng)如何使用其能力,持續(xù)實(shí)現(xiàn)推薦系統(tǒng)的精準(zhǔn)優(yōu)化。
推薦系統(tǒng)的本質(zhì)是連接內(nèi)容和用戶,它構(gòu)成了 <內(nèi)容,推薦系統(tǒng),用戶> 的三元組,A/B實(shí)驗(yàn)也圍繞此三元組展開。下方介紹了推薦系統(tǒng)三元組中,最常使用A/B測試的場景集合,企業(yè)可對應(yīng)到自己的推薦系統(tǒng)中作為參考。
在字節(jié)跳動(dòng)的推薦系統(tǒng)實(shí)踐中,A/B實(shí)驗(yàn)在內(nèi)容側(cè)可以進(jìn)行內(nèi)容池優(yōu)化、內(nèi)容打標(biāo)優(yōu)化、視頻封面模型的優(yōu)化;用戶側(cè)(指產(chǎn)品的用戶應(yīng)用方面)可以通過A/B實(shí)驗(yàn)實(shí)現(xiàn)功能優(yōu)化、性能優(yōu)化、UI改進(jìn)等;而在推薦系統(tǒng)方面,可以使用A/B實(shí)驗(yàn)的維度更多,例如多路召回優(yōu)化、粗排和精排模型迭代升級優(yōu)化、模型多目標(biāo)融合優(yōu)化、重排多樣性/興趣探索優(yōu)化、廣告收入優(yōu)化等等,可以說,在推薦系統(tǒng)中,萬物皆可A/B實(shí)驗(yàn)。
需要指出的是,在進(jìn)行推薦系統(tǒng)內(nèi)容側(cè)A/B實(shí)驗(yàn)時(shí),例如信息流產(chǎn)品可能會(huì)做作者發(fā)布視頻獎(jiǎng)勵(lì)、視頻清晰度調(diào)整等,改變的是內(nèi)容側(cè)的屬性,但業(yè)務(wù)中通常觀察的是大盤用戶側(cè)的指標(biāo)。在進(jìn)行這類實(shí)驗(yàn)時(shí),注意轉(zhuǎn)化為用戶側(cè)實(shí)驗(yàn)并輔助觀測內(nèi)容側(cè)指標(biāo)來評估,權(quán)衡用戶側(cè)和內(nèi)容側(cè)的綜合收益后再?zèng)Q策是否上線。以視頻帶貨推薦為例,商家分潤規(guī)則調(diào)整僅對實(shí)驗(yàn)用戶生效,通過對比實(shí)驗(yàn)組與對照組的指標(biāo)差異評估對大盤的影響的同時(shí),可以創(chuàng)建并觀察商家入駐率等內(nèi)容側(cè)指標(biāo)的變化。在大盤收入指標(biāo)不變、商家入駐率指標(biāo)有提升,甚至大盤收入指標(biāo)微跌、商家入駐率顯著提升的情況下,都可以發(fā)布上線。
另一個(gè)注意點(diǎn)是,A/B實(shí)驗(yàn)上線后,業(yè)務(wù)會(huì)頻繁地查看分析實(shí)驗(yàn)指標(biāo)。有的實(shí)驗(yàn)在開啟后前幾天可能出現(xiàn)指標(biāo)下跌,這種情況下不建議立即關(guān)閉實(shí)驗(yàn),因?yàn)樵趯?shí)際實(shí)踐中,遇到過很多起初指標(biāo)下跌、后續(xù)慢慢回漲的情況,比如在一些信息流平臺(tái)的內(nèi)容的多樣性策略實(shí)驗(yàn)中,當(dāng)增強(qiáng)興趣探索后,短期可能會(huì)因?yàn)樘剿鞫霈F(xiàn)用戶不感興趣的內(nèi)容變多,導(dǎo)致消費(fèi)時(shí)長下跌;但從長期來看。探索到更多用戶興趣后,用戶黏性更強(qiáng),用戶消費(fèi)時(shí)長也會(huì)慢慢回漲,且更有益于平臺(tái)生態(tài)。因此在面對實(shí)驗(yàn)開始指標(biāo)下跌的情況,一般會(huì)建議繼續(xù)實(shí)驗(yàn)至少一周以上,覆蓋觀察一個(gè)完整周后再進(jìn)行評估會(huì)更加準(zhǔn)確。
在查看指標(biāo)時(shí),企業(yè)可以多關(guān)注實(shí)驗(yàn)指標(biāo)下鉆分析結(jié)果,例如關(guān)注不同性別、不同年齡層用戶的指標(biāo)變化,有的產(chǎn)品也會(huì)關(guān)注不同活躍度用戶、特別是新用戶和低活用戶的指標(biāo)變化趨勢,因?yàn)檫@類用戶更決定了產(chǎn)品未來的增長。在DataTester中,可以借助用戶屬性過濾功能,查看指標(biāo)的下鉆分析數(shù)據(jù)。
火山引擎DataTester作為火山引擎數(shù)智平臺(tái)VeDI旗下的核心產(chǎn)品,源于字節(jié)跳動(dòng)長期的技術(shù)和業(yè)務(wù)沉淀。目前,DataTester已經(jīng)服務(wù)了包括美的、華泰證券、博西家電、樂刻健身等知名品牌在內(nèi)的上百家企業(yè)。這些企業(yè)通過不斷進(jìn)行的A/B測試和優(yōu)化迭代,提升產(chǎn)品與服務(wù)質(zhì)量,從而實(shí)現(xiàn)業(yè)務(wù)持續(xù)的優(yōu)化和增長。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/114811.html