導(dǎo)讀:本次跟大家分享的是哈啰出行精準(zhǔn)營銷場景的算法與實踐,包括以下幾大部分:
- 精準(zhǔn)營銷的背景和價值
- 精準(zhǔn)營銷框架
- 精準(zhǔn)營銷算法能力
- 未來方向
01
精準(zhǔn)營銷的背景和價值
首先和大家分享精準(zhǔn)營銷的背景和價值。
1. 精準(zhǔn)營銷的業(yè)務(wù)背景
哈啰由出行逐漸邁向服務(wù)電商,除了兩輪以外,還包括本地生活、酒店和電動車等多種業(yè)務(wù)。需要通過精準(zhǔn)營銷去實現(xiàn)各個新業(yè)務(wù)的用戶增長。我們的業(yè)務(wù)目標(biāo)是通過用戶全生命周期精準(zhǔn)營銷和精細(xì)化運營,去提升用戶增長的北極星目標(biāo)。
2. 精準(zhǔn)營銷的場景和流程
按照用戶生命周期來劃分,精準(zhǔn)營銷的場景主要分為三個方面:
- 拉新:主要是充分去挖掘一些潛在用戶。
- 活躍:主要是為了留存和促活目前已經(jīng)有的存量用戶。
- 挽留:主要是通過一些精準(zhǔn)營銷的方式去召回一些流失用戶,最終去提升各個新業(yè)務(wù)的DAU。
流程包括三大部分:
- 首先是who,也就是目標(biāo)群組;
- 接下來what,投什么內(nèi)容;
- 之后是how,以什么樣的方式去投。
最后進(jìn)行精準(zhǔn)營銷。
3. 精準(zhǔn)營銷業(yè)務(wù)痛點
精準(zhǔn)營銷業(yè)務(wù)主要包含以下四個痛點:
- 尋找精準(zhǔn)人群的效率低:主要表現(xiàn)在是要憑運營人工大量的去測試。
- ROI 比較低:主要表現(xiàn)在營銷成本很高,但是實際的收益卻是很低。
- 算法覆蓋面低,接入效率較低:主要表現(xiàn)在僅能夠覆蓋部分人群的部分場景,定制化是很嚴(yán)重的。
- 未形成體系化:主要表現(xiàn)在缺乏營銷后的分析優(yōu)化,沒有形成一個精準(zhǔn)營銷的閉環(huán)。
4. 精準(zhǔn)營銷項目價值
精準(zhǔn)營銷的項目價值主要體現(xiàn)在以下兩個方面:
- 提效:主要表現(xiàn)在兩點,第一點是提升精準(zhǔn)營銷的效率,主要表現(xiàn)在運營可以直接對算法的精準(zhǔn)人群包去進(jìn)行營銷,不用去做前期的大量測試。第二點,主要是提升轉(zhuǎn)化率,主要是通過精準(zhǔn)營銷人群模型的搭建,去提升業(yè)務(wù)點擊率,預(yù)計提升CTR的幅度是20%。
- 增收:通過精準(zhǔn)營銷可以提升業(yè)務(wù)的訂單量,預(yù)計可以提升20%。
02
精準(zhǔn)營銷框架
在搭建精準(zhǔn)營銷框架之前,需要深入了解業(yè)務(wù),找到哈啰精準(zhǔn)營銷場景的特點,并找到對應(yīng)的解法。
1. 精準(zhǔn)營銷場景特點與解法
通過前期的數(shù)據(jù)分析和調(diào)研發(fā)現(xiàn),目前哈啰精準(zhǔn)營銷的場景特點和我們針對性的解法主要有以下三方面:
- 精準(zhǔn)營銷場景眾多,定制化重復(fù)開發(fā):算法從模塊化逐步走向組件化,以及最終走向的平臺化。
- 高質(zhì)量人群需要繼續(xù)擴(kuò)量:采用目前業(yè)界比較先進(jìn)的半監(jiān)督框架Pu-Learning。
- 種子用戶過少,不足以算法建模:去通過一些無監(jiān)督的學(xué)習(xí)方法,進(jìn)行智能放量。
2. 精準(zhǔn)營銷業(yè)務(wù)框架
精準(zhǔn)營銷的業(yè)務(wù)框架主要分為以下三大模塊:
- 特征處理:主要分為離線特征處理和實時特征處理,離線的特征處理主要是通過埋點數(shù)據(jù)計算出的離線表提前存儲到機(jī)器本地。實時特征主要是通過Flink去計算一些實時特征,將其存儲在Redis中。
- 精準(zhǔn)營銷:包括算法、用戶分析平臺和投放平臺模塊。首先是算法,算法主要分為兩個點,第一個就是行業(yè)包,所謂的行業(yè)包就是在Pu-Learning框架下的LookAlike建模方法。第二點是智能放量,通過Graph Embedding無監(jiān)督學(xué)習(xí)的方式去得到用戶之間的embedding,之后通過向量引擎去計算用戶和用戶之間的相似度,得到每個用戶的top n相似用戶。其次是用戶分析平臺模塊,運營首先創(chuàng)建由原子標(biāo)簽組成的種子人群群組,然后選擇是否進(jìn)行智能放量,如若選擇,算法將會返回放量后的目標(biāo)群組。再次是投放平臺,當(dāng)運營在進(jìn)行任務(wù)投放時,首先需要創(chuàng)建任務(wù),然后選擇任務(wù)方案,這個方案就是用戶分析平臺返回的目標(biāo)群組,之后進(jìn)行任務(wù)的下發(fā),以及一些ab效果的回收。
- 算法場景:主要是業(yè)務(wù)拉新、業(yè)務(wù)促活和業(yè)務(wù)流失?;顒臃矫?,主要包含資源位的投放,Banner,站內(nèi)信,或者是push。
3. 精準(zhǔn)營銷技術(shù)框架
接下來站在技術(shù)的視角去看精準(zhǔn)營銷的框架。
運營在創(chuàng)建營銷任務(wù)時,首先選擇任務(wù)方案,這個方案背后是用戶的目標(biāo)群組,此群組由兩個部分構(gòu)成:
- 由行業(yè)包形成的群組:通過一些離線的樣本和特征,離線訓(xùn)練模型,將模型部署在DataMan,最后形成一個離線的預(yù)測任務(wù)。此任務(wù)將輸出的數(shù)據(jù)存儲在hive表,此后將表數(shù)據(jù)存儲在ES中,形成標(biāo)簽,最終構(gòu)成目標(biāo)群組。
- 智能放量服務(wù)放量后的目標(biāo)群組:業(yè)務(wù)前端收集行為埋點數(shù)據(jù),將其存儲在kafka中,然后通過flink實時計算,將計算出的實時特征,存儲在Redis,當(dāng)智能放量服務(wù)使用時,直接從特征平臺取數(shù)據(jù)。
03
精準(zhǔn)營銷算法能力
1. Pu-Learning框架下的LookAlike建模方法
什么是lookAlike?它不是一種特定的算法,而是一種思想,主要是根據(jù)種子用戶去尋找相似的拓展人群。
怎么做lookAlike?主要分為兩個方法:利用機(jī)器學(xué)習(xí)模型進(jìn)行隱式人群拓展;利用社交圖結(jié)構(gòu)的相似人群拓展。其中機(jī)器學(xué)習(xí)模型主要分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類,在有監(jiān)督學(xué)習(xí),分類過程中,所有的訓(xùn)練數(shù)據(jù)都是有標(biāo)簽的;在半監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的一部分是有標(biāo)簽的,另一部分沒有標(biāo)簽,并且沒標(biāo)簽數(shù)據(jù)的量常常遠(yuǎn)大于有標(biāo)簽的量。而在無監(jiān)督學(xué)習(xí)中是沒有標(biāo)簽的。
在做lookAlike的時候遇到的挑戰(zhàn),以及對應(yīng)解決方案:
- 新業(yè)務(wù)用戶特征稀疏:稀疏主要表現(xiàn)在,哈啰目前以兩輪流量給新業(yè)務(wù)導(dǎo)流,并且兩輪的用戶群體基數(shù)是比較大的。但是新業(yè)務(wù)在起量時,用戶往往是比較少的,所以會導(dǎo)致用戶行為特征的稀疏。對此,采用的解決方案是使用兩輪特征。
- 可用特征較少:對此解決方案是分析各業(yè)務(wù)間的共性,得到業(yè)務(wù)之間的交叉特征。
- 高質(zhì)量人群需要繼續(xù)擴(kuò)量:對此采用的方案是采用的是業(yè)界目前比較先進(jìn)的Pu-Learning框架。
面對多個業(yè)務(wù)多階段發(fā)展的時候,算法迭代分為以下兩個階段:
- 采用GBM有監(jiān)督學(xué)習(xí)模型。正樣本是新業(yè)務(wù)真實轉(zhuǎn)化的種子用戶,負(fù)樣本是從一些未轉(zhuǎn)化的用戶里面隨機(jī)去選取的一部分樣本。由于各個業(yè)務(wù)間存在差異,業(yè)務(wù)成果提升30%-130% 不等。
- 采用TSA半監(jiān)督模型。此模型主要分為兩步,第一步在未標(biāo)記樣本中識別出一些可靠的負(fù)樣本,第二步在正樣本和第一步獲得的可靠負(fù)樣本上進(jìn)行有監(jiān)督的學(xué)習(xí)。
傳統(tǒng)TSA建模流程如下:
- 第一步:將正樣本混入未標(biāo)注樣本中(間諜樣本),將他們統(tǒng)一視為負(fù)樣本進(jìn)行第一次的模型訓(xùn)練,訓(xùn)練完之后,主要是通過選擇正樣本的分?jǐn)?shù)范圍去選擇出一些可靠的負(fù)樣本。具體如上圖。
- 第二步:在正樣本和第一步得到的可靠負(fù)樣本上進(jìn)行監(jiān)督學(xué)習(xí)。
優(yōu)化的TAS建模流程如下:
- 對傳統(tǒng)TSA的第一步,采用EM模型。其中EM中為間諜樣本分布的最小值,為算法離線指標(biāo)recall很高時的概率。
- 對正樣本進(jìn)行數(shù)據(jù)增強(qiáng),即對正樣本進(jìn)行擴(kuò)充,擴(kuò)充的方法是將[?2,1]間的樣本也視為真正樣本,而[0,?1]間的樣本視為真負(fù)樣本,輸入到DeepFM模型進(jìn)行訓(xùn)練。
優(yōu)化TSA的業(yè)務(wù)成果:在保證就是ROI不降低的情況下,人群數(shù)量擴(kuò) 3-10 倍。
2. Graph Embedding在精準(zhǔn)營銷上的工業(yè)級應(yīng)用
Graph Embedding,主要是基于用戶關(guān)系鏈去尋找相似的人群。分為兩個步驟,首先是獲取用戶Embedding,其次計算用戶間Embedding相似度。首先是Embedding的獲取,主要是利用某種無監(jiān)督機(jī)器學(xué)習(xí)方法得到。
在做Graph Embedding時面對的挑戰(zhàn)和對應(yīng)方案:
- 種子人群少,如何擴(kuò)量:無監(jiān)督計算Embedding相似度。
- 如何構(gòu)圖:時空信息構(gòu)圖。
- 如何增強(qiáng)序的概念:APP點擊序列。
時空信息構(gòu)圖由點、邊構(gòu)成。點指的是用戶。邊指的是用戶與用戶在同一地塊、同一時間、同時發(fā)生的行為。其中用戶行為,主要包括用戶對單車的掃碼和關(guān)鎖等。權(quán)重是無向等權(quán),即當(dāng)用戶在一個地塊一個時間段同時發(fā)生某種行為時,它們之間會有一條邊,并且此邊是等權(quán)重的。
然后采用DeepWalk得到用戶的Embedding。DeepWalk的原理是先在圖中隨機(jī)走出一個路徑,之后將路徑序列輸入到Skip-Gram里進(jìn)行訓(xùn)練,最后得到用戶的向量。
但是上述做法存在一定的不足,即只考慮了用戶和用戶之間的關(guān)系,沒有將用戶之間本身的一些特性加到模型中。因此后續(xù)第二個迭代版本采用的是EGES模型,其主要和以上做法有兩點不同:
- 第一點:把用戶Side information加入到模型。
- 第二點:不同類型用戶Side information設(shè)置不同權(quán)重。
在前面兩個算法迭代版本中,主要是兩輪的騎行行為,用戶間的關(guān)系以及用戶本身特性三大方面的特征,但是要考慮哈啰APP的所有用戶,所以第三個迭代部分是將一些APP的行為序列給加進(jìn)去。
工業(yè)級向量相似度的計算方法,采用向量引擎Milvus,它的主要優(yōu)點有兩個:
- 第一:可達(dá)到近實時查詢的效果。
- 第二:集成了多個向量索引庫,可在限定的時間內(nèi)給業(yè)務(wù)返回結(jié)果。
此次業(yè)務(wù)成果主要體現(xiàn)在兩個方面:
- 覆蓋度:全面平臺化,0成本支持智能放量人群包,并覆蓋60%場景。
- 提升度:ROI提升20+%。
04
未來方向
最后來講一下我們對精準(zhǔn)營銷的未來規(guī)劃。
- 首先是圖的構(gòu)建,因為數(shù)據(jù)是模型的上限,在Graph Embedding里,首先要做到的是把圖構(gòu)建好。后續(xù)我們有兩個規(guī)劃,用戶公域點擊行為和用戶私域點擊行為。
- 第二是智能放量閾值,目前選擇閾值主要是運營,比如想擴(kuò)10 倍或1000倍,就是隨機(jī)靠人工去拍板。后面希望建立一個閾值推薦機(jī)制,可以通過背后的算法推薦ROI最高情況下的放量倍數(shù)。
今天的分享就到這里,謝謝大家。
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/product/64327.html