本文主要是以香水產(chǎn)品為例,介紹首席增長(zhǎng)官常用的:數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)挖掘的過(guò)程和常用的算法模型。
一、香水?dāng)?shù)據(jù)處理
數(shù)據(jù)來(lái)源于某電商網(wǎng)站的香水產(chǎn)品的數(shù)據(jù),包括了香水產(chǎn)品的商品名稱、產(chǎn)品毛重、商品場(chǎng)地、包裝、香調(diào)、凈含量、分類、適用性別、適用場(chǎng)所、價(jià)格,以及評(píng)價(jià)數(shù)這幾個(gè)維度,總共1009條數(shù)據(jù):
從上圖可以看出,這部分?jǐn)?shù)據(jù)存在一定數(shù)量的缺失值,還存在例如“性別適合場(chǎng)所”、“評(píng)價(jià)”兩個(gè)不規(guī)范的數(shù)據(jù)維度,需要對(duì)這部分?jǐn)?shù)據(jù)做規(guī)范化處理。
針對(duì)“評(píng)價(jià)”,這個(gè)維度的數(shù)據(jù)包含中文和數(shù)字的混合,末尾還有一個(gè)“+”,“+”很容易通過(guò)excel來(lái)替換掉,但是將“萬(wàn)”轉(zhuǎn)化成準(zhǔn)確的數(shù)值結(jié)果采用excel比較難做到,因此采用python來(lái)處理來(lái)處理;
“適用場(chǎng)所”字段包含多個(gè)場(chǎng)所,要先算出所有記錄的場(chǎng)所合集,這部分也用python來(lái)實(shí)現(xiàn)。最終分解成“旅行”、“其他”、“約會(huì)”、“情趣”等8個(gè)字段,其類型是0、1類型,若該香水產(chǎn)品有對(duì)應(yīng)的適用場(chǎng)所,則設(shè)置為1,否則設(shè)置為0;
接下來(lái)還需要對(duì)香水的價(jià)格和評(píng)價(jià)數(shù)據(jù)做離散化處理,將價(jià)格等間距分為6個(gè)等級(jí),分別是低、較低、中等、較高、高、非常高;同樣的,也需要要評(píng)價(jià)數(shù)做同樣處理,分為7個(gè)等級(jí);
最后還需要將中國(guó)大陸、廣東、浙江義烏等國(guó)內(nèi)地址統(tǒng)一替換成中國(guó),并且增加“適用場(chǎng)景數(shù)量”字段,統(tǒng)計(jì)不同香水適合的場(chǎng)所,最終如下圖:
二、香水?dāng)?shù)據(jù)分析
對(duì)香水產(chǎn)品的價(jià)格做描述分析,約92.43的產(chǎn)品價(jià)格在900元一下,最大值為2212元,在樣本中可以查詢到對(duì)應(yīng)產(chǎn)品為香奈兒/機(jī)遇/黃色邂逅女士香水50/100ml/持久淡香精EDP EDP100ml。
產(chǎn)品的評(píng)論說(shuō)在一定程度上代表了產(chǎn)品的銷量,因此此處用產(chǎn)品的評(píng)論量來(lái)代替產(chǎn)品的銷量。對(duì)所有產(chǎn)品的銷量做統(tǒng)計(jì)分析,發(fā)現(xiàn)香水產(chǎn)品的銷量?jī)杉?jí)分化明顯,有58.47%的產(chǎn)品銷量不足1000,有約10%的產(chǎn)品銷量大于10000,其中最大值為100000以上,為菲拉格慕香水:
在過(guò)濾掉存在的缺失值后,可以得到商品場(chǎng)地的分布圖,在下圖中法國(guó)占據(jù)了絕對(duì)比例,約為49%,德國(guó)和西班牙的香水種類比較少,分別為3.89%和3.97%。
由于商品的評(píng)價(jià)數(shù)跨越范圍比較大,且商品銷量的兩級(jí)分化嚴(yán)重,如果直接用評(píng)價(jià)數(shù)來(lái)繪制箱型圖做分析,會(huì)產(chǎn)品大量的離群點(diǎn)。因此對(duì)商品的評(píng)價(jià)數(shù)以2為底做對(duì)數(shù)處理,再按照各個(gè)字段對(duì)“評(píng)價(jià)對(duì)數(shù)值”做分析。
下圖是用箱型圖描述各個(gè)產(chǎn)地香水銷量分布,與其他國(guó)家的香水產(chǎn)品相比,西班牙和英國(guó)的香水產(chǎn)品銷量明顯偏低,其他國(guó)家并沒(méi)太大的差別。
下圖是各包裝香水銷量箱型圖,可以看出組合香水的整體銷量要高于其他包裝的香水,因?yàn)榻M合裝的香水往往比較齊全,并且比較優(yōu)惠,對(duì)價(jià)格敏感的消費(fèi)者有較大的吸引力。而限量版香水的銷量明顯要低于其他包裝的香水,主要原因是由于限量版香水的發(fā)行量少而且價(jià)格較高。其他品包裝的香水銷量并沒(méi)有明顯的差別。
將不同香調(diào)的香水銷量做分析,可以看出花果香調(diào)和混合香調(diào)的香水產(chǎn)品整體的銷量要略高于其他香調(diào)的香水,而東方香調(diào)和其他香調(diào)的香水整理銷量偏低。東方女性使用香水的習(xí)慣教西方女性保守,味道偏好輕盈簡(jiǎn)單的清淡味道,因此花果香調(diào)的香水賣得最好。木質(zhì)香調(diào)等較濃郁的香水遮蓋體味功能強(qiáng),比較適合西方人。
在凈含量方面,包裝較小的產(chǎn)品銷量比較高,包括1-15ml、16-30ml、31-100ml。包裝小的產(chǎn)品便攜性強(qiáng),而且我國(guó)大部分的香水使用者使用需求并不如歐美國(guó)家的消費(fèi)者高,因此偏好小包裝的香水。而101-200ml以及200ml以上規(guī)格的香水,不方便攜帶,而且如果不及時(shí)使用完畢,會(huì)有變質(zhì)等問(wèn)題。
按照分類分析,淡香水EDT和濃香水EDP的銷量好,主要是淡香水味道清淡,符合東方女性的消費(fèi)特征;濃香水主要是針對(duì)年紀(jì)較大的商務(wù)女性和中年女性,也有一定的市場(chǎng)。
接下來(lái)對(duì)影響香水銷量的因素做決策樹(shù)分析,對(duì)香水的適用場(chǎng)所做關(guān)聯(lián)分析,對(duì)香水總體做聚類分析,具體如下面的流程圖所示:
三、影響香水銷量的因素分析
這部分的主要目的是分析各個(gè)因素對(duì)銷量的影響程度。需要對(duì)這部分的數(shù)據(jù)做過(guò)濾篩選,剔除出缺失值,并且過(guò)濾掉包括商品名稱、適用場(chǎng)所、價(jià)格、評(píng)價(jià)等維度,針對(duì)商品產(chǎn)地、包裝、香調(diào)、凈含量、分類、性別、適用場(chǎng)景數(shù)量、價(jià)格等級(jí)、銷量等級(jí)這幾個(gè)維度做分析。
這部分采用C5.0決策樹(shù)算法分析,挖掘影響香水產(chǎn)品銷量等級(jí)的因素??梢缘玫较聢D。在影響產(chǎn)品銷量的因素中,適用場(chǎng)景是最重要的,其次是商品場(chǎng)地、香調(diào)和分類,包裝、凈含量、價(jià)格等級(jí)、性別影響比較小。
通過(guò)決策樹(shù)分析,可以得到一些結(jié)論(這部分就省略了,留在給小密圈的伙伴分享了,哈哈大笑)。
四、香水適用場(chǎng)所關(guān)聯(lián)分析
這部分是需要對(duì)香水適用場(chǎng)所做關(guān)聯(lián)分析,需要對(duì)數(shù)據(jù)做預(yù)處理,這里我們根據(jù)之前的處理生成了不同的8個(gè)字段,將含有該類型適用場(chǎng)景的值設(shè)置為1,否則設(shè)置為0,同時(shí)需要對(duì)不需要參與分析的字段做過(guò)濾處理,最終得到:
進(jìn)行關(guān)聯(lián)分析的時(shí)候,采用Apriori算法,將最低條件支持度設(shè)置為75%,最小規(guī)則置信度設(shè)置為95%,最終得到12條關(guān)聯(lián)規(guī)則,如下圖:
五、香水聚類分析:
對(duì)香水產(chǎn)品做聚類分析,將商品產(chǎn)地、包裝、香調(diào)、凈含量、分類、性別、使用場(chǎng)景數(shù)量、價(jià)格等級(jí)、銷量等級(jí)作為聚類分析對(duì)象,如下圖:
經(jīng)過(guò)初步的測(cè)試,這里將聚類的模型的聚類數(shù)設(shè)置為5,因?yàn)槿绻O(shè)置為4類,那么最終得到的聚類質(zhì)量較差,而且其中預(yù)測(cè)變量重要性最高的是香調(diào),但得到的類別區(qū)分度不高,差異不明顯。
當(dāng)聚類數(shù)設(shè)置為6或者更高時(shí),雖然聚類質(zhì)量有所增加,但并不明顯,區(qū)分過(guò)細(xì),容易出現(xiàn)過(guò)擬合的情況,結(jié)果也沒(méi)有意義。
如上圖所示,預(yù)測(cè)變量最重要性依次是分類、香調(diào)、凈含量、產(chǎn)地、性別、包裝和適用場(chǎng)景數(shù)量。其中,分類是聚類的主要依據(jù),而適用場(chǎng)景數(shù)量則是對(duì)結(jié)果影響最小的因素。
本次聚類的之類相對(duì)比較良好,平均silhouette為0.2。經(jīng)過(guò)對(duì)數(shù)據(jù)的分析可知,在進(jìn)行聚類時(shí),數(shù)據(jù)分布不均,例如,同一種分類的香水,可能含有不同的凈含量、也可能來(lái)自不同的地方。因此本次聚類分析中涉及的香水大致可以分為5類。
六、初步的營(yíng)銷建議(此處省略很多字)
綜合上述分析,對(duì)于希望提升銷量的商家來(lái)說(shuō),在銷售的香水產(chǎn)品的選擇上,需要選擇消費(fèi)者歡迎,總體銷量好的產(chǎn)品:
1、制定價(jià)格方面,商家可以將產(chǎn)品價(jià)格定位在大眾消費(fèi)品的水平上,并保持正常利潤(rùn)空間,更多考慮運(yùn)用價(jià)格策略擴(kuò)大產(chǎn)品銷路,吸引更多消費(fèi)者。具體來(lái)說(shuō),淡香水EDT的銷量與價(jià)格呈現(xiàn)負(fù)相關(guān),而濃香水EDP的銷量與價(jià)格呈正相關(guān),說(shuō)明濃香水的買家比較重視品質(zhì),對(duì)價(jià)格不敏感,而淡香水EDT的買家對(duì)價(jià)格敏感,因此對(duì)于不同類型的產(chǎn)品要有具體的價(jià)格策略……;
2、產(chǎn)品分類方面,香水的產(chǎn)地、香調(diào)、凈含量都會(huì)對(duì)銷售產(chǎn)生很大的影響,因此選擇正確的類型的香水是提升銷量非常重要的方面,法國(guó)、意大利是世界上最重要的香水奢侈品產(chǎn)地,有著巨大的影響力……
3、銷售策略方面。由于消費(fèi)者在購(gòu)買香水的時(shí)候體現(xiàn)了明顯的價(jià)格敏感性,價(jià)格低的香水產(chǎn)品銷量更好。另外,目前我國(guó)香水消費(fèi)中很大一部分你還是作為禮品,因此,可以制定一個(gè)短期促銷策略,降低價(jià)格……
文:全棧全網(wǎng)營(yíng)銷
相關(guān)文章推薦:
《3年時(shí)間,從0增長(zhǎng)到200億,他的套路都在這里!》
《新晉網(wǎng)藍(lán)luckin coffee的裂變營(yíng)銷》
《重新定義新用戶,看CGO如何破解新用戶增長(zhǎng)難題?》
更多精彩,關(guān)注:增長(zhǎng)黑客(GrowthHK.cn)
增長(zhǎng)黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來(lái)達(dá)成各種營(yíng)銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時(shí)常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來(lái)的有效增長(zhǎng)…
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/cgo/9861.html