很多人想問能不能轉(zhuǎn)數(shù)據(jù)分析,以及如何學(xué)習(xí)數(shù)據(jù)分析。
那么以我的經(jīng)歷來說,我一直會強調(diào),數(shù)據(jù)分析一方面你可能認為是技術(shù),是分析的手段和方法;但另一方面,數(shù)據(jù)感非常重要,有數(shù)據(jù)感的人,用一些簡單粗糙的技術(shù),就可以挖掘出很多數(shù)據(jù)價值;但如果數(shù)據(jù)感不夠,那么,可能你技術(shù)很牛,會的算法和手段很多,但面對大量的有價值的數(shù)據(jù),依然可能會坐守金山而不自知。職場通病之 – 坐守金山不自知
最近,吳亦凡刷榜的新聞熱點很大,我在知識星球里吐槽了一句,我說當(dāng)年百度風(fēng)云榜的明星榜單,刷榜不要太夸張,現(xiàn)在可能情況好多了,刷榜的發(fā)現(xiàn)刷百度回報率太低,都去刷微博了。
然后我簡單回顧了自己的一些工作,當(dāng)年我分析過百度的搜索日志,找到過一些凈化指數(shù)的方法,此外,還做過關(guān)鍵詞聚類的一些方案,有人就回復(fù)問我,這是怎么做的,我今天以這些為案例,來分享一下日常工作中,數(shù)據(jù)感是怎么體現(xiàn)的。
[title]1、百度指數(shù),如何防刷[/title]
百度指數(shù)來自于用戶搜索行為記錄的統(tǒng)計,但這里的用戶搜索行為,是有一定疑問的,因為這里可能存在一些機器人,一些營銷公司,一些不那么合理的行為。
那么比較容易想到的防刷手段是什么呢,很多人應(yīng)該第一反應(yīng)是,看ip是否聚集對不對,如果都是幾個固定ip出來的,肯定是刷出來的,但現(xiàn)在肉雞很多,代理服務(wù)器很多,撥號換一個ip成本也很低,那看什么,看客戶端類型是不是,如果客戶端類型分布很集中,說明搜索來自于同一批終端對不對。
但刷數(shù)據(jù)的方法,其實有很多種,比如,這不是教人學(xué)壞啊,如果你有一個訪問量高的網(wǎng)站或者app,或者找一個這樣的產(chǎn)品,塞點廣告費,然后你內(nèi)置一個js腳本刷搜索,用戶無感知的,這樣搜索就來自于完全真實的用戶環(huán)境,所有ip,客戶端類型,地區(qū)分布,時間分布,都是完全常態(tài)散布的對不對,這時候你用以上的這些分布特征分析,一概無效了。
實際上很多防刷防作弊都是基于真實行為特征和刷數(shù)據(jù)的行為特征存在一些不一致,而刷數(shù)據(jù)的那些人,我告訴你們,數(shù)據(jù)思維都特別強,他們會把各種特征偽造的跟真實行為非常接近,但當(dāng)時我有一招是刷數(shù)據(jù)的人想不到的。
你們執(zhí)行百度搜索的時候,可能很多人沒注意到,url里面有個參數(shù),是tn=…,這個參數(shù)是什么呢,是百度記錄搜索流量渠道的。當(dāng)時的背景還是pc為王的時候,還沒有移動互聯(lián)網(wǎng),那時候其實百度自有流量,也就是用戶打開www.baidu.com進行搜索的比例,其實最多也就50%,其他都是第三方渠道,比如各種導(dǎo)航網(wǎng)站,第三方瀏覽器,還有各種電信的dns劫持,這里的第三方渠道,從tn來講,也包括百度旗下的hao123。刷數(shù)據(jù)的人基本上沒注意過這個,那么當(dāng)時我發(fā)現(xiàn),如果一個搜索詞的tn分布明顯異常,比如來自于百度自有渠道的超過95%,可以說明搜索量基本上是刷出來的,因為正常用戶搜索行為不是這個分布。只靠這個,其實就可以擠掉很多刷榜的數(shù)據(jù)水分。不過從公司角度講,刷榜帶來的虛假繁榮可能還不是壞事,就好比微博,你看那些明顯扯淡的明星數(shù)據(jù)作假,他們也是樂見其成。所以我當(dāng)時找工程師幫忙按照我的思路處理了數(shù)據(jù),搞了一份凈化版的數(shù)據(jù)做我的數(shù)據(jù)分析用,但百度指數(shù)那邊依然大量刷榜的領(lǐng)導(dǎo)們并未要求處理。
[title]2、百度關(guān)鍵詞如何聚類[/title]
百度關(guān)鍵詞聚類首先要看目標(biāo),為啥要說目標(biāo)呢。
其一,對百度業(yè)務(wù)收入的分析,我吹過這個牛,百度第一次知道自己不同行業(yè)收入分布的情況,是我做出來的,因為我做了商業(yè)詞聚類,數(shù)據(jù)分析后臺才提供了不同行業(yè)的收入分布,我做聚類之前,最開始是靠企業(yè)注冊的類型來統(tǒng)計的,但由于很多代理商偷懶,數(shù)據(jù)沒法看,超過50%的收入行業(yè)是其他,這怎么看。
當(dāng)時的技術(shù)思路也公開了,其實沒啥技術(shù)含量,但效果我覺得還行。
這里我曾經(jīng)提出過一個問題,在實現(xiàn)商業(yè)詞相關(guān)推薦的基礎(chǔ)上,如何實現(xiàn)有效的關(guān)鍵詞聚類呢?有評論猜對了,其實不復(fù)雜,找出每個行業(yè)的核心詞,基于關(guān)鍵詞與核心詞的關(guān)聯(lián)的延展,來實現(xiàn)自動聚類,比如核心詞A,關(guān)聯(lián)詞B,然后C與B關(guān)聯(lián),這樣層級延展,并計算關(guān)聯(lián)衰減,如果一個詞和不同的行業(yè)核心詞都有關(guān)聯(lián),按照關(guān)聯(lián)度高的選擇。
實現(xiàn)不復(fù)雜,但實現(xiàn)效果好就需要體力活,什么體力活,就是看數(shù)據(jù),找壞案例,基于壞案例,優(yōu)化和調(diào)整行業(yè)核心詞。怎么找壞案例,針對不同行業(yè)類型,按關(guān)聯(lián)度從低到高排序,那些關(guān)聯(lián)度低的商業(yè)詞,很多都是分錯類的,肉眼識別出來,看與核心詞的關(guān)聯(lián)路徑是怎樣的,以及用怎樣的核心詞可以讓它正確歸類。還有就是沒有被覆蓋到的關(guān)鍵詞,又有一定收入的,都列出來,看為什么覆蓋不到,能否從中找出幾個核心詞讓這些覆蓋到。
坦白說,技術(shù)好的人有更好的途徑做聚類,我不行,我技術(shù)不過關(guān),但我數(shù)據(jù)感好,我看數(shù)據(jù)津津有味,不累,這事是體力活,代碼跑一遍,肉眼看一遍,找出壞案例,調(diào)整核心詞,繼續(xù)跑,然后繼續(xù)看,就這樣,那么標(biāo)準(zhǔn)是什么呢?是收入的覆蓋率。標(biāo)準(zhǔn)也很重要,客戶提交的商業(yè)詞實在太多了,你說我標(biāo)準(zhǔn)是覆蓋80%的商業(yè)詞匯,那沒戲,我做不到。但覆蓋95%的收入,不難,覆蓋top 30%的商業(yè)詞就夠了,要做業(yè)務(wù)分析,所以這個95%已經(jīng)很不錯了,至少比之前50%的其他要好太多吧,然后再慢慢優(yōu)化。很多時候呢,做數(shù)據(jù)分析的人,如果目標(biāo)感不對,總是摳在技術(shù)指標(biāo)里出不來,那就會有太多不必要的技術(shù)開銷了,大公司還好說,值得,小公司肯定耗不起了。嗯,實話實說,開始百度規(guī)模還小,在數(shù)據(jù)分析方面不舍得投入人才,后來百度技術(shù)投入多了,我的那個粗糙版本早被人家專業(yè)技術(shù)人員用新方法取代了。
所以很多時候,我能做的事情不是因為我技術(shù)好,而是因為我知道要做什么。以及如何用最低的技術(shù)開銷,去搞定這個事情。至于優(yōu)化和完善,可能需要更好的技術(shù)人員的配合。
這是商業(yè)詞聚類,其二,用戶搜索行為聚類
比如百度風(fēng)云榜有分類榜單,百度的分類榜單最早的更新是編輯完成的,但經(jīng)常有新的熱詞出現(xiàn),更新是不及時的,經(jīng)常有朋友來問,我們有個新游戲很火為什么沒有進游戲榜,或者我們新發(fā)的小說現(xiàn)在指數(shù)特別好為什么小說榜沒有收錄。
那我后來就說,這事為什么不做成自動的呢?一個新詞的指數(shù)飆升,我能知道它是什么類型的,比如“瑯琊榜”這個詞突然飆升了,系統(tǒng)能識別這是電視劇。
其實這事一點都不難,為什么呢,還是數(shù)據(jù)感,一個詞的熱度很高,那么只要不是刷出來的,一定會有很多相關(guān)的詞出現(xiàn),(咳咳,又是一個分析刷榜的技巧) 比如瑯琊榜這個詞指數(shù)很高,那么“電視劇 瑯琊榜”這個詞的指數(shù)一定不低。此外“瑯琊榜 在線看” 類似這樣的相關(guān)詞,都會有不少搜索量,這時候你就注意到,很多相關(guān)詞是有典型的行業(yè)特征詞根的,這個事就簡單了,把所有行業(yè)特征詞根整理出來,然后遇到熱門詞出現(xiàn)的時候,先找到熱門詞的所有有搜索量的相關(guān)詞,再把這些相關(guān)詞分詞,包含特征詞根的按照詞根所屬行業(yè)聚合起來,按照搜索量計算關(guān)聯(lián)權(quán)值即可,有些詞本身存在多目標(biāo)特性,比如蘋果這個詞,但你基于蘋果的相關(guān)詞的詞根聚合,”電影 蘋果“,”蘋果手機“,“蘋果 栽種”,搜索指數(shù)一排序,你發(fā)現(xiàn),這個詞的用戶主要搜索目標(biāo)是通訊設(shè)備。少部分是電影和農(nóng)作物。
當(dāng)時沒有多想一步,其實可以做成深度學(xué)習(xí),基于已分類的熱門詞,對相關(guān)詞分詞,系統(tǒng)尋找規(guī)律,是可以找到一些行業(yè)特征詞根的,然后這個系統(tǒng)就可以成為自完善系統(tǒng)了,那時候還都是手動找行業(yè)詞根。
以上這一段可能有點繞,其實慢慢思索一下,沒什么技術(shù)含量,都是簡單的思路。
那么想說明什么,如果一個人天天看搜索日志,看百度指數(shù),能不能產(chǎn)生如上的思路,這就是數(shù)據(jù)感,數(shù)據(jù)在這里,日志在這里,這是資源,然后你能想到什么,能找到什么可以做的事情,遇到問題怎么思考,別人問我,為什么百度熱榜沒收錄這個詞,一般人說,我去反饋一下,你想想,這事為什么不能做成自動的,以及如何做成自動的,數(shù)據(jù)感都藏在這里。
以上都是當(dāng)時隨手做的工作,當(dāng)時做的這種技術(shù)含量低的體力活很多,驅(qū)動力主要是好奇心,還是那句話,如果你對數(shù)據(jù)不好奇,這碗飯可能你真的不適合。
我隨便說個例子,比如現(xiàn)在很多做運營分析的都在提漏斗模型,當(dāng)然不同領(lǐng)域的一些具體數(shù)值定義有自己的標(biāo)準(zhǔn),但我話說回來,漏斗分析這個思路,如果你說,你做業(yè)務(wù)運營,如果不看書,沒人教你,你就不知道有這個思路,你是領(lǐng)導(dǎo)手把手教,書上寫了你才知道這樣很有用,甚至還不知道究竟有多大用,那么只能證明你真的沒有數(shù)據(jù)感。這個東西,只要你做運營,你就必須能意識到,并有意識去分析,當(dāng)然,書上和有經(jīng)驗的人會給你一些業(yè)內(nèi)的標(biāo)準(zhǔn)和分析細節(jié)的輔導(dǎo),這個確實存在一定的經(jīng)驗積累,但這個意識,是不能靠教的。
信息安全這事,技術(shù)固然重要,但思維方式更重要,我說兩個案例,技術(shù)含量很低,但值得體會一下。
案例1,忘了有沒有提過,很多年前微軟有個本地漏洞是這樣的,用戶登錄本機windows系統(tǒng)的時候,可以打開輸入法,可以輸入中文用戶名。這合理吧。輸入法有個幫助按鈕,可以打開微軟系統(tǒng)幫助,這也合理吧,幫助系統(tǒng)有很大的菜單,輸入法之外也有很多其他的幫助,這到無所謂,但是某些幫助文件里存在外部鏈接,點擊鏈接會打開瀏覽器,那么打開瀏覽器后,你輸入c:\,就進入硬盤瀏覽了。。。如果點擊cmd.exe就進入dos,可以用命令行為所欲為了。
看這個流程,一點技術(shù)含量都沒有吧,說出來感覺,好像沒啥了不起吧,但這就是一個高危漏洞,第一個發(fā)現(xiàn)的人,就是黑客思維的典范。
案例2:說個最新案例
區(qū)塊鏈最近什么最火,賭場啊,前段時間以太坊上有個賭博程序,獎金池積累到差不多價值2000萬人民幣的以太坊的樣子,被黑客拿走了,怎么拿走的呢,技術(shù)原理也不復(fù)雜。
玩法是這樣,獎金池如果五分鐘無人下注,那么就會自動掉落給最后下注的人,但這個獎金池越滾越大,好多人都盯著下注對不對,所以看上去永遠不會掉落對不對,但換個思路,區(qū)塊鏈的投注是需要礦池確認的對不對,如果五分鐘內(nèi)讓別人的投注不被確認不就可以了,怎么做呢?買通礦池么?這么多礦池都不差錢,你咋買通?
其實有辦法,為什么呢,礦池的系統(tǒng)有個原則,優(yōu)先接受高交易傭金的交易,這個黑客就很簡單,下注之后立即大批量創(chuàng)造很多轉(zhuǎn)賬交易,自己左手倒右手,但是交易傭金比正常值高很多,結(jié)果所有礦池幾乎塞滿了他的交易,其他交易都被排隊了,別人也有下注啊,就被擠到5分鐘后了,這樣,獎池大獎一人獨得,成本就是這短時間的交易手續(xù)費和下注費用。
文:caozsay/caoz的夢囈(caozsay)
首席增長官CGO薦讀:
更多精彩,關(guān)注:增長黑客(GrowthHK.cn)
增長黑客(Growth Hacker)是依靠技術(shù)和數(shù)據(jù)來達成各種營銷目標(biāo)的新型團隊角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實現(xiàn)低成本甚至零成本帶來的有效增長…
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/14776.html