大數(shù)據(jù)時代的新命題:誰在滿足中國企業(yè)的實時性需求?

實時數(shù)倉、商業(yè)化和開源

 

大數(shù)據(jù)時代的新命題:誰在滿足中國企業(yè)的實時性需求?

 

站在今天的十字路口,國內(nèi)數(shù)據(jù)庫行業(yè)已然呈現(xiàn)出新的拐點。而在各種新趨勢和新技術(shù)的到來,鏡舟也正在基于自己開源社區(qū)加商業(yè)化閉環(huán),共同加速數(shù)據(jù)庫行業(yè)的發(fā)展和規(guī)范。

作者|思杭

編輯|皮爺

出品|產(chǎn)業(yè)家

從540億元到1286億元——這是中國通信標(biāo)準(zhǔn)化協(xié)會大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會在2023年做出的一份預(yù)測報告。報告指出,未來五年,中國數(shù)據(jù)庫行業(yè)在未來五年會從一個百億級市場跨越成為千億級市場。

大數(shù)據(jù)時代的新命題:誰在滿足中國企業(yè)的實時性需求?

2022-2027年中國數(shù)據(jù)庫市場規(guī)模及增速,來源:CCSA TC601

從數(shù)據(jù)庫行業(yè)的過往經(jīng)歷來看,全球數(shù)據(jù)庫的發(fā)展共經(jīng)歷過兩次熱潮。80年代,關(guān)系型數(shù)據(jù)庫的理論突破和技術(shù)創(chuàng)新是全球數(shù)據(jù)庫行業(yè)迎來的第一波熱潮;緊接著,步入21世紀(jì)后,從PC互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)的發(fā)展,則又衍生出更多的數(shù)據(jù)庫應(yīng)用場景。

而當(dāng)時間快進(jìn)到最近兩年,中國的數(shù)據(jù)庫行業(yè)似乎也在迎來一輪新熱潮。

在新的數(shù)字經(jīng)濟(jì)環(huán)境之下,企業(yè)數(shù)字化按下加速鍵的同時,線下線上的邊界被進(jìn)一步稀釋。從線上購物到線上會議,再到線上營銷活動等等,新的變化不僅衍生出了如Zoom、騰訊會議等線上場景的“現(xiàn)象級應(yīng)用”,也誕生出更多的數(shù)據(jù)分析場景。

站在時代發(fā)展的角度,這種新變化是伴隨著5G、云計算、大數(shù)據(jù)和AI等多種技術(shù)共同出現(xiàn)的。在IDC的預(yù)測中,“到2025年,全球近30%的數(shù)據(jù)需要被實時處理?!倍@也正是OLAP分析型數(shù)據(jù)庫近年來快速增長的客觀原因。

而另一組數(shù)字則是,預(yù)計到2024年,中國分析型數(shù)據(jù)庫的市場規(guī)模將達(dá)到521億元人民幣,復(fù)合增長率為27.8%。

大數(shù)據(jù)時代的新命題:誰在滿足中國企業(yè)的實時性需求?

來源:IDC

“OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要”。1993年OLAP剛被提出之時,提出者“關(guān)系數(shù)據(jù)庫之父”埃德加·科德就闡明過這樣的觀點。

一個更通俗易懂的理解是,OLTP用于處理基本日常的事務(wù)處理;而OLAP則支持處理復(fù)雜的分析決策操作,查詢結(jié)果也更為直觀。在企業(yè)數(shù)字化加速到來的同時,OLAP分析型數(shù)據(jù)庫的需求也被越發(fā)放到臺前。

鏡舟,正是這條賽道的參與者之一。

在過去的幾年時間里,鏡舟和其“實時數(shù)倉”等產(chǎn)品愈發(fā)頻繁地出現(xiàn)在數(shù)據(jù)庫主流市場視野內(nèi),也成為了一眾企業(yè)在數(shù)據(jù)庫側(cè)的首選。

就當(dāng)下而言,數(shù)據(jù)庫應(yīng)該如何選擇?伴隨著企業(yè)對于數(shù)據(jù)即時性越發(fā)高要求的需求出現(xiàn),中國企業(yè)到底需要怎樣的數(shù)據(jù)庫?

一、數(shù)據(jù)爆炸的十字路口,迎接變化

“從線下到線上,不僅導(dǎo)致了數(shù)據(jù)量級的變化,在企業(yè)內(nèi)部,數(shù)據(jù)使用習(xí)慣也在發(fā)生變化?!辩R舟科技客戶成功負(fù)責(zé)人孟慶歡告訴產(chǎn)業(yè)家。在如今時代洪流的沖擊下,一個客觀事實是,數(shù)字經(jīng)濟(jì)時代所帶來全新的商業(yè)驅(qū)動模式,正在倒逼企業(yè)加速完成數(shù)字化轉(zhuǎn)型升級。

以金融行業(yè)為例,在個人小額信貸場景下,一個在2024年已經(jīng)不再發(fā)生的現(xiàn)象是,客戶親自去線下的銀行網(wǎng)點,填寫申請表,再等待銀行完成征信信息對比,最后才能收到由銀行經(jīng)過多重審核后發(fā)放的消費貸額度。

如今的情況是,打開網(wǎng)銀APP,填寫完基本資料后點擊申請,不到一分鐘就可以收到來自銀行的貸款額度發(fā)放。

從線下銀行網(wǎng)點到線上網(wǎng)銀APP,過去幾天才能完成的事情,如今已經(jīng)縮短到幾分鐘,甚至幾秒鐘。但與之相對應(yīng)的變化則是,在線上金融場景中,數(shù)據(jù)量級正在從之前的“天”級別變?yōu)椤懊搿奔墑e,時效性得到大幅提升的同時,對數(shù)據(jù)庫的要求也在提升。

同樣的情況也出現(xiàn)在零售等行業(yè)。

一個零售行業(yè)里的共識,線上銷售渠道的布設(shè)是必行之路,其意味“信息差被網(wǎng)絡(luò)填平,數(shù)量差被快遞填平”。然而,這種布局意味著也同樣意味著零售業(yè)要面臨多種線上渠道的涌入,比如淘寶京東拼多多、微信抖音視頻號等等。

這種渠道的分散化所帶來的是數(shù)據(jù)的繁雜多元。從真實情況來看,如果說過去企業(yè)的習(xí)慣是查看一個月的銷售額,以及各個渠道的售賣情況,以此對商品進(jìn)行判斷,再做出新的銷售決策。然而,在多種線上渠道涌入的背景下,如今數(shù)據(jù)分析的觸角則來自四面八方,時間更是會橫跨多個時間緯度。

而在這個背景下,除了固有的數(shù)據(jù)數(shù)量之外,還有一個最難被攻克的環(huán)節(jié):“用戶畫像分析”。實際上,這個“明星詞匯”近年來已經(jīng)被金融、零售、游戲和汽車等行業(yè)中口耳相傳。

以百草味為例,在雙十一、雙十二等大型活動期間,企業(yè)需要將優(yōu)惠券、紅包或者抽獎等促銷放置在不同時間點靈活發(fā)放,以達(dá)到最好的促銷效果。

但對于商家來說,如何找到準(zhǔn)確的時間、精準(zhǔn)的用戶群進(jìn)行發(fā)放,其需要依托于渠道產(chǎn)生的實時數(shù)據(jù)指標(biāo),來進(jìn)行用戶畫像分析。

這不是一件容易的事情。在一個企業(yè)內(nèi)部,一個用戶基于不同的渠道往往可能擁有上百甚至上千個標(biāo)簽,而在線上渠道接入后,標(biāo)簽的量級更是被無限放大。因此,如果想要面向用戶進(jìn)行足夠精準(zhǔn)的營銷推薦,其對底層數(shù)據(jù)庫就有極大的要求,不僅需要處理大批量的數(shù)據(jù),更要滿足時效性、實時性。

實際上,在如今快速變化的大環(huán)境下,不論是金融場景下的高數(shù)據(jù)要求,還是零售等場景中的類似用戶畫像分析的需求,都是如今企業(yè)內(nèi)部對數(shù)據(jù)庫新要求的一個縮影。

那么最好的選項在哪里?

二、數(shù)據(jù)庫里的「鏡舟樣本」:速度與穩(wěn)定

2022年,鏡舟科技面向金融行業(yè)發(fā)布了數(shù)據(jù)庫解決方案。

作為數(shù)字化轉(zhuǎn)型的代表,金融企業(yè)開始從“外需”向“內(nèi)求”轉(zhuǎn)變,通過降本增效的方式來提升自身盈利能力。同時,在數(shù)字化建設(shè)方面,金融企業(yè)受互聯(lián)網(wǎng)影響,越來越偏向電商和零售化,利用企業(yè)背后積攢的大數(shù)據(jù)做驅(qū)動成為業(yè)務(wù)發(fā)展的必需。這使得金融企業(yè)不得不做到“既要又要”——既要穩(wěn)定,又要速度。

以證券企業(yè)的用戶經(jīng)營平臺為例,其需要收集和整合大量來自不同來源的數(shù)據(jù),例如用戶畫像、用戶行為等數(shù)據(jù),為業(yè)務(wù)運營人員提供快速的自助分析能力。這種能力使得證券在財富營銷、資產(chǎn)管理等場景下能夠更好地理解和滿足其用戶的需求,從而提升用戶滿意度和忠誠度。

另外,銀行內(nèi)部員工的績效分析平臺也需要數(shù)據(jù)的驅(qū)動??冃I(yè)務(wù)明細(xì)數(shù)據(jù)、指標(biāo)、考核方案均需要 T+0 的分析時效,來讓管理層及業(yè)務(wù)員工實時查詢經(jīng)營數(shù)據(jù)并進(jìn)行分析,了解存貸款、理財?shù)纫幌盗袠I(yè)績完成情況,同時也要支撐績效情況按不同顆粒度進(jìn)行同比、環(huán)比復(fù)盤,賦能企業(yè)的經(jīng)營管理。

這不是一件容易的事情,其背后考驗的是數(shù)據(jù)庫的查詢性能,對數(shù)據(jù)量和實時性的要求十分高。

鏡舟給出的解題思路是“向量化引擎+CBO查詢優(yōu)化器+智能索引”——從數(shù)據(jù)存儲、到數(shù)據(jù)加工計算再到數(shù)據(jù)查詢,進(jìn)行全方位的極速再造。

可以理解為,基于“向量化引擎+CBO查詢優(yōu)化器+智能索引”三者的疊加,企業(yè)可以更好地歸攏和整理內(nèi)部的數(shù)據(jù),不論是通過向量搜索還是智能索引,都可以加速對數(shù)據(jù)的篩查和分析,進(jìn)而加速對數(shù)據(jù)的調(diào)用和處理,盡快反饋到前端。

這正是鏡舟的優(yōu)勢之一。但從更大的視角來看,鏡舟對企業(yè)的價值還不僅于此,其更為被市場認(rèn)可的是其“實時數(shù)倉”解決方案。

實時數(shù)倉是在從事后延伸至事前事中的背景下應(yīng)運而生的能力,相當(dāng)于從T+1的模式升級為T+0的模式。

傳統(tǒng)的實時數(shù)倉需要依賴許多外部組件來搭建,體系搭建相對分散、難調(diào)度,鏡舟的做法是則在此基礎(chǔ)上添加了新的All in One模式,即數(shù)據(jù)的接入、處理和分析都在一個相對獨立的體系里完成,保證整個體系的獨立性。同時,為了更好地強(qiáng)化上次的數(shù)倉能力,鏡舟在底層還專項構(gòu)建了湖倉一體的能力,使數(shù)據(jù)使用模式和接入方式更加統(tǒng)一。

實際上,這也恰是如今鏡舟“連接大數(shù)據(jù)與價值”slogan所對應(yīng)的布局。

在這種強(qiáng)產(chǎn)品力背后,外界對鏡舟的認(rèn)可也更在企業(yè)成長層面——即開源社區(qū)與商業(yè)化主體形成的“雙擎驅(qū)動”。

鏡舟科技CEO孫文現(xiàn)告訴產(chǎn)業(yè)家,在百度做統(tǒng)計系統(tǒng)福爾摩斯的時候,后臺使用的是MySQL。當(dāng)時幾乎每周都要進(jìn)行一次大規(guī)模數(shù)據(jù)恢復(fù),否則第二天數(shù)據(jù)就丟了?!坝幸淮闻芘蝿?wù)要凌晨三點之前把所有數(shù)據(jù)全部跑出來,否則數(shù)據(jù)丟失就會讓客戶看不到后臺效果,引起投訴?!彼硎?。

后來孫文現(xiàn)和團(tuán)隊共同設(shè)計了百度的第一個OLAP。而StarRocks開源產(chǎn)品,即新技術(shù)架構(gòu)下的OLAP,也正是誕生于孫文現(xiàn)在百度的這段“反恐24小時”的經(jīng)歷。一個關(guān)于StarRocks的時間線是,2020年5月,StarRocks產(chǎn)品正式問世;2022年,StarRocks正式捐獻(xiàn)給了Linux基金會。

簡單來說,鏡舟的數(shù)據(jù)庫產(chǎn)品脫胎于StarRocks開源社區(qū),但又不止于StarRocks。兩者的關(guān)系是相互促進(jìn)、相互成就。

能看到的是,在如今StarRocks開源社區(qū)內(nèi)部,不僅有鏡舟,也更有阿里云、攜程、騰訊、小紅書等重要參與方和貢獻(xiàn)者。實際上,由于開源社區(qū)的用戶量極大,其迭代速度也十分快。對此,孟慶歡告訴產(chǎn)業(yè)家,“迭代節(jié)奏平均來看是,兩周一個小版本,一個月一個大版本?!?/p>

而對于鏡舟商業(yè)化主體,為了保證其穩(wěn)定性,其商業(yè)化版本則是在StarRocks已經(jīng)成熟的版本上進(jìn)行迭代升級,構(gòu)建出更適配企業(yè)服務(wù)市場的產(chǎn)品和方案。

鏡舟提出的湖倉一體新架構(gòu)也來源于StarRocks,并在此基礎(chǔ)上添加了災(zāi)備管理能力和數(shù)據(jù)權(quán)限管理能力,來保證企業(yè)用戶在數(shù)據(jù)系統(tǒng)運行中的數(shù)據(jù)安全和資產(chǎn)管理保障。再比如用戶畫像分析的需求,則也是鏡舟依托于StarRocks的大量用戶基礎(chǔ),總結(jié)出的用戶痛點,并凝結(jié)出更為具體的解決方案,幫企業(yè)解決痛點。

此外,鏡舟基于StarRocks開源產(chǎn)品所做出更進(jìn)一步不僅在產(chǎn)品,也更在對具體的場景和需求服務(wù)能力側(cè)。

第一點改造是效率上的提升。這涉及到了開源產(chǎn)品與商業(yè)化產(chǎn)品的本質(zhì)區(qū)別,前者更注重性能和功能層面的基本能力,比如實時數(shù)倉和查詢性能;而后者則更強(qiáng)調(diào)企業(yè)的降本增效。

對此,鏡舟推出了可視化開發(fā)運維平臺,幫助用戶完成產(chǎn)品監(jiān)控、運維升降機(jī)、告警監(jiān)控管理及集群健康狀態(tài)巡檢等等。將這些功能做成可視化的界面,這是對于客戶來說更能夠降本增效的功能。

第二點改造則是針對數(shù)據(jù)安全方面。對于集團(tuán)型企業(yè)而言,其業(yè)務(wù)線較多,數(shù)據(jù)的使用模式也更為復(fù)雜。所以,鏡舟在數(shù)據(jù)安全層面給出的解題思路則是,對于數(shù)據(jù)權(quán)限的管控。比如A部門的數(shù)據(jù),B部門與C部門不能查詢。這種數(shù)據(jù)加密維度的特殊需求則需要企業(yè)版來補(bǔ)齊。

另外,開源社區(qū)為鏡舟所提供的大量用戶基礎(chǔ),其附加價值除了行業(yè)Know-how,也更有生態(tài)的價值。

對于一家數(shù)據(jù)庫企業(yè)而言,它所需要打通的是紛繁復(fù)雜的上下游系統(tǒng)。而開源社區(qū)所能帶來的好處則是,通過開源的開放性,與開源社區(qū)里用戶相關(guān)聯(lián)的上下游企業(yè),都更有可能發(fā)展成鏡舟生態(tài)圈里的企業(yè)。

以BI為例,帆軟、SmartBI、永洪BI,以及銀行和零售行業(yè)經(jīng)常使用的觀遠(yuǎn)BI都已經(jīng)成為了鏡舟生態(tài)里的合作伙伴。作為一家商業(yè)化的數(shù)據(jù)庫公司,在新的環(huán)境下,鏡舟正在憑借開源社區(qū)的積累和商業(yè)化改造,為數(shù)據(jù)庫行業(yè)提供一個新樣本。

三、數(shù)據(jù)資產(chǎn)入表,和大模型的下一步

在2023年度十大科技名詞中,大模型位居榜首,數(shù)據(jù)要素也名列前三。而在種種新的技術(shù)變革之下,數(shù)據(jù)庫行業(yè)是否將迎來新的拐點?

首先是火熱了一年的大模型,今年以來,AI Agent和AIGC等技術(shù)都是上層應(yīng)用賽道里的關(guān)鍵詞;而底層技術(shù)的變革總是要來得相對慢一些。在數(shù)據(jù)庫行業(yè),一個可預(yù)見性的趨勢是AI+BI+DI。

實際上,更準(zhǔn)確的說,這種趨勢并非出現(xiàn)在大模型時代,在更早之前它就是數(shù)據(jù)庫行業(yè)里的一個暢想。但由于技術(shù)不夠成熟,導(dǎo)致這種暢想并未實現(xiàn)。

具體而言,在AI、BI與DI三者的結(jié)合中,AI的這部分能力由大模型廠商來提供相應(yīng)的能力;數(shù)據(jù)庫廠商提供的能力則在底層的數(shù)據(jù)處理分析上。其中,DI相當(dāng)于一個接受數(shù)據(jù)加工請求的平臺;BI則是將這些數(shù)據(jù)分析結(jié)果用可視化的方式呈現(xiàn)出來。

只是在大模型時代,AI可以更好地理解用戶意圖,再基于底層強(qiáng)大的數(shù)據(jù)計算加工能力,即可實現(xiàn)更加絲滑、低成本的數(shù)據(jù)分析體驗,將底層數(shù)據(jù)庫的加工和分析結(jié)果在BI上呈現(xiàn)出來。

在鏡舟的觀察中,這種趨勢現(xiàn)如今已經(jīng)可以成為現(xiàn)實,并計劃在未來一年內(nèi)落地。實際上,這種模式的落地不僅是站在AI大模型新時代的風(fēng)口之下,也更是在市場的期盼之下。

然而,也正是在AI+BI+DI模式的驅(qū)動下,數(shù)據(jù)庫行業(yè)將更加重視公有云模式。一方面是考慮到成本因素,另一方面則是數(shù)據(jù)使用模式的靈活度。

在大模型時代,公有云模式已經(jīng)被各大云廠提升到重要的戰(zhàn)略地位。而在數(shù)據(jù)庫企業(yè),公有云模式也將成為一種新的趨勢。一個較為客觀的觀察是,在全球數(shù)據(jù)庫市場中,云數(shù)據(jù)庫的市場份額近兩年也得到了大幅提升。不僅如此,近兩年的云數(shù)據(jù)庫占比已經(jīng)超過本地部署的數(shù)據(jù)庫。

大數(shù)據(jù)時代的新命題:誰在滿足中國企業(yè)的實時性需求?

來源:CCSA TC601

此外,在2023年度的科技關(guān)鍵詞中,數(shù)據(jù)要素也將在數(shù)據(jù)庫行業(yè)發(fā)揮更重要的角色。不僅如此,隨著2024年數(shù)據(jù)資產(chǎn)的入表,也更將催化數(shù)據(jù)庫行業(yè)走向新的發(fā)展高度。

在國家數(shù)據(jù)局發(fā)布“數(shù)據(jù)要素X”行動方案中明確提出推動將滿足資產(chǎn)確認(rèn)條件的數(shù)據(jù)資源,計入資產(chǎn)負(fù)債表無形資產(chǎn)或存貨,推動數(shù)據(jù)資產(chǎn)化。而相關(guān)部門發(fā)布的規(guī)定也將于2024年1月1日正式施行。

在鏡舟科技客戶成功負(fù)責(zé)人孟慶歡看來,“數(shù)據(jù)資產(chǎn)入表是行業(yè)內(nèi)的一個里程碑事件。未來,企業(yè)會越來越重視數(shù)據(jù)層面、資產(chǎn)層面的建設(shè)。過去粗放式的數(shù)據(jù)使用模式,在外部更強(qiáng)的監(jiān)管要求下,也會朝著精細(xì)化的模式進(jìn)行升級。相對應(yīng)的,數(shù)據(jù)建設(shè)和治理在企業(yè)內(nèi)部會變得更加合理?!?/p>

更具體地來看,數(shù)據(jù)資產(chǎn)在企業(yè)內(nèi)部相當(dāng)于一個“底座”的作用。而之所以數(shù)據(jù)資產(chǎn)被提到了一個更重要的位置,一部分原因也是希望充分發(fā)揮數(shù)據(jù)共享機(jī)制帶來的紅利。

而在整個數(shù)據(jù)共享機(jī)制的構(gòu)建中,一個最常見的問題是數(shù)據(jù)孤島的存在。

這也正是前文所說,由于企業(yè)內(nèi)部為了解決多個問題所構(gòu)建的多個技術(shù)棧,而在不同組件下產(chǎn)生的數(shù)據(jù)割裂現(xiàn)象。一旦數(shù)據(jù)割裂的現(xiàn)象出現(xiàn),整個數(shù)據(jù)共享的機(jī)制也就被破壞了。

對此,鏡舟所采取的湖倉一體新架構(gòu)則也正是用于解決數(shù)據(jù)割裂的問題。具體來講,數(shù)據(jù)湖的能力可以將用戶的數(shù)據(jù)底座統(tǒng)一起來,比如將A、B、C三個部門的數(shù)據(jù)統(tǒng)一起來,從而達(dá)到數(shù)據(jù)共享的效果。

而在湖倉一體技術(shù)架構(gòu)基礎(chǔ)上,數(shù)據(jù)也可以以各種格式存在于數(shù)據(jù)湖里,通過湖倉一體的分析來支撐企業(yè)對于數(shù)據(jù)使用的不同訴求,進(jìn)而更有質(zhì)量地構(gòu)建自身的數(shù)據(jù)資產(chǎn)。

站在今天的十字路口,國內(nèi)數(shù)據(jù)庫行業(yè)已然呈現(xiàn)出新的拐點。而在各種新趨勢和新技術(shù)的到來,鏡舟也正在基于自己開源社區(qū)加商業(yè)化閉環(huán),共同加速數(shù)據(jù)庫行業(yè)的發(fā)展和規(guī)范。

 

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/112820.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-01-24 11:25
下一篇 2024-01-24 17:53

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論