劃重點(diǎn)：

1、如果將開發(fā)大模型比做是“造房子”，那AI Infra 就是“工具箱”，而中國缺少的正是工具和原材料制造工廠。

2、根據(jù)國外市場(chǎng)的情況，可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面，在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn)，都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。

3、“數(shù)據(jù)準(zhǔn)備”是中國AI Infra第一個(gè)機(jī)遇。圍繞著“以數(shù)據(jù)為‘能源’”，本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈，而我國的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈，幾乎都是云大廠“一帶而過”，缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭。

4、在AI大模型的訓(xùn)練過程中，為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”，但從目前國內(nèi)的情況來看，“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲。

?自象限原創(chuàng)

作者｜程心

編輯｜羅輯排版｜李帛錦

ChatGPT火爆之后，科技圈有不少人想譜寫AI 2.0的中國故事。

據(jù)「自象限」不完全統(tǒng)計(jì)，短短一個(gè)月，國內(nèi)有名有姓的大佬下場(chǎng)AI創(chuàng)業(yè)已經(jīng)不下10位。但當(dāng)AI Infra赫然出現(xiàn)在賈揚(yáng)清的創(chuàng)業(yè)字典里時(shí)，一位前百度NLP高級(jí)工程師一邊感嘆賈揚(yáng)清創(chuàng)業(yè)眼光的毒辣，一邊對(duì)「自象限」說了四個(gè)字：這事能成。

這位工程師所說的“這事”，指的也并不是賈揚(yáng)清創(chuàng)業(yè)的成敗，而是終于有人看到了中國AI Infra的底子薄弱，想要上手來補(bǔ)一補(bǔ)了，那么，國內(nèi)做AGI——“這事能成”。

不止賈揚(yáng)清，最早掀起“大佬創(chuàng)業(yè)潮”的王慧文，在披露出為數(shù)不多的消息中，Infra 出現(xiàn)了兩次。在三個(gè)聯(lián)創(chuàng)中，“一個(gè)Infra（基礎(chǔ)設(shè)施）背景的聯(lián)創(chuàng)”占據(jù)了重要的名額，與此同時(shí)，光年之外的第一個(gè)動(dòng)作，便是與國產(chǎn)AI框架一流科技（Oneflow）達(dá)成并購意向。

被賈揚(yáng)清和王慧文雙雙押注“AI Infra”到底是什么？在整個(gè)大模型開發(fā)中占據(jù)哪些關(guān)鍵節(jié)點(diǎn)？

順著大佬們的思路，「自象限」將AI Infra的鏈條進(jìn)行了盤點(diǎn)和國內(nèi)外公司對(duì)比以反觀中國現(xiàn)狀。簡單來說，AI Infra 是一套十分復(fù)雜又基礎(chǔ)的體系，包括構(gòu)建、部署和維護(hù)人工智能 (AI) 系統(tǒng)所需的硬件、軟件和服務(wù)的組合，它包括使AI算法能夠處理大量數(shù)據(jù)、從數(shù)據(jù)中學(xué)習(xí)并生成有意義的見解或執(zhí)行復(fù)雜任務(wù)的基本組件。

即如果將開發(fā)大模型比做是“造房子”，那AI Infra 就是“工具箱”，而中國正是缺少工具和原材料制造工廠。

在這樣的背景下，未來3~5 年，相比于受限大模型能力變化的應(yīng)用層面，AIInfra反而會(huì)更加穩(wěn)定。畢竟大模型公司搞軍備賽，那賣武器的公司增長一定十分可觀。

但問題在于，如今中國的AI產(chǎn)業(yè)鏈在這一塊還處于相當(dāng)空白的狀態(tài)。國內(nèi)基于ML進(jìn)行數(shù)據(jù)標(biāo)注的公司星塵數(shù)據(jù)創(chuàng)始人就曾提出過這個(gè)問題，中國有沒有AI Infra公司？答案是，沒有。

他認(rèn)為“國內(nèi)從業(yè)人員太過于專注在方法論上，而方法論是公開的，但實(shí)際不公開的內(nèi)容才有更多Knowhow和壁壘性?！?/p>

所以，如果說應(yīng)用生態(tài)是顯性創(chuàng)業(yè)機(jī)會(huì)，那么AI Infra便是隱形的藍(lán)海。事實(shí)上，當(dāng)AI進(jìn)入2.0時(shí)代，AI Infra在整個(gè)AI產(chǎn)業(yè)鏈的價(jià)值也正在發(fā)生變化。

我們根據(jù)國外市場(chǎng)的情況，可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面，在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn)，都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。

圖片為自象限原創(chuàng)，轉(zhuǎn)載請(qǐng)注明出處（公眾號(hào)后臺(tái)回復(fù)“AI Infra”獲取高清大圖）

其中數(shù)據(jù)準(zhǔn)備又可以具體拆解為數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成和應(yīng)用商城與工程；模型構(gòu)建又包括機(jī)器學(xué)習(xí)平臺(tái)、版本控制和實(shí)驗(yàn)跟蹤、模型風(fēng)險(xiǎn)管理；模型產(chǎn)品則包括模型部署和服務(wù)、模型監(jiān)控、資源優(yōu)化等。

這些細(xì)分場(chǎng)景都在成為AI產(chǎn)業(yè)鏈的新“聚寶盆”。本文重點(diǎn)結(jié)合海外頭部公司對(duì)AI基礎(chǔ)層的研究，梳理了在大模型訓(xùn)練中比較重要，亦或是國內(nèi)目前比較薄弱的方向，希望給國內(nèi)創(chuàng)業(yè)者予以啟發(fā)。

數(shù)據(jù)新產(chǎn)業(yè)鏈中的“聚寶盆”

“數(shù)據(jù)準(zhǔn)備”是中國AI Infra第一個(gè)機(jī)遇。

對(duì)比中外生成式AI的發(fā)展會(huì)發(fā)現(xiàn)，中文數(shù)據(jù)的缺乏一直中文AI大模型的是最大的短板之一。

有公開數(shù)據(jù)表示，截至2021年，在全球排名前1000萬的網(wǎng)站中，英文內(nèi)容占比60.4%，中文內(nèi)容占比僅1.4%。但作為AI三要素（數(shù)據(jù)、算力、算法）中最基礎(chǔ)的部分，數(shù)據(jù)又是整個(gè)AI大模型訓(xùn)練的前提。沒有數(shù)據(jù)，就相當(dāng)于巧婦難為無米之炊。

需要明確的是，圍繞著“以數(shù)據(jù)為‘能源’”，本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈，涉及到數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)安全三個(gè)主要部分和多個(gè)環(huán)節(jié)。

未來在AI活躍的氛圍下，中國一定會(huì)涌現(xiàn)出多個(gè)大模型，目前僅百度就有36個(gè)大模型，阿里、百度、騰訊、華為每家的大模型都不低于三個(gè)。而大模型越“熱鬧”，對(duì)后端數(shù)據(jù)的需求數(shù)量和質(zhì)量也會(huì)更高。

但反觀我國的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈，幾乎都是云大廠“一帶而過”，缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭，「自象限」整理了幾個(gè)產(chǎn)業(yè)鏈中的關(guān)鍵機(jī)會(huì)，僅供拋磚引玉，期待更多創(chuàng)造。

1、“數(shù)據(jù)質(zhì)量”新機(jī)會(huì)：曾在這里摸爬滾打的企業(yè)，或迎來“出頭之日”

整體上看，數(shù)據(jù)質(zhì)量的機(jī)會(huì)分為兩個(gè)部分，一部分是在技術(shù)側(cè)，機(jī)器學(xué)習(xí)和自動(dòng)檢測(cè)正在成為數(shù)據(jù)質(zhì)量的新機(jī)會(huì)。另一部分是在市場(chǎng)側(cè)，隨著AI市場(chǎng)規(guī)模越來越大，數(shù)據(jù)質(zhì)量正在從產(chǎn)業(yè)鏈末端擴(kuò)展成為供應(yīng)商直接服務(wù)企業(yè)。

未來，隨著AI成為社會(huì)發(fā)展的底座，數(shù)據(jù)質(zhì)量會(huì)成為每個(gè)企業(yè)的剛需。但國內(nèi)數(shù)據(jù)質(zhì)量尚未受到足夠的重視，缺乏專門做數(shù)據(jù)質(zhì)量的企業(yè)，它更多是以大公司附庸品的形態(tài)出現(xiàn)，更像是“順手”做的事情。

但實(shí)際上，數(shù)據(jù)質(zhì)量是需要市場(chǎng)化的，就像汽車公司沒辦法生產(chǎn)每一個(gè)零部件一樣，只有讓數(shù)據(jù)質(zhì)量成為整個(gè)產(chǎn)業(yè)的底座，通過眾人拾柴火焰高的方式，才能推動(dòng)整個(gè)行業(yè)的發(fā)展。

在國外，數(shù)據(jù)質(zhì)量是十分垂直的賽道。這類公司的核心目標(biāo)，是幫助人工智能企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來的影響，他們的產(chǎn)品通常包括數(shù)據(jù)可觀察性平臺(tái)、數(shù)據(jù)整理和偏見檢測(cè)工具，以及數(shù)據(jù)標(biāo)簽錯(cuò)誤的識(shí)別工具等等。

國內(nèi)其實(shí)也有這類的公司，但數(shù)量稀少。比如針對(duì)數(shù)據(jù)治理的公司有億信華辰、普元、石竹、龍石、華矩科技、卡斯特等等。這些公司有一個(gè)非常明顯的特點(diǎn)，就是他們?cè)跀?shù)據(jù)的細(xì)分賽道里摸爬滾打了很久，但因?yàn)檫@個(gè)賽道過于垂直，因此無論是資本還是市場(chǎng)都對(duì)他們關(guān)注不多，導(dǎo)致他們一直沒有“出頭之日”，也導(dǎo)致他們和國外專業(yè)的數(shù)據(jù)治理公司差距甚遠(yuǎn)。

▲ 圖源《數(shù)據(jù)治理產(chǎn)業(yè)圖譜1.0》

國內(nèi)的數(shù)據(jù)公司目前大多停留在篩選階段，而國外的公司卻能通過深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行深度挖掘，在同樣的數(shù)量上獲得更多有價(jià)值的部分。這種差距主要源于：

第一，國內(nèi)數(shù)據(jù)處理方式老套。許多中國的數(shù)據(jù)公司仍然在使用數(shù)據(jù)建模這樣的傳統(tǒng)方法進(jìn)行數(shù)據(jù)處理，而國外已經(jīng)開始使用機(jī)器學(xué)習(xí)的方式進(jìn)行自動(dòng)處理、自動(dòng)標(biāo)注，自動(dòng)檢測(cè)安全等工作。

第二，數(shù)據(jù)處理效率低下、可用的優(yōu)質(zhì)數(shù)據(jù)占比低。中國的數(shù)據(jù)公司在做數(shù)據(jù)處理的時(shí)候仍然處在初級(jí)階段，即在一堆數(shù)據(jù)中將符合標(biāo)準(zhǔn)的數(shù)據(jù)篩選出來，只是不同的公司篩選的標(biāo)準(zhǔn)不同，得到的結(jié)果有所差異。而國外的公司卻能在數(shù)據(jù)處理的過程中，通過對(duì)數(shù)據(jù)不停的清洗、修改得到更多符合條件的優(yōu)質(zhì)數(shù)據(jù)。

簡單來說，在AI 2.0時(shí)代，大模型的訓(xùn)練對(duì)更全面、更準(zhǔn)確、可溯源的高質(zhì)量數(shù)據(jù)有著更龐大的需求，同時(shí)也對(duì)效率有更高的要求，依靠機(jī)器學(xué)習(xí)自動(dòng)檢測(cè)質(zhì)量問題，將會(huì)是一條新的路徑。

同時(shí)，在數(shù)據(jù)成為“新石油” 時(shí)代，數(shù)據(jù)質(zhì)量并不能只靠大模型的發(fā)展帶動(dòng)，每個(gè)企業(yè)都需要對(duì)內(nèi)部數(shù)據(jù)的質(zhì)量進(jìn)行精粹，發(fā)揮市場(chǎng)化的力量，大范圍提質(zhì)。

對(duì)標(biāo)國外垂直賽道中的典型案例Anomalo，它使用ML自動(dòng)評(píng)估和通用化數(shù)據(jù)質(zhì)量檢測(cè)能力，實(shí)現(xiàn)了數(shù)據(jù)深度的可觀察性，以及數(shù)據(jù)質(zhì)量檢測(cè)的能力泛化。

簡單來講，它一方面把數(shù)據(jù)質(zhì)量這件事檢測(cè)這件事做得更深，另一方面通過能力泛化將其做得更廣。

▲ 圖源Anomalo官網(wǎng)

2022年10月，Anomalo與Google Cloud達(dá)成合作，企業(yè)可以使用無代碼關(guān)鍵指標(biāo)和驗(yàn)證規(guī)則或通過任何自定義SQL檢查來微調(diào)Anomalo的監(jiān)控。簡單的說，Anomalo上云后，對(duì)于企業(yè)而言幾乎可以無門檻接入，且適配性高。

Notion是Anomalo的核心客戶之一，Notion是國外最大的All in one 辦公軟件，國內(nèi)的飛書學(xué)習(xí)的就是它。其軟件工程師對(duì)此評(píng)價(jià)到“Anomalo團(tuán)隊(duì)的功能、集成數(shù)量和響應(yīng)速度夠非常強(qiáng)大，用戶易于導(dǎo)航并找到他們正在尋找的內(nèi)容?！?/p>

2、數(shù)據(jù)標(biāo)注新機(jī)會(huì)：從“人工標(biāo)注”到“算法標(biāo)注”

數(shù)據(jù)標(biāo)注者正在從人工標(biāo)注，向自動(dòng)標(biāo)注和智能標(biāo)注邁進(jìn)，中間的變化不僅是效率的提升，也將迸發(fā)出巨大的產(chǎn)業(yè)機(jī)會(huì)。

在AI 1.0時(shí)代，人工標(biāo)注是AI發(fā)展最典型的特點(diǎn)，在那個(gè)“有多少人工就有多少智能”的時(shí)代，全世界的AI發(fā)展都與底層廉價(jià)勞動(dòng)力資源息息相關(guān)。

但在AI2.0時(shí)代，李開復(fù)點(diǎn)明與AI 1.0的第一個(gè)差異就是無需人工標(biāo)注，AI可以閱讀海量的文本，進(jìn)行自監(jiān)督學(xué)習(xí)。可以說，標(biāo)注后的數(shù)據(jù)是AI大模型的命脈，它的性能和準(zhǔn)確性直接取決于標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量。

在AI產(chǎn)業(yè)鏈中，數(shù)據(jù)標(biāo)注也占據(jù)了非常大比重，據(jù)AI分析公司Cognilytica的數(shù)據(jù)，數(shù)據(jù)標(biāo)注環(huán)節(jié)的耗時(shí)占比可達(dá)25%。根據(jù)researchandmarkets的報(bào)告，全球數(shù)據(jù)注釋和標(biāo)簽市場(chǎng)預(yù)計(jì)將從2022年的8億美元增長到2027年的36億美元，預(yù)測(cè)期內(nèi)復(fù)合年增長率為 33.2%。

▲ 數(shù)據(jù)標(biāo)注通常包含圖像、文本和視頻。 ▲ 數(shù)據(jù)標(biāo)注通常包含圖像、文本和視頻。

以AI大模型之前，以AI最為人所熟知的自動(dòng)駕駛領(lǐng)域?yàn)槔?，?shù)據(jù)標(biāo)注和訓(xùn)練一直是自動(dòng)駕駛技術(shù)研發(fā)中成本最高的兩個(gè)“吞金獸”，為了解決成本和效率問題，無論是國外特斯拉還是國內(nèi)的毫末，都在人工標(biāo)注到標(biāo)注自動(dòng)化，再到標(biāo)注智能化的路徑上進(jìn)行探索。

自動(dòng)駕駛?cè)匀皇菙?shù)據(jù)標(biāo)注/圖片標(biāo)注使用量最大的一個(gè)應(yīng)用場(chǎng)景，而未來，隨著文本大模型、多模態(tài)大模型的不斷涌現(xiàn)，還將出現(xiàn)新的增長機(jī)會(huì)。

從人工標(biāo)注到算法標(biāo)注，是底層智能化的變遷。這其中跑的最快的是Scale.ai，目前Scale.ai是全球最大的數(shù)據(jù)標(biāo)注公司，據(jù)外媒報(bào)道，目前Scale.ai最新一輪E輪融資3.25億美元，估值達(dá)到73億美元。

Scale.ai早期走的也是人工標(biāo)注路線，利用了印度標(biāo)注團(tuán)隊(duì)，靠著比美國更便宜、更高效的標(biāo)注服務(wù)打開市場(chǎng)。在行業(yè)選擇上選擇了當(dāng)時(shí)大火的自動(dòng)駕駛賽道，并早早與Waymo等龍頭企業(yè)達(dá)成合作。

后期隨著技術(shù)的發(fā)展，AI訓(xùn)練對(duì)數(shù)據(jù)的廣度、深度、精度要求也越來越高，為了解決這個(gè)問題，Scale AI將AI應(yīng)用在數(shù)據(jù)標(biāo)注服務(wù)中，先用AI識(shí)別，再由人工負(fù)責(zé)校對(duì)其中的錯(cuò)誤，校對(duì)完的數(shù)據(jù)再“投喂”給訓(xùn)練模型，使下一次的標(biāo)注更加精準(zhǔn)。

目前，Scale也將業(yè)務(wù)拓展到無人車、無人機(jī)和機(jī)器人等領(lǐng)域，同樣也在向下游拓展，開發(fā)自有模型提供給其他數(shù)據(jù)標(biāo)注公司，并逐步進(jìn)入AI/ML價(jià)值鏈的更多環(huán)節(jié)?？蛻舭绹鴩啦?、PayPal、自動(dòng)駕駛公司及科技巨頭。

3、數(shù)據(jù)隱私和安全新機(jī)會(huì)：“合成數(shù)據(jù)”或成AI數(shù)據(jù)主力軍

正如互聯(lián)網(wǎng)的發(fā)展長河中，崛起過如360、金山毒霸等“安全專家”，移動(dòng)互聯(lián)網(wǎng)時(shí)代的騰訊手機(jī)管家、360手機(jī)衛(wèi)士一般，在AI時(shí)代，“安全”將仍然是技術(shù)和應(yīng)用發(fā)展的底盤和重心。

目前，隨著AI技術(shù)呈指數(shù)級(jí)發(fā)展，合規(guī)和隱私風(fēng)險(xiǎn)的行業(yè)痛點(diǎn)也在逐漸暴露，3月的最后一天，在西班牙媒體指責(zé)OpenAI未能遵守用戶數(shù)據(jù)保護(hù)法規(guī)后，意大利相關(guān)部門也以類似的理由宣布了對(duì)ChatGPT的禁令。

隱私計(jì)算和數(shù)據(jù)安全話題被重新推上風(fēng)口浪尖。

3月下旬，OpenAI曾發(fā)布聲明，稱因?yàn)镃hatGPT開源庫中存在一個(gè)漏洞，致使一些用戶可以看到其他用戶的信息，包括用戶姓名、電子郵件地址、付款地址、信用卡號(hào)后四位以及信用卡有效期。

ChatGPT目前擁有超過1億用戶，雖然OpenAI并未說明，“一些”用戶泄露到底是多少數(shù)量級(jí)，但哪怕只有千分之一的用戶接觸到了這一漏洞，其后果都是不可估量的。

中國面對(duì)大模型的保守和謹(jǐn)慎也有一部分來源于對(duì)數(shù)據(jù)安全體系的不信任。國家層面也不斷提出加大安全性測(cè)試和常態(tài)化管理投入，包括數(shù)據(jù)外泄等問題的緊急檢測(cè)和修補(bǔ)措施，以及更先進(jìn)的預(yù)防體系建設(shè)，如內(nèi)控流程的完善、數(shù)據(jù)脫敏處理等，最大限度保證安全性。

數(shù)據(jù)顯示，中國信息安全市場(chǎng)的潛在空間高達(dá)1000億元上下，與全球安全服務(wù)市場(chǎng)64.4%的份額相比，我國安全服務(wù)市場(chǎng)占比僅為19.8%。目前國內(nèi)信息安全產(chǎn)業(yè)依然以硬件為主，代表企業(yè)如奇安信、新華三等。軟件市場(chǎng)空白度高，發(fā)展?jié)摿薮蟆?/strong>

除了更加強(qiáng)大的數(shù)據(jù)安全保護(hù)之外，從根本上解決數(shù)據(jù)隱私的問題也成為一種思路，其答案就是數(shù)據(jù)合成。

合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù)，來替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù)，來保證真實(shí)數(shù)據(jù)的安全，它不存在法律約束的敏感內(nèi)容和私人用戶的隱私。

目前企業(yè)端已經(jīng)在紛紛部署，這也導(dǎo)致合成數(shù)據(jù)數(shù)量正在以指數(shù)級(jí)的速度向上增長。Gartner研究認(rèn)為，2030年，合成數(shù)據(jù)將遠(yuǎn)超真實(shí)數(shù)據(jù)體量，成為AI數(shù)據(jù)的主力軍。

▲ 圖源Gartner官

“鈔能力”的“模型中臺(tái)”：需要?jiǎng)?chuàng)業(yè)大佬們的新游戲

如果我們把大模型看作一個(gè)云產(chǎn)品，那么數(shù)據(jù)、算力、算法可以被看做是這個(gè)產(chǎn)品的“IaaS”，即基礎(chǔ)設(shè)施。而在“基礎(chǔ)設(shè)施”和前臺(tái)應(yīng)用的SaaS之間，還存在一個(gè)PaaS平臺(tái)作為中間層，承擔(dān)起為SaaS提供部署平臺(tái)，開發(fā)工具等任務(wù)。

這樣的結(jié)構(gòu)在AI大模型中也同樣存在，當(dāng)訓(xùn)練AI大模型的前期數(shù)據(jù)準(zhǔn)備工作完成后，數(shù)據(jù)會(huì)被送到一個(gè)新的訓(xùn)練池里，在這里完成訓(xùn)練、推理，中間也涉及到各種開發(fā)工具、統(tǒng)籌調(diào)度等系統(tǒng)，我們也可以將其稱為大模型的“煉丹爐”。

現(xiàn)在，大模型訓(xùn)練已經(jīng)有ML Paltform這樣的平臺(tái)型解決方案覆蓋從數(shù)據(jù)準(zhǔn)備訓(xùn)練、驗(yàn)證、到模型部署和持續(xù)監(jiān)控的全流程，促進(jìn)端到端的模型開發(fā)。

這類公司可以簡單理解為“大模型開發(fā)的一站式服務(wù)平臺(tái)”，為任何想要開發(fā)或使用大模型的公司做供應(yīng)商服務(wù)。

事實(shí)上，如果繼續(xù)對(duì)比這些年云計(jì)算的發(fā)展和變化會(huì)發(fā)現(xiàn)，云廠商和企業(yè)都在不約而同地加碼PaaS平臺(tái)。而在AI大模型的訓(xùn)練過程中，為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”。

▲ 圖源DataRobot

但“模型中臺(tái)”市場(chǎng)也存在許多問題。

比如，F(xiàn)orrester在《The Landscape In China, Q4 2022》報(bào)告中指出目前的市場(chǎng)化難點(diǎn)：“客戶使用AI技術(shù)的關(guān)鍵障礙之一，是缺乏開發(fā)AI解決方案和操作AI系統(tǒng)的能力，而AI/ML平臺(tái)是解決這一問題的有效方法。Forrester依據(jù)供應(yīng)商的市場(chǎng)情況，將其劃分為大型、中型、小型三類。”

目前國外這個(gè)市場(chǎng)出現(xiàn)了“大魚吃小魚”的情況，大型供應(yīng)商正在通過收購AI開發(fā)過程中不同部分的小型公司，以占據(jù)更大的市場(chǎng)份額。

目前在全球范圍內(nèi)跑得比較快的是DataRobot，最新一輪完成了2.5億美元的融資，估值達(dá)到60億美元。Dataiku最新一輪完成了4億美元的融資，估值達(dá)到42億美元。還有開源公司H2O.ai，最新一輪完成了7000多萬美元的融資，由高盛和平安領(lǐng)投。

但這還只是“模型”中臺(tái)的在訓(xùn)練部分的機(jī)會(huì)，當(dāng)一個(gè)模型完成訓(xùn)練之后，就進(jìn)入了模型部署環(huán)節(jié)。

模型部署也是未來大模型走向B端應(yīng)用的一個(gè)重要環(huán)節(jié)，也有一套專屬工具。

這套工具需要與底層 ML 基礎(chǔ)設(shè)施、運(yùn)營工具以及生產(chǎn)環(huán)境結(jié)合，來實(shí)現(xiàn)模型部署的三大環(huán)節(jié)，即優(yōu)化模型性能，簡化模型結(jié)構(gòu)，并將模型推向生產(chǎn)。

一般來說，模型的部署可以是幾周、幾天，也可以是幾個(gè)小時(shí)，這要看模型部署的效率。所以更快的模型部署能力也是更強(qiáng)的核心競(jìng)爭力。

而這類工具可以將ML工程師從基礎(chǔ)設(shè)施和硬件層面的決策中抽象出來，協(xié)調(diào)IT團(tuán)隊(duì)、業(yè)務(wù)人員、工程師和數(shù)據(jù)科學(xué)家的工作，提高大模型部署團(tuán)隊(duì)的整體效率。

除此之外，它們還能將訓(xùn)練有素的模型轉(zhuǎn)化為敏捷、可移植（適用于任何硬件）、可靠的軟件功能，并與企業(yè)現(xiàn)有的應(yīng)用程序堆棧和DevOps工作流程相結(jié)合。簡單來說就是提高模型的環(huán)境適應(yīng)能力，快速與更多業(yè)務(wù)兼容。

不過，從目前國內(nèi)的情況來看，“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲，對(duì)于當(dāng)下中國的AI鏈條來說，除了高昂的啟動(dòng)資金和試錯(cuò)成本外，更需要的是超一流的專業(yè)技術(shù)，如何合理規(guī)劃平臺(tái)架構(gòu)，深入到訓(xùn)練部署的每一個(gè)環(huán)節(jié)，對(duì)創(chuàng)始人的框架能力要求極高。

從另一個(gè)角度來看，在這場(chǎng)需要“鈔能力”的游戲中，創(chuàng)業(yè)公司和資本的關(guān)系將比此前更為密切，甚至決定生死。

? 文中配圖來源于網(wǎng)絡(luò)

? 資料參考：
https://zhuanlan.zhihu.com/p/594362766

大佬下場(chǎng)AI2.0，我們幫“王慧文們”指條明路

數(shù)據(jù)新產(chǎn)業(yè)鏈中的“聚寶盆”

“鈔能力”的“模型中臺(tái)”：需要?jiǎng)?chuàng)業(yè)大佬們的新游戲

關(guān)于作者

自象限

發(fā)表回復(fù)

大佬下場(chǎng)AI2.0，我們幫“王慧文們”指條明路

數(shù)據(jù)新產(chǎn)業(yè)鏈中的“聚寶盆”

“鈔能力”的“模型中臺(tái)”：需要?jiǎng)?chuàng)業(yè)大佬們的新游戲

關(guān)于作者

自象限

增長黑客Growthhk.cn薦讀更多>>

6月63家酒店掛牌拍賣，11家酒店拍賣價(jià)格超億元

多品牌戰(zhàn)略無效、下調(diào)銷量目標(biāo)，長城汽車失速

ESG投資新賽道，聯(lián)儲(chǔ)證券資管已入局

從流量到心智，素肌良品如何搶占「科技感內(nèi)衣」賽道

2023年5月榜單丨飛瓜數(shù)據(jù)B站UP主排行榜（嗶哩嗶哩）發(fā)布！

孟會(huì)緣：知網(wǎng)漲價(jià)引眾怒，“版權(quán)流氓”何時(shí)跌下神壇｜鋅刻度

發(fā)表回復(fù)

6月63家酒店掛牌拍賣，11家酒店拍賣價(jià)格超億元

多品牌戰(zhàn)略無效、下調(diào)銷量目標(biāo)，長城汽車失速

2023年5月榜單丨飛瓜數(shù)據(jù)B站UP主排行榜（嗶哩嗶哩）發(fā)布！

孟會(huì)緣：知網(wǎng)漲價(jià)引眾怒，“版權(quán)流氓”何時(shí)跌下神壇｜鋅刻度