劃重點(diǎn):
1、如果將開發(fā)大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國缺少的正是工具和原材料制造工廠。
2、根據(jù)國外市場(chǎng)的情況,可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面,在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn),都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。
3、“數(shù)據(jù)準(zhǔn)備”是中國AI Infra第一個(gè)機(jī)遇。圍繞著“以數(shù)據(jù)為‘能源’”,本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈,而我國的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈,幾乎都是云大廠“一帶而過”,缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭。
4、在AI大模型的訓(xùn)練過程中,為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”,但從目前國內(nèi)的情況來看,“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲。
?自象限原創(chuàng)
作者|程心
編輯|羅輯 排版|李帛錦
ChatGPT火爆之后,科技圈有不少人想譜寫AI 2.0的中國故事。
據(jù)「自象限」不完全統(tǒng)計(jì),短短一個(gè)月,國內(nèi)有名有姓的大佬下場(chǎng)AI創(chuàng)業(yè)已經(jīng)不下10位。但當(dāng)AI Infra赫然出現(xiàn)在賈揚(yáng)清的創(chuàng)業(yè)字典里時(shí),一位前百度NLP高級(jí)工程師一邊感嘆賈揚(yáng)清創(chuàng)業(yè)眼光的毒辣,一邊對(duì)「自象限」說了四個(gè)字:這事能成。
這位工程師所說的“這事”,指的也并不是賈揚(yáng)清創(chuàng)業(yè)的成敗,而是終于有人看到了中國AI Infra的底子薄弱,想要上手來補(bǔ)一補(bǔ)了,那么,國內(nèi)做AGI——“這事能成”。
不止賈揚(yáng)清,最早掀起“大佬創(chuàng)業(yè)潮”的王慧文,在披露出為數(shù)不多的消息中,Infra 出現(xiàn)了兩次。在三個(gè)聯(lián)創(chuàng)中,“一個(gè)Infra(基礎(chǔ)設(shè)施)背景的聯(lián)創(chuàng)”占據(jù)了重要的名額,與此同時(shí),光年之外的第一個(gè)動(dòng)作,便是與國產(chǎn)AI框架一流科技(Oneflow)達(dá)成并購意向。
被賈揚(yáng)清和王慧文雙雙押注“AI Infra”到底是什么?在整個(gè)大模型開發(fā)中占據(jù)哪些關(guān)鍵節(jié)點(diǎn)?
順著大佬們的思路,「自象限」將AI Infra的鏈條進(jìn)行了盤點(diǎn)和國內(nèi)外公司對(duì)比以反觀中國現(xiàn)狀。簡單來說,AI Infra 是一套十分復(fù)雜又基礎(chǔ)的體系,包括構(gòu)建、部署和維護(hù)人工智能 (AI) 系統(tǒng)所需的硬件、軟件和服務(wù)的組合,它包括使AI算法能夠處理大量數(shù)據(jù)、從數(shù)據(jù)中學(xué)習(xí)并生成有意義的見解或執(zhí)行復(fù)雜任務(wù)的基本組件。
即如果將開發(fā)大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國正是缺少工具和原材料制造工廠。
在這樣的背景下,未來3~5 年,相比于受限大模型能力變化的應(yīng)用層面,AIInfra反而會(huì)更加穩(wěn)定。畢竟大模型公司搞軍備賽,那賣武器的公司增長一定十分可觀。
但問題在于,如今中國的AI產(chǎn)業(yè)鏈在這一塊還處于相當(dāng)空白的狀態(tài)。國內(nèi)基于ML進(jìn)行數(shù)據(jù)標(biāo)注的公司星塵數(shù)據(jù)創(chuàng)始人就曾提出過這個(gè)問題,中國有沒有AI Infra公司?答案是,沒有。
他認(rèn)為“國內(nèi)從業(yè)人員太過于專注在方法論上,而方法論是公開的,但實(shí)際不公開的內(nèi)容才有更多Knowhow和壁壘性?!?/p>
所以,如果說應(yīng)用生態(tài)是顯性創(chuàng)業(yè)機(jī)會(huì),那么AI Infra便是隱形的藍(lán)海。事實(shí)上,當(dāng)AI進(jìn)入2.0時(shí)代,AI Infra在整個(gè)AI產(chǎn)業(yè)鏈的價(jià)值也正在發(fā)生變化。
我們根據(jù)國外市場(chǎng)的情況,可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面,在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn),都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。
其中數(shù)據(jù)準(zhǔn)備又可以具體拆解為數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成和應(yīng)用商城與工程;模型構(gòu)建又包括機(jī)器學(xué)習(xí)平臺(tái)、版本控制和實(shí)驗(yàn)跟蹤、模型風(fēng)險(xiǎn)管理;模型產(chǎn)品則包括模型部署和服務(wù)、模型監(jiān)控、資源優(yōu)化等。
這些細(xì)分場(chǎng)景都在成為AI產(chǎn)業(yè)鏈的新“聚寶盆”。本文重點(diǎn)結(jié)合海外頭部公司對(duì)AI基礎(chǔ)層的研究,梳理了在大模型訓(xùn)練中比較重要,亦或是國內(nèi)目前比較薄弱的方向,希望給國內(nèi)創(chuàng)業(yè)者予以啟發(fā)。
數(shù)據(jù)新產(chǎn)業(yè)鏈中的“聚寶盆”
“數(shù)據(jù)準(zhǔn)備”是中國AI Infra第一個(gè)機(jī)遇。
對(duì)比中外生成式AI的發(fā)展會(huì)發(fā)現(xiàn),中文數(shù)據(jù)的缺乏一直中文AI大模型的是最大的短板之一。
有公開數(shù)據(jù)表示,截至2021年,在全球排名前1000萬的網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅1.4%。但作為AI三要素(數(shù)據(jù)、算力、算法)中最基礎(chǔ)的部分,數(shù)據(jù)又是整個(gè)AI大模型訓(xùn)練的前提。沒有數(shù)據(jù),就相當(dāng)于巧婦難為無米之炊。
需要明確的是,圍繞著“以數(shù)據(jù)為‘能源’”,本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈,涉及到數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)安全三個(gè)主要部分和多個(gè)環(huán)節(jié)。
未來在AI活躍的氛圍下,中國一定會(huì)涌現(xiàn)出多個(gè)大模型,目前僅百度就有36個(gè)大模型,阿里、百度、騰訊、華為每家的大模型都不低于三個(gè)。而大模型越“熱鬧”,對(duì)后端數(shù)據(jù)的需求數(shù)量和質(zhì)量也會(huì)更高。
但反觀我國的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈,幾乎都是云大廠“一帶而過”,缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭,「自象限」整理了幾個(gè)產(chǎn)業(yè)鏈中的關(guān)鍵機(jī)會(huì),僅供拋磚引玉,期待更多創(chuàng)造。
1、“數(shù)據(jù)質(zhì)量”新機(jī)會(huì):曾在這里摸爬滾打的企業(yè),或迎來“出頭之日”
整體上看,數(shù)據(jù)質(zhì)量的機(jī)會(huì)分為兩個(gè)部分,一部分是在技術(shù)側(cè),機(jī)器學(xué)習(xí)和自動(dòng)檢測(cè)正在成為數(shù)據(jù)質(zhì)量的新機(jī)會(huì)。另一部分是在市場(chǎng)側(cè),隨著AI市場(chǎng)規(guī)模越來越大,數(shù)據(jù)質(zhì)量正在從產(chǎn)業(yè)鏈末端擴(kuò)展成為供應(yīng)商直接服務(wù)企業(yè)。
未來,隨著AI成為社會(huì)發(fā)展的底座,數(shù)據(jù)質(zhì)量會(huì)成為每個(gè)企業(yè)的剛需。但國內(nèi)數(shù)據(jù)質(zhì)量尚未受到足夠的重視,缺乏專門做數(shù)據(jù)質(zhì)量的企業(yè),它更多是以大公司附庸品的形態(tài)出現(xiàn),更像是“順手”做的事情。
但實(shí)際上,數(shù)據(jù)質(zhì)量是需要市場(chǎng)化的,就像汽車公司沒辦法生產(chǎn)每一個(gè)零部件一樣,只有讓數(shù)據(jù)質(zhì)量成為整個(gè)產(chǎn)業(yè)的底座,通過眾人拾柴火焰高的方式,才能推動(dòng)整個(gè)行業(yè)的發(fā)展。
在國外,數(shù)據(jù)質(zhì)量是十分垂直的賽道。這類公司的核心目標(biāo),是幫助人工智能企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來的影響,他們的產(chǎn)品通常包括數(shù)據(jù)可觀察性平臺(tái)、數(shù)據(jù)整理和偏見檢測(cè)工具,以及數(shù)據(jù)標(biāo)簽錯(cuò)誤的識(shí)別工具等等。
國內(nèi)其實(shí)也有這類的公司,但數(shù)量稀少。比如針對(duì)數(shù)據(jù)治理的公司有億信華辰、普元、石竹、龍石、華矩科技、卡斯特等等。這些公司有一個(gè)非常明顯的特點(diǎn),就是他們?cè)跀?shù)據(jù)的細(xì)分賽道里摸爬滾打了很久,但因?yàn)檫@個(gè)賽道過于垂直,因此無論是資本還是市場(chǎng)都對(duì)他們關(guān)注不多,導(dǎo)致他們一直沒有“出頭之日”,也導(dǎo)致他們和國外專業(yè)的數(shù)據(jù)治理公司差距甚遠(yuǎn)。
國內(nèi)的數(shù)據(jù)公司目前大多停留在篩選階段,而國外的公司卻能通過深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行深度挖掘,在同樣的數(shù)量上獲得更多有價(jià)值的部分。這種差距主要源于:
第一,國內(nèi)數(shù)據(jù)處理方式老套。許多中國的數(shù)據(jù)公司仍然在使用數(shù)據(jù)建模這樣的傳統(tǒng)方法進(jìn)行數(shù)據(jù)處理,而國外已經(jīng)開始使用機(jī)器學(xué)習(xí)的方式進(jìn)行自動(dòng)處理、自動(dòng)標(biāo)注,自動(dòng)檢測(cè)安全等工作。
第二,數(shù)據(jù)處理效率低下、可用的優(yōu)質(zhì)數(shù)據(jù)占比低。中國的數(shù)據(jù)公司在做數(shù)據(jù)處理的時(shí)候仍然處在初級(jí)階段,即在一堆數(shù)據(jù)中將符合標(biāo)準(zhǔn)的數(shù)據(jù)篩選出來,只是不同的公司篩選的標(biāo)準(zhǔn)不同,得到的結(jié)果有所差異。而國外的公司卻能在數(shù)據(jù)處理的過程中,通過對(duì)數(shù)據(jù)不停的清洗、修改得到更多符合條件的優(yōu)質(zhì)數(shù)據(jù)。
簡單來說,在AI 2.0時(shí)代,大模型的訓(xùn)練對(duì)更全面、更準(zhǔn)確、可溯源的高質(zhì)量數(shù)據(jù)有著更龐大的需求,同時(shí)也對(duì)效率有更高的要求,依靠機(jī)器學(xué)習(xí)自動(dòng)檢測(cè)質(zhì)量問題,將會(huì)是一條新的路徑。
同時(shí),在數(shù)據(jù)成為“新石油” 時(shí)代,數(shù)據(jù)質(zhì)量并不能只靠大模型的發(fā)展帶動(dòng),每個(gè)企業(yè)都需要對(duì)內(nèi)部數(shù)據(jù)的質(zhì)量進(jìn)行精粹,發(fā)揮市場(chǎng)化的力量,大范圍提質(zhì)。
對(duì)標(biāo)國外垂直賽道中的典型案例Anomalo,它使用ML自動(dòng)評(píng)估和通用化數(shù)據(jù)質(zhì)量檢測(cè)能力,實(shí)現(xiàn)了數(shù)據(jù)深度的可觀察性,以及數(shù)據(jù)質(zhì)量檢測(cè)的能力泛化。
簡單來講,它一方面把數(shù)據(jù)質(zhì)量這件事檢測(cè)這件事做得更深,另一方面通過能力泛化將其做得更廣。
2022年10月,Anomalo與Google Cloud達(dá)成合作,企業(yè)可以使用無代碼關(guān)鍵指標(biāo)和驗(yàn)證規(guī)則或通過任何自定義SQL檢查來微調(diào)Anomalo的監(jiān)控。簡單的說,Anomalo上云后,對(duì)于企業(yè)而言幾乎可以無門檻接入,且適配性高。
Notion是Anomalo的核心客戶之一,Notion是國外最大的All in one 辦公軟件,國內(nèi)的飛書學(xué)習(xí)的就是它。其軟件工程師對(duì)此評(píng)價(jià)到“Anomalo團(tuán)隊(duì)的功能、集成數(shù)量和響應(yīng)速度夠非常強(qiáng)大,用戶易于導(dǎo)航并找到他們正在尋找的內(nèi)容?!?/p>
2、數(shù)據(jù)標(biāo)注新機(jī)會(huì):從“人工標(biāo)注”到“算法標(biāo)注”
數(shù)據(jù)標(biāo)注者正在從人工標(biāo)注,向自動(dòng)標(biāo)注和智能標(biāo)注邁進(jìn),中間的變化不僅是效率的提升,也將迸發(fā)出巨大的產(chǎn)業(yè)機(jī)會(huì)。
在AI 1.0時(shí)代,人工標(biāo)注是AI發(fā)展最典型的特點(diǎn),在那個(gè)“有多少人工就有多少智能”的時(shí)代,全世界的AI發(fā)展都與底層廉價(jià)勞動(dòng)力資源息息相關(guān)。
但在AI2.0時(shí)代,李開復(fù)點(diǎn)明與AI 1.0的第一個(gè)差異就是無需人工標(biāo)注,AI可以閱讀海量的文本,進(jìn)行自監(jiān)督學(xué)習(xí)。可以說,標(biāo)注后的數(shù)據(jù)是AI大模型的命脈,它的性能和準(zhǔn)確性直接取決于標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量。
在AI產(chǎn)業(yè)鏈中,數(shù)據(jù)標(biāo)注也占據(jù)了非常大比重,據(jù)AI分析公司Cognilytica的數(shù)據(jù),數(shù)據(jù)標(biāo)注環(huán)節(jié)的耗時(shí)占比可達(dá)25%。根據(jù)researchandmarkets的報(bào)告,全球數(shù)據(jù)注釋和標(biāo)簽市場(chǎng)預(yù)計(jì)將從2022年的8億美元增長到2027年的36億美元,預(yù)測(cè)期內(nèi)復(fù)合年增長率為 33.2%。
以AI大模型之前,以AI最為人所熟知的自動(dòng)駕駛領(lǐng)域?yàn)槔?,?shù)據(jù)標(biāo)注和訓(xùn)練一直是自動(dòng)駕駛技術(shù)研發(fā)中成本最高的兩個(gè)“吞金獸”,為了解決成本和效率問題,無論是國外特斯拉還是國內(nèi)的毫末,都在人工標(biāo)注到標(biāo)注自動(dòng)化,再到標(biāo)注智能化的路徑上進(jìn)行探索。
自動(dòng)駕駛?cè)匀皇菙?shù)據(jù)標(biāo)注/圖片標(biāo)注使用量最大的一個(gè)應(yīng)用場(chǎng)景,而未來,隨著文本大模型、多模態(tài)大模型的不斷涌現(xiàn),還將出現(xiàn)新的增長機(jī)會(huì)。
從人工標(biāo)注到算法標(biāo)注,是底層智能化的變遷。這其中跑的最快的是Scale.ai,目前Scale.ai是全球最大的數(shù)據(jù)標(biāo)注公司,據(jù)外媒報(bào)道,目前Scale.ai最新一輪E輪融資3.25億美元,估值達(dá)到73億美元。
Scale.ai早期走的也是人工標(biāo)注路線,利用了印度標(biāo)注團(tuán)隊(duì),靠著比美國更便宜、更高效的標(biāo)注服務(wù)打開市場(chǎng)。在行業(yè)選擇上選擇了當(dāng)時(shí)大火的自動(dòng)駕駛賽道,并早早與Waymo等龍頭企業(yè)達(dá)成合作。
后期隨著技術(shù)的發(fā)展,AI訓(xùn)練對(duì)數(shù)據(jù)的廣度、深度、精度要求也越來越高,為了解決這個(gè)問題,Scale AI將AI應(yīng)用在數(shù)據(jù)標(biāo)注服務(wù)中,先用AI識(shí)別,再由人工負(fù)責(zé)校對(duì)其中的錯(cuò)誤,校對(duì)完的數(shù)據(jù)再“投喂”給訓(xùn)練模型,使下一次的標(biāo)注更加精準(zhǔn)。
目前,Scale也將業(yè)務(wù)拓展到無人車、無人機(jī)和機(jī)器人等領(lǐng)域,同樣也在向下游拓展,開發(fā)自有模型提供給其他數(shù)據(jù)標(biāo)注公司,并逐步進(jìn)入AI/ML價(jià)值鏈的更多環(huán)節(jié)??蛻舭绹鴩啦?、PayPal、自動(dòng)駕駛公司及科技巨頭。
3、數(shù)據(jù)隱私和安全新機(jī)會(huì):“合成數(shù)據(jù)”或成AI數(shù)據(jù)主力軍
正如互聯(lián)網(wǎng)的發(fā)展長河中,崛起過如360、金山毒霸等“安全專家”,移動(dòng)互聯(lián)網(wǎng)時(shí)代的騰訊手機(jī)管家、360手機(jī)衛(wèi)士一般,在AI時(shí)代,“安全”將仍然是技術(shù)和應(yīng)用發(fā)展的底盤和重心。
目前,隨著AI技術(shù)呈指數(shù)級(jí)發(fā)展,合規(guī)和隱私風(fēng)險(xiǎn)的行業(yè)痛點(diǎn)也在逐漸暴露,3月的最后一天,在西班牙媒體指責(zé)OpenAI未能遵守用戶數(shù)據(jù)保護(hù)法規(guī)后,意大利相關(guān)部門也以類似的理由宣布了對(duì)ChatGPT的禁令。
隱私計(jì)算和數(shù)據(jù)安全話題被重新推上風(fēng)口浪尖。
3月下旬,OpenAI曾發(fā)布聲明,稱因?yàn)镃hatGPT開源庫中存在一個(gè)漏洞,致使一些用戶可以看到其他用戶的信息,包括用戶姓名、電子郵件地址、付款地址、信用卡號(hào)后四位以及信用卡有效期。
ChatGPT目前擁有超過1億用戶,雖然OpenAI并未說明,“一些”用戶泄露到底是多少數(shù)量級(jí),但哪怕只有千分之一的用戶接觸到了這一漏洞,其后果都是不可估量的。
中國面對(duì)大模型的保守和謹(jǐn)慎也有一部分來源于對(duì)數(shù)據(jù)安全體系的不信任。國家層面也不斷提出加大安全性測(cè)試和常態(tài)化管理投入,包括數(shù)據(jù)外泄等問題的緊急檢測(cè)和修補(bǔ)措施,以及更先進(jìn)的預(yù)防體系建設(shè),如內(nèi)控流程的完善、數(shù)據(jù)脫敏處理等,最大限度保證安全性。
數(shù)據(jù)顯示,中國信息安全市場(chǎng)的潛在空間高達(dá)1000億元上下,與全球安全服務(wù)市場(chǎng)64.4%的份額相比,我國安全服務(wù)市場(chǎng)占比僅為19.8%。目前國內(nèi)信息安全產(chǎn)業(yè)依然以硬件為主,代表企業(yè)如奇安信、新華三等。軟件市場(chǎng)空白度高,發(fā)展?jié)摿薮蟆?/strong>
除了更加強(qiáng)大的數(shù)據(jù)安全保護(hù)之外,從根本上解決數(shù)據(jù)隱私的問題也成為一種思路,其答案就是數(shù)據(jù)合成。
合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù),來替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù),來保證真實(shí)數(shù)據(jù)的安全,它不存在法律約束的敏感內(nèi)容和私人用戶的隱私。
目前企業(yè)端已經(jīng)在紛紛部署,這也導(dǎo)致合成數(shù)據(jù)數(shù)量正在以指數(shù)級(jí)的速度向上增長。Gartner研究認(rèn)為,2030年,合成數(shù)據(jù)將遠(yuǎn)超真實(shí)數(shù)據(jù)體量,成為AI數(shù)據(jù)的主力軍。
“鈔能力”的“模型中臺(tái)”:需要?jiǎng)?chuàng)業(yè)大佬們的新游戲
如果我們把大模型看作一個(gè)云產(chǎn)品,那么數(shù)據(jù)、算力、算法可以被看做是這個(gè)產(chǎn)品的“IaaS”,即基礎(chǔ)設(shè)施。而在“基礎(chǔ)設(shè)施”和前臺(tái)應(yīng)用的SaaS之間,還存在一個(gè)PaaS平臺(tái)作為中間層,承擔(dān)起為SaaS提供部署平臺(tái),開發(fā)工具等任務(wù)。
這樣的結(jié)構(gòu)在AI大模型中也同樣存在,當(dāng)訓(xùn)練AI大模型的前期數(shù)據(jù)準(zhǔn)備工作完成后,數(shù)據(jù)會(huì)被送到一個(gè)新的訓(xùn)練池里,在這里完成訓(xùn)練、推理,中間也涉及到各種開發(fā)工具、統(tǒng)籌調(diào)度等系統(tǒng),我們也可以將其稱為大模型的“煉丹爐”。
現(xiàn)在,大模型訓(xùn)練已經(jīng)有ML Paltform這樣的平臺(tái)型解決方案覆蓋從數(shù)據(jù)準(zhǔn)備訓(xùn)練、驗(yàn)證、到模型部署和持續(xù)監(jiān)控的全流程,促進(jìn)端到端的模型開發(fā)。
這類公司可以簡單理解為“大模型開發(fā)的一站式服務(wù)平臺(tái)”,為任何想要開發(fā)或使用大模型的公司做供應(yīng)商服務(wù)。
事實(shí)上,如果繼續(xù)對(duì)比這些年云計(jì)算的發(fā)展和變化會(huì)發(fā)現(xiàn),云廠商和企業(yè)都在不約而同地加碼PaaS平臺(tái)。而在AI大模型的訓(xùn)練過程中,為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”。
但“模型中臺(tái)”市場(chǎng)也存在許多問題。
比如,F(xiàn)orrester在《The Landscape In China, Q4 2022》報(bào)告中指出目前的市場(chǎng)化難點(diǎn):“客戶使用AI技術(shù)的關(guān)鍵障礙之一,是缺乏開發(fā)AI解決方案和操作AI系統(tǒng)的能力,而AI/ML平臺(tái)是解決這一問題的有效方法。Forrester依據(jù)供應(yīng)商的市場(chǎng)情況,將其劃分為大型、中型、小型三類。”
目前國外這個(gè)市場(chǎng)出現(xiàn)了“大魚吃小魚”的情況,大型供應(yīng)商正在通過收購AI開發(fā)過程中不同部分的小型公司,以占據(jù)更大的市場(chǎng)份額。
目前在全球范圍內(nèi)跑得比較快的是DataRobot,最新一輪完成了2.5億美元的融資,估值達(dá)到60億美元。Dataiku最新一輪完成了4億美元的融資,估值達(dá)到42億美元。還有開源公司H2O.ai,最新一輪完成了7000多萬美元的融資,由高盛和平安領(lǐng)投。
但這還只是“模型”中臺(tái)的在訓(xùn)練部分的機(jī)會(huì),當(dāng)一個(gè)模型完成訓(xùn)練之后,就進(jìn)入了模型部署環(huán)節(jié)。
模型部署也是未來大模型走向B端應(yīng)用的一個(gè)重要環(huán)節(jié),也有一套專屬工具。
這套工具需要與底層 ML 基礎(chǔ)設(shè)施、運(yùn)營工具以及生產(chǎn)環(huán)境結(jié)合,來實(shí)現(xiàn)模型部署的三大環(huán)節(jié),即優(yōu)化模型性能,簡化模型結(jié)構(gòu),并將模型推向生產(chǎn)。
一般來說,模型的部署可以是幾周、幾天,也可以是幾個(gè)小時(shí),這要看模型部署的效率。所以更快的模型部署能力也是更強(qiáng)的核心競(jìng)爭力。
而這類工具可以將ML工程師從基礎(chǔ)設(shè)施和硬件層面的決策中抽象出來,協(xié)調(diào)IT團(tuán)隊(duì)、業(yè)務(wù)人員、工程師和數(shù)據(jù)科學(xué)家的工作,提高大模型部署團(tuán)隊(duì)的整體效率。
除此之外,它們還能將訓(xùn)練有素的模型轉(zhuǎn)化為敏捷、可移植(適用于任何硬件)、可靠的軟件功能,并與企業(yè)現(xiàn)有的應(yīng)用程序堆棧和DevOps工作流程相結(jié)合。簡單來說就是提高模型的環(huán)境適應(yīng)能力,快速與更多業(yè)務(wù)兼容。
不過,從目前國內(nèi)的情況來看,“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲,對(duì)于當(dāng)下中國的AI鏈條來說,除了高昂的啟動(dòng)資金和試錯(cuò)成本外,更需要的是超一流的專業(yè)技術(shù),如何合理規(guī)劃平臺(tái)架構(gòu),深入到訓(xùn)練部署的每一個(gè)環(huán)節(jié),對(duì)創(chuàng)始人的框架能力要求極高。
從另一個(gè)角度來看,在這場(chǎng)需要“鈔能力”的游戲中,創(chuàng)業(yè)公司和資本的關(guān)系將比此前更為密切,甚至決定生死。
? 文中配圖來源于網(wǎng)絡(luò)
? 資料參考:
https://zhuanlan.zhihu.com/p/594362766
本文來自投稿,不代表增長黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/101119.html