文|劉俊宏
編|王一粟
AI大模型正在引發(fā)新一輪的“算力焦渴”。
近日,OpenAI剛發(fā)布的o1大模型再次刷新了大模型能力的上限。對(duì)比上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。更優(yōu)秀的能力,來(lái)自與o1將思維鏈引入進(jìn)了推理過(guò)程。在o1對(duì)問(wèn)題“一邊拆解一邊回答”的過(guò)程中,“環(huán)環(huán)相扣”的思維鏈讓答案也變得更加“靠譜”。
思考模式的升級(jí),也意味著更大的算力需求。由于模型原理是在LLM訓(xùn)練額外添加了RL(強(qiáng)化學(xué)習(xí))的Post-Training(后訓(xùn)練),這意味著一次推理和訓(xùn)練所需的算力將再次增加。
“AI研究中遇到的最大困難就是缺少算力——AI本質(zhì)就是暴力計(jì)算?!比A為副董事長(zhǎng)、輪值董事長(zhǎng)徐直軍此前總結(jié)道。
于是,近幾年科技大廠對(duì)AI基礎(chǔ)設(shè)不斷加大投入,除了英偉達(dá)股價(jià)不斷升高,賣“AI鏟子”的AI服務(wù)器廠商們也在本季度迎來(lái)了翻倍的業(yè)績(jī)?cè)鲩L(zhǎng)。
并且,隨著AI算力下一步的需求增長(zhǎng)和基礎(chǔ)設(shè)施下放,服務(wù)器廠商們有望憑借AI賺得越來(lái)越多。
廠商們業(yè)績(jī)的“高歌猛進(jìn)”,是服務(wù)器與AI深度結(jié)合的結(jié)果。
其中在AI訓(xùn)練環(huán)節(jié),服務(wù)器大廠們紛紛采用不同方式加速整個(gè)AI訓(xùn)練過(guò)程,讓異構(gòu)計(jì)算的AI服務(wù)器,成為一臺(tái)高效的AI訓(xùn)練任務(wù)“分發(fā)機(jī)”。另一邊,在解決算力硬件緊缺的問(wèn)題中,AI服務(wù)器廠商也結(jié)合大型服務(wù)器集群的運(yùn)營(yíng)經(jīng)驗(yàn),落地了各種讓英偉達(dá)、AMD、華為昇騰、Intel等廠商GPU混訓(xùn)大模型的平臺(tái)。
伴隨著對(duì)AI從訓(xùn)練到硬件優(yōu)化的深入理解,越來(lái)越了解AI的服務(wù)器廠商也在從原本賣硬件組裝的身份,提升著在AI產(chǎn)業(yè)鏈的價(jià)值。
其中,聚焦到智算中心建設(shè)層面,不少服務(wù)器廠商已經(jīng)根據(jù)AI需求調(diào)整了AI服務(wù)器集群的硬件基礎(chǔ)設(shè)施。并且,隨著對(duì)國(guó)產(chǎn)算力芯片的深度結(jié)合,基于AI服務(wù)器廠商自己定制的解決方案正在廣泛落地。
另一邊在軟件層面,更懂AI的服務(wù)器廠商也在開(kāi)始挖掘AI在基礎(chǔ)設(shè)施中的生產(chǎn)力屬性。伴隨著服務(wù)器廠商推出的AI大模型、Agent,服務(wù)器廠商與AI應(yīng)用客戶業(yè)務(wù)的結(jié)合也愈發(fā)緊密,從而進(jìn)一步獲得更多軟件層面的解決方案收入。
毫無(wú)疑問(wèn),AI時(shí)代的變革也改變了整個(gè)算力載體的行業(yè)邏輯。
AI服務(wù)器廠商們正在以各種方式為用戶帶來(lái)更密集、更高效的算力供應(yīng)。在當(dāng)下的“算力焦渴”時(shí)代,AI服務(wù)器廠商正在成為愈發(fā)重要的“賣水人”。
AI行業(yè),“賣鏟子”的先賺錢了
AI大廠們的加速投入,讓“賣鏟子”的AI服務(wù)器廠商開(kāi)始賺錢了。
根據(jù)IT桔子數(shù)據(jù)顯示,截止到9月1日,AI相關(guān)上市公司整體還是虧損居多。其中,15家盈利的AI上市公司累計(jì)凈利潤(rùn)為27.8億元,虧損的19家累計(jì)凈額為62.4億元。
AI尚不能讓行業(yè)實(shí)現(xiàn)整體盈利,一個(gè)原因是AI巨頭們?nèi)蕴幱诩铀偻度腚A段。
據(jù)統(tǒng)計(jì),今年上半年,國(guó)內(nèi)三家AI巨頭(BAT)在AI基礎(chǔ)設(shè)施上的資本支出總額高達(dá)500億元人民幣,比去年同期的230億元人民幣,增長(zhǎng)了一倍多。全球范圍,隨著亞馬遜在上季度增長(zhǎng)了18%的固定資本開(kāi)支,再次進(jìn)入了資本擴(kuò)張周期。微軟、亞馬遜、谷歌、Meta等美股“Mag7”們,也達(dá)成了繼續(xù)加碼AI的共識(shí)。
“對(duì)AI投資不足的風(fēng)險(xiǎn),遠(yuǎn)超投資過(guò)度風(fēng)險(xiǎn)。”谷歌母公司Alphabet首席執(zhí)行官Sundar Pichai顯然非常激進(jìn),并不認(rèn)為目前是投資泡沫。
而借著加大投入的風(fēng)口,提供AI基礎(chǔ)設(shè)施的AI服務(wù)器玩家們“大賺特賺”。
其中,全球老牌服務(wù)器廠商惠普和戴爾在AI時(shí)代迎來(lái)了“第二春”。根據(jù)惠普最新披露的業(yè)績(jī)(2024三季度)顯示,其服務(wù)器業(yè)務(wù)同比增長(zhǎng)35.1%。戴爾上季度財(cái)報(bào)顯示(對(duì)應(yīng)2024年5月—2024年7月),其服務(wù)器和網(wǎng)絡(luò)業(yè)務(wù)營(yíng)收同比增長(zhǎng)80%。
同樣在國(guó)內(nèi)廠商中,聯(lián)想在最新一季財(cái)報(bào)中提到,受AI需求增長(zhǎng),其基礎(chǔ)設(shè)施方案業(yè)務(wù)集團(tuán)季度收入首次突破30億美元,同比增長(zhǎng)65%。浪潮的中報(bào)數(shù)據(jù)顯示,公司實(shí)現(xiàn)歸屬于上市公司股東的凈利潤(rùn)為5.97億元,較去年同期增長(zhǎng)90.56%。神州數(shù)碼這邊,其歸屬于上市公司股東的凈利潤(rùn)為5.1億元,同比增長(zhǎng)17.5%,旗下神州鯤泰AI服務(wù)器實(shí)現(xiàn)收入5.6億元,同比增長(zhǎng)273.3%。
業(yè)績(jī)超過(guò)50%以上的增長(zhǎng),是AI服務(wù)器大規(guī)模落地的結(jié)果。
除了云廠商,運(yùn)營(yíng)商是AI服務(wù)器的主要需求方。自2023年開(kāi)始,運(yùn)營(yíng)商們加大了對(duì)AI算力的布局。其中,電信和移動(dòng)對(duì)AI服務(wù)器的需求增長(zhǎng)了一倍以上。
同時(shí),基于智算中心的需求也在快速推動(dòng)AI服務(wù)器落地。根據(jù)Intel旗下AI芯片公司Habana中國(guó)區(qū)負(fù)責(zé)人于明揚(yáng)在2024全球AI芯片峰會(huì)上的分享,近三年來(lái)大約有50多個(gè)政府主導(dǎo)的智算中心陸續(xù)建成,目前還有60多個(gè)智算中心項(xiàng)目正在規(guī)劃和建設(shè)。
旺盛的AI服務(wù)器需求,改寫(xiě)了整個(gè)服務(wù)器行業(yè)的增長(zhǎng)結(jié)構(gòu)。
根據(jù)TrendForce集邦咨詢近期發(fā)布的一份報(bào)告顯示,在今年大型CSPs(云端服務(wù)供應(yīng)商)對(duì)AI服務(wù)器的采購(gòu)下,以產(chǎn)值估算,預(yù)計(jì)2024年AI服務(wù)器產(chǎn)值將達(dá)1870億美元,成長(zhǎng)率達(dá)69%。作為對(duì)比,一般服務(wù)器的預(yù)計(jì)年出貨量增長(zhǎng)僅為1.9%。
未來(lái),隨著CSP逐步完成智算中心的建設(shè),AI服務(wù)器還將會(huì)隨著更廣泛的邊緣計(jì)算需求,進(jìn)一步加速增長(zhǎng)。AI服務(wù)器的銷售環(huán)節(jié),也將隨著CSP大批量集中采購(gòu)切換至企業(yè)邊緣計(jì)算的小批量購(gòu)買。
換句話說(shuō),AI服務(wù)器廠商的議價(jià)權(quán)和盈利能力,將隨著采購(gòu)模式的變化進(jìn)一步提升。
服務(wù)器廠商接下來(lái)還會(huì)靠AI賺的越來(lái)越多。如此趨勢(shì),跟AI服務(wù)器客戶漫長(zhǎng)的回本周期拉開(kāi)了巨大差距。
以算力租賃的商業(yè)模式作為參考,行業(yè)內(nèi)早就合計(jì)出了一筆賬。算上智算中心配套的設(shè)備(存儲(chǔ)、網(wǎng)絡(luò)),在不考慮算力價(jià)格每年下降的前提下,采用英偉達(dá)H100作為算力卡的投資回報(bào)周期長(zhǎng)達(dá)5年,采用性價(jià)比最高的英偉達(dá)4090顯卡,回報(bào)周期也在兩年以上。
如此一來(lái),如何幫客戶用好AI服務(wù)器,成了整個(gè)服務(wù)器行業(yè)最核心的競(jìng)爭(zhēng)方向。
加速、穩(wěn)定,AI服務(wù)器廠商各顯神通
“大模型落地過(guò)程復(fù)雜,涉及分布式并行計(jì)算、算力調(diào)度、存儲(chǔ)分配、大規(guī)模組網(wǎng)等多種先進(jìn)技術(shù)和流程支持。”對(duì)于AI服務(wù)器落地應(yīng)用中需要解決的問(wèn)題,新華三集團(tuán)智慧計(jì)算產(chǎn)品線高級(jí)產(chǎn)品經(jīng)理馮良磊曾總結(jié)道。
上述難題,對(duì)應(yīng)著AI服務(wù)器落地的兩大類問(wèn)題——算力優(yōu)化和大規(guī)模使用。
一位銷售人員對(duì)光錐智能也介紹到,“常見(jiàn)的客戶需求,其一是硬件指標(biāo),第二是AI訓(xùn)練的支持能力,最后還有大規(guī)模集群的能力?!?/p>
其中,算力優(yōu)化部分主要對(duì)應(yīng)著AI服務(wù)器的異構(gòu)計(jì)算問(wèn)題。目前,行業(yè)提供的解決方案主要分為優(yōu)化算力分配和異構(gòu)芯片協(xié)作的兩個(gè)大方向。
由于AI服務(wù)器的運(yùn)作模式不再是CPU獨(dú)立處理任務(wù),而是CPU與算力硬件(GPU、NPU、TPU等)的協(xié)作。當(dāng)前行業(yè)的主流解決模型,是用CPU把計(jì)算任務(wù)拆解到專用算力硬件。
這種算力分配模式,與英偉達(dá)CUDA的基本原理相同。CPU同時(shí)“帶動(dòng)”的算力硬件越多,整體算力就越大。
對(duì)應(yīng)到服務(wù)器硬件層面的改變,是AI服務(wù)器成了可以堆疊算力硬件的“積木”。AI服務(wù)器的體積開(kāi)始“加大加粗”,從通用服務(wù)器的1U(服務(wù)器高度基本單位)升級(jí)至目前常見(jiàn)的4U、7U。
針對(duì)算力進(jìn)一步優(yōu)化,不少服務(wù)器廠商提出了自己的方案。例如新華三的傲飛算力平臺(tái)支持對(duì)算力和顯存按1%和MB的細(xì)粒度切分,并按需調(diào)度。聯(lián)想的萬(wàn)全異構(gòu)智算平臺(tái)則是以知識(shí)庫(kù)的形式,自動(dòng)識(shí)別AI場(chǎng)景、算法和算力集群。客戶只需輸入場(chǎng)景和數(shù)據(jù),即可自動(dòng)加載最優(yōu)算法,并調(diào)度最佳集群配置。
在另一邊的異構(gòu)芯片協(xié)作上,主要解決的是不同算力硬件服務(wù)器之間的協(xié)同問(wèn)題。
由于英偉達(dá)GPU長(zhǎng)時(shí)間將處于供不應(yīng)求的狀態(tài),不少智算中心會(huì)選擇將搭載了英偉達(dá)、AMD、華為昇騰、Intel等廠商GPU混用,或多種GPU混訓(xùn)一個(gè)AI大模型。如此一來(lái),整個(gè)AI訓(xùn)練環(huán)節(jié)就會(huì)出現(xiàn)通信效率、互聯(lián)互通、協(xié)同調(diào)度等一系列問(wèn)題。
“服務(wù)器集群訓(xùn)練AI的過(guò)程,可以簡(jiǎn)單理解成‘一輪一輪’的進(jìn)行。一個(gè)任務(wù)先被拆解到所有算力硬件,結(jié)果匯總后再更新至下一輪計(jì)算。如果過(guò)程配合不好,比如有的GPU算的慢,或者通信不暢,相當(dāng)于其他算力硬件要‘一起等’。輪數(shù)多了,整個(gè)AI訓(xùn)練時(shí)長(zhǎng)就被極大拖延?!睂?duì)于異構(gòu)算力硬件協(xié)作解決的實(shí)際問(wèn)題,一位技術(shù)人員對(duì)光錐智能舉了一個(gè)形象的例子來(lái)解釋。
目前,解決該問(wèn)題的主流方案是利用云管系統(tǒng)(包括調(diào)度、PaaS和MaaS平臺(tái))對(duì)整個(gè)AI訓(xùn)練(和神經(jīng)網(wǎng)絡(luò))進(jìn)行精細(xì)拆分。
例如,新華三的方案是建設(shè)一套異構(gòu)資源管理平臺(tái),通過(guò)開(kāi)發(fā)統(tǒng)一的集合通信庫(kù)實(shí)現(xiàn)對(duì)不同廠商GPU的納管,從而屏蔽不同廠商之間的差異。百度百舸異構(gòu)計(jì)算平臺(tái)的多芯混合訓(xùn)練方案,是將各類芯片融合成一個(gè)大集群,再支持整個(gè)訓(xùn)練任務(wù)。
大同小異的解決方案,其目標(biāo)正如無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪總結(jié),“打開(kāi)水龍頭前,我們不需要知道水是從哪條河里來(lái)的?!?/p>
異構(gòu)計(jì)算問(wèn)題解決后,意味著智算集群可選擇的硬件種類得以徹底解放。服務(wù)器、算力芯片、AI Infra等廠商之間的配合,也有了協(xié)同效應(yīng),共同維護(hù)著AI服務(wù)器組建大規(guī)模算力集群的穩(wěn)定性。
參考Meta公司使用算力集群的經(jīng)驗(yàn),AI大模型訓(xùn)練并非“一帆風(fēng)順”。據(jù)統(tǒng)計(jì),Meta 16K H100集群的同步訓(xùn)練中,曾在54天內(nèi)出現(xiàn)了466次作業(yè)異常。如何讓服務(wù)器集群在出現(xiàn)問(wèn)題后快速回到運(yùn)行狀態(tài),主流的解決方案是在訓(xùn)練過(guò)程中加一道“防火墻”。
例如,聯(lián)想的解決方案是“用魔法打敗魔法”。通過(guò)使用AI模型預(yù)測(cè)AI訓(xùn)練故障的方式,聯(lián)想的解決方案能在斷點(diǎn)前優(yōu)化備份。超聚變和華為昇騰則采用了簡(jiǎn)單直接的對(duì)策。當(dāng)檢測(cè)到節(jié)點(diǎn)故障時(shí),自動(dòng)隔離故障節(jié)點(diǎn)后,從最近的Checkpoint點(diǎn)恢復(fù)訓(xùn)練。
整體來(lái)看,AI服務(wù)器廠商在了解AI,實(shí)現(xiàn)算力優(yōu)化和穩(wěn)定性升級(jí)的過(guò)程中,提升自己的附加值。
借助AI對(duì)行業(yè)的改造,AI服務(wù)器的玩家們正在以垂直一體化的姿態(tài),讓服務(wù)器這個(gè)經(jīng)典ToB行業(yè)煥發(fā)出新的價(jià)值。
AI讓服務(wù)器廠商更有價(jià)值?
復(fù)盤(pán)歷史,服務(wù)器廠商們一直被“困在”微笑曲線的中間地帶。
第三次工業(yè)革命之后,隨著服務(wù)器市場(chǎng)空間越來(lái)越大,一批又一批的服務(wù)器廠商誕生。
在PC時(shí)代,Wintel聯(lián)盟的X86架構(gòu),催生了戴爾和惠普兩家國(guó)際服務(wù)器巨頭。在云計(jì)算時(shí)代,大量的數(shù)字化需求催生了浪潮、工業(yè)富聯(lián)等一系列OEM廠商。
然而,就在服務(wù)器廠商在每年幾百、幾千億營(yíng)收的華袍下,凈利潤(rùn)率卻常年為個(gè)位數(shù)。在浪潮開(kāi)創(chuàng)的JDM(聯(lián)合設(shè)計(jì)制造)模式下,極致的生產(chǎn)制造帶來(lái)的是凈利率僅為1-2個(gè)點(diǎn)。
“微笑曲線形成的原因,并不是因?yàn)橹圃飙h(huán)節(jié)本身的問(wèn)題。是不能掌握產(chǎn)業(yè)鏈核心技術(shù)和專利,只能標(biāo)準(zhǔn)化生產(chǎn),無(wú)法具備不可替代性的結(jié)果?!睂?duì)于服務(wù)器廠商的困境,一位國(guó)泰君安電子分析師對(duì)光錐智能如此解釋道。
在AI時(shí)代,服務(wù)器廠商的價(jià)值正在隨著AI重新定義算力應(yīng)用而改變。對(duì)AI的垂直整合能力,成了當(dāng)下服務(wù)器廠商角逐的中心。
聚焦到硬件層面,不少服務(wù)器廠商已經(jīng)深入到了智算中心的建設(shè)環(huán)節(jié)。
例如針對(duì)PUE(電源使用效率),新華三、浪潮、超聚變、聯(lián)想等廠商紛紛推出了液冷整機(jī)柜的解決方案。其中,新華三除了推出了硅光交換機(jī)(CPO)來(lái)降低整個(gè)機(jī)房的能耗外,還對(duì)整個(gè)網(wǎng)絡(luò)產(chǎn)品線都進(jìn)行了AI優(yōu)化。另一邊,在突破英偉達(dá)算力芯片限制層面,神州數(shù)碼、聯(lián)想等廠商在積極推進(jìn)國(guó)產(chǎn)算力芯片的落地,共同實(shí)現(xiàn)中國(guó)芯片產(chǎn)業(yè)彎道超車。
在軟件層面,服務(wù)器廠商還在積極挖掘AI的生產(chǎn)力屬性,讓業(yè)務(wù)不局限于賣硬件。
最常見(jiàn)的,是服務(wù)器廠商推出的AI賦能平臺(tái)。其中,神州數(shù)碼在神州問(wèn)學(xué)平臺(tái)上就整合了模型算力管理、企業(yè)私域知識(shí)和AI應(yīng)用工程模塊。神州數(shù)碼通過(guò)原生AI平臺(tái)的方式,將Agent能力融入到服務(wù)器的使用環(huán)節(jié),讓用戶的使用過(guò)程“越用越好用”。
神州數(shù)碼副總裁李剛對(duì)此評(píng)價(jià)稱,“我們需要有這樣一個(gè)平臺(tái),用于內(nèi)嵌企業(yè)被環(huán)境驗(yàn)證過(guò)的Agent知識(shí)框架,同時(shí)還可以不斷地去積淀新的Agent框架,這個(gè)就是神州問(wèn)學(xué)AI應(yīng)用工程平臺(tái)的價(jià)值所在。”
新華三則是充分結(jié)合網(wǎng)絡(luò)產(chǎn)品已有的優(yōu)勢(shì),利用AIGC實(shí)現(xiàn)了通信領(lǐng)域的異常檢測(cè)、趨勢(shì)預(yù)測(cè)、故障診斷和智能調(diào)優(yōu)。除了運(yùn)維環(huán)節(jié),新華三還發(fā)布了百業(yè)靈犀AI大模型,試圖用通用大模型“帶動(dòng)”行業(yè)大模型的方式,進(jìn)入到不同行業(yè)客戶的業(yè)務(wù)環(huán)節(jié),進(jìn)而擴(kuò)張?jiān)綯oB硬件的業(yè)務(wù)范圍。
“通過(guò)不斷的科技創(chuàng)新和持續(xù)的產(chǎn)品打磨,尋求AI潮流中的新突破,釋放AI基礎(chǔ)設(shè)施的新動(dòng)能?!?/p>
正如聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬總結(jié),服務(wù)器廠商正是在不斷加深A(yù)I垂直一體化的進(jìn)程中,收獲了如今利潤(rùn)率大漲的成果。
跳出制造的服務(wù)器廠商們,正在迎來(lái)屬于自己的AI大時(shí)代。
本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/cgo/124048.html