大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

大模型帶來(lái)750倍算力需求的增長(zhǎng),而硬件的算力供給僅提升了3倍。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

文|姚 悅

編|王一粟

“這兩年內(nèi),大模型帶來(lái)了750倍算力需求的增長(zhǎng),而硬件的算力供給(增長(zhǎng))僅有3倍?!?span id="6qwyiau" class="wpcom_tag_link">華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊在2023世界人工智能大會(huì)上,揭開了被大模型“暴力計(jì)算”引發(fā)巨大算力缺口的真相。

而這個(gè)算力缺口還在進(jìn)一步擴(kuò)大當(dāng)中,張迪煊預(yù)計(jì),到2030年 AI 所需的算力,相對(duì)2020年還會(huì)增長(zhǎng)500倍。

與此同時(shí),由于眾所周知的原因,算力國(guó)產(chǎn)化也迫在眉睫。

針對(duì)如何補(bǔ)足算力短板,畢馬威中國(guó)數(shù)字化賦能主管合伙人張慶杰認(rèn)為,需從三大途徑解決,分別是算力建設(shè)、基礎(chǔ)設(shè)施的共享與優(yōu)化、算法的優(yōu)化和數(shù)據(jù)的質(zhì)量。這其中,算力建設(shè)被擺在首要位置。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

華為在近年算力建設(shè)中頗為積極。據(jù)中信證券7月研報(bào),國(guó)內(nèi)現(xiàn)有城市智算中心中,以建設(shè)數(shù)量計(jì),目前華為占據(jù)整體智算中心約79%的市場(chǎng)份額。

除了以量取勝,提升算力集群的能力更為重要。就在2023世界人工智能大會(huì)上,華為宣布昇騰AI集群全面升級(jí),集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡,算力集群迎來(lái)“萬(wàn)卡”時(shí)代。

華為輪值董事長(zhǎng)胡厚崑表示,昇騰AI的集群相當(dāng)于把AI的算力中心當(dāng)做一臺(tái)超級(jí)計(jì)算機(jī)來(lái)進(jìn)行設(shè)計(jì),使得昇騰AI集群的性能效率達(dá)到10%以上的提升,而且系統(tǒng)穩(wěn)定性得到十倍以上的提高。

張迪煊在群訪中亦對(duì)光錐智能透露,早在2018年,華為就判斷人工智能會(huì)快速發(fā)展,并改變過去小模型的開發(fā)模式,形成大算力結(jié)合大數(shù)據(jù)生成大模型的模式,所以華為那時(shí)候就開始開發(fā)算力集群產(chǎn)品。

步入AI時(shí)代,已經(jīng)無(wú)法再像單機(jī)系統(tǒng)時(shí)代那樣靠堆芯片拉升算力,而是要系統(tǒng)化重塑算力基建。在擴(kuò)大巨量算力供給的同時(shí),要解決算力利用率、使用門檻高等問題,最終還要實(shí)現(xiàn)算力生態(tài)化。

算力集群迎來(lái)“萬(wàn)卡”時(shí)代

今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英偉達(dá)總市值年內(nèi)已經(jīng)上漲了66%,最新為1.05萬(wàn)億美元。

以英偉達(dá)A100為主的GPU成了大模型必備的香餑餑,但僅靠堆卡也無(wú)法應(yīng)對(duì)“百模大戰(zhàn)”的爆發(fā)之勢(shì)。那么,如何把寶貴的算力資源,發(fā)揮到極致?

既然單個(gè)服務(wù)器已經(jīng)很難滿足計(jì)算需求,于是將多個(gè)服務(wù)器連接成一臺(tái)“超級(jí)計(jì)算機(jī)”,正在成為當(dāng)下“算力基建”的主攻方向,這臺(tái)“超級(jí)計(jì)算機(jī)”就是算力集群。

2019年,華為就發(fā)布了Atlas 900 AI訓(xùn)練集群,當(dāng)時(shí)由數(shù)千顆華為自研昇騰910(主要用于訓(xùn)練)AI芯片構(gòu)成,到今年6月已經(jīng)支持到8000卡。而在剛剛結(jié)束的世界人工智能大會(huì)上,華為更是宣布計(jì)劃今年年底或者明年年初,做到超過16000張卡的集群。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

萬(wàn)卡集群是什么概念?

以1750億參數(shù)量的GPT-3模型訓(xùn)練為例,使用8張V100顯卡,訓(xùn)練時(shí)長(zhǎng)預(yù)計(jì)要36年,512張V100顯卡,訓(xùn)練時(shí)間接近7個(gè)月,而1024張A100的訓(xùn)練時(shí)長(zhǎng)可以減少到1個(gè)月。

按照華為的評(píng)估,訓(xùn)練GPT-3模型,100B的數(shù)據(jù)量,在8000卡的Atlas 900 AI集群下需1天即可完成訓(xùn)練,16000卡集群下僅需半天即可完成。

但別看“萬(wàn)卡”算力大、效率高,真正想要用它去訓(xùn)練模型,絕非易事。

正像中國(guó)工程院院士高文所說(shuō),“有人說(shuō)全世界能在1000塊卡上同時(shí)選連一個(gè)模型的只有幾千人,能在4000塊卡上訓(xùn)練的不超過100個(gè)人,在10000塊卡上訓(xùn)練模型的人數(shù)更少了”,在千卡和萬(wàn)卡上訓(xùn)練和推理數(shù)據(jù),對(duì)于軟件規(guī)劃、資源調(diào)度挑戰(zhàn)非常大。

首先,萬(wàn)卡量級(jí)的訓(xùn)練,對(duì)分布式并行訓(xùn)練提出了更高的要求。分布式并行訓(xùn)練是一種高效的機(jī)器學(xué)習(xí)方式,將大規(guī)模數(shù)據(jù)集分成多個(gè)部分,再在多個(gè)計(jì)算節(jié)點(diǎn)上并行訓(xùn)練模型。這樣可以極大縮短訓(xùn)練時(shí)間,提高模型準(zhǔn)確性和可靠性。

昇騰算力集群的分布式并行訓(xùn)練,就需要倚仗華為自研的昇思MindSpore AI框架。

昇思MindSpore支持多種模型類型,還開發(fā)了一套自動(dòng)混合并行解決方案,實(shí)現(xiàn)數(shù)據(jù)并行和模型并行的混合并行訓(xùn)練。

相同算力和網(wǎng)絡(luò)下,這樣的雙并行策略可實(shí)現(xiàn)更大的計(jì)算通信比,同時(shí)還解決了手動(dòng)并行架構(gòu)的現(xiàn)實(shí)困難,讓大模型開發(fā)和調(diào)優(yōu)效率提升。

此外,由于分布式并行訓(xùn)練,每訓(xùn)練出一個(gè)結(jié)果,需要所有的芯片同步一次,這個(gè)過程中,會(huì)有出錯(cuò)的概率。這種情況放在萬(wàn)卡規(guī)模量級(jí)上,就對(duì)于穩(wěn)定性提出更高要求。

“昇騰的可靠性和可用性的設(shè)計(jì),可以做到30天長(zhǎng)穩(wěn)的訓(xùn)練,對(duì)比業(yè)界的最先進(jìn)3天左右水平,提升了將近10倍性能的穩(wěn)定性、可用性優(yōu)勢(shì)?!睆埖响颖硎?。

算力集群的效率如何提升?

算力集群還不僅僅是規(guī)模擴(kuò)大,效率也需要有很大提升,否則就會(huì)出現(xiàn)卡數(shù)越多,算力利用率反而下降的問題。

以華為在內(nèi)蒙古烏蘭察布市部署的數(shù)千卡規(guī)模的AI集群為例,在同等算力下,計(jì)算效率能夠提升10%以上。

如果按照昇騰的指標(biāo),1000卡的算力約300P,千卡就能提升約30P,萬(wàn)卡就能提升約300P。

“300P算力24小時(shí)可以處理數(shù)十億張圖像、數(shù)千萬(wàn)人DNA、10年左右的自動(dòng)駕駛數(shù)據(jù)?!币晃粡氖略朴?jì)算業(yè)務(wù)的人士向光錐智能表示,提升算力效率,也就降低了計(jì)算成本。

如果說(shuō)從千卡的300P到萬(wàn)卡的3000P還得靠堆卡“大力出奇跡”,那這10%的效率提升,背后就需要更為復(fù)雜的系統(tǒng)性升級(jí)。

除了整合華為的云、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、能源綜合優(yōu)勢(shì),昇騰算力集群還進(jìn)行了架構(gòu)創(chuàng)新。

一臺(tái)服務(wù)器就是一個(gè)節(jié)點(diǎn),華為在計(jì)算節(jié)點(diǎn)層面創(chuàng)造性推出了對(duì)等平構(gòu)架構(gòu),突破傳統(tǒng)了以CPU為中心的異構(gòu)計(jì)算帶來(lái)的性能瓶頸,從而提升整個(gè)計(jì)算的帶寬、降低時(shí)延,節(jié)點(diǎn)性能得到30%的提升。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

此外,算力可是用電超級(jí)大戶,尤其是上百臺(tái)服務(wù)器聯(lián)合起來(lái),降低能耗也需要同步實(shí)現(xiàn)。

計(jì)算能力提升,服務(wù)器能耗也越來(lái)越高,傳統(tǒng)風(fēng)冷已經(jīng)無(wú)法支撐高散熱,就亟需解決如何能在政策嚴(yán)格限制PUE(電力使用效率)的情況下,仍保證服務(wù)器散熱能力的問題。

在幾種散熱路線中,液冷被認(rèn)為是主流的解決方案之一。

液冷方案本就比傳統(tǒng)風(fēng)冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準(zhǔn)供給方式,相比浸沒式(流浪地球中放入海底的方案),可以降低日常運(yùn)維的成本,也減少冷卻液泄露污染環(huán)境的風(fēng)險(xiǎn)。

“精準(zhǔn)供給取決于芯片板卡上都設(shè)置傳感器、電控閥門,再加上中央控制,可以實(shí)現(xiàn)為不同芯片在不同的負(fù)荷下,提供精細(xì)化冷量輸送。”華為計(jì)算工作人員向光錐智能介紹。

2021年11月,發(fā)改委等部門發(fā)布的文件明確指出,新建大型、超大型數(shù)據(jù)中心PUE低于1.3,而內(nèi)蒙古、貴州、甘肅、寧夏節(jié)點(diǎn)的數(shù)據(jù)中心的PUE更是要控制在1.2以下。昇騰的算力集群已經(jīng)實(shí)現(xiàn)低于1.15的PUE。

降低算力門檻,要靠生態(tài)

“電力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供給企業(yè),很多人是不會(huì)用的。”中國(guó)工程院院士、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)咨詢委員會(huì)主任鄔賀銓表示,現(xiàn)在算力(使用)門檻太高。

一位業(yè)內(nèi)人士也向光錐智能表示:“中小企業(yè)很難得到訓(xùn)練服務(wù)器的技術(shù)支持,加上國(guó)產(chǎn)軟件生態(tài)缺失,中小企業(yè)也很難自己玩轉(zhuǎn)?!?/p>

即便算力集群怎么強(qiáng)大,需求端打不開,也終將會(huì)制約整個(gè)算力發(fā)展。而AI算力能否達(dá)到像電力一樣的“低門檻”使用標(biāo)準(zhǔn),生態(tài)尤為重要。

這也是為什么英偉達(dá)當(dāng)年遭受華爾街的“白眼”,也要不計(jì)成本投入CUDA軟件系統(tǒng)的原因。正是CUDA,實(shí)現(xiàn)讓一個(gè)普通學(xué)生就可以進(jìn)行顯卡編程,英偉達(dá)進(jìn)而利用軟硬件協(xié)同,打造生態(tài)系統(tǒng),最大程度擴(kuò)大了算力供應(yīng)。

除了英偉達(dá),蘋果在實(shí)現(xiàn)良好的用戶體驗(yàn)方面,更早印證了生態(tài)系統(tǒng)的重要性。

當(dāng)前,華為昇騰已經(jīng)搭建了一套自主創(chuàng)新的軟硬件全棧系統(tǒng),包括昇騰AI集群系列硬件、異構(gòu)計(jì)算架構(gòu)CANN、全場(chǎng)景AI框架昇思MindSpore、昇騰應(yīng)用使能MindX以及一站式開發(fā)平臺(tái)ModelArts等。CANN正是對(duì)標(biāo)英偉達(dá)的CUDA + CuDNN的核心軟件層。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

張迪煊表示,“昇騰AI支持了中國(guó)近一半原創(chuàng)大模型的原生創(chuàng)新,也是目前國(guó)內(nèi)唯一完成千億參數(shù)大模型開發(fā)并商用的技術(shù)路線,各開源的Transformer類大模型實(shí)測(cè)訓(xùn)練性能,可以達(dá)到業(yè)界的1.2倍?!?/span>

這些背后,則是華為將上述的軟件開源、硬件開放。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

首先,在基礎(chǔ)軟件上,昇騰圍繞大模型開發(fā)、訓(xùn)練、微調(diào)、推理等全流程,進(jìn)行了一系列的開源和支持。

除了已將AI框架昇思MindSpore開源,昇騰還提供了大模型的開發(fā)套件,可以支持十幾行代碼的全流程腳本開發(fā)。用張迪煊的話講,就是“為了讓大模型開發(fā)做到開箱即用”。

微調(diào)是大模型具備行業(yè)屬性的關(guān)鍵環(huán)節(jié),對(duì)應(yīng)用效果起決定性作用。對(duì)此,華為昇騰提供了低參微調(diào)模塊,集成了多種微調(diào)算法。張迪煊介紹,包括 LoRA、P-Tuning 等僅需 5%的微調(diào)參數(shù),可實(shí)現(xiàn)全參微調(diào)的效果。

此外,針對(duì)大模型推理部署難、成本高等一系列的問題,華為昇騰在開發(fā)工具鏈 MindStudio 上集成了自動(dòng)剪枝、蒸餾、量化工具,“精度損失0.5%的基礎(chǔ)上,做到了20倍的模型壓縮”張迪煊介紹,推理階段支持在線分布推理,能夠使應(yīng)用快速上線,推理時(shí)延小于50毫秒。

“張迪煊介紹,推理階段支持在線分布推理,能夠使應(yīng)用快速上線,推理時(shí)延小于50毫秒。

硬件方面,華為也對(duì)外提供主板、SSD、網(wǎng)卡、RAID卡、Atlas模組和板卡,來(lái)支持合作對(duì)象的AI硬件產(chǎn)品開發(fā)。

基于當(dāng)前算力供應(yīng)緊缺的情況,華為昇騰也重點(diǎn)針對(duì)“算子和模型”,提出了的遷移、適配的方案。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

訓(xùn)推一體化行業(yè)落地最后一公里

在初步搭建算力生態(tài)后,能否持續(xù)良性運(yùn)轉(zhuǎn),最終還要回歸到大模型商業(yè)化的問題上。

“不作詩(shī),只做事”,華為剛剛發(fā)布的大模型盤古3.0,與其他國(guó)內(nèi)大模型一樣,落地的重點(diǎn)都放在了“行業(yè)”身上。而且盤古大模型已經(jīng)在天氣預(yù)測(cè)、藥物研發(fā)和選煤等諸多行業(yè)、超過1000個(gè)項(xiàng)目中“上崗”。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

不過,對(duì)于國(guó)產(chǎn)大模型整體來(lái)說(shuō),在深度滿足行業(yè)需求上,還面臨一些問題。

“企業(yè)的需求非常具體,比如‘在這堆垃圾里,識(shí)別出有價(jià)值的金屬’,這經(jīng)過訓(xùn)練的小學(xué)生就可以做到,而對(duì)于大模型,企業(yè)的這種需求就太重了,而且可能最終的效果也不是很好?!逼髽I(yè)服務(wù)商用友的一位工作人員向光錐智能表示,直接調(diào)用通用AI能力,無(wú)法滿足行業(yè)中廣泛存在的差異化智能需求。

華為把大模型分成三個(gè)層級(jí),L0、L1、L2。L0就是基礎(chǔ)通用模型,在基礎(chǔ)模型L0的基礎(chǔ)上,加上行業(yè)數(shù)據(jù),混合訓(xùn)練得到的行業(yè)大模型是L1,然后再把L1針對(duì)具體下游千行百業(yè)的細(xì)分場(chǎng)景進(jìn)行一些部署,得到細(xì)分場(chǎng)景的任務(wù)模型L2。

現(xiàn)在,無(wú)論是對(duì)于華為還是其他大模型企業(yè),如何從行業(yè)大模型L1中快速生產(chǎn)L2模型,還有部署L2模型到端側(cè)、邊側(cè)和云側(cè),成為打通行業(yè)應(yīng)用最后一公里的問題。

針對(duì)這最后一公里,昇騰聯(lián)合科大訊飛、智譜AI、云從等上游的大模型合作對(duì)象,提出了“訓(xùn)推一體化”方案。

大模型“暴力計(jì)算”時(shí)代,華為昇騰如何突圍算力之困? | WAIC2023

簡(jiǎn)單理解,做模型訓(xùn)練就相當(dāng)于大學(xué)學(xué)習(xí)階段,推理部署(訓(xùn)練好的模型在特定環(huán)境中運(yùn)行)就是正式上崗,訓(xùn)推一體化就是“邊學(xué)習(xí)邊實(shí)習(xí)”。

通用大模型一般都是基于廣泛的公開文獻(xiàn)與網(wǎng)絡(luò)信息來(lái)訓(xùn)練,信息混雜,許多專業(yè)知識(shí)與行業(yè)數(shù)據(jù)積累不足,會(huì)導(dǎo)致模型的行業(yè)針對(duì)性與精準(zhǔn)度不夠,數(shù)據(jù)“噪音”過大。同時(shí),又由于行業(yè)數(shù)據(jù)獲取難,技術(shù)與行業(yè)結(jié)合難,大模型在行業(yè)的落地進(jìn)展較慢。

訓(xùn)推一體化,支持中心節(jié)點(diǎn)將模型下發(fā)至企業(yè)的邊緣節(jié)點(diǎn)進(jìn)行推理,邊緣站點(diǎn)再將數(shù)據(jù)回傳至中心,進(jìn)行算法更新和增量訓(xùn)練,實(shí)現(xiàn)自主演進(jìn)能力。也就是,“學(xué)生主動(dòng)向更適應(yīng)就業(yè)崗位的方向深造”。

這樣一來(lái),就保證訓(xùn)練到推理的循環(huán)生產(chǎn)流程不再割裂。并且把發(fā)展行業(yè)大模型更大的主動(dòng)權(quán),交到了行業(yè)和企業(yè)自身,無(wú)疑能最大化滿足行業(yè)的AI應(yīng)用與開發(fā)場(chǎng)景,實(shí)現(xiàn)AI基礎(chǔ)設(shè)施與行業(yè)需求深度融合。

相較于中心訓(xùn)練、邊緣推理,訓(xùn)推一體化對(duì)于中小企業(yè)來(lái)說(shuō),部署成本也會(huì)更低,更會(huì)加速中小企業(yè)加入行業(yè)、場(chǎng)景大模型的“培養(yǎng)”。

對(duì)于整個(gè)算力生態(tài)來(lái)說(shuō),盡快打通這最后一公里,也就意味著被真正激活,才會(huì)有可持續(xù)的發(fā)展。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/101562.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-07-11 11:51
下一篇 2023-07-11 16:21

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論