少妇人妻上班偷人精品免费,久久99久久99精品免视看看

眼下AIGC激蕩著各個行業(yè)，隨著產(chǎn)品落地、應(yīng)用增加，如何提升算力成為了整個行業(yè)的迫切需求，不過算力的提升并非只靠購買大量的GPU就能實現(xiàn)，網(wǎng)絡(luò)基礎(chǔ)設(shè)施起著至關(guān)重要的作用。

由于GPU集群之間的數(shù)據(jù)交換與通信都要依靠網(wǎng)絡(luò)承接，如果網(wǎng)絡(luò)帶寬不夠大、延時長，不僅會讓算力邊際遞減，而且還增加了大模型訓(xùn)練的時間成本。因此大帶寬、高利用率并且信息無損的高性能網(wǎng)絡(luò)對于當(dāng)下算力的提升尤為重要。

日前，騰訊云在北京舉辦了一場面向AI大模型的高性能網(wǎng)絡(luò)溝通會，向外界首次完整披露了其自研的星脈高性能網(wǎng)絡(luò)。

騰訊云副總裁王亞晨提到，星脈網(wǎng)絡(luò)為大模型而生，提供大帶寬、高利用率、零丟包率的高性能網(wǎng)絡(luò)服務(wù)，從而突破算力瓶頸。騰訊數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔在介紹星脈的演進(jìn)過程時，用了一個通俗的比喻：如今業(yè)務(wù)和客戶對我們算力網(wǎng)絡(luò)有了更高要求，過去前兩個階段我們是“村村通”，解決大規(guī)模部署和廣覆蓋的問題，到了第三個階段的星脈網(wǎng)絡(luò)，我們要做的是全自動化、無擁塞的高速公路。

溝通會上，騰訊云展示了在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等軟硬件方面的升級，推出了自研的大模型專屬高性能網(wǎng)絡(luò)“星脈”。

在硬件方面，在硬件方面，星脈網(wǎng)絡(luò)自研白盒交換機(jī)，這是一種軟硬件解耦的開放網(wǎng)絡(luò)設(shè)備，采用四層解耦體系，包括接入、轉(zhuǎn)發(fā)、路由、管控系統(tǒng)。在自研設(shè)備的基礎(chǔ)之上，騰訊云還構(gòu)建了自研網(wǎng)絡(luò)操作系統(tǒng)，包括網(wǎng)絡(luò)OS與網(wǎng)管平臺，構(gòu)建了互聯(lián)底座，實現(xiàn)自動化部署和配置。

在軟件方面，騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議，能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞，TiTa網(wǎng)絡(luò)協(xié)議能夠提升40%的帶寬負(fù)載，還能提供低延時無損網(wǎng)絡(luò)，實現(xiàn)高負(fù)載下的0丟包，使集群通信效率達(dá)90%以上。

此外，騰訊云還為星脈網(wǎng)絡(luò)設(shè)計了高性能集合通信庫TCCL，為星脈網(wǎng)絡(luò)提供定制化的高性能節(jié)點(diǎn)間數(shù)據(jù)通信解決方案。結(jié)合動態(tài)調(diào)度機(jī)制合理分配通信通道，可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題，讓通信時延降低40%。

騰訊云方面稱，星脈網(wǎng)絡(luò)集成了騰訊自研技術(shù)積累，以極致高性能實現(xiàn)了AI大模型通信性能的10倍提升，GPU利用率40%提升，通信時延降低40%，支持10萬級 GPU 集群組網(wǎng)?；谌匝芯W(wǎng)絡(luò)硬件平臺網(wǎng)絡(luò)建設(shè)成本降低30%，模型訓(xùn)練成本節(jié)省30%~60%。

王亞晨與李翔在會上回應(yīng)了諸多外界關(guān)注的問題。

提問：騰訊高性能網(wǎng)絡(luò)的主要優(yōu)勢在哪里？技術(shù)關(guān)鍵點(diǎn)集中在哪些地方？

王亞晨：騰訊在以太網(wǎng)上的優(yōu)化從去年年初就開始了。從國內(nèi)來看，我們是以太網(wǎng)里針對GPU優(yōu)化比較有優(yōu)勢的，為什么我們會和其他廠商做那么多全調(diào)度以太網(wǎng)的合作？因為我們做了很多優(yōu)化，尤其是在協(xié)議自研這塊。

另一個優(yōu)勢在于我們的架構(gòu)。我們是把存儲跟計算做了分離，保證兩邊的性能更優(yōu)。

無論是1.6T還是3.2T的GPU，我們可能用了8張GPU，一個CPU，加上8張網(wǎng)卡，但騰訊做了一些優(yōu)化，8個網(wǎng)卡，一個網(wǎng)卡兩個端口。好處是一旦有一個端口故障，另一個端口能夠快速切上來，流量之間不受任何影響，也涉及到和交換機(jī)、和軟件的配合，這種技術(shù)是我們的特色。

提問：做大模型對網(wǎng)絡(luò)技術(shù)的核心要求，解決零丟包、低延時最大的技術(shù)困難是哪些呢？

王亞晨：當(dāng)時我們遇到的最大困難是“擁塞控制”。去年年中，騰訊已經(jīng)建了2K-4K的GPU集群用于模型訓(xùn)練，那時候我們用一級，最多兩級交換機(jī)就OK了。

但大模型出來后，GPU規(guī)模建設(shè)需求已經(jīng)是萬卡規(guī)模，這時候整個交換機(jī)組網(wǎng)規(guī)模必須要到三級了，因為我們交換的芯片容量是主流的25.6T，128個網(wǎng)口，它決定了組網(wǎng)的規(guī)模兩級最優(yōu)是4K，這決定了我們要做更大規(guī)模時交換機(jī)一定要做三級，便會遇到擁塞控制的問題，到今年年底擴(kuò)容到51.2T時會好一點(diǎn)。

雖然之前裝了TiTa已經(jīng)一定程度上解決了擁塞。但到三級之后，因為擁塞不可控，之前的機(jī)制不完全能達(dá)到很好的效果，所以我們得做新的擁塞控制機(jī)制，這也是現(xiàn)在業(yè)界講到的主動擁塞控制。

在GPU發(fā)包時要先了解網(wǎng)絡(luò)的狀況，有點(diǎn)類似于我出門前，先看看是否擁堵，如果擁堵，系統(tǒng)主動告訴我先不做。以前以太網(wǎng)都是被動擁塞控制，擁塞了才調(diào)度，但主動擁塞控制機(jī)制一定要在網(wǎng)卡發(fā)包時和交換機(jī)配合。

為什么現(xiàn)在我們要自研新的算力網(wǎng)卡，其實它解決的是在多級組網(wǎng)情況下更好的擁塞控制，這是當(dāng)時我們面臨的挑戰(zhàn)，也和我們現(xiàn)在的一些能力相關(guān)。

另一個是帶寬利用率的提升?，F(xiàn)在我們做到95%左右的帶寬利用率，實際上到新的3.2T服務(wù)器接入與三級架構(gòu)時，我們發(fā)現(xiàn)這個帶寬利用率會遇到巨大挑戰(zhàn)。帶寬利用率要消除網(wǎng)絡(luò)不均勻的問題，之前我們用哈希（Hash）的方式。

現(xiàn)在以太網(wǎng)是基于流調(diào)度，流有長有短，類似于路上跑的車有的大馬力有的小馬力，即使哈希到不同路徑，你卻不知道每個流的長短是什么樣，很難完全消除不均勻。

怎么做？現(xiàn)在以太網(wǎng)里有幾個做法，一個是定長包，網(wǎng)卡側(cè)發(fā)包時是定長的包，等于你看到的車都是標(biāo)準(zhǔn)化大小，這時候我再去哈希到不同路徑，一定是相對均勻。這就是為什么我們要把端側(cè)發(fā)包時變成定長的包，交換機(jī)要支持定長包的處理，同時定長包很容易出現(xiàn)亂序的問題，所以我們還要和端側(cè)配合，保證不同的包雖然都是定長的，傳過來可能有快有慢，還要把亂序的問題解決，這也要靠端側(cè)解決。

總而言之，擁塞控制與帶寬利用率是我們當(dāng)下遇到最大的兩個挑戰(zhàn)。

提問：在網(wǎng)絡(luò)管理和硬件設(shè)計上，我們傾向于采用集中式還是分布式？

李翔：分布和集中都是設(shè)計網(wǎng)絡(luò)的工具手段，我們會根據(jù)的場景需求來選擇。在網(wǎng)絡(luò)技術(shù)上，集中和分布一直是亙古不變的議題，網(wǎng)絡(luò)中SDN2008年提出來到現(xiàn)在二十年了，集中后，下面被管理的網(wǎng)源會比較簡單。集中管理、集中部署，下面的網(wǎng)元會非常簡單，成本比較低。但現(xiàn)在分布式是現(xiàn)在網(wǎng)絡(luò)比較認(rèn)可的生態(tài)形式，分布式管理能夠復(fù)用我們之前的運(yùn)營積累，確保運(yùn)營質(zhì)量。

王亞晨：滿足可擴(kuò)展性和運(yùn)營安全性，這也是很關(guān)鍵的考量。騰訊基礎(chǔ)設(shè)施最主要的生命線是網(wǎng)絡(luò)質(zhì)量，大系統(tǒng)肯定有大系統(tǒng)的好處，性能肯定更高，一旦出現(xiàn)故障，我們的分布式化可以減小故障率，這是最大的好處。我們把路由器拆成很多小的路由模塊，可以跑到容器里，讓我們整個網(wǎng)絡(luò)更可靠。

類似于最早的網(wǎng)絡(luò)都是集中化的大盒子設(shè)備，無論是交換機(jī)、路由器還是運(yùn)營商的基站、核心網(wǎng)，都是集中化的。但云廠商不一樣，我們基本是全自研，都是一套自研系統(tǒng)，自主控制，不用引入太多異廠家的交互性。所以一定要在自研情況下做分布式更好，如果不是自研能力，靠各種廠家做分布式，本質(zhì)上來講一個廠家自己分布沒問題，一旦引入另一個廠家混合搞，可能就復(fù)雜很多了。

提問：之前說到白盒交換機(jī)的問題，可以多介紹一下嗎？

李翔：首先我們?yōu)槭裁匆霭缀?？剛才提到，交換機(jī)從最早的幾臺一直到現(xiàn)在幾十萬臺在網(wǎng)，每年可能有幾萬臺的采購量。面對大量級的需求，我們遇到了一些比較現(xiàn)實的問題。廠商會賣給你非常完善的解決方案，有幾千個共同特性，所以迭代周期很慢。

我們從兩個維度考慮問題，第一個維度從質(zhì)量考慮，我們希望對軟件做減法。比如90%我是不是可以裁掉，自己用非常少的人維護(hù)起來，可以快迭代、快修復(fù)，從實際部署來說軟件自主研發(fā)之后，顯著提升了質(zhì)量。

第二就是在硬件角度，我們是“海底撈”模式，商業(yè)交換機(jī)賣的是滿漢全席，是粵菜，但比較貴，我們只需要一款交換機(jī)，做減法。我們直接跟上游芯片商合作可以更快享受技術(shù)能力，過程更加透明，供應(yīng)商利潤也比較合理。

所以我們做白盒有兩個維度，第一個維度在軟件上，更多是質(zhì)量和迭代效率的考慮，硬件上是從成本上考慮，能夠把它變得更加透明化。

提問：如果將來你們接入其它模型，很多用戶在上面訓(xùn)練，網(wǎng)絡(luò)安全可能就比以前更重要了，以前只有你們自己在用，這方面不知道你們有什么設(shè)計或者已經(jīng)做的事情？

李翔：數(shù)據(jù)安全的問題在公有云時代是特別重要的。騰訊有七大安全實驗室，都是做網(wǎng)絡(luò)安全，我們整個技術(shù)網(wǎng)絡(luò)有非常完善的虛擬化技術(shù)，還有做租戶隔離、存儲隔離，這些都是比較扎實的技術(shù)底座，同時內(nèi)部還會有各種各樣高級別的科學(xué)家?guī)ьI(lǐng)團(tuán)隊做各種模擬攻擊，保證不會被攻破。安全問題一直是云客戶最重要的事情。

回到GPU，一方面我們復(fù)用了它的能力，比如存儲，直接復(fù)用云大盤的能力，對于基座的物理服務(wù)器可能更復(fù)雜，因為它比較追求性能，云上做隔離。但是容器、虛擬化對GPU服務(wù)器有嚴(yán)格的性能要求，需要一個物理機(jī)，這時候我們就只能把隔離監(jiān)控全部放到網(wǎng)絡(luò)上做。

王亞晨：星脈除了支持騰訊自己的大模型以外，在騰訊云上也支持很多其它客戶的模型做訓(xùn)練，有些客戶對于性能覺得虛機(jī)也OK，我們就以大盤的能力來保證整個網(wǎng)絡(luò)的安全。另外剛才說的信息安全，防攻擊那些，都是騰訊云上面比較完善的體系。

提問：針對騰訊之外的廠商，我們主要提供技術(shù)支持，還是也提供大模型相關(guān)的解決方案？

王亞晨：我們整個技術(shù)底座除了騰訊自身以外也在支持騰訊云的算力集群，在騰訊云上也可以給客戶售賣，今天沒有專門講這個解決方案。我們除了提供GPU的IaaS服務(wù)以外也會配合上面的訓(xùn)練框架、加速框架這些PaaS的可選服務(wù)，根據(jù)團(tuán)隊訓(xùn)練的模型和你的需求定制選購?；旧弦恍┐蟮墓具€是選擇以IaaS服務(wù)為主，這也是騰訊云以標(biāo)準(zhǔn)產(chǎn)品給到客戶。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://gptmaths.com/quan/100610.html

騰訊云織了張AI大模型的“網(wǎng)”

關(guān)于作者

光子星球優(yōu)創(chuàng)媒體

發(fā)表回復(fù)

騰訊云織了張AI大模型的“網(wǎng)”

關(guān)于作者

光子星球優(yōu)創(chuàng)媒體

增長黑客Growthhk.cn薦讀更多>>

“花式”降價背后，云廠商的“拉新”陽謀

騰訊云率先打響「大模型應(yīng)用」信號槍

大模型時代，騰訊云“復(fù)制”騰訊｜WAIC2023

谷歌關(guān)停Stadia服務(wù)，不代表云游戲“此路不通”

政務(wù)云、汽車云，將成云計算的下一戰(zhàn)場

2017年中國租賃人口已達(dá)1.9億人，被業(yè)內(nèi)稱為是中國“租賃住房元年”

發(fā)表回復(fù)

“花式”降價背后，云廠商的“拉新”陽謀

大模型時代，騰訊云“復(fù)制”騰訊｜WAIC2023

谷歌關(guān)停Stadia服務(wù)，不代表云游戲“此路不通”

政務(wù)云、汽車云，將成云計算的下一戰(zhàn)場

2017年中國租賃人口已達(dá)1.9億人，被業(yè)內(nèi)稱為是中國“租賃住房元年”