做算力的浪潮信息為什么還要再卷大模型?

在有限的算力資源上,訓(xùn)練數(shù)據(jù)的質(zhì)量,直接決定了模型的性能。

避免重復(fù)造輪子,前提是輪子已經(jīng)造得很好。

 

做算力的浪潮信息為什么還要再卷大模型?

大模型有多卷?

現(xiàn)在國(guó)內(nèi)已經(jīng)有180個(gè)以上生成式大模型,科技大廠、互聯(lián)網(wǎng)大廠紛紛入局,既有百度、浪潮信息、阿里、騰訊等一眾巨頭,也有專攻AI的訊飛、商湯等垂直領(lǐng)域小巨頭,以及“日日新”的創(chuàng)業(yè)企業(yè)。

今天A廠商發(fā)布大模型,各種參數(shù)對(duì)比下來(lái)堪稱最強(qiáng),第二天B廠商發(fā)布下來(lái),又刷新了各種記錄。最強(qiáng)、最大、強(qiáng)快,有可能只保持一天。這說(shuō)明什么?基礎(chǔ)大模型還有很大的進(jìn)化空間。

11月27日,算力龍頭企業(yè)浪潮信息發(fā)布了完全開(kāi)源且可免費(fèi)商用的源2.0基礎(chǔ)大模型,包含1026億、518億、21億不同參數(shù)規(guī)模,這也是國(guó)內(nèi)首個(gè)千億參數(shù)、全面開(kāi)源的大模型。

作為一家做算力基礎(chǔ)設(shè)施的公司,為什么如此努力地卷大模型?浪潮信息高級(jí)副總裁、AI&HPC總經(jīng)理劉軍表示:最終用戶感受到的大模型能力是其在應(yīng)用層面能力的表現(xiàn),這些核心能力的本質(zhì),是由基礎(chǔ)大模型能力所決定的。在他看來(lái),今天模型基礎(chǔ)能力與客戶預(yù)期之間仍有較大的差距,這也是浪潮信息不斷探索的原因所在。

GPT4不是天花板,百模大戰(zhàn)探索“更優(yōu)解”

做算力的浪潮信息為什么還要再卷大模型?

GPT3.5的發(fā)布,算得上是AI產(chǎn)業(yè)發(fā)展的一個(gè)重要拐點(diǎn),很多人將之稱為AI的“蘋(píng)果時(shí)刻”。今年3月,OpenAI發(fā)布了GPT4,GPT4的能力比GPT3.5有一個(gè)巨大的提升,GPT4是當(dāng)前業(yè)界最先進(jìn)的技術(shù)大模型。

但是,即便是當(dāng)前公認(rèn)最先進(jìn)的大模型,GPT4其實(shí)也還有很多挑戰(zhàn)沒(méi)有解決。

比如算力短缺,一直是OpenAI在其迅速崛起過(guò)程中不得不面對(duì)的一個(gè)棘手問(wèn)題。當(dāng)用戶海量涌入的時(shí)候,OpenAI已經(jīng)出現(xiàn)過(guò)幾次崩潰的情況。為此,OpenAI采用了不同級(jí)別的會(huì)員收費(fèi),對(duì)用戶進(jìn)行分層。并且還一度還采用停止注冊(cè)的方式來(lái)限制用戶的使用量,緩解算力壓力。

再比如AI幻覺(jué)。今天的GPT4給出的答案并不完全正確,有時(shí)候會(huì)有明顯的事實(shí)錯(cuò)誤,有時(shí)候也會(huì)一本正經(jīng)地胡說(shuō)八道。這里面也有很多原因,比如數(shù)據(jù)來(lái)源的問(wèn)題,再比如不同法律體系、不同價(jià)值觀下的分歧等等。

GPT4遇到的挑戰(zhàn)還有很多,這些都是整個(gè)行業(yè)正在面臨的挑戰(zhàn)。今天,看上去大模型這個(gè)領(lǐng)域非常卷,但本質(zhì)上還是處于產(chǎn)業(yè)初期。一方面,國(guó)產(chǎn)基礎(chǔ)大模型的能力和 Open AI 之間存在較大的差距,另一方面即使是最先進(jìn)的GPT4,現(xiàn)在的能力還處于初級(jí)階段,很多問(wèn)題依舊在探索開(kāi)發(fā)。

通用大模型基座作為通用人工智能的核心基礎(chǔ)設(shè)施,被嵌入到智能助手、機(jī)器翻譯、自動(dòng)化客服等場(chǎng)景中,從而實(shí)現(xiàn)更加個(gè)性化、智能化、自適應(yīng)的服務(wù)和應(yīng)用。IDC預(yù)測(cè),到2026年,全球AI計(jì)算市場(chǎng)規(guī)模將增長(zhǎng)到346.6億美元,生成式AI計(jì)算占比從22年4.2%增長(zhǎng)到 31.7%。

通用大模型是大模型產(chǎn)業(yè)的地基,地基的深度和強(qiáng)度決定大廈的高度。大模型和應(yīng)用之間的關(guān)系,如果用上學(xué)和工作來(lái)比喻:大模型是12年小初高階段,垂直行業(yè)大模型是大學(xué)分專業(yè)學(xué)習(xí)的階段,應(yīng)用則是進(jìn)入到工作崗位開(kāi)始為企業(yè)、社會(huì)創(chuàng)造價(jià)值的階段。

今年掀起百模大戰(zhàn)之后,業(yè)界有一種觀點(diǎn)認(rèn)為不應(yīng)該浪費(fèi)資源重復(fù)造輪子。但前提是輪子已經(jīng)比較成熟,如果今天的輪子還不好用,就值得更多的企業(yè)投入進(jìn)來(lái),探索各種不同的路徑來(lái)把輪子造好。所以,最近業(yè)內(nèi)正在形成新的共識(shí):在產(chǎn)業(yè)初期,適度的泡沫還是必要的。中國(guó)大模型的“百花齊放”是利好的,很大程度它可以激活創(chuàng)新,促進(jìn)產(chǎn)業(yè)生態(tài)的繁榮發(fā)展。

做算力的浪潮信息為什么還要再卷大模型?浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華

“確實(shí)在當(dāng)前大模型百花齊放的態(tài)勢(shì)下,必然大家會(huì)有不同的實(shí)現(xiàn)路徑,也會(huì)有理念沖突,這都是特別正常的事情。因?yàn)楫吘勾蠹叶荚谔剿鳎紱](méi)有出來(lái)一條非常有效的路徑?!?浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華表示。

浪潮信息為什么也要進(jìn)來(lái)一起卷大模型?浪潮信息左手有做大模型的伙伴,右手有做垂直行業(yè)應(yīng)用的伙伴,可以說(shuō)既懂底層技術(shù)又有上層應(yīng)用經(jīng)驗(yàn)。更重要的是作為一家算力基礎(chǔ)設(shè)施公司,在產(chǎn)業(yè)初期,浪潮信息在算力上的探索會(huì)給整個(gè)產(chǎn)業(yè)帶來(lái)很大的推動(dòng)力,比如算力資源的高效性、算力集群的可擴(kuò)展性、算力系統(tǒng)的可持續(xù)性,這些都能讓算力更充分地釋放出來(lái),這對(duì)整個(gè)產(chǎn)業(yè)都有極大的價(jià)值。

浪潮信息做大模型主要是兩個(gè)維度的探索:一是探索路徑、方法,比如有什么架構(gòu)可以節(jié)省算力,什么模型可以讓數(shù)據(jù)更精準(zhǔn)等等。二是探索邊界,今天大模型已經(jīng)能做很多事,但隨著算力、算法、數(shù)據(jù)的迭代,新的能力也不斷被挖掘出來(lái),大模型的上限到底在哪里?

看上去已經(jīng)很激烈的百模大戰(zhàn),只是生成式AI的起點(diǎn)。通用大模型是一項(xiàng)異常復(fù)雜的系統(tǒng)工程,需從系統(tǒng)層面達(dá)以創(chuàng)新,從算力效率、線性擴(kuò)展、長(zhǎng)效穩(wěn)定等多個(gè)方面進(jìn)行探索。今天,沒(méi)有哪個(gè)企業(yè)有絕對(duì)的優(yōu)勢(shì),算力、算法、數(shù)據(jù)三要素都有很大的進(jìn)化空間,此外還需要更好的應(yīng)用來(lái)落地大模型的價(jià)值。也就是說(shuō),大模型還要卷,同時(shí)應(yīng)用也要卷,打通一個(gè)能持續(xù)跑起來(lái)的飛輪生態(tài),百模大戰(zhàn)的效果才真正實(shí)現(xiàn)了。

基因、智商、情商,打造“三高”大模型

作為最早布局大模型的企業(yè)之一,浪潮信息早在2019年就推出了中文AI巨量模型“源1.0”,是當(dāng)時(shí)最大參數(shù)的大模型。“源”大模型的數(shù)據(jù)集和清洗經(jīng)驗(yàn)和幫助國(guó)內(nèi)不少AI團(tuán)隊(duì)提升了其大模型的性能表現(xiàn),比如助力網(wǎng)易伏羲中文預(yù)訓(xùn)練大模型“玉言”登頂中文語(yǔ)言理解權(quán)威測(cè)評(píng)基準(zhǔn)CLUE分類任務(wù)榜單,并在多項(xiàng)任務(wù)上超過(guò)人類水平。過(guò)去的兩年,源1.0大模型的智能力與To B領(lǐng)域復(fù)雜的服務(wù)場(chǎng)景進(jìn)行深度融合,構(gòu)建專家級(jí)數(shù)據(jù)中心智能客服大腦,榮獲哈佛商業(yè)評(píng)論鼎革獎(jiǎng)。

做算力的浪潮信息為什么還要再卷大模型?

但是,源1.0開(kāi)放出來(lái)之后,在客戶的應(yīng)用場(chǎng)景中遇到了很多具體的問(wèn)題。所有這些問(wèn)題,都是浪潮信息升級(jí)源2.0的發(fā)出點(diǎn)。此外,GPT4是一個(gè)封閉的系統(tǒng),就是一個(gè)黑盒子,大家不知道它是怎么做的。那么,中國(guó)的大模型也需要更多的創(chuàng)新,才有機(jī)會(huì)去超越GPT4。

做算力的浪潮信息為什么還要再卷大模型?

簡(jiǎn)單來(lái)講,浪潮信息源2.0在數(shù)據(jù)、算力、算法三個(gè)維度向前邁進(jìn)了一大步。在懂懂看來(lái),數(shù)據(jù)決定大模型的基因,算力是決定大模型的智商,算法決定大模型的情商,所以這是“更聰明“的大模型的核心三要素,源2.0就是一個(gè)“三高”大模型。

先說(shuō)說(shuō)數(shù)據(jù)。

“在有限的算力資源上,訓(xùn)練數(shù)據(jù)的質(zhì)量,直接決定了模型的性能,這個(gè)性能主要是指模型的智能化水平在任務(wù)上的表現(xiàn)。” 吳韶華強(qiáng)調(diào),數(shù)據(jù)體量很重要,但是數(shù)據(jù)質(zhì)量更重要。在源2.0中,浪潮信息的思路就是進(jìn)一步提純數(shù)據(jù),讓模型能基于更高水平的數(shù)據(jù)來(lái)訓(xùn)練。

具體而言,源2.0通過(guò)使用中英文書(shū)籍、百科、論文等資料,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的學(xué)科專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。除此之外,為了更高效地獲得高質(zhì)量的代碼數(shù)據(jù)集,浪潮信息提出基于主題詞或Q&A問(wèn)答對(duì)自動(dòng)生成編程題目和答案的數(shù)據(jù)集生成流程,提高了數(shù)據(jù)集問(wèn)題的多樣性和隨機(jī)性;同時(shí)提出基于單元測(cè)試的數(shù)據(jù)清洗方法,可以更加高效地獲取高質(zhì)量數(shù)據(jù)集,提高訓(xùn)練效率。

“我們這套數(shù)據(jù)構(gòu)建方法,能夠比較有效的解決互聯(lián)網(wǎng)海量數(shù)據(jù)清洗問(wèn)題。我們后續(xù)的計(jì)劃是用我們的模型產(chǎn)生更高質(zhì)量的數(shù)據(jù),然后持續(xù)迭代,來(lái)提升我們大模型的能力。”劉軍表示。

接下來(lái)講一下算法。

傳統(tǒng)Transformer結(jié)構(gòu)被業(yè)界廣泛采用,但是對(duì)中文的識(shí)別并不是最佳模式。源2.0有一個(gè)很大的創(chuàng)新,就是把a(bǔ)ttention(自注意力)這一層,采用了自研的新型LFA(Localized Filtering-based Attention)結(jié)構(gòu),中文名字是局部注意力過(guò)濾增強(qiáng)機(jī)制??紤]到自然語(yǔ)言輸入的局部依賴性,LFA通過(guò)先強(qiáng)化相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,有效地解決了傳統(tǒng)Transformer結(jié)構(gòu)中對(duì)所有輸入的文字一視同仁,不能考慮自然語(yǔ)言相鄰詞之間的強(qiáng)語(yǔ)義關(guān)聯(lián)的問(wèn)題,能夠更好地處理自然語(yǔ)言的語(yǔ)序排列問(wèn)題,對(duì)于中文語(yǔ)境的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確、更人性,提升了模型的自然語(yǔ)言表達(dá)能力,進(jìn)而提升了模型精度。

“我們發(fā)現(xiàn)在源2.0這個(gè)階段,依然是處于研究方向的初級(jí)階段,后面還有很多的可能性。圍繞著這個(gè)方向,我們團(tuán)隊(duì)也會(huì)繼續(xù)研究下去,來(lái)嘗試進(jìn)一步的得到更好的模型結(jié)構(gòu)?!?吳韶華表示。

最后再來(lái)說(shuō)說(shuō)計(jì)算。

全球算力緊缺是一個(gè)短期內(nèi)很難緩解的痛點(diǎn),所以計(jì)算的調(diào)優(yōu),是整個(gè)產(chǎn)業(yè)都迫切需要突破的瓶頸,而這也恰好正是浪潮信息的優(yōu)勢(shì)所在。

為了在各類計(jì)算設(shè)備上都有一個(gè)非常好的計(jì)算性能表現(xiàn),源2.0中提出了非均勻流水并行+優(yōu)化器參數(shù)并行(ZeRO)+數(shù)據(jù)并行的策略。相較于經(jīng)典的三維并且方法,創(chuàng)新算法有更好的適用性,顯著降低了經(jīng)典大模型訓(xùn)練過(guò)程中對(duì)于AI芯片之間的通訊帶寬需求,同時(shí)還能獲得非常高的性能表現(xiàn)。

大模型算力系統(tǒng)并不是算力的簡(jiǎn)單堆積,其需要解決低時(shí)延海量數(shù)據(jù)交換的挑戰(zhàn);需要解決多臺(tái)機(jī)器均衡計(jì)算、避免冷熱不均、消弭算力堵點(diǎn)的問(wèn)題;需要解決在幾個(gè)月漫長(zhǎng)的計(jì)算過(guò)程中,當(dāng)單一硬件出現(xiàn)故障時(shí),訓(xùn)練中斷、梯度爆炸、算法重新走一遍等等問(wèn)題。所以,源2.0也不是浪潮信息的最終“答卷”。盡管源2.0已經(jīng)擁有非常出色的表現(xiàn),但是在劉軍看來(lái),這只是開(kāi)了個(gè)頭,未來(lái)還有很多值得挖掘的方向,浪潮信息會(huì)不斷創(chuàng)新升級(jí)。

卷大模型還是卷應(yīng)用?都要從開(kāi)源中找答案

是應(yīng)該卷模型還是卷應(yīng)用?業(yè)界是有不同觀點(diǎn)的。

很多做大模型的企業(yè),都主張應(yīng)該卷應(yīng)用?,F(xiàn)在百模酣戰(zhàn),是不是可以向前邁一步,開(kāi)始卷應(yīng)用了?

百度李彥宏在今年3月份就提出下一步的方向是大模型的應(yīng)用,隨后在10月份的百度大會(huì)上一口氣發(fā)布了幾十個(gè)原生應(yīng)用。從做大模型的企業(yè)來(lái)看,一定是在自己的模型上卷應(yīng)用,讓模型不斷進(jìn)化,讓?xiě)?yīng)用價(jià)值不斷落地,這是沒(méi)有錯(cuò)的。

做算力的浪潮信息為什么還要再卷大模型?浪潮信息高級(jí)副總裁、AI&HPC總經(jīng)理劉軍

那為什么還有那么多企業(yè)參與到百模大戰(zhàn)當(dāng)中呢?中國(guó)的大模型與GPT4還有或多或少的差距,即使是GPT4也還沒(méi)有進(jìn)化到天花板,也依然有很大的提升空間。此外,劉軍認(rèn)為未來(lái)的生成式AI是多元化生態(tài),每個(gè)基礎(chǔ)大模型可能會(huì)有不同的擅長(zhǎng)領(lǐng)域。

所以,放到整個(gè)產(chǎn)業(yè)的視角來(lái)看,大模型和應(yīng)用都要卷:一方面需要繼續(xù)提升基礎(chǔ)大模型的能力,因?yàn)橹挥谢A(chǔ)大模型做好了才能更好地實(shí)現(xiàn)行業(yè)落地;另一方面,需要在應(yīng)用落地方面繼續(xù)創(chuàng)新。只有大模型側(cè)和應(yīng)用側(cè)同時(shí)發(fā)力,雙輪驅(qū)動(dòng),生成式AI的發(fā)展甚至是中國(guó)的AI產(chǎn)業(yè)才會(huì)有更好的前景。

雙輪驅(qū)動(dòng),怎么卷才能最高效?答案是:開(kāi)源。

在移動(dòng)互聯(lián)網(wǎng)時(shí)代,有一個(gè)封閉的iOS系統(tǒng),還有一個(gè)開(kāi)源的安卓系統(tǒng)。蘋(píng)果很強(qiáng)大,自己就支撐了一個(gè)生態(tài)。但安卓更強(qiáng)大,開(kāi)放的安卓系統(tǒng)吸引更多的手機(jī)廠商,更多的開(kāi)發(fā)者,也衍生出一個(gè)更龐大的生態(tài)。

今年上半年,Meta的LLaMA開(kāi)源,給業(yè)界開(kāi)了一個(gè)好頭。正是看到開(kāi)源的能量,國(guó)內(nèi)的大模型也紛紛加入開(kāi)源的陣營(yíng),包括阿里云、百川、智譜AI、清華EKG等等。這一次源2.0也徹底開(kāi)源,并且這是行業(yè)首個(gè)千億開(kāi)源大模型。

“完全免費(fèi)、完全可商用、不需要授權(quán)、最徹底的開(kāi)源?!眳巧厝A表示,浪潮信息希望通過(guò)開(kāi)源真正的能夠普惠產(chǎn)業(yè)用戶,個(gè)人開(kāi)發(fā)者,讓大家能夠通過(guò)源2.0構(gòu)建更強(qiáng)的AI系統(tǒng)。

做算力的浪潮信息為什么還要再卷大模型?

劉軍強(qiáng)調(diào),開(kāi)源最本質(zhì)的好處是讓整個(gè)產(chǎn)業(yè)能夠協(xié)同發(fā)展,“回顧過(guò)去所有成功的開(kāi)源項(xiàng)目,都是因?yàn)檎麄€(gè)社區(qū)共同貢獻(xiàn)的結(jié)果?!?/p>

首先,開(kāi)源可以建立一個(gè)高效的反饋閉環(huán),通過(guò)應(yīng)用反哺大模型,加速大模型的進(jìn)化。

浪潮信息希望通過(guò)開(kāi)源吸引更多的開(kāi)發(fā)者進(jìn)來(lái),同時(shí)發(fā)起了大模型共訓(xùn)計(jì)劃,開(kāi)發(fā)者可以在源2.0上自由地開(kāi)發(fā),如果遇到問(wèn)題可以反饋給浪潮信息,盡快地提升模型的能力。

其次,開(kāi)源可以更廣泛地賦能行業(yè)、賦能企業(yè),加速大模型價(jià)值的落地。

優(yōu)秀開(kāi)源模型是吸引開(kāi)發(fā)者、繁榮生態(tài)的關(guān)鍵因素。以開(kāi)放的心態(tài)開(kāi)源,給開(kāi)發(fā)者更強(qiáng)有力的支持,他們可以直接調(diào)用API、中文數(shù)據(jù)集、模型訓(xùn)練代碼等,大大降低開(kāi)發(fā)者將大模型能力適配不同場(chǎng)景的難度,加速應(yīng)用的落地,讓企業(yè)盡快吃到AI時(shí)代的紅利。

所以,無(wú)論是卷大模型還是卷應(yīng)用,開(kāi)源都是一條光明大道。

【結(jié)束語(yǔ)】

在諸多大模型中,浪潮信息也卷了進(jìn)來(lái)。與其它大模型不同之處,就是其在計(jì)算方面的優(yōu)勢(shì),通過(guò)算力的產(chǎn)品和技術(shù)的創(chuàng)新推動(dòng)數(shù)字化、智能化的發(fā)展。

源從1.0進(jìn)化到2.0,給產(chǎn)業(yè)打個(gè)樣,通過(guò)智算的力量去訓(xùn)練生成式AI大模型,浪潮信息的很多探索成果,可以賦能加速AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的進(jìn)步。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/110110.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-12-04 18:13
下一篇 2023-12-05 10:19

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論