點(diǎn)擊關(guān)注
文 | 郝鑫、黃小藝
從去年底到現(xiàn)在,國(guó)內(nèi)外肉眼可見地涌現(xiàn)出了一批文生圖公司,這背后與基礎(chǔ)架構(gòu)開源有很大關(guān)系。
2022年8月,Stability.AI在GitHub上公開開源了Stable Diffusion模型的代碼和訓(xùn)練數(shù)據(jù)集;當(dāng)月底,基于Stable Diffusion的圖像生成工具Stable Diffusion web UI也正式開源發(fā)布。
(Stable Diffusion模型基本架構(gòu) 圖源:網(wǎng)絡(luò))
自此,以“Stable Diffusion”命名的“擴(kuò)散模型”響徹了整個(gè)AIGC,在落地中形成了由文字編碼器(Text Encoder)、圖像信息生成器(Image Information Creator)和圖像解碼器(Image Decoder)組成的擴(kuò)散模型架構(gòu),技術(shù)的核心是在去噪的過(guò)程中逐漸還原出圖片。
(去噪過(guò)程演示 圖源:網(wǎng)絡(luò))
開源的春風(fēng)吹到了國(guó)內(nèi),也給了正在獨(dú)自摸黑探索的中國(guó)文生圖公司送去了光明。
“開源了,我們既興奮,但又更迷茫了?!?/p>
技術(shù)方向更加明確了,訓(xùn)練路徑也更加清晰,中國(guó)文生圖公司又面臨著一個(gè)新問(wèn)題:要不要全面擁抱開源模型?
對(duì)于這個(gè)問(wèn)題,網(wǎng)易伏羲和趙增團(tuán)隊(duì)也曾反復(fù)思考。
趙增的答案是,只能借鑒,不能全盤照抄。“模型訓(xùn)練不能開黑盒,只要做不到完全透明、可控,就存在風(fēng)險(xiǎn)?!?/p>
基于這個(gè)邏輯,網(wǎng)易伏羲走上了中國(guó)式文生圖的道路,其基本模型架構(gòu)為“自研+開源”相結(jié)合,平臺(tái)做到了全中文輸入、理解。
之前大模型因?yàn)椴焕斫庵形摹棒[了不少笑話”,而網(wǎng)易伏羲從模型訓(xùn)練開始便意識(shí)到了這個(gè)問(wèn)題,在思考如何把文生圖用得更好方面更快人一步。
如今,文生圖邁入了更高效、更穩(wěn)定、更自由可控的里程碑階段,也衍生出圖生圖、圖生3D、多圖生視頻等技術(shù)路徑。
在圍觀了國(guó)外文生圖應(yīng)用的熱鬧景象之后,網(wǎng)易伏羲也走向了更深的自我思考和升級(jí)。
近期2023世界人工智能大會(huì)上,光錐智能對(duì)話網(wǎng)易伏羲預(yù)訓(xùn)練及生成式人工智能平臺(tái)負(fù)責(zé)人趙增,聊一聊他對(duì)于爆火的文生圖現(xiàn)象和背后技術(shù)的理解。
核心觀點(diǎn)如下:
1、文生圖的模型參數(shù)不是越大,效果就越好。
2、技術(shù)是標(biāo)準(zhǔn)化的,但審美是非標(biāo)準(zhǔn)化的,要想提升生成的美術(shù)效果,需要有美術(shù)專家介入,提供反饋。文生圖的模型上限在專家,下限在技術(shù)。
3、借鑒國(guó)外開源模型固然可以提升生成技術(shù),但一味地?fù)肀ч_源并不可取,其中存在許多可控性、安全問(wèn)題,還是要構(gòu)建自主的生成模型。?
?4、總體來(lái)看,文生圖應(yīng)用還處于探索時(shí)期,沒(méi)有進(jìn)入工業(yè)化落地階段。
(網(wǎng)易伏羲預(yù)訓(xùn)練及生成式人工智能平臺(tái)負(fù)責(zé)人趙增)
以下為對(duì)話實(shí)錄:
光錐智能:網(wǎng)易伏羲生成平臺(tái)的探索過(guò)程是怎樣的?近期有哪些新的進(jìn)展?
趙增:2018年開始,網(wǎng)易伏羲就開始嘗試用GPT去做模型應(yīng)用適配。但隨著OpenAI公司逐漸關(guān)閉對(duì)國(guó)內(nèi)的技術(shù)訪問(wèn)路口,2020年,我們開始自己組織團(tuán)隊(duì),以文本預(yù)訓(xùn)練為切入點(diǎn)去訓(xùn)練模型。
2021年之后,結(jié)合網(wǎng)易自身業(yè)務(wù)需求和互聯(lián)網(wǎng)發(fā)展歷程,我們判斷多模態(tài)將是未來(lái)發(fā)展趨勢(shì),因而開始大力做多模態(tài)理解和生成。去年Stable Diffusion開源后,開始將自身的模型訓(xùn)練路線與開源架構(gòu)相融合。
今年年初,文生圖再次被推到風(fēng)口,開源生態(tài)也異常活躍,在此背景下,我們對(duì)技術(shù)架構(gòu)路徑再次做了調(diào)整:一方面,持續(xù)優(yōu)化自身的中文生成模型,希望其能在中文領(lǐng)域達(dá)到頂尖的效果;另一方面,去做更加友好開放的生產(chǎn)管線,將具有AI技術(shù)的人和專業(yè)藝術(shù)家都納入生態(tài)系統(tǒng)。
最近我們內(nèi)部也正在做預(yù)研2.0,在能力得到充分驗(yàn)證以后,也會(huì)更多地對(duì)外開放,融合到業(yè)務(wù)場(chǎng)景中、伏羲有靈美術(shù)平臺(tái)中。
(AIGC繪畫平臺(tái))
光錐智能:網(wǎng)易伏羲文生圖大模型的參數(shù)是多少?
趙增:現(xiàn)在方案有很多套,有十幾億、三十幾億,也有幾百億的參數(shù)方案。一個(gè)很有趣的現(xiàn)象是,即使Stable Diffusion已經(jīng)開源了多個(gè)版本,但現(xiàn)在最流行的還是早期的1.5版本,這就代表不是參數(shù)越大,效果就越好。我們的理念也是一樣,會(huì)先嘗試把數(shù)據(jù)變得越來(lái)越大,模型訓(xùn)練得越來(lái)越大,但也還會(huì)根據(jù)實(shí)際情況選擇合適的尺寸去生成。
光錐智能:網(wǎng)易伏羲支持全中文操作,對(duì)比一些英中轉(zhuǎn)換的模型,建立一個(gè)全新的中文語(yǔ)料庫(kù)的難點(diǎn)在哪里?
趙增:最大的難點(diǎn)在于整個(gè)前期投入,就是要去系統(tǒng)性地構(gòu)建高質(zhì)量的中文數(shù)據(jù)集,然后喂給基礎(chǔ)模型,從頭去構(gòu)建,不斷地迭代,所以整個(gè)周期就會(huì)很長(zhǎng)。我們的優(yōu)勢(shì)在于,起步比較早,在Stable Diffusion還沒(méi)開源之前,我們就已經(jīng)在不斷地投入,到現(xiàn)在已經(jīng)產(chǎn)生了很多積累。
光錐智能:如何在技術(shù)層面提升語(yǔ)義指導(dǎo)的精準(zhǔn)程度,提升文生圖的效果?
趙增:萬(wàn)變不離其宗。第一,在數(shù)據(jù)層面,要構(gòu)建更符合用戶輸入內(nèi)容的數(shù)據(jù)分布。在大模型背后的系統(tǒng)組件支持下,把這些數(shù)據(jù)更有效地串聯(lián)和優(yōu)化;
第二,在模型結(jié)構(gòu)層面。我們?cè)谥形膱?chǎng)景下做了很多調(diào)整,去嘗試有效的結(jié)構(gòu),包括規(guī)模嘗試。整體來(lái)講,我們的模型結(jié)構(gòu)跟開源模型結(jié)構(gòu)不是完全一樣的,無(wú)論是圖片還是文本,都做了優(yōu)化;
第三,是數(shù)據(jù)反饋。要獲得有價(jià)值的評(píng)價(jià),把干擾生成過(guò)程中的數(shù)據(jù)剔除掉,形成正向反饋機(jī)制,才能在訓(xùn)練過(guò)程中不斷提高生成能力。
(AIGC生成的古風(fēng)人物形象)
光錐智能:技術(shù)是標(biāo)準(zhǔn)化的,可是審美是非標(biāo)準(zhǔn)化的。網(wǎng)易伏羲在做文生圖的時(shí)候,是怎樣標(biāo)準(zhǔn)化生成結(jié)果??jī)?yōu)化生成效果的呢?
趙增:反饋是很重要的,網(wǎng)易有非常多的頂尖的藝術(shù)家,他們會(huì)在使用過(guò)程中提供很多專業(yè)意見,幫助我們找到需要優(yōu)化的點(diǎn)。我們也會(huì)把當(dāng)前的版本發(fā)到伏羲有靈眾包平臺(tái)上,來(lái)獲取用戶匿名反饋。
舉個(gè)例子,之前3月的時(shí)候,我們做了一款二次元模型,初步覺(jué)得效果不錯(cuò),但美術(shù)專家一看,就說(shuō)頭身比不行、姿勢(shì)不行,在他們的反饋之下,我們從模型數(shù)據(jù)層面做了重構(gòu),才調(diào)整過(guò)來(lái)。
這也給我們一個(gè)啟示,從系統(tǒng)的層面我們只能去增加量,但是想要做頂尖的內(nèi)容生成,就要有頂尖的審美,需要跟行業(yè)有深度的合作。我們和美工在內(nèi)部分工很明確,模型的上限在他們,下限可能在我們技術(shù)上。
(AIGC生成的二次元形象)
光錐智能:除了審美,專家的介入還會(huì)提帶來(lái)哪些反饋優(yōu)化,可以舉個(gè)例子嗎?
趙增:主要基于他們的生產(chǎn)過(guò)程。
比如說(shuō)處理圖的時(shí)候,他們需要什么樣的風(fēng)格。如果是通用風(fēng)格,例如二次元,我們就會(huì)把它做成基礎(chǔ)模型;但是如果特別小眾,例如厚涂,就做成二級(jí)模型,去開放自主仿真的能力,讓專家自己去定制模型。
而在圖生成以后,他們可能需要能在PS里自動(dòng)分層的圖片。還有,對(duì)于具體內(nèi)容的理解,例如,專家們需要榫卯結(jié)構(gòu)、中國(guó)古代盔甲……這就需要我們不斷去構(gòu)建相應(yīng)的數(shù)據(jù),根據(jù)已有范式,補(bǔ)充相應(yīng)的內(nèi)容。
光錐智能:網(wǎng)易伏羲有沒(méi)有針對(duì)用戶展開具體的用戶畫像分析,比如專業(yè)的、業(yè)余的等等。
趙增:目前,是希望服務(wù)專業(yè)生產(chǎn)。因?yàn)檫@部分用戶離我們最近,我們最能知道他們想要什么,也能很明確的算出來(lái),等到他們真正用起來(lái)以后,我們才能產(chǎn)生巨大的收益。
光錐智能:如何看待使用國(guó)外開源模型的問(wèn)題?
趙增:我們內(nèi)部對(duì)要不要直接擁抱開源的這個(gè)問(wèn)題,做了很多次討論,最后的答案是明確的:要構(gòu)建自己的生成模型。
直接使用國(guó)外開源模型,存在幾個(gè)非常大問(wèn)題,首先是對(duì)生產(chǎn)能力可控性的把握。以文生圖為例,從特征提取到真正拿來(lái)用,這中間還有很多環(huán)節(jié),模型要怎樣去理解一些非常領(lǐng)域化和中國(guó)化的內(nèi)容變得很關(guān)鍵,如果直接調(diào)用國(guó)外模型肯定會(huì)出現(xiàn)水土不服。
另外,在跟進(jìn)國(guó)外開源生態(tài)的過(guò)程中,我們發(fā)現(xiàn),一些生成效果比較好的模型,背后其實(shí)是龐大數(shù)據(jù)在支持,如果技術(shù)不加以控制,就可能出現(xiàn)失控。其次是數(shù)據(jù)合規(guī)性問(wèn)題。雖然技術(shù)沒(méi)有國(guó)界,但事實(shí)證明現(xiàn)在生成的內(nèi)容的確是有偏見的,我們需要保證最后生成的內(nèi)容要符合實(shí)際生產(chǎn)需求。
總而言之,我們的目標(biāo)是去構(gòu)建更有中國(guó)特色的生成模型,對(duì)于這個(gè)生成模型,我們希望從底子上它就是可控的,所有構(gòu)建過(guò)程都是白盒狀態(tài),模型、數(shù)據(jù)、工程框架優(yōu)化、迭代演進(jìn)等都是清晰透明化的,而不是只知道一個(gè)模型的版本號(hào),開源后拿過(guò)來(lái)改改再用。
光錐智能:國(guó)外已經(jīng)出現(xiàn)了幾款爆款軟件,進(jìn)入大規(guī)模應(yīng)用階段。但目前在國(guó)內(nèi),這樣的感知似乎不是很強(qiáng)烈。以您的觀察來(lái)看,國(guó)內(nèi)文生圖應(yīng)用發(fā)展到了什么階段?
趙增:其實(shí),無(wú)論國(guó)內(nèi)外,我們認(rèn)為現(xiàn)在文生圖的應(yīng)用基本都還處于探索階段。因?yàn)橐晕覀兊臉?biāo)準(zhǔn)來(lái)看,只有出現(xiàn)像Photoshop這樣現(xiàn)象級(jí)的產(chǎn)品,能實(shí)現(xiàn)為整個(gè)行業(yè)去服務(wù)、產(chǎn)生巨大收益的時(shí)候,才算是進(jìn)入一個(gè)工業(yè)化落地的階段。
目前,短暫的體驗(yàn)型產(chǎn)品還遠(yuǎn)遠(yuǎn)不夠。從純圖文層面來(lái)講,現(xiàn)在的工具功能都是碎片化的,沒(méi)有一個(gè)能夠解決全流程的問(wèn)題,我們的用戶需要不斷地在各個(gè)AI生產(chǎn)工具中切換,因此他們的支付意愿不高,對(duì)單個(gè)產(chǎn)品的依賴度也很低。
不過(guò),雖然現(xiàn)在生產(chǎn)規(guī)模還在起點(diǎn)階段,但各種從業(yè)人員包括高層都看到了圖文的價(jià)值,還需要時(shí)間去探索如何規(guī)?;?。
光錐智能:國(guó)外公司從文生圖轉(zhuǎn)向了文生視頻,在文生視頻方面,網(wǎng)易伏羲有做嘗試探索嗎?
?趙增:文生視頻我覺(jué)得是一個(gè)非常有價(jià)值的場(chǎng)景,但是從落地的角度來(lái)講,還是需要持續(xù)投入,它的成熟度會(huì)比文本、圖文更滯后一些。從技術(shù)難點(diǎn)看,它的數(shù)據(jù)量可能更大,需要處理前后幀的相關(guān)性。
歡迎關(guān)注“光錐智能”,獲取更多前沿科技知識(shí)!
本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/101918.html