在我們《元宇宙(七):虛擬人的“靈魂”是什么?》的報(bào)告中,提到了虛擬人的靈魂并不僅是逼真的外表,而是來自于AI自主生成的內(nèi)容。同時(shí),元宇宙更傾向于開放世界游戲,AIGC內(nèi)容生成方式的創(chuàng)新將成為Web3時(shí)代全新的生產(chǎn)力工具。
AIGC(AI-Generated Content 人工智能生成內(nèi)容)代表新一輪范式轉(zhuǎn)移的開始。近期,硅谷的眾多一線VC們開始將目光瞄準(zhǔn)AI初創(chuàng)公司,尤其是生成式AI藝術(shù)這一領(lǐng)域。今年有兩家獨(dú)角獸Stability和Jasper均獲得了超過一億美元的融資,估值突破十億美元。AIGC賽道火爆不僅得益于技術(shù)進(jìn)步、商業(yè)應(yīng)用廣泛和需求增長(zhǎng),還歸功于該賽道還處于早期。雖然大型科技公司捕獲了大量?jī)r(jià)值,初創(chuàng)企業(yè)仍有機(jī)會(huì)突破。
AIGC將是Web3時(shí)代的生產(chǎn)力工具。當(dāng)我們邁入Web3.0時(shí)代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡(luò)構(gòu)建,形成人與網(wǎng)絡(luò)的全新鏈接,內(nèi)容消費(fèi)需求飛速增長(zhǎng)。UGC\PGC這樣的內(nèi)容生成方式將難以匹配擴(kuò)張的需求。AIGC將是新的元宇宙內(nèi)容生成解決方案。AIGC的生成利用人工智能學(xué)習(xí)知識(shí)圖譜、自動(dòng)生成,在內(nèi)容的創(chuàng)作為人類提供協(xié)助或是完全由AI產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。隨著NLP(Natural Language Processing,自然語言處理)技術(shù)和擴(kuò)散模型(Diffusion Model)的發(fā)展,AI不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。由此,將來文字生成、圖片繪制、視頻剪輯、游戲內(nèi)容生成皆可由AI替代。
AIGC技術(shù)主要涉及兩個(gè)方面:自然語言處理NLP和AIGC生成算法。自然語言處理是實(shí)現(xiàn)人與計(jì)算機(jī)之間如何通過自然語言進(jìn)行交互的手段。AIGC生成算法主流的有生成對(duì)抗網(wǎng)絡(luò)GAN和擴(kuò)散模型。擴(kuò)散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。它具有精度更高、可擴(kuò)展性和并行性,無論是質(zhì)量還是效率均有所提升,其快速發(fā)展成為AIGC增長(zhǎng)的拐點(diǎn)性因素。同時(shí),在機(jī)器學(xué)習(xí)的過程中,需要通過大量的訓(xùn)練來實(shí)現(xiàn)更準(zhǔn)確的結(jié)果,目前以英偉達(dá)A100為主,對(duì)于底層算力需求將有飛速增長(zhǎng)。
AIGC在文字、圖像、音頻、游戲和代碼生成中商業(yè)模型漸顯。近期我們研究了國(guó)內(nèi)外數(shù)十家AIGC相關(guān)企業(yè),尤其在一些具備高重復(fù)性的任務(wù)、對(duì)于精度要求并不那么高的領(lǐng)域應(yīng)用已逐步成熟,并在探索商業(yè)模式中。目前圖片生產(chǎn)、文字生成較為常見,這類AIGC服務(wù)大多數(shù)時(shí)候會(huì)以提供SaaS服務(wù)的形式變現(xiàn)。
AIGC未來發(fā)展核心:大模型、大數(shù)據(jù)與大算力。結(jié)合自然語言的大模型與數(shù)據(jù)集已成為AIGC發(fā)展的軟件基礎(chǔ),OpenAI的Clip模型基于4億組高質(zhì)量的英文圖文對(duì)應(yīng)數(shù)據(jù)訓(xùn)練而成;算力即權(quán)力將在AIGC數(shù)字時(shí)代更加凸顯, Stable Diffusion目前依賴于4000 個(gè)英偉達(dá)A100的GPU集群,運(yùn)營(yíng)成本超5000萬美金。為了讓功能更加精確,未來還將更多地基于語種去開發(fā)垂直類的應(yīng)用,便于更有目的性地為特定功能進(jìn)行訓(xùn)練。
AIGC投資框架:軟硬件與數(shù)據(jù)集。生成算法、NLP與算力決定AIGC能否運(yùn)行,而高質(zhì)量的數(shù)據(jù)集決定了AIGC質(zhì)量與商業(yè)模式。
軟件層面主要包括自然語言處理技術(shù):谷歌、微軟、科大訊飛、拓爾思;
AIGC生成算法模型及數(shù)據(jù)集:英偉達(dá)、Meta、百度、藍(lán)色光標(biāo)、視覺中國(guó)、昆侖萬維;
算力層包括:瀾起科技、中興通訊、新易盛、天孚通信、寶信軟件、中際旭創(chuàng)等。風(fēng)險(xiǎn)提示:技術(shù)創(chuàng)新不及預(yù)期:AIGC的技術(shù)發(fā)展不及預(yù)期。以及底層硬件技術(shù),如:超級(jí)計(jì)算機(jī)、算力的發(fā)展不及預(yù)期。政策監(jiān)管風(fēng)險(xiǎn):目前AIGC還處于相對(duì)早期,后續(xù)是否會(huì)出臺(tái)AIGC作品相關(guān)知識(shí)版權(quán)或其他法律監(jiān)管條款尚不明確。
(報(bào)告出品方/作者:國(guó)盛證券,宋嘉吉、金郁欣)
1.2022:AIGC 崛起之年
近期,硅谷的眾多一線 VC 們開始將目光瞄準(zhǔn) AI 初創(chuàng)公司,尤其是生成式 AI 藝術(shù)這一 領(lǐng)域。今年 9 月 23 日,紅杉美國(guó)官網(wǎng)發(fā)表了一篇名為《生成式 AI:一個(gè)創(chuàng)造性的新世 界》的文章,認(rèn)為 AIGC(AI-Generated Content 人工智能生成內(nèi)容)會(huì)代表新一輪范 式轉(zhuǎn)移的開始。 2022 年 10 月,英國(guó)開源人工智能公司 Stability AI 宣布獲得 1.01 億美元融資,估值高 達(dá) 10 億美元,躋身獨(dú)角獸行列,由 Coatue、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 參與投資。Stability AI 今年發(fā)布了 Stable Diffusion 的模型, 主要用于根據(jù)用戶輸入的文字描述自動(dòng)生成圖像。Stable Diffusion 的誕生讓 AI 繪畫這 個(gè)領(lǐng)域愈發(fā)火爆。最近,巴比特正式對(duì)外宣布,全面擁抱 AIGC,開始規(guī)?;捎?AI 配 圖,其中頭條圖片,全面由 AI 創(chuàng)作。包括但不限于巴比特網(wǎng)站和 APP,微信公眾號(hào)、百 家號(hào)、網(wǎng)易號(hào)等自媒體平臺(tái),以及微博等社交媒體賬號(hào)。
除了繪畫以外,文字、音頻、視頻均可通過 AI 來生成。
文字:以 Jasper 為例,以 AI 文字生成為主打產(chǎn)品,通過其文字生成功能,用戶可 以生成 Instagram 標(biāo)題,編寫 TikTok 視頻腳本、廣告營(yíng)銷文本、電子郵件內(nèi)容等工 作。截止 2021 年,Japer 已擁有超過 70000 位客戶,并創(chuàng)造了 4000 萬美元的收入。
音頻:以 Podcast.ai 為例,作為一個(gè)由 AI 生成的博客,每周都會(huì)探討一個(gè)話題。在 第一期節(jié)目中,其通過喬布斯的傳記和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,Play.ht 的語 言模型大量訓(xùn)練,最終生成了一段假 Joe Rogan 采訪喬布斯的播客內(nèi)容。
視頻:目前的 AI 技術(shù)不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。 經(jīng)過 160 小時(shí),完成 3 萬多張獨(dú)立插畫,再進(jìn)行手動(dòng)微調(diào)。雖然目前還只是在原腳 本和視頻的基礎(chǔ)上,通過 AI 逐幀完成圖片生成的,但看到了 AIGC 參與到視頻創(chuàng)作 中的可能。而在諸多垂直類應(yīng)用中,如體育、財(cái)經(jīng)等,已經(jīng)可以通過文字直接生成 相應(yīng)的短視頻,如果配上虛擬人則可以實(shí)現(xiàn)自動(dòng)播報(bào)。相比于單一的虛擬人讀稿, 基于 AIGC 生產(chǎn)的內(nèi)容在鏡頭轉(zhuǎn)換、表情動(dòng)作結(jié)合方面更加逼真。
隨著 NLP(Natural Language Processing,自然語言處理)技術(shù)和擴(kuò)散模型(Diffusion Model)的發(fā)展,AI 創(chuàng)造生成內(nèi)容成為了可能。此前,內(nèi)容生成主要運(yùn)用 GAN(Generative Adversarial Network,生成對(duì)抗網(wǎng)絡(luò))來實(shí)現(xiàn)的,GAN 不同于擴(kuò)散模型依賴于超大規(guī)模 語言模型,因此難以實(shí)現(xiàn)通過文字的描述,自主理解內(nèi)容并創(chuàng)造出圖像、視頻等。近年 來,隨著擴(kuò)散模型的成熟,生成方式更接近于人腦的聯(lián)想,AIGC 完成了內(nèi)容創(chuàng)造輔助工 具到內(nèi)容創(chuàng)作主體的角色轉(zhuǎn)變。
2. AIGC 是什么?
AIGC 是通過人工智能技術(shù)自動(dòng)生成內(nèi)容的生產(chǎn)方式。從 Web 1.0 的單向信息傳遞的“只 讀”模式到 Web 2.0 的人與人通過網(wǎng)絡(luò)雙向溝通交流的“交互”模式,內(nèi)容的需求在不 斷增加。為了滿足這一需求,同時(shí)也因?yàn)榛ヂ?lián)網(wǎng)的發(fā)展,內(nèi)容的生成從單一的 PGC 演變 到了現(xiàn)在的 UGC 并占據(jù)了主要市場(chǎng)。Youtube、Instagram、抖音、快手、B 站上有大量 的內(nèi)容來自于 UGC 創(chuàng)作者。當(dāng)我們邁入 Web3.0 時(shí)代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡(luò) 構(gòu)建,形成人與機(jī)器網(wǎng)絡(luò)的全面鏈接,內(nèi)容消費(fèi)需求飛速增長(zhǎng),UGC\PGC 這樣的內(nèi)容生 成方式將難以匹配擴(kuò)張的需求。
我們認(rèn)為,AIGC 將是 Web3 時(shí)代全新的內(nèi)容生成工具,同樣,將對(duì)現(xiàn)有的短視頻、游戲 及廣告行業(yè)帶來巨大的影響。AIGC 的生成利用人工智能學(xué)習(xí)知識(shí)圖譜、自動(dòng)生成,在內(nèi) 容的創(chuàng)作為人類提供協(xié)助或是完全由 AI 產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還 能提高內(nèi)容的多樣性。
2.1 AIGC 發(fā)展簡(jiǎn)史
AIGC 的發(fā)展可以大致分為以下三個(gè)階段: 早期萌芽階段:20 世紀(jì) 50 年代—90 年代中期,受限于科技水平,AIGC 僅限于小 范圍實(shí)驗(yàn); 沉積積累階段:20 世紀(jì) 90 年代中期—21 世紀(jì) 10 年代中期,AIGC 從實(shí)驗(yàn)向?qū)嵱棉D(zhuǎn) 變,受限于算法,無法直接進(jìn)行內(nèi)容生成 ; 快速發(fā)展階段:21 世紀(jì) 10 年代中期—現(xiàn)在,深度學(xué)習(xí)算法不斷迭代,AI 生成內(nèi)容 種類多樣豐富且效果逼真。 近年來,AIGC 的發(fā)展迅速,從原來作為邊緣側(cè)服務(wù)于企業(yè)、機(jī)構(gòu)的角色變?yōu)榱爽F(xiàn)在 C 端零基礎(chǔ)用戶都可以使用的創(chuàng)作工具。開發(fā)側(cè)重點(diǎn)上,AIGC 也從原先用于翻譯、語音合 成以及重復(fù)性工作轉(zhuǎn)變?yōu)榱烁⒅貞?yīng)用層面,用戶能夠便捷操作的方向。
2.2 技術(shù)
隨著 NLP(Natural Language Processing,自然語言處理)技術(shù)和擴(kuò)散模型(Diffusion Model)的發(fā)展,AI 不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。
自然語言處理技術(shù) NLP
自然語言處理是實(shí)現(xiàn)人與計(jì)算機(jī)之間如何通過自然語言進(jìn)行交互的手段。融合了語言學(xué)、 計(jì)算機(jī)學(xué)、數(shù)學(xué),使得計(jì)算機(jī)可以理解自然語言,提取信息并自動(dòng)翻譯、分析和處理。
在自然語言處理技術(shù)發(fā)展之前,人類只能通過一些固定模式的指令來與計(jì)算機(jī)進(jìn)行溝通, 這對(duì)于人工智能的發(fā)展是一個(gè)重大的突破。 自然語言處理最早可以追溯到 1950 年,圖靈發(fā)表論文“計(jì)算機(jī)器與智能”,提出“圖 靈測(cè)試”的概念作為判斷智能的條件。這一測(cè)試包含了自動(dòng)語意翻譯和自然語言生成。
自然語言處理技術(shù)可以分為兩個(gè)核心任務(wù):
自然語言理解 NLU:希望計(jì)算機(jī)能夠和人一樣,具備正常人的語言理解能力。過去, 計(jì)算機(jī)只能處理結(jié)構(gòu)化的數(shù)據(jù),NLU 使得計(jì)算機(jī)能夠識(shí)別和提取語言中的意圖來實(shí) 現(xiàn)對(duì)于自然語言的理解。由于自然語言的多樣性、歧義性、知識(shí)依賴性和上下文, 計(jì)算機(jī)在理解上有很多難點(diǎn),所以 NLU 至今還遠(yuǎn)不如人類的表現(xiàn)。 自然語言理解跟整個(gè)人工智能的發(fā)展歷史類似,一共經(jīng)歷了 3 次迭代:基于規(guī)則的 方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。
自然語言生成 NLG:將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式,如文章、 報(bào)告等。NLG 的發(fā)展經(jīng)歷了三個(gè)階段,從早期的簡(jiǎn)單的數(shù)據(jù)合并到模板驅(qū)動(dòng)模式再 到現(xiàn)在的高級(jí) NLG,使得計(jì)算機(jī)能夠像人類一樣理解意圖,考慮上下文,并將結(jié)果 呈現(xiàn)在用戶可以輕松閱讀和理解的敘述中。自然語言生成可以分為以下六個(gè)步驟: 內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語法化、參考表達(dá)式生成和語言實(shí)現(xiàn)。
NLP 主要被應(yīng)用在四個(gè)方面: 情感分析:互聯(lián)網(wǎng)上存在大量的信息,表達(dá)的內(nèi)容都是多種多樣的,但抒發(fā)的感情 大致可以分為正面和負(fù)面的,可以被用來快速了解用戶的輿情情況。 聊天機(jī)器人:近年來,智能家居的發(fā)展和普及使得聊天機(jī)器人的價(jià)值擴(kuò)大。 語音識(shí)別:微信中可以通過語音進(jìn)行輸入或直接將語音轉(zhuǎn)化為文字,汽車導(dǎo)航可以 直接說目的地,大大提升了便利性。 機(jī)器翻譯:機(jī)器翻譯的準(zhǔn)確率在近年大幅提高,youtube 和 netflix 甚至可以做到視 頻機(jī)器翻譯。
商業(yè)上,NLP 主要被應(yīng)用在一下領(lǐng)域: 用于處理財(cái)務(wù)、醫(yī)療保健、零售、政府和其他部門手寫或機(jī)器建立檔案 。 文字處理工作,如:名稱實(shí)體辨識(shí)(NER)、分類、摘要和關(guān)聯(lián)擷取。這能將 擷取、識(shí)別和分析文檔資訊的流程自動(dòng)化。 語意搜尋和資訊擷取和知識(shí)圖表建立 。 跨零售、財(cái)務(wù)、旅游和其他產(chǎn)業(yè)客戶的交互 AI 系統(tǒng)等。
神經(jīng)網(wǎng)絡(luò),尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是當(dāng)前 NLP 的主要方法的核心。其中,2017 年由 Google 開發(fā)的 Transformer 模型現(xiàn)已逐步取代長(zhǎng)短期記憶(LSTM)等 RNN 模型成為了 NLP 問題的首選模型。Transformer 的并行化優(yōu)勢(shì)允許其在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這 也促成了 BERT、GPT 等預(yù)訓(xùn)練模型的發(fā)展。這些系統(tǒng)使用了維基百科、Common Crawl 等大型語料庫進(jìn)行訓(xùn)練,并可以針對(duì)特定任務(wù)進(jìn)行微調(diào)。
Transformer 模型是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,這一機(jī)制可以按輸入數(shù)據(jù)各 部分重要性的不同而分配不同的權(quán)重。除了 NLP 以外,也被用于計(jì)算機(jī)視覺領(lǐng)域。與循 環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入數(shù)據(jù),可應(yīng)用 于翻譯、文本摘要等任務(wù)。而與 RNN 不同的是,Transformer 模型能夠一次性處理所有 輸入數(shù)據(jù)。注意力機(jī)制可以為輸入序列中的任意位置提供上下文。如果輸入數(shù)據(jù)是自然 語言,則 Transformer 不必像 RNN 一樣一次只處理一個(gè)單詞,這種架構(gòu)允許更多的并行 計(jì)算,并以此減少訓(xùn)練時(shí)間。
AIGC 生成模型
近年來,AIGC 的快速發(fā)展歸功于生成算法領(lǐng)域的技術(shù)積累,其中包含了:生成對(duì)抗網(wǎng)絡(luò) (GAN)、變微分自動(dòng)編碼器(VAE)、標(biāo)準(zhǔn)化流模型(NFs)、自回歸模型(AR)、能 量模型和擴(kuò)散模型(Diffusion Model)??梢钥吹?,大模型、大數(shù)據(jù)、大算力是未來的 發(fā)展趨勢(shì)。我們認(rèn)為,算法模型的突破是近年來 AIGC 得以快速突破的催化劑,下面將 展開介紹一下兩個(gè)非常常用的模型,分別是生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型。
生成對(duì)抗網(wǎng)絡(luò) GAN(Generative Adversarial Networks)
2014 年,Ian J.Goodfellow 提出了 GAN,是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由一個(gè)生成網(wǎng) 絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)產(chǎn)生“假”數(shù)據(jù),并試圖欺騙判別網(wǎng)絡(luò);判別網(wǎng) 絡(luò)對(duì)生成數(shù)據(jù)進(jìn)行真?zhèn)舞b別,試圖正確識(shí)別所有“假”數(shù)據(jù)。在訓(xùn)練迭代的過程中, 兩個(gè)網(wǎng)絡(luò)持續(xù)地進(jìn)化和對(duì)抗,直到達(dá)到平衡狀態(tài),判別網(wǎng)絡(luò)無法再識(shí)別“假”數(shù)據(jù), 訓(xùn)練結(jié)束。
GAN 被廣泛應(yīng)用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構(gòu)的人 物、場(chǎng)景,模擬人臉老化,圖像風(fēng)格變換,以及產(chǎn)生化學(xué)分子式等等。
其優(yōu)點(diǎn)在于: 能更好建模數(shù)據(jù)分布。 無需利用馬爾科夫鏈反復(fù)采樣,無需在學(xué)習(xí)過程中進(jìn)行推斷,沒有復(fù)雜的變分 下界,避開近似計(jì)算棘手的概率的難題 缺點(diǎn): 難訓(xùn)練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實(shí)際訓(xùn)練中很 容易判別器收斂,生成器發(fā)散。兩者的訓(xùn)練需要精心的設(shè)計(jì)。模式缺失(Mode Collapse)問題。GANs 的學(xué)習(xí)過程可能出現(xiàn)模式缺失,生成 器開始退化,總是生成同樣的樣本點(diǎn),無法繼續(xù)學(xué)習(xí)。
擴(kuò)散模型 Diffusion Model
擴(kuò)散模型是一種新型的生成模型,可生成各種高分辨率圖像。在 OpenAI,Nvidia 和 Google 設(shè)法訓(xùn)練大模型之后,它們已經(jīng)引起了很多關(guān)注?;跀U(kuò)散模型的示例架 構(gòu)包括 GLIDE,DALLE-2,Imagen 和完全開源的穩(wěn)定擴(kuò)散。擴(kuò)散模型已經(jīng)擁有了成 為下一代圖像生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文本描述生 成圖像,讓計(jì)算機(jī)也擁有了人的創(chuàng)造力。
擴(kuò)散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期 AIGC 擁有了開放性的創(chuàng)造力。本質(zhì)上,擴(kuò)散模型的工作原理是通過連續(xù)添加高斯噪聲來 破壞訓(xùn)練數(shù)據(jù),然后通過反轉(zhuǎn)這個(gè)噪聲過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。訓(xùn)練后,我們可以通 過簡(jiǎn)單地將隨機(jī)采樣的噪聲傳遞給學(xué)習(xí)的去噪過程來生成數(shù)據(jù)。
相比于其他模型,擴(kuò)散模型的優(yōu)勢(shì)在于生成的圖像質(zhì)量更高,且無需通過對(duì)抗性訓(xùn) 練,這使得其訓(xùn)練的效率有所提升。同時(shí),擴(kuò)散模型還具有可擴(kuò)展性和并行性。
高斯噪聲是一種概率密度函數(shù)符合正態(tài)分布的函數(shù),當(dāng) AIGC 運(yùn)用擴(kuò)散模型來生成內(nèi)容 的時(shí)候,是通過在一副純白的畫布(隨機(jī)白噪聲)上逐步去噪來生成最終的目標(biāo)畫作。 即用戶給出的文本描述形容詞,來從一個(gè)模糊的概念逐步具象。我們可以簡(jiǎn)化為多個(gè)正 態(tài)分布函數(shù)的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個(gè)逐步縮小范圍的過程。 這與人類的思維模式很類似。 簡(jiǎn)言之,在 AI 訓(xùn)練階段,我們將數(shù)據(jù)集中上億組圖文對(duì)進(jìn)行訓(xùn)練,提取特征值;生產(chǎn)過 程中,通過添加文字描述,引入不同的特征值進(jìn)行去噪,從而生產(chǎn)一副 AI 理解下的內(nèi)容 作品。例如,在當(dāng)我們?cè)谀X海中想象一個(gè)畫面的時(shí)候,比如:一只柯基通過一個(gè)小號(hào)玩 火焰。我們的思維模式也是先有一只柯基,再去想象小號(hào)和火焰,最后將這些元素疊加在柯基身上。
簡(jiǎn)述完原理以后,我們可以通過目前非常先進(jìn)的 AI 圖像生成應(yīng)用 DALL-E2 來舉例闡述 具體的工作過程: 將文本提示輸入到一個(gè)經(jīng)過訓(xùn)練能夠?qū)⑻崾居成涞奖硎究臻g的文本編碼器中; 通過一個(gè)被稱為“先驗(yàn)”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一 圖像編碼器會(huì)捕獲文本編碼包含的信息和語義; 圖像編碼器隨機(jī)生成一個(gè)圖像,這一圖像是該語義信息的視覺表現(xiàn)。 這一個(gè)過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念, 目前主流的文本編碼器是來自于 OpenAI 的 Clip 模型,其通過 4 億組文字-圖片對(duì)進(jìn)行訓(xùn) 練。當(dāng)然,其中的模型訓(xùn)練都是基于英文實(shí)現(xiàn),語言的區(qū)別又會(huì)給 AIGC 帶來另一重挑 戰(zhàn)。
除了上述提到的自然語言處理技術(shù)和 AIGC 生成算法模型以外,超級(jí)計(jì)算機(jī)和算力這些 硬件作為基礎(chǔ)設(shè)施也是不可或缺的。在機(jī)器學(xué)習(xí)的過程中,需要通過大量的訓(xùn)練來實(shí)現(xiàn) 更準(zhǔn)確的結(jié)果,這樣的計(jì)算量普通的電腦是無法完成的,目前主要由英偉達(dá) A100 構(gòu)建 的計(jì)算集群完成,而國(guó)內(nèi)外的初創(chuàng)企業(yè)也會(huì)通過云實(shí)現(xiàn)。
2.3 當(dāng)我們開始用 AIGC——商業(yè)模式的探索
AIGC 已被廣泛應(yīng)用在文字、圖像、音頻、游戲和代碼的生成當(dāng)中,一些較早創(chuàng)立的企業(yè) 已經(jīng)實(shí)現(xiàn)了較好的商業(yè)化。尤其在一些具備高重復(fù)性的任務(wù)、對(duì)于精度要求并不那么高 的領(lǐng)域應(yīng)用較為成熟。隨著 AIGC 技術(shù)的發(fā)展,其適用面將會(huì)逐漸擴(kuò)大。這類 AIGC 服務(wù) 的提供商大多數(shù)時(shí)候會(huì)以提供 SaaS 服務(wù)的形式變現(xiàn)。
文字創(chuàng)作
AIGC 生成文字目前主要被應(yīng)用于新聞的撰寫、給定格式的撰寫以及風(fēng)格改寫。其中, 有一家成立還不滿兩年的獨(dú)角獸企業(yè) Jasper 在最新一輪的融資里獲得了 1.25 億美 元資金,目前估值為 15 億美元。Jasper 成立于 2021 年,是一個(gè) AI 內(nèi)容平臺(tái),允 許個(gè)人和團(tuán)隊(duì)利用 AI 來創(chuàng)作內(nèi)容,多用于商業(yè)。用戶可以在借助 Jasper 生成具有 豐富關(guān)鍵詞、搜索引擎優(yōu)化的原創(chuàng)博客,可以通過文字描述讓 Jasper 幫助完成文章 的創(chuàng)作、創(chuàng)建廣告話術(shù)。通過 Jasper 用戶可以尋找創(chuàng)作思路、高效完成文案、突破 語言壁壘,而不會(huì)存在抄襲的嫌疑。目前,Jasper 擁有 7 萬多名客戶,包括 Airbnb、 Ibm 等企業(yè)。僅 2021 年一年便創(chuàng)造了 4000 萬美元的收入,今年預(yù)估收入為 9000 萬美元。
用戶可以通過輸入一段對(duì)于目標(biāo)文章的描述或者要求,系統(tǒng)會(huì)自動(dòng)抓取數(shù)據(jù),根據(jù)我們 描述的指令進(jìn)行創(chuàng)作。作者本人進(jìn)行如下實(shí)驗(yàn),輸入的描述為【寫一篇關(guān)于 AIGC 的文 章,其中要包含 AIGC 的定義、發(fā)展史、應(yīng)用、現(xiàn)階段發(fā)展情況和對(duì)于未來發(fā)展趨勢(shì)的 看法,同時(shí),要包含細(xì)節(jié)和舉例】。同時(shí),在風(fēng)格上我選擇了“專業(yè)性”。Jasper 很快 就生成了一篇 AIGC 撰寫的 AIGC 文章(如下圖所示),可以看到這篇文章語義通順,按 照我們給出的描述逐段闡述,并且包含了一些舉例,這個(gè)生成效果無疑會(huì)大幅度提升人 類的寫作效率。 并且,在 Jasper 的網(wǎng)頁版 APP 上,還給出了數(shù)百種模板,可以根據(jù)需求更好的完成作品。
圖像創(chuàng)作
MidJourney 降低了藝術(shù)繪畫創(chuàng)作的門檻,用戶只需要通過輸入文字描述,計(jì)算機(jī)將 會(huì)自動(dòng)生成一張作品。其背后的邏輯在于計(jì)算機(jī)通過 NLP 識(shí)別語意并翻譯成計(jì)算機(jī) 語言,結(jié)合后臺(tái)的數(shù)據(jù)集(這些數(shù)據(jù)集主要通過自有素材或機(jī)器人爬取公開版權(quán)的 內(nèi)容獲得),創(chuàng)作出一副全新的作品。這樣產(chǎn)生的作品原則上屬于 AI 創(chuàng)作,因此, 在新聞媒體等平臺(tái)被廣泛使用,不僅減少了成本,同時(shí)避免了潛在的版權(quán)糾紛風(fēng)險(xiǎn)。 除此以外,在抖音、微信等社交平臺(tái)上,已經(jīng)有一些數(shù)據(jù)集圖庫博主通過 AIGC 創(chuàng) 造素材并結(jié)合自己的私域流量進(jìn)行商業(yè)變現(xiàn)。
近期,OpenAI 已經(jīng)與全球最大的版權(quán)圖片供應(yīng)商之一的 Shutterstock 達(dá)成深度合 作,Shutterstock 將開始出售利用 OpenAI 的 DALL-E 生成的圖片,并禁止銷售非 DALL-E 生成的圖片,完成深度獨(dú)家綁定。 AIGC 除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉(zhuǎn) 換,這在寫專利時(shí)可以被用到。
視頻創(chuàng)作
除了繪畫以外,AIGC 也能夠被運(yùn)用在視頻創(chuàng)作中。Google 推出了 AI 視頻生成模型 Phenaki 能夠根據(jù)文本內(nèi)容生成可變時(shí)長(zhǎng)視頻的技術(shù),在公布的 DEMO 中,Phenaki 基于幾百個(gè)單詞組成一段前后邏輯連貫的視頻只需兩分鐘。相比原有的 Imagen 基礎(chǔ)上衍生的 Imagen Video 瞄準(zhǔn)短視頻,Phenaki 瞄準(zhǔn)的是長(zhǎng)視頻。AIGC 視頻中的 運(yùn)用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高 內(nèi)容產(chǎn)出的效率和多樣性。
音頻剪輯
AIGC 生成音頻早被應(yīng)用于我們的日常生活當(dāng)中。我們常用的手機(jī)導(dǎo)航,可以切換不 同明星甚至于卡通人物的語音提示。這是通過提前請(qǐng)明星或卡通人物的配音朗讀完 成一個(gè)語音庫,再通過反復(fù)的訓(xùn)練學(xué)習(xí)使得可以用指定的聲音說出任何話。我們自 己也可以通過高德地圖錄制自己的語音導(dǎo)航包。而更深層次的應(yīng)用將會(huì)是虛擬人領(lǐng) 域,AIGC 不僅可以生成虛擬人的聲音,并可以創(chuàng)造出說的內(nèi)容。虛擬人在未來有望 和我們一樣表達(dá)自己的想法,靈魂逐步顯現(xiàn)。
游戲開發(fā)
AIGC 在游戲當(dāng)中的應(yīng)用可以分為兩方面,一方面是用于場(chǎng)景和故事的搭建。開放世 界游戲越來越受歡迎,通過 AIGC 來創(chuàng)建場(chǎng)景和 NPC 都將會(huì)大幅度提升效率和降低 成本。另一方面,玩家可以通過 AIGC 的平臺(tái)工具來創(chuàng)建自己的虛擬人,可以用于 游戲中的打金等活動(dòng)。有一家叫做 Delysium 的游戲已經(jīng)開始引入這一功能?;蛟S在 未來的開放世界游戲中,不同的玩家將對(duì)應(yīng)不同的游戲劇情和副本,這無疑將是令 人興奮的應(yīng)用。
代碼生成
GitHub Copilot 是一個(gè) GitHub 和 OpenAI 合作產(chǎn)生的 AI 代碼生成工具,可根據(jù)命名 或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來自 GitHub 上公開可用存儲(chǔ)庫的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語言。
3.AIGC 的未來發(fā)展趨勢(shì)
AIGC 是 PGC、UGC 之后,全新的內(nèi)容生產(chǎn)方式。不僅能提升內(nèi)容生產(chǎn)的效率以滿足我 們飛速增長(zhǎng)的內(nèi)容需求,也能夠豐富內(nèi)容的多樣性。在 2022 年百度世界大會(huì)上,李彥 宏提到了:“AIGC 將走過三個(gè)發(fā)展階段:第一個(gè)階段是“助手階段”,AIGC 用來輔助人類進(jìn)行內(nèi)容生產(chǎn);第二個(gè)階段是“協(xié)作階段”,AIGC 以虛實(shí)并存的虛擬人形態(tài)出現(xiàn), 形成人機(jī)共生的局面;第三個(gè)階段是“原創(chuàng)階段”,AIGC 將獨(dú)立完成內(nèi)容創(chuàng)作。未來十 年,AIGC 將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速 度,去生成 AI 原創(chuàng)內(nèi)容?!?/p>
3.1 面臨的挑戰(zhàn)
技術(shù)上來看,雖然當(dāng)前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問題使 得無法滿足較高的質(zhì)量要求。我們可以發(fā)現(xiàn)在二次元或抽象的圖片生成中,AIGC 的表現(xiàn) 較好。但對(duì)于比較具體和細(xì)節(jié)的內(nèi)容,生成的效果不盡如人意。 下圖是筆者通過 AIGC 生成的一副“美女與布偶貓”的圖片,從這一張圖片我們可以發(fā) 現(xiàn)有兩個(gè)問題: 其中有兩幅圖片的貓咪眼睛很奇怪,在這些細(xì)節(jié)描繪上還無法和真人畫師媲美。 輸入的關(guān)鍵詞是“美女”與“布偶貓”,但是生成的“美女”均長(zhǎng)著一張貓臉,從 這里反映出 AIGC 繪畫會(huì)出現(xiàn)一些空間位置以及數(shù)量上的偏差。產(chǎn)生的原因主要還 是來源于語義理解和處理上的問題。
與此同時(shí),參考上文中的圖表 23,我們可以發(fā)現(xiàn)不同的應(yīng)用平臺(tái),輸入幾乎一致信息點(diǎn) 的文本,生成的圖片的質(zhì)量和內(nèi)容差距是巨大的。 那么造成以上的這些問題和差距的原因在哪里呢?我們依舊可以從 AIGC 的工作原理上 來分析: 自然語義的理解在處理一些空間關(guān)系上還存在一定的誤差,這也是為什么在空間位 置、數(shù)量上存在不精確的問題。 目前文本生成圖像時(shí),需要用到文本編碼器將文字映射到圖像上。當(dāng)前主流的、訓(xùn) 練完善的是來自與 OpenAI 的 Clip 模型,其函數(shù)是開源的,但訓(xùn)練的數(shù)據(jù)集是封閉 的。AIGC 需要大量的良好畫質(zhì)的文本-圖片對(duì)才能訓(xùn)練到 Clip 這樣的程度。從 Clip 本身公開的信息來看,它使用了超 4 億個(gè)文本-圖片對(duì)來完成訓(xùn)練,這些都是基于英 文的。那么存在以下幾個(gè)問題:1、億級(jí)別的高質(zhì)量的文本-圖片對(duì)在于其他的語言上獲得的難度大幅提高,這也是為什么目前大多除英語外的其他語言的 AIGC 都是 需要在整個(gè)流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言 習(xí)慣等潛在的因素,很難被精確翻譯,對(duì)于翻譯模型的挑戰(zhàn)很大。2、Clip 的模式很 難復(fù)刻,即使運(yùn)用 Clip 開源的函數(shù),基于不同的數(shù)據(jù)庫訓(xùn)練出的結(jié)果不同。據(jù)我們 了解,海外有團(tuán)隊(duì)運(yùn)用了 20 億的文本-圖片對(duì)才接近復(fù)刻了 Clip; 運(yùn)用的 AIGC 生成算法不同也會(huì)導(dǎo)致產(chǎn)生的內(nèi)容的差距; 數(shù)據(jù)集的質(zhì)量、合規(guī)性、風(fēng)格偏向都會(huì)決定生成的內(nèi)容質(zhì)量。
3.2 未來的發(fā)展方向
在上文中,我們了解到從應(yīng)用軟件方面,自然語言處理、翻譯模型、生成算法和數(shù)據(jù)集 這些細(xì)分賽道都還有很大的進(jìn)步空間。更深入地來看,以上這些的發(fā)展需要依托于算力、 數(shù)據(jù)的支持。所以未來的發(fā)展重點(diǎn)將更著力于大模型、大數(shù)據(jù)和大算力的方向去發(fā)展。 同時(shí),為了讓功能更加精確,將會(huì)更多地去開發(fā)一些垂直類的應(yīng)用,畢竟垂直類的應(yīng)用 可以更有針對(duì)性地為特定功能進(jìn)行訓(xùn)練,成本相對(duì)較低。
4.投資分析:AIGC 的軟硬件與數(shù)據(jù)集
從 PGC 到 UGC 再到 AIGC,AIGC 能讓人類突破內(nèi)容生產(chǎn)力枷鎖,高效率生成高質(zhì)量?jī)?nèi) 容,讓人類進(jìn)入到真正的元宇宙之中。若要 AIGC 能夠滿足元宇宙的需求,獨(dú)立完成高 質(zhì)量、高精度的內(nèi)容,AIGC 技術(shù)層面還需要一定的發(fā)展,我們可以分為軟硬件兩個(gè)維度 看,軟件層面主要包括自然語言處理技術(shù)、AIGC 生成算法模型和數(shù)據(jù)集,硬件層面主要 是算力、通信網(wǎng)絡(luò)。 從業(yè)務(wù)層面看,結(jié)合國(guó)內(nèi)外發(fā)展情況,目前在 AIGC 的知識(shí)產(chǎn)權(quán)歸屬方面尚有法律空缺, 且創(chuàng)作倫理問題也未得到有效解決,因此無論是技術(shù)還是商業(yè)層面,高質(zhì)、干凈的數(shù)據(jù) 集對(duì)于模型訓(xùn)練及內(nèi)容生成均有至關(guān)重要的影響。同時(shí),隨著 AIGC 逐步落地,其算力 需求將大增,未來相關(guān)企業(yè)除用云計(jì)算之外,或組建自有算力集群,考慮到英偉達(dá) A100、 H100 出口受限,相關(guān)國(guó)產(chǎn)算力芯片將有機(jī)會(huì)獲得增量市場(chǎng)。
從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3 均描述了數(shù)字經(jīng)濟(jì)時(shí)代中宏大的應(yīng)用場(chǎng) 景,而去年被資本市場(chǎng)關(guān)注的虛擬人、NFT 等只是其中的具體應(yīng)用之一。我們認(rèn)為,AIGC 將是推動(dòng)數(shù)字經(jīng)濟(jì)從 Web2 向 Web3 升級(jí)的重要生產(chǎn)力工具:一方面,其對(duì)現(xiàn)有的殺手 級(jí)應(yīng)用——短視頻、游戲等具有顛覆式影響,或進(jìn)一步擴(kuò)大內(nèi)容量、提高成癮性,同時(shí) 對(duì)社交和廣告提供新的工具;另一方面,Web3 開放、共建的價(jià)值觀下,UGC、AIGC 的 內(nèi)容會(huì)更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前 AIGC 已成為硅谷最新熱 門方向,國(guó)內(nèi)一級(jí)市場(chǎng)、互聯(lián)網(wǎng)大廠等對(duì) AIGC 應(yīng)用關(guān)注度也在快速提升中。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)
本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/85212.html