吟詩繪畫無所不能,AIGC 緩解 ” 內(nèi)容荒 “
面對同一個(gè)月亮,每一個(gè)人會(huì)有不同的心境,今年元宵節(jié) AI 讓每一個(gè)人都有一個(gè)與眾不同的 ” 月亮 “:用戶只需要選定希望賞月的地點(diǎn),百度飛槳文心大模型就能快速理解并聯(lián)想創(chuàng)意,運(yùn)用習(xí)得的知名藝術(shù)家的技法和畫風(fēng),創(chuàng)作出符合主題的畫作。比如,國際奧委會(huì)成員小薩馬蘭奇想看他家鄉(xiāng)西班牙的月,AI 就畫出一副南歐風(fēng)景,畫風(fēng)也是西式油畫。短道速滑運(yùn)動(dòng)員韓天宇想看北京的月,AI 畫風(fēng)也切換得更像中式山水。重點(diǎn)是,所有這些畫都是 AI 全新創(chuàng)作的,在網(wǎng)上不會(huì)有一模一樣的,是每一個(gè)用戶的 ” 專屬 ” 福利。
每個(gè)人都可以畫出一幅代表自己的獨(dú)享月景美圖,這背后是百度 AI。
以前,作畫有著很高的門坎,心中有感但無從下筆讓很多用戶心生遺憾。隨著 AI 能力的提升,AIGC(AI generated content,即通過人工智能技術(shù)來自動(dòng)生成內(nèi)容的生產(chǎn)方式)讓內(nèi)容生產(chǎn)變得更容易、更個(gè)性。你會(huì)發(fā)現(xiàn),今天的 AI 已經(jīng)可以寫詩、作曲、繪畫、剪輯、翻譯,應(yīng)用范圍不斷擴(kuò)大,逐漸成為內(nèi)容生產(chǎn)的一支重要力量。
當(dāng)年 UGC、PGC 的興起,使得內(nèi)容產(chǎn)業(yè)的繁榮度邁上一個(gè)新的臺階,而今天 AIGC 的興起,不僅會(huì)將內(nèi)容產(chǎn)業(yè)的繁榮推向新的高度,也將對社會(huì)的演進(jìn)產(chǎn)生更深遠(yuǎn)的影響。
AI
內(nèi)容需求引爆 AIGC
我們正在走向智能世界,AI 的應(yīng)用將無處不在。內(nèi)容創(chuàng)作領(lǐng)域,AI 也在不斷深入。
2016 年里約奧運(yùn)會(huì)上,一個(gè)可以寫稿的機(jī)器人記者亮相,它可在賽事結(jié)束兩秒內(nèi)出稿,效率大大高于人類。六年后的北京冬奧上,百度智能云聯(lián)合央視新聞推出了 AI 手語主播,這個(gè)數(shù)字人,可以 24 小時(shí)不間斷為觀眾播報(bào)奧運(yùn)賽況,而且不像寫作那種單線程作業(yè),她需要根據(jù)真人主播語音、實(shí)時(shí)視頻畫面,轉(zhuǎn)換成手語手勢,是更為復(fù)雜的創(chuàng)作。
這其中我們看到一個(gè)顯著的變化:以前 AI 只是輔助內(nèi)容創(chuàng)作的工具,而今天 AI 已經(jīng)可以成為創(chuàng)作的主體,能夠獨(dú)立完成寫作、設(shè)計(jì)、繪畫等創(chuàng)意性工作。雖然大家普遍認(rèn)為今天的 AIGC 還比較初級,但行業(yè)正在發(fā)生質(zhì)的變化。
如果說寫作、剪視頻是某個(gè)專業(yè)領(lǐng)域的專用人工智能,AIGC 更像是通用人工智能的應(yīng)用。專用人工智能面向特定任務(wù),任務(wù)單一、需求明確、應(yīng)用邊界清晰、領(lǐng)域知識豐富、建模相對簡單。而通用人工智能,就像人的大腦,能舉一反三、融會(huì)貫通,可處理視覺、聽覺、判斷、推理、學(xué)習(xí)、思考等各類問題,可謂 ” 一腦萬用 “。
比如這兩年大火的數(shù)字人就是 AIGC 的一個(gè)典型代表。此前,百度推出了百度智能云曦靈數(shù)字人平臺——集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的平臺級產(chǎn)品。如今,用戶在百度智能云曦靈平臺上傳一張照片,就能快速生成一個(gè)可被 AI 驅(qū)動(dòng)的 2D 數(shù)字人像,以前需要兩三個(gè)月時(shí)間做出來的 3D 數(shù)字人,現(xiàn)在可以壓縮到小時(shí)級,同時(shí)基于百度多年的 AI 技術(shù)沉淀,一站式實(shí)現(xiàn)數(shù)字人的 ” 能聽、能說、能理解、可互動(dòng) “,進(jìn)一步降低數(shù)字人的應(yīng)用門檻。
隨著 AI 技術(shù)的成熟,今天數(shù)字人已經(jīng)在互娛、金融、政務(wù)、零售等更多行業(yè)發(fā)揮作用。比如百度最近發(fā)布的數(shù)字虛擬偶像希加加,它不僅有具有語言、面部表情和肢體動(dòng)作表達(dá)能力,能夠像人一樣對話、行動(dòng),更重要的是可進(jìn)行自主學(xué)習(xí)及迭代,還可以基于 AI 能力進(jìn)行創(chuàng)作快速生成內(nèi)容。目前,百度打造的數(shù)字人已遍布各行各業(yè),除了前面提到的央視新聞 AI 手語主播,還有央視網(wǎng)虛擬小編小 C、百度 App 代言人龔俊數(shù)字人、交行信用卡客服數(shù)字人等,為不同應(yīng)用場景提供虛擬數(shù)字人服務(wù)。
從 AI 寫作、AI 繪畫、AI 作曲、AI 設(shè)計(jì),到數(shù)字人,AIGC 火爆的背后是用戶對于內(nèi)容的需求得不到滿足,迫切需要內(nèi)容產(chǎn)業(yè)升級迭代。
首先,文無第一、文無定形都是自古以來就有的說法,這背后是用戶對內(nèi)容審美的個(gè)性化,同一篇文章、同一幅畫、同一款設(shè)計(jì),每個(gè)用戶的喜愛程度都不同。特別是當(dāng)下 Z 時(shí)代年輕人已經(jīng)成為互聯(lián)網(wǎng)內(nèi)容的消費(fèi)主體,他們的個(gè)體意識很強(qiáng),每一個(gè)人都是獨(dú)立的思維主體,不盲目從眾,這對內(nèi)容的個(gè)性化、分眾化、豐富化提出更高的要求。
其次,在移動(dòng)互聯(lián)網(wǎng)普及下,內(nèi)容形態(tài)也不斷豐富,文字、圖片、音樂、短視頻、直播、游戲,內(nèi)容需求無處不在,用戶每天消費(fèi)的內(nèi)容不斷增加,但是靠人力創(chuàng)作已經(jīng)很難滿足需求的增長。即使是 UGC、PGC 普及,但所有的創(chuàng)作對專業(yè)性都有一定的要求,創(chuàng)作者的數(shù)量和能力成為內(nèi)容增長的瓶頸。
最后,我們看得更遠(yuǎn)一些,無論是元宇宙還是 Web3.0,下一代互聯(lián)網(wǎng)的繁榮也需要海量的數(shù)字內(nèi)容,同時(shí)對內(nèi)容的數(shù)量、形式和交互性都提出了更高的要求。從這個(gè)角度看,AIGC 顯得尤為必要。如果說,UGC、PGC 是 Web2.0 時(shí)代的標(biāo)志之一,那么 AIGC 將是 Web3.0 的重要標(biāo)志,AIGC 的興起也是通往元宇宙的必經(jīng)之路。
AI
生產(chǎn)工具的進(jìn)化,
大模型讓 AIGC 成為可能
生產(chǎn)力是推進(jìn)社會(huì)變革的根本動(dòng)力,生產(chǎn)工具則是生產(chǎn)力發(fā)展水平的客觀尺度,也是劃分經(jīng)濟(jì)時(shí)代的物質(zhì)標(biāo)志。從鉆木取火到機(jī)器大生產(chǎn),從電氣化到人工智能,生產(chǎn)力的發(fā)展帶動(dòng)社會(huì)躍遷。相比 UGC、PGC,AIGC 是生產(chǎn)工具的變革,對于內(nèi)容產(chǎn)業(yè)的影響也更大。
這個(gè)生產(chǎn)工具就是 AI 大模型。所謂大模型,是相對小模型來說的。過去的幾年,AI 模型基本上是針對特定應(yīng)用場景需求進(jìn)行訓(xùn)練的小模型。小模型有幾個(gè)弊端,一是通用性差,它常常是利用特定領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練,無法適用另一個(gè)場景;二是自動(dòng)性差,需要 AI 工程人員進(jìn)行手工調(diào)參、調(diào)優(yōu);三是需要大量數(shù)據(jù),如果數(shù)據(jù)量少,訓(xùn)練出來的模型精度會(huì)存在問題。
大模型當(dāng)然比小模型規(guī)模大,它是大數(shù)據(jù)集和大算力的結(jié)合,能夠顯著克服上述弊端。首先,它的通用性更強(qiáng),比如百度推出的文心大模型,面向不同的任務(wù)、在不同的應(yīng)用場景里做少量任務(wù)數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),就可以應(yīng)用于很多場景。其次,它不需要大量標(biāo)注數(shù)據(jù),同一模型利用少量數(shù)據(jù)進(jìn)行微調(diào)或不進(jìn)行微調(diào)就能完成多個(gè)場景的任務(wù)。再次,它不像小模型那樣需要 AI 工程人員手工調(diào)參,更像是 ” 無人駕駛 “。
以往的 AI 寫詩,就是依賴小模型,提前給人工智能輸入海量詩句相關(guān)數(shù)據(jù),就可以做到 AI 寫詩,但這一模型僅適用于寫詩,無法用在寫新聞、剪視頻等場景。但有了大模型,AI 不僅可以寫詩,還能寫新聞、剪視頻、播音,甚至作曲。換句話說,大模型之前,AI 只能單一實(shí)現(xiàn)聽、讀、寫,大模型之后,AI 可以同時(shí)聽說讀寫,變得更加聰明。
如果說,小模型是 ” 白盒 ” 模式,輸入什么數(shù)據(jù),在盒子里如何流動(dòng)如何輸出需要 AI 工程人員操作,也就是說外界可以看得一清二楚。而 AIGC 則是 ” 黑盒 ” 模式,輸入數(shù)據(jù)后到產(chǎn)出結(jié)果之間,外界看不到。它的工作原理更像人類大腦,就像作曲家創(chuàng)作一首傳世曲目,人們都覺得好聽,但無法知道他的大腦是如何運(yùn)轉(zhuǎn)、怎么完成創(chuàng)作的。
動(dòng)畫片《海爾兄弟》第一集有這樣一個(gè)畫面,全世界的書籍、電腦、電視里的文字、視頻、音頻等一起被吸進(jìn) ” 海爾兄弟 ” 的身體。當(dāng)海爾兄弟睜開雙眼,他們便具備了全世界最聰明的腦袋,能看、能聽、能說。從這一點(diǎn)看,大模型的運(yùn)作模式跟海爾兄弟有些類似。
文章開頭提到的 AI 手語主播,不僅有 ” 好看的皮囊 “,還有 ” 有趣的靈魂 “,能 ” 聽懂 ” 真人主播的話,并實(shí)時(shí)轉(zhuǎn)換成手語動(dòng)作。她就是依賴于百度文心大模型。
百度文心大模型有兩大特點(diǎn),亦是優(yōu)勢:一是文心大模型具備 ” 知識增強(qiáng) ” 的核心特色,因此學(xué)習(xí)效率更高、效果更好,具有通用性好、泛化性強(qiáng)的特點(diǎn)。二是可以做到跨模態(tài)。什么是模態(tài)?文字、聲音、圖像都是一種模態(tài),跨模態(tài)就是人工智能可以做到像人一樣同時(shí)聽懂語音、看懂圖像視頻、理解語言。
正是基于這樣的特點(diǎn),百度 AI 可以更好地支撐 AIGC 落地。比如,知識增強(qiáng)跨模態(tài)生成大模型 ERNIE-ViLG,具備圖文雙向生成能力,既可以根據(jù)文本自動(dòng)創(chuàng)作符合文字描述、且效果逼真的圖像,也可以理解畫面,用簡潔的語言描述畫面的內(nèi)容,還夠根據(jù)圖片中的場景回答相關(guān)的問題。再比如全球首個(gè)知識增強(qiáng)的千億大模型鵬城 – 百度 · 文心,具備零樣本生成能力,無需標(biāo)注任何樣本,便可以根據(jù)用戶指定的體裁、情感、長度、主題、關(guān)鍵詞等屬性,生成不同類型的文本。
AI
內(nèi)容創(chuàng)作的一小步,
有可能是社會(huì)演進(jìn)的一大步
未來的 AI 時(shí)代到底是什么樣的?元宇宙與物理世界會(huì)是什么樣的關(guān)系?未來可能還不清晰,但是人類確實(shí)是在不可逆的走向智能時(shí)代。未來,AI 會(huì)改變很多行業(yè)。今天我們看到的 AIGC 是內(nèi)容創(chuàng)作行業(yè)向前邁進(jìn)了一小步,同時(shí)也可能會(huì)是社會(huì)演進(jìn)的一大步。
創(chuàng)作似乎一直是人類的專利,從遠(yuǎn)古時(shí)代的巖壁繪畫,到后來的詩詞歌賦,能歌能舞能寫能畫能是人類區(qū)別于其他動(dòng)物的重要標(biāo)志。盛唐時(shí),李太白斗酒詩百篇,酒精激發(fā)無限靈感;新時(shí)代,AIGC 無需創(chuàng)作靈感,更將創(chuàng)作特權(quán)賦予機(jī)器、虛擬人,讓人類不再 ” 孤單 “。毫無疑問,AIGC 是具有劃時(shí)代意義的里程碑。
首先,AIGC 將為內(nèi)容生產(chǎn)領(lǐng)域帶來巨大變革。一方面,它可以激發(fā)創(chuàng)意認(rèn)知,豐富內(nèi)容生產(chǎn)的多樣性以及提供更加動(dòng)態(tài)且可交互的內(nèi)容,創(chuàng)造的內(nèi)容高度定制化、個(gè)性化;另一方面,它也將提升內(nèi)容生產(chǎn)效率,降低創(chuàng)作門檻,進(jìn)而實(shí)現(xiàn)大規(guī)模應(yīng)用,快速 ” 補(bǔ)位 ” 數(shù)字世界內(nèi)容供給缺口,助力內(nèi)容生產(chǎn)實(shí)現(xiàn)跨越式發(fā)展。
從長遠(yuǎn)看,AIGC 將對人類產(chǎn)生諸多深遠(yuǎn)影響。
比如,AIGC 還將影響其他產(chǎn)業(yè)領(lǐng)域的發(fā)展。AIGC 作為新的生產(chǎn)力,其 ” 聽說讀寫 ” 能力還可以應(yīng)用到更多領(lǐng)域。比如文娛產(chǎn)業(yè),最近兩年很火的虛擬偶像,就需要 AIGC 的支撐,AIGC 可以幫助其像真人一樣思考、說話、唱歌、跳舞,并沿著固定的風(fēng)格,構(gòu)建穩(wěn)定 ” 人設(shè) “。再比如,費(fèi)時(shí)費(fèi)力的客服行業(yè),中國聯(lián)通與百度,基于文心大模型,建立了面向?qū)υ捓斫鈫栴}的專用預(yù)訓(xùn)練模型,在保持優(yōu)異應(yīng)用效果的同時(shí),降低了 45% 以上的數(shù)據(jù)標(biāo)注量,顯著提升了智能客服業(yè)務(wù)開展效率。
從更長遠(yuǎn)的角度看,AIGC 也將逐步影響人們的思考和生活方式。傳播學(xué)中有 ” 守門人 ” 理論、” 議題設(shè)置 ” 理論等等,來反映信息傳播過程中人為控制的部分,在跨地域、跨民族傳播中,還有刻板印象、有色眼鏡等標(biāo)簽。傳統(tǒng)的 PGC、UGC、OGC 內(nèi)容生產(chǎn),不可避免的帶有上述痕跡,也無法擺脫上述困境。但依靠僅需少量數(shù)據(jù)輸入,便可 ” 無人駕駛 ” 的 AIGC 就有望擺脫這些困境,真正產(chǎn)出客觀、公正的內(nèi)容。
當(dāng)然,這些都只是 AIGC 發(fā)展初期的想象。目前,AIGC 還處于發(fā)展初級階段,但假以時(shí)日,它將成為 ” 全才 ” 進(jìn)而幫人們實(shí)現(xiàn)創(chuàng)作。AI 或許會(huì)打開內(nèi)容創(chuàng)作的潘多拉魔盒,會(huì)有更多的意想不到在未來發(fā)生。就好比《三體》中三體人思維是透明的,且不會(huì)隱藏。也許,數(shù)百年后,在 AIGC 的影響下,人類也會(huì)如此。那將會(huì)是一個(gè)什么樣的世界?
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/58862.html