12月27日,一年一度的百度Create大會召開,與往年不同的是今年大會現(xiàn)場數(shù)字人元素隨處可見。比如大會開場主持的是李彥宏的數(shù)字人,在演講結(jié)束,李彥宏的數(shù)字人還“秀”了一把在太空艙漂浮的畫面。
同大會一樣,今年整個數(shù)字人賽道也是一片火熱。最直接的反映便是數(shù)字人的可見度提高。比如王老吉、中國聯(lián)通等品牌直播間的數(shù)字人,歐萊雅、花西子等品牌的數(shù)字代言人,火星車數(shù)字人“祝融號”,迷你版黃世勛——虛擬數(shù)字人Toy-Me……
從這些信息中,我們不難發(fā)現(xiàn)新的變化:
一是,落地場景愈加豐富。數(shù)字員工、虛擬代言人、虛擬主播等在社交、傳播、營銷、傳統(tǒng)產(chǎn)業(yè)等領(lǐng)域的價值正在逐漸顯現(xiàn)。
二是,市場開始出現(xiàn)明顯的細(xì)分趨勢,更接近人形的“超寫實(shí)數(shù)字人”出現(xiàn)。
三是,數(shù)字人更智能。不僅能聽能說能交互,而且交互時既能夠1對N,也能夠1對1。
然而,熱潮之下,行業(yè)也面臨一個不可跨越的發(fā)展規(guī)律,即發(fā)展初期,各路玩家都面臨著同樣的時間窗口,也就是誰能率先落地,積累案例,就會搶占先機(jī)。
那么,如何才能保證迭代領(lǐng)先?百度給出的答案是:百度智能云曦靈。
大會上,百度首席技術(shù)官王海峰發(fā)布了智能數(shù)字人平臺“百度智能云曦靈”。這是一款集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的平臺級產(chǎn)品,可以為廣電、互娛、金融、政務(wù)、運(yùn)營商、零售等行業(yè)提供一站式的虛擬主持人、虛擬員工、虛擬偶像、品牌代言人的創(chuàng)建與運(yùn)營服務(wù)。
“過去幾年,百度打造了系列數(shù)字人。我們的數(shù)字人,正在各行各業(yè)發(fā)揮價值,24小時無休為用戶提供貼心服務(wù)?!蓖鹾7逭f道。在現(xiàn)場,他還介紹了一款新推出的專為聽障朋友提供手語服務(wù)的AI手語主播。
作為行業(yè)內(nèi)為數(shù)不多的數(shù)字人平臺,百度智能云曦靈的布局邏輯和競爭優(yōu)勢是什么?數(shù)字人要走向更多的場景產(chǎn)生價值,機(jī)會又在哪里?鈦媒體App在百度Create大會召開之際,對話了百度ACG AI人機(jī)交互實(shí)驗室負(fù)責(zé)人李士巖。
熱潮背后
今年賽道回暖,至少說明了一個問題:各玩家都看到了數(shù)字人的前景。
隨著新時代消費(fèi)者對虛擬化內(nèi)容與服務(wù)的需求不斷增長,加之元宇宙概念在全球興起。各行各業(yè)都將數(shù)字人視為未來用戶交互的重要載體。業(yè)內(nèi)人士指出,數(shù)字人本質(zhì)上是適用于各行各業(yè)的新型網(wǎng)絡(luò)應(yīng)用服務(wù),如同社交、電商、外賣等,需要一個提供專門服務(wù)的強(qiáng)大平臺。
除了長期的“前景”支撐之外,數(shù)字人賽道之所以會在今年爆發(fā)根本原因在于:市場和技術(shù)的雙向磨合,導(dǎo)致了行業(yè)拐點(diǎn)。
據(jù)行業(yè)報告顯示,我國當(dāng)前虛擬數(shù)字人市場規(guī)模約2000億元,到2030年,這個市場規(guī)模將達(dá)到2700億。
浦發(fā)銀行副行長潘衛(wèi)東曾公開表示,“未來的金融服務(wù)將讓每個用戶都有一個虛擬私人金融助理,隨時可以向他咨詢金融問題,甚至他還可以為你主動提供建議、管理收支平衡,金融服務(wù)將與用戶場景合二為一?!?/p>
在文化娛樂領(lǐng)域,現(xiàn)實(shí)世界的娛樂藝人接連發(fā)生人設(shè)崩塌事件,風(fēng)險難控,但運(yùn)營一位擬人化的數(shù)字人風(fēng)險則相對低很多。
只是昂貴的制作成本、差強(qiáng)人意的驅(qū)動效果,讓眾多公司一度很難找到更優(yōu)方案。行業(yè)的需求在等待供給能力的“一聲水花”,尤其是技術(shù)能力。
人工智能技術(shù)的不斷突破正好為此提供了基礎(chǔ)。我們看到現(xiàn)在的數(shù)字人可以不再局限于卡通風(fēng)格,并且后端不再局限于中之人驅(qū)動,而是通過AI來驅(qū)動,交互更自然更順暢,既能夠1對N交互,也能夠1對1交互。
市場夠大、技術(shù)也在提高,產(chǎn)業(yè)上下游紛紛從自己擅長的角度切入市場。
第一類跳進(jìn)來的是內(nèi)容公司,比如游戲公司Epic Games為寫實(shí)虛擬人制作了MetaHuman Creator工具;燃麥科技推出超寫實(shí)數(shù)字人AYAYI;創(chuàng)壹視頻推出虛擬人物柳夜熙。
只是內(nèi)容公司雖然在形象設(shè)計上有較強(qiáng)能力,但這些能力可替代性強(qiáng),而數(shù)字人需要同時具備語音技術(shù)、視覺技術(shù)、自然語言處理等技術(shù)能力,才能呈現(xiàn)接近真人的互動效果。
因此我們看到,手握技術(shù)的公司紛紛布局?jǐn)?shù)字人市場。
其中一種是AI技術(shù)公司。比如今年10月科大訊飛推出了虛擬人交互平臺;商湯在年初也已經(jīng)開始宣傳數(shù)字人產(chǎn)品落地金融領(lǐng)域。
另一種是同時掌握技術(shù)和場景的大廠。
4月,隨著中國首次火星探測任務(wù)的執(zhí)行,百度聯(lián)合航天發(fā)布全球首個火星車數(shù)字人“祝融號”,該數(shù)字人將被應(yīng)用于知識科普、虛擬主持等多個場景來傳遞航天知識;
9月,華為發(fā)布了首個數(shù)字人“云笙”,參與到為華為云內(nèi)部員工提供技術(shù)內(nèi)容宣講、答疑解惑等工作。并隨后又推出了一款數(shù)字人開放平臺;
10月,OPPO推出了小布虛擬人和小布虛擬人定制平臺;
11月4日,騰訊發(fā)布了5款數(shù)智人產(chǎn)品,擁有文旅導(dǎo)覽、金融客服、多語種主播、手語主播等不同職業(yè)身份和技能,可提供定制化角色服務(wù);
11月29日,百度代言人龔俊的虛擬數(shù)字人“俊俊”正式在百度APP上線,可以在APP內(nèi)實(shí)現(xiàn)與用戶的互動;
12月2日,網(wǎng)易云音樂上市現(xiàn)場,29歲的數(shù)字人“丁磊”和真實(shí)的丁磊,通過網(wǎng)易伏羲開發(fā)的沉浸式活動系統(tǒng)“瑤臺”共同敲鑼。
雖然同是掌握技術(shù)的公司,與大廠相比,AI技術(shù)公司缺乏C端入口和客戶渠道的劣勢依舊明顯。大廠擁有更多的資源和資金,采取的打法一般是一邊推出基于自身優(yōu)勢場景的數(shù)字人來打造應(yīng)用標(biāo)桿,一邊推出數(shù)字人平臺將產(chǎn)品繼續(xù)落地到更細(xì)化的場景中,點(diǎn)、線互相推進(jìn)。
面對眾多玩家紛紛布局的現(xiàn)狀,百度李士巖也向鈦媒體APP闡述了選擇平臺化打法的思考:當(dāng)下國內(nèi)數(shù)字人發(fā)展存在著產(chǎn)業(yè)鏈效率較低、上下游生態(tài)未完全打通、缺乏標(biāo)準(zhǔn)化體系、缺乏平臺等痛點(diǎn),這也造成應(yīng)用門檻居高不下。
百度智能云曦靈以平臺為切入口,一方面通過平臺化的方式讓越來越多的數(shù)字人進(jìn)入平臺來均攤前期的投入成本;另一方面基于平臺打造完整的生態(tài)鏈服務(wù),助力破解行業(yè)痛點(diǎn),將數(shù)字人的高門檻、高投入真正降下來。
四大AI引擎、三大平臺
目前基于曦靈平臺的數(shù)字人已經(jīng)在民生銀行、交通銀行,中國聯(lián)通、央視網(wǎng)、中國航天局等多場景落地。在眾多競爭者中,各家為什么會選擇曦靈平臺?
在回答這個問題之前,我們要先弄清楚什么才是數(shù)字人的本質(zhì)?從最開始通過音頻合成軟件生成數(shù)字人到利用中之人驅(qū)動數(shù)字人再到現(xiàn)在的AI驅(qū)動,縱觀數(shù)字人的發(fā)展路徑不難發(fā)現(xiàn):數(shù)字人的每一次迭代,本質(zhì)上都是技術(shù)驅(qū)動的。
因此,更多落地場景和更逼真形象的背后是對技術(shù)更高的要求:
首先,在交互維度上,要保證數(shù)字人在真實(shí)環(huán)境下能聽能說能交互。
這也就揭開了曦靈的第一層優(yōu)勢:四大AI引擎。通過人像驅(qū)動引擎、自然對話引擎、語音交互引擎、智能推薦引擎實(shí)現(xiàn)數(shù)字人能聽能說能理解能互動。
能聽能說。目前百度語音識別ASR(Automatic Speech Recognition)的準(zhǔn)確性能夠達(dá)到98%以上,語音合成TTS(Text To Speech)方面既支持用20句話定義一個新的聲音,還支持用更多的數(shù)據(jù)來進(jìn)行更精細(xì)化的訓(xùn)練,這樣既可以輕量化的滿足需求,又能保證聲音還原度。李士巖透露,今年百度還最新研發(fā)了人工智能變聲器,可以將一個人的聲音音色特征保留下來,這樣就可以發(fā)揮更多“人”的創(chuàng)造性。
能理解。百度基于多年的搜索及知識圖譜積累研發(fā)了基于百億級訓(xùn)練參數(shù)的開放域?qū)υ捚脚_PLATO-XL。這是當(dāng)前最大規(guī)模的中英文對話模型,并再次刷新了開放域?qū)υ捫Ч?/p>
能互動。在傳統(tǒng)的動畫生產(chǎn)流程中,最難做的就是說話的部分,尤其是3D人像說話。但曦靈平臺基于面部4D數(shù)據(jù)(3D+時序)的高精數(shù)字人“文字到形狀的跨模態(tài)面部表情生成技術(shù)”,使得口型合成準(zhǔn)確性達(dá)98.5%。比如a和e這樣發(fā)音非常接近的字母,都可以有細(xì)致的區(qū)分。
這些能力就像一個強(qiáng)大的底座,為百度數(shù)字人快速發(fā)展提供了底層支撐。
第二層優(yōu)勢,在于人像資產(chǎn)的生產(chǎn)維度。由于每一個人說話的樣子跟表情是不一樣的,如果依舊通過傳統(tǒng)流程,即每一個面目表情都通過藝術(shù)家手雕或者線下掃描流程來做,既費(fèi)人力也費(fèi)物力,因此如何實(shí)現(xiàn)低成本、個性化且豐富的還原至關(guān)重要。
對此,百度在AI技術(shù)底座上,創(chuàng)建了3D寫實(shí)、2D寫實(shí)、3D卡通三條資產(chǎn)生產(chǎn)線,讓曦靈較其它競爭者可以“多快好省”地支持更多風(fēng)格的數(shù)字人。
客戶可以根據(jù)需求快速選擇不同的臉型、五官、發(fā)型、服裝,通過組合搭配,在一定程度上解決3D資產(chǎn)創(chuàng)建成本較高的問題?,F(xiàn)在曦靈平臺上以AI驅(qū)動的2D數(shù)字人的生產(chǎn)周期已經(jīng)從一個星期降到了幾個小時,而AI驅(qū)動的3D虛擬偶像也從原來的兩三個月縮短到一兩個星期。
百度在2019年開始布局?jǐn)?shù)字人業(yè)務(wù),初期主要以金融、政務(wù)類客戶為主,因此產(chǎn)品主要是服務(wù)型數(shù)字人,包括數(shù)字客服、數(shù)字理財專員、數(shù)字大堂經(jīng)理、數(shù)字展廳講解員等。
但隨著發(fā)展,包括虛擬主播、虛擬偶像及數(shù)字孿生產(chǎn)品在內(nèi)的演藝型數(shù)字人的需求也在增長,“原來我們只做金融領(lǐng)域,現(xiàn)在廣電客戶、互聯(lián)網(wǎng)娛樂客戶也紛紛找到我們,甚至一些品牌商找我們做虛擬代言人。”李士巖對鈦媒體APP描述了客戶類型的變化。經(jīng)過三年積累,現(xiàn)在曦靈平臺已經(jīng)完成了全場景的覆蓋。
全場景覆蓋的背后也就對應(yīng)著企業(yè)對數(shù)字人更高的要求,即每個客戶業(yè)務(wù)流程不一樣,而且業(yè)務(wù)流程隨著業(yè)務(wù)的發(fā)展不斷離散,如果讓工程師直接開發(fā)肯定不現(xiàn)實(shí),尤其是當(dāng)客戶有敏捷型需求的時候,如何幫助其快速實(shí)現(xiàn)也是一個關(guān)鍵問題。
對此,曦靈提供了在AI引擎和資產(chǎn)生產(chǎn)線的基礎(chǔ)上設(shè)置的三大平臺:
人設(shè)管理平臺——比如服務(wù)型數(shù)字人的人設(shè)要親和力強(qiáng)、正式,而演藝型數(shù)字人則要求個性化程度更高,客戶可以在人設(shè)管理平臺上根據(jù)不同的場景搭配設(shè)置不同的人設(shè)。
業(yè)務(wù)編排與技能配置平臺——通過一些簡單的拖拽,實(shí)現(xiàn)業(yè)務(wù)流程的創(chuàng)新。以服務(wù)型數(shù)字人為例,由于落地場景比較離散,每家客戶的業(yè)務(wù)流程不一樣,該平臺就提供了創(chuàng)建不同業(yè)務(wù)流的能力。
內(nèi)容創(chuàng)作與IP孵化平臺——偏向于演藝型數(shù)字人。比如虛擬代言人需要做海報、短視頻等內(nèi)容觸達(dá)不同平臺的客戶,或者直播數(shù)字人需要做直播推流等,該平臺也可以提供相應(yīng)能力。
目前曦靈同時具備標(biāo)準(zhǔn)平臺的快速交付能力和滿足個性化需求的定制化交付能力,也就是說客戶既可以選擇定制化開發(fā),也可以直接選擇使用既有的三大平臺。
百度智能云數(shù)字人平臺“曦靈”整體架構(gòu)圖
從技術(shù)、產(chǎn)品到運(yùn)營的打通,既依賴百度在AI技術(shù)上多年的積累,背后的團(tuán)隊同樣重要。百度數(shù)字人業(yè)務(wù)團(tuán)隊是一個綜合的團(tuán)隊,包含了研究員、設(shè)計師、算法工程師、軟件工程師、硬件工程師等角色,主要任務(wù)就是以人機(jī)交互設(shè)計與底層能力研發(fā)為基礎(chǔ),負(fù)責(zé)AI平臺型產(chǎn)品尤其是軟硬一體化產(chǎn)品的孵化、設(shè)計以及商業(yè)化?!拔覀兿Mㄟ^服務(wù)型數(shù)字人與演藝型數(shù)字人方面的技術(shù)賦能和平臺支持,實(shí)現(xiàn)對客戶的定制服務(wù),幫助他們降低成本、提高效率、提升滿意度。”李士巖說。
結(jié)語
當(dāng)然,未來百度數(shù)字人想做的不止這些。
今年元宇宙的火熱給行業(yè)帶來了突變因子,也為數(shù)字人描繪了更大的發(fā)展空間。
首先,數(shù)字人最基本的應(yīng)用就在于對游戲、影視作品沉浸感的提升,而元宇宙的一大特征便是“沉浸感”,兩者在技術(shù)上會有部分重疊;
其次,我們討論的元宇宙“分身” ,其實(shí)都是元宇宙數(shù)字化特性下身份數(shù)字化的展現(xiàn)。也就是說數(shù)字人會成為虛擬世界的“身份證”,人們通過數(shù)字人就可以在數(shù)字世界里進(jìn)行相關(guān)活動。
元宇宙雖然還處于初級階段,但拉長時間軸來看,對于數(shù)字人的發(fā)展是利好?!霸谌魏斡嬎闫脚_下,用戶的活動主要有四種場景,第一是社交;第二是購買商品;第三是信息消費(fèi),比如看短視頻、看文章、看電影;第四是獲取服務(wù),比如去銀行辦銀行卡等。這四大場景中,數(shù)字人至少是三大場景的基礎(chǔ)設(shè)施?!?/p>
在李士巖看來,從當(dāng)前的平面計算階段進(jìn)化到元宇宙的空間計算階段,百度數(shù)字人的目標(biāo)是成為用戶信息消費(fèi)的主要基礎(chǔ)設(shè)施、用戶獲取服務(wù)的主要入口。
本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/54727.html