生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

谷歌在2015年曾預(yù)測(cè):“未來(lái)互聯(lián)網(wǎng)世界80%的內(nèi)容將是以視頻形式呈現(xiàn)的?!?/p>

未來(lái)已來(lái)!十年前的預(yù)判在今天幾乎全部實(shí)現(xiàn)。不僅如此,視頻在工作生活中的滲透率不斷提升,并且過(guò)去一年中又有很多全新視頻體驗(yàn)來(lái)到我們身邊:

AIGC可以快速生產(chǎn)短劇,抖音聯(lián)合博納影業(yè)出品的《三星堆:未來(lái)啟示錄》一上線,便獲得了驚人的1.4億次播放量;

奧運(yùn)會(huì)期間裸眼 3D 觀賽、VR 直播觀賽已成為現(xiàn)實(shí),PICO 還為用戶全新打造了巴黎奧運(yùn)會(huì)觀賽場(chǎng)景;

游戲《黑神話:悟空》爆火,為全球玩家提供了一場(chǎng)虛實(shí)融合的中國(guó)文化盛宴,并且?guī)Щ鹆艘槐娋€下旅游打卡圣地;

在15日火山引擎與intel聯(lián)合舉辦的“視頻云技術(shù)大會(huì)”上,火山引擎總裁譚待就以數(shù)字分身的形式出現(xiàn),采用豆包語(yǔ)音合成模型和形象驅(qū)動(dòng)算法,達(dá)到真人級(jí)別的效果,整個(gè)演講過(guò)程看上去非常自然、逼真……

生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

所有這些創(chuàng)新應(yīng)用的背后,都是AI帶來(lái)的顛覆性變化。當(dāng)下,數(shù)字視頻時(shí)代已經(jīng)向AI視頻時(shí)代躍遷,用戶的需求也在從更流暢、更實(shí)時(shí)、更高清——升級(jí)為更智能、更交互、更沉浸。而要實(shí)現(xiàn)這些“更……”,依賴的就是生產(chǎn)、交互、消費(fèi)等全鏈路的AI升級(jí)。

智能生產(chǎn),多模態(tài)使能高品質(zhì)

正如譚待所描述的,“視頻正迅速崛起為人類的第二語(yǔ)言,其豐富的表達(dá)手段和效果遠(yuǎn)超傳統(tǒng)文字,為我們提供了更多元、更生動(dòng)的交流方式。”

隨著視頻的重要性不斷提升,生產(chǎn)端的挑戰(zhàn)便是如何以更少的時(shí)間、更低的成本生產(chǎn)出更高質(zhì)量的內(nèi)容。

生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

比如在電商領(lǐng)域,過(guò)去一年中短視頻、直播、數(shù)字人占比越來(lái)越高。好的內(nèi)容可以吸引用戶的注意力,有效傳遞品牌信息,并且激發(fā)消費(fèi)者購(gòu)買(mǎi)決策。顯然,“好內(nèi)容”已經(jīng)成為電商平臺(tái)收益增長(zhǎng)的第一生產(chǎn)力:優(yōu)質(zhì)內(nèi)容高效快速生產(chǎn)從而拉動(dòng)商品銷量,隨著商品運(yùn)營(yíng)規(guī)模大幅增長(zhǎng),營(yíng)銷成本也在大幅下滑(如上圖)。

火山引擎的多模態(tài)電商素材生成方案,通過(guò)融合圖像分析、AIGC(人工智能生成內(nèi)容)、大模型處理、3D物體重建等先進(jìn)技術(shù),實(shí)現(xiàn)了商品氛圍圖、圖文視頻、解說(shuō)視頻、AIGC視頻和3D商品模型等多模態(tài)營(yíng)銷素材的自動(dòng)化生。

其帶來(lái)的效果是門(mén)檻大幅降低:商家只需要提供基礎(chǔ)信息和一些簡(jiǎn)單的多模態(tài)素材,就可以自動(dòng)提取賣(mài)點(diǎn)、智能裁剪、自動(dòng)生成視頻。舉些例子,比如輸入乳飲產(chǎn)品的受眾、產(chǎn)地、營(yíng)養(yǎng)成分,就可以自動(dòng)生成一張首銷圖或是一段營(yíng)銷視頻;比如把服裝的圖片上傳,就可以自動(dòng)生動(dòng)模特上身的效果圖;比如上傳商品信息之后,可以自動(dòng)生成一系列內(nèi)容匹配直播、短視頻、貨架等不同場(chǎng)景需求?;鹕揭娴亩嗄B(tài)電商素材生成方案,端到端自動(dòng)化讓素材生成更智能、更快捷、更個(gè)性。

不止于電商,在短劇、賽事、演出等各種場(chǎng)景,也都有海量的自動(dòng)化生成內(nèi)容需求,比如短劇的宣發(fā),演出的切片傳播,賽事的精彩瞬間等等?;鹕揭嬉曨l云推出的多模態(tài)視頻理解與生成方案,依托多媒體實(shí)驗(yàn)室自研的AI視頻理解技術(shù)和AIGC技術(shù),實(shí)現(xiàn)了視頻高光的自動(dòng)化提取和解說(shuō)內(nèi)容的生成。一場(chǎng)精彩的演出,可以快速切出多個(gè)短片,短劇可以快速生成多段不同視角的預(yù)告片,顯著縮短了制作周期,大幅降低傳播、宣傳的成本。

我們知道,聲音是視頻中的關(guān)鍵要素,火山引擎視頻云提供的跨語(yǔ)言同聲復(fù)刻直播服務(wù),可以實(shí)現(xiàn)自動(dòng)配音、自動(dòng)匹配字幕,還可以聲音復(fù)刻。比如在直播中可以使用豆包大模型Seed-ASR,除了能自動(dòng)打出字幕,還支持中文、英語(yǔ)、日語(yǔ)、西班牙語(yǔ)、印尼語(yǔ)、葡萄牙語(yǔ)等多國(guó)語(yǔ)言輸出。在虛擬人的直播中,可以高度還原人聲特點(diǎn)、說(shuō)話風(fēng)格,還可以調(diào)整演講者口型,讓觀感更加自然。以“視頻云技術(shù)大會(huì)”活動(dòng)為例,出現(xiàn)在講臺(tái)上的“數(shù)字人譚待”,無(wú)論是體態(tài)、表情還是聲音、語(yǔ)氣,都實(shí)現(xiàn)了對(duì)真人的高品質(zhì)復(fù)刻,令人驚羨。

在新視界時(shí)代,生產(chǎn)端的挑戰(zhàn)是如何以更少的時(shí)間、更低的成本生成多角度、高信息密度的優(yōu)質(zhì)內(nèi)容。火山引擎通過(guò)AI賦能,推出一系列解決方案從而推動(dòng)了生產(chǎn)力變革:多模態(tài)內(nèi)容根據(jù)用戶需求自動(dòng)生成,智能生產(chǎn)讓創(chuàng)作者的創(chuàng)意得以充分釋放,多模態(tài)內(nèi)容的生產(chǎn)與處理已經(jīng)變得觸手可及。

智能交互變革,給AI加點(diǎn)“人味兒”

隨著去年大模型火爆之后,與AI交互的應(yīng)用開(kāi)始興起。比如手機(jī)中的智能助理已經(jīng)成為用戶與手機(jī)溝通的主要方式,很多“I人”不喜歡線下社交,更喜歡與AI聊天機(jī)器人互動(dòng),現(xiàn)在我們撥打客服電話時(shí)很大比例都是機(jī)器人在提供服務(wù)。

舉個(gè)例子,AI陪伴已經(jīng)開(kāi)始走進(jìn)日常生活,并且不僅局限文本交流,而是以數(shù)字人化身的形式出現(xiàn),實(shí)現(xiàn)了實(shí)時(shí)語(yǔ)音對(duì)話。作為AIGC原生產(chǎn)品,AI陪伴目前的市場(chǎng)熱度極高,已經(jīng)是當(dāng)下人工智能領(lǐng)域成長(zhǎng)最快速的賽道之一。據(jù)數(shù)據(jù)網(wǎng)站Insightrackr統(tǒng)計(jì),AI陪伴類產(chǎn)品從今年二季度開(kāi)始(特別是5月到7月),每月的下載量較上月平均增加94%。

萌寶是一家國(guó)內(nèi)領(lǐng)先的幼兒娛樂(lè)啟蒙音視頻內(nèi)容平臺(tái),為用戶提供兒歌、故事、繪本、語(yǔ)言、認(rèn)知、科學(xué)、藝術(shù)等多個(gè)領(lǐng)域內(nèi)容。兒童在平臺(tái)上學(xué)習(xí)、娛樂(lè)的同時(shí),高質(zhì)量、有溫度的AI互動(dòng)可以令用戶體驗(yàn)大幅提升:新奇有趣的體驗(yàn)讓他們更專注;個(gè)性化情感陪伴使其收獲理解與關(guān)懷;邊聊邊學(xué)的益智啟蒙互動(dòng)使得學(xué)習(xí)效果更好。

平臺(tái)一直想為兒童定制一個(gè)AI伙伴,這其中存在諸多挑戰(zhàn):語(yǔ)音響應(yīng)延時(shí)要低,遇到打斷情況要能自然處理,IP角色音色要貼合,要能真正理解兒童的需求并給出恰當(dāng)?shù)囊龑?dǎo)……

總體來(lái)講,AI陪伴領(lǐng)域存在技術(shù)難度高、成本高、效果難保障等痛點(diǎn)。萌寶最終選了火山引擎AI實(shí)時(shí)交互方案。方案通過(guò)火山引擎豆包大模型和視頻云RTC技術(shù)實(shí)現(xiàn)了語(yǔ)音數(shù)據(jù)的高效采集、處理和傳輸,并在服務(wù)端為用戶提供了智能對(duì)話和自然語(yǔ)言處理的強(qiáng)大能力:毫秒級(jí)人聲檢測(cè)和打斷響應(yīng),以及絲滑穩(wěn)定的端到端響應(yīng)體驗(yàn)。

萌寶對(duì)最終的應(yīng)用效果十分滿意:實(shí)時(shí)響應(yīng),互動(dòng)非常自然,即使交流中被孩子打斷也可以智能地續(xù)接,AI的音色親切且情緒飽滿,給孩子們帶來(lái)有感情還有趣的陪伴。最重要的是,系統(tǒng)能夠很精準(zhǔn)地理解孩子的需求,提供相應(yīng)的回復(fù)與引導(dǎo)。

這個(gè)解決方案源自豆包大模型與實(shí)時(shí)音視頻技術(shù),用戶不僅能用語(yǔ)音與AI進(jìn)行交談,還能像平時(shí)說(shuō)話一樣,在對(duì)話過(guò)程中適時(shí)打斷或插話,對(duì)整體交流的質(zhì)量也不受影響。經(jīng)過(guò)升級(jí)后的AI聲音相較以往而言更具表現(xiàn)力和感情色彩,對(duì)話也因此更自然、更真實(shí)、更流暢。

誠(chéng)然,人與AI交互的實(shí)現(xiàn)并不難,但要做好卻非常難。首先要實(shí)現(xiàn)功能價(jià)值,就是要精準(zhǔn)理解用戶的需求是什么;其次還要提供情緒價(jià)值,在理解用戶意圖的基礎(chǔ)上,用最自然、最舒服的方式與用戶進(jìn)行交流互動(dòng)。

生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

火山引擎對(duì)話式AI實(shí)時(shí)交互解決方案讓智能交互的生產(chǎn)更簡(jiǎn)單,這也助力客戶可以針對(duì)不同場(chǎng)景不斷創(chuàng)新應(yīng)用。目前這套方案已經(jīng)普遍被企業(yè)用來(lái)定制智能助手、AI社交陪伴、兒童學(xué)習(xí)陪伴、AI教育、智能客服等服務(wù)。其中社交領(lǐng)域最為典型:用戶不僅能夠個(gè)性化定制專屬AI Agent,還能在精心設(shè)計(jì)的劇情中與AI角色深度互動(dòng)。

顯然,交互端的智能化,給AI增加了不少的“人味兒”,AI變得越來(lái)越有溫度。

智能空間,跨時(shí)空使能消弭虛實(shí)縫隙

今年游戲圈最熱的就是《黑神話:悟空》,其大受追捧的原因之一就是跨時(shí)空。

游戲通過(guò)無(wú)人機(jī)實(shí)景三維重建等前沿技術(shù),將真實(shí)場(chǎng)景的紋理與細(xì)節(jié)以1:1的比例精準(zhǔn)還原到游戲世界中,為全球玩家提供了一場(chǎng)虛實(shí)融合的中國(guó)風(fēng)盛宴。用戶在游戲中可以沉浸式觀賞風(fēng)景與體驗(yàn)文化,如果愛(ài)到極致還可以來(lái)一場(chǎng)說(shuō)走就走的線下旅游,在游戲中被復(fù)刻的36個(gè)景點(diǎn),甚至串起了“黑神話旅游專線”。

實(shí)際上,2D、3D以及虛實(shí)融合的應(yīng)用已經(jīng)越來(lái)越多地出現(xiàn)在人們的工作生活中。從消費(fèi)端來(lái)看,時(shí)空不再有邊界,虛實(shí)融合正在引發(fā)空間智能化的變革。最近,凱文凱利(KK)預(yù)言AI帶來(lái)的顛覆第一條就是:5000天后鏡像世界將會(huì)誕生。所謂鏡像世界是依靠AR、VR、AI等技術(shù)將現(xiàn)實(shí)和虛擬世界完美融合,我們會(huì)處在一種“沉浸式計(jì)算”的時(shí)代,到處都是數(shù)字化,萬(wàn)物皆可與AI相連。

針對(duì)空間智能化的需求,火山引擎視頻云推出了一系列方案:

  • 基于AI的3D生成方案,用戶僅需簡(jiǎn)單上傳所建3D內(nèi)容參考圖,自研系統(tǒng)就會(huì)自動(dòng)生成關(guān)鍵視角和稀疏視角圖像,快速構(gòu)建出精確的3D幾何結(jié)構(gòu),與傳統(tǒng)手工3D建模相比,火山引擎AIG3D方案在效率、多樣性和操作成本等方面有明顯優(yōu)勢(shì);
  • 大場(chǎng)景重建方案,實(shí)現(xiàn)了對(duì)真實(shí)場(chǎng)景的高質(zhì)量3D幾何構(gòu)建與外觀重建渲染,廣泛應(yīng)用于虛擬直播,VR直播等場(chǎng)景中,高效率的生成三維直播布景,增強(qiáng)了用戶的沉浸感體驗(yàn);
  • 6DoF直播方案,實(shí)現(xiàn)了高質(zhì)量、超低延時(shí)的VR沉浸體驗(yàn),已成功應(yīng)用于抖音VR直播,成為業(yè)內(nèi)首個(gè)基于Apple Vision Pro的3D直播,為用戶帶來(lái)了震撼的XR體驗(yàn)。

生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開(kāi)啟“三智”視頻新時(shí)代

基于這些解決方案,用戶已經(jīng)切實(shí)體驗(yàn)到智能空間的價(jià)值:從文化傳承的角度,火山引擎與山西高平二郎廟金代戲臺(tái)、北京正乙祠戲樓等文物單位合作,將線下珍貴文物轉(zhuǎn)換為線上的永久數(shù)字資源,并打造成虛實(shí)融合的沉浸式虛擬直播間。目前已經(jīng)應(yīng)用于抖音戲曲直播場(chǎng)景,提升主播直播過(guò)程的沉浸感和互動(dòng)感,助力非遺傳承與保護(hù)。

2024年奧運(yùn)期間,PICO 還為用戶全新打造了會(huì)觀賽場(chǎng)景,借助于 VR 大屏,運(yùn)動(dòng)員的每一個(gè)動(dòng)作、每一滴汗水、每一幀表情都近在咫尺,沉浸式的極致觀賽體驗(yàn)讓用戶仿佛置身于賽場(chǎng)當(dāng)中。英特爾與PICO團(tuán)隊(duì)合作,依托英特爾領(lǐng)先的計(jì)算和渲染能力,借助火山引擎的解決方案,啟動(dòng)了“何以華夏”項(xiàng)目,對(duì)珍貴的文化遺產(chǎn)進(jìn)行虛擬再現(xiàn)和推廣,為用戶帶來(lái)沉浸式的文化體驗(yàn)。

顯然,隨著AI技術(shù)的發(fā)展,空間智能化得以實(shí)現(xiàn),用戶不再受到時(shí)間、空間的限制,消費(fèi)端的智能化正在消弭物理世界與數(shù)字世界的縫隙。

【結(jié)束語(yǔ)】

隨著生成式AI、多模態(tài)大模型、全景直播、三維重建等技術(shù)進(jìn)步,過(guò)去一年我們已經(jīng)能夠明顯感受到科技飛躍帶來(lái)的變化,我們正在迎來(lái)一個(gè)AI加持下的“新視界”。

從數(shù)字視頻時(shí)代到AI視頻時(shí)代的進(jìn)化,用戶需要更智能、更交互、更沉浸的體驗(yàn),這對(duì)生產(chǎn)端、交互端、消費(fèi)端都提出全新的挑戰(zhàn)。只有通過(guò)AI全鏈路賦能實(shí)現(xiàn)“三智”,才能支持未來(lái)更多模式、應(yīng)用的創(chuàng)新。

火山引擎視頻云為全鏈路升級(jí)提供了強(qiáng)大且穩(wěn)定的音視頻技術(shù)基座,而英特爾則是強(qiáng)大算力的保障。英特爾?至強(qiáng)?服務(wù)器強(qiáng)大的CPU處理能力,從實(shí)時(shí)的高達(dá)8K的視頻處理能力,到基于 AMX 指令集的 AI 算力,從傳統(tǒng)的 CV 優(yōu)化到 LLM 和 AIGC的最新應(yīng)用支持,Xeon 服務(wù)器始終為火山引擎提供了強(qiáng)有力的算力支撐和可靠服務(wù)。

火山引擎視頻云+英特爾?至強(qiáng)?服務(wù)器全鏈路全面賦能視頻“新視界”。

本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/quan/125748.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-10-28 11:11
下一篇 2024-10-28 11:39

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論