大模型時代,真正顛覆性的產(chǎn)品是怎樣的?它應該具備大模型的自進化能力,還是能給產(chǎn)業(yè)貢獻新的生產(chǎn)力工具?抑或是重構企業(yè)的經(jīng)營管理模型?
數(shù)字人,正在給出一個答案。
作者|皮爺
出品|產(chǎn)業(yè)家
“大模型如何往下走?”
6月底,一個投資機構舉辦的以大模型為主題的閉門會上,這個話題被提出,并迅速引發(fā)了在座參與者們的廣泛討論,甚至,這種“討論”也可以稱為“探索”。
這種關注度也更在成為整個大模型市場的縮影。在長達12個月的技術參數(shù)競賽后,人們越來越真實地發(fā)現(xiàn),盡管AI和其它技術不同,其具備廣泛的認知和重構產(chǎn)業(yè)的能力,但就當下而言,距離真正的產(chǎn)業(yè)AGI仍有不小的距離。
這種距離的具體表現(xiàn)則是——2024年的如今,大模型仍然很難在產(chǎn)業(yè)細分場景里成功落地。
根據(jù)一份不完全數(shù)據(jù)統(tǒng)計,在過去的一段時間里,盡管對AI進行嘗試的企業(yè)不計其數(shù),但真正將AI在企業(yè)內(nèi)部落地的比例不超過10%。
大模型的下一步應該怎么走?或者對這個問題更細致的拆解是:如何讓大模型保持持續(xù)進步和落地?
在剛剛過去的WAIC大會上,一個被廣泛提及的點是壓降幻覺率和AI應用,這些在會上被展示出來的應用遍布各行各業(yè),如工業(yè)、金融、教育、農(nóng)業(yè)等等,而具體到產(chǎn)業(yè)的環(huán)節(jié),也更覆蓋如內(nèi)部管理、營銷、物流、數(shù)據(jù)運營等等。
而在其中,數(shù)字人是最受到關注的方向之一?!皵?shù)字人是現(xiàn)在為數(shù)不多能落地、被應用、且可以看得到效果的AI應用?!币晃淮髸膮⒂^者告訴產(chǎn)業(yè)家。
實際上,如果把視角聚焦到這個在大模型之前就出現(xiàn)的賽道身上,則是不難發(fā)現(xiàn),伴隨著大模型的出現(xiàn),數(shù)字人賽道正在迎來新的重構,這種重構不僅在產(chǎn)品形態(tài)、技術突破,也在其在產(chǎn)業(yè)場景里帶來的價值。
“我們認為數(shù)字人或?qū)⑹茿IGC時代代表性的顛覆性產(chǎn)品?!?/strong>京東科技人工智能業(yè)務負責人告訴產(chǎn)業(yè)家。一個足夠真實的數(shù)據(jù)是,京東云言犀數(shù)字人如今已經(jīng)累計服務品牌超5000家,帶動GMV超過百億,而如今伴隨著數(shù)字人被越來越多的企業(yè)使用,這個GMV還正在加速躍升。
“大模型落地應用先行,應用驅(qū)動大模型進化”。數(shù)字人,正在打響這個飛輪的第一槍。
一、 “數(shù)字人+大模型”,
跨過產(chǎn)業(yè)“恐怖谷”
恐怖谷效應,一直是數(shù)字人賽道的發(fā)展掣肘。即盡管在過去的幾年時間里,從事數(shù)字人的企業(yè)和服務商不在少數(shù),但由于其一直存在“恐怖谷效應”,所以數(shù)字人的落地一直處于不慍不火的狀態(tài)。
而更拆解來看,這種恐怖谷則體現(xiàn)在數(shù)字人的動作靈活度、語言回復(交互)、自然姿勢展現(xiàn)等多個緯度。
一位數(shù)字人公司的CTO曾告訴產(chǎn)業(yè)家,“在學術界和工業(yè)界,做數(shù)字人一般會使用‘微妙’這個詞,因為一個微小的差別,都能被人們感覺到。”
“這個賽道的整個產(chǎn)業(yè)鏈仍然不完善,包括硬件這些,盡管直播和培訓有不少企業(yè)選擇采買,但核心技術還是不到位,很多企業(yè)甚至會自己用免費的技術搭建一個,效果都大差不差?!币晃坏胤轿穆秘撠熑吮硎?。
但這個掣肘在4月16日晚的京東采銷直播間被“動搖”。在當天晚上18點,“采銷東哥AI數(shù)字人”進行了其在京東直播的首秀,包括人物造型、口音貼合度、動作姿態(tài)都與真人差別度極小,甚至偶爾還能飆出幾句“宿遷話”,其首秀不到1小時,直播間觀看量就超過2000萬,帶貨GMV更超5000萬。
“數(shù)字人,已經(jīng)跨過了‘恐怖谷’。”該負責人告訴我們,根據(jù)他介紹,在京東內(nèi)部,一個被力爭達成的目標是“120s測試”,即如果在120s之內(nèi)觀眾沒有辨別出屏幕上的人為數(shù)字人,那么就可以稱之為跨過“恐怖谷”,而如今,這個挑戰(zhàn)已經(jīng)基本被完成。
這并不是一件容易的事。簡單的介紹是,目前行業(yè)內(nèi)對于數(shù)字人的構建流程環(huán)節(jié)往往采取的是“建?!?qū)動—渲染”的方式,但如果想要達成“自然無異”,甚至超過120s的真人效果,每個環(huán)節(jié)都需要做到完美,這還包括NLP、TTS的挑戰(zhàn)都必須攻克。
“京東云言犀數(shù)字人是端到端的視頻生成模式”該負責人告訴我們。Sora就是端到端的典型代表,但我們發(fā)現(xiàn)Sora生成的視頻仍經(jīng)常出現(xiàn)不合理的地方,比如扭曲的肢體動作?!罢嬲逃眠€要面對幻覺問題,我們在幻覺壓降這塊下了很多功夫,因為幻覺這類情況在商業(yè)上是不被允許的?!彼a充。
數(shù)據(jù)顯示,在“采銷東哥AI數(shù)字人”之外,在今年京東618期間,還有格力董明珠、海信胡劍涌、LG李東善、名創(chuàng)優(yōu)品葉國富、潔麗雅石展承等超18位總裁數(shù)字人,都已經(jīng)走向臺前,成為品牌新的直播法寶。
也可以說,伴隨著大模型的出現(xiàn),AI數(shù)字人正在釋放出更強的實用價值和更看得到的商業(yè)模式,不論是采銷東哥AI數(shù)字人,還是在品牌直播間愈發(fā)高頻出現(xiàn)的數(shù)字人主播,都在昭示著AI數(shù)字人這個顛覆性大模型產(chǎn)品的成熟。
但在數(shù)字人本身之外,如果從AI的視角來看,“大模型+數(shù)字人”到底意味著什么?
二、真實的數(shù)據(jù)閉環(huán),
和新“AI生產(chǎn)力”工具
關于大模型,行業(yè)內(nèi)有一個共識的說法,即不論如何“要先讓大模型跑起來”。在過去半年的大模型論壇或者圓桌會議上,這個說法已經(jīng)成為共識。
原因為何?
答案仍然是數(shù)據(jù)。眾所周知,對這波浪潮的主角之一OpenAI而言,在過去的近2年時間里,其最大的資金投入之一是算力成本,不論是A100、H800還是其它系列的GPU,對應的都是天價投入,這種大投入也更催生出了GPT到4.0版本的更新迭代。
但明眼人能看到的是,從GPT4.0到5.0,乃至后續(xù)的規(guī)劃上,OpenAI放緩了相應的產(chǎn)品更新節(jié)奏。
實際上,在算力之外,一個在如雪球般滾動的成本也更在成為OpenAI的資金大頭,甚至占比越來越高,它就是數(shù)據(jù)。如果說從小學到大學的通識教育,對應的是互聯(lián)網(wǎng)線上的基礎數(shù)據(jù)樣本,那么從大學到對應領域的深造學習,需要的則是更為真實且高質(zhì)量的數(shù)據(jù),對模型進行訓練。
但這些數(shù)據(jù),有盡頭。在不久前的一次科技論壇上,月之暗面創(chuàng)始人楊植麟也曾明確表示,大模型現(xiàn)階段的難點是如何找到更多更真實的數(shù)據(jù),但這樣的數(shù)據(jù)現(xiàn)在很難找到,甚至是否真實存在,他的態(tài)度是“不確定”。
從行業(yè)視角來看,關于大模型訓練的進階數(shù)據(jù)有兩種方式最為主流。一是利用大模型生成數(shù)據(jù),但需要在消除幻覺的基礎上;另一類是“創(chuàng)造真實的數(shù)據(jù)”,也就是尋找能跑起來的AI應用。
對前者而言,這仍然是個數(shù)據(jù)是否真實的偽命題。但對于后者,如今已經(jīng)有跑出來的答案,它就是數(shù)字人。
能清晰看到的是,在AI數(shù)字人被一次次使用的當下,它也更在通過一次次真實的交互生成出更為高質(zhì)量的數(shù)據(jù),進而反饋大模型訓練,推動整個閉環(huán)乃至大模型飛輪效應的形成。
這種閉環(huán)的形成并非偶然,甚至也更可以成為一整個AI工程的長期落地。在京東內(nèi)部,早在2018年開始,多模態(tài)人機交互項目就已經(jīng)開始投入研發(fā),而在如今生成式AI的催化下,它更是向前一步。
在大模型本身的幻覺層面,京東內(nèi)部團隊也更是下了很大功夫。“我們認為如果大模型不解決幻覺問題,不對其進行極致的壓降,AI大模型很難成為未來真正的產(chǎn)業(yè)大廈?!?/strong>京東科技人工智能負責人告訴我們。
據(jù)了解,目前京東壓降幻覺率的主要方式是向量數(shù)據(jù)庫+優(yōu)質(zhì)數(shù)據(jù)。
從2019年開始,京東就開始研發(fā)向量數(shù)據(jù)庫,歷經(jīng)電商大促場景磨練,如今其向量數(shù)據(jù)庫Vearch已經(jīng)能支撐百億級高性能檢索,延時降低到毫秒級。京東在垂直行業(yè)的知識沉淀更是豐富,言犀大模型訓練時就用了70%通用數(shù)據(jù)和30%的供應鏈原生數(shù)據(jù)。
而從大模型的角度來看,基于AI數(shù)字人構建起來的這種飛輪也更具其特殊之處。即不論是其產(chǎn)品背后對應的大模型能力,還是如今發(fā)揮作用和價值的場域——電商平臺,都對應的不僅是大模型某單項能力的鍛煉,或反饋,而更多是集合全部模態(tài)的實戰(zhàn)考校和磨練。
在這種豐富的實戰(zhàn)中,“大模型—應用—數(shù)據(jù)反饋—訓練”的飛輪在加速運轉。
三、數(shù)字人背后的「AI產(chǎn)品啟示錄」
其實,數(shù)字人的價值還不僅于此。電商直播之外,在金融、教育、員工培訓、企業(yè)數(shù)字員工等等越來越多的場景里,它都在成為新的AI生產(chǎn)力角色。
在大模型發(fā)展的如今,我們一直嘗試解答一個問題:大模型時代,真正顛覆性的產(chǎn)品是怎樣的?它應該具備大模型的自進化能力,還是能給產(chǎn)業(yè)貢獻新的生產(chǎn)力工具?抑或是重構企業(yè)的經(jīng)營管理模型?
數(shù)字人,正在給出一個答案。在大模型從技術漸進式到產(chǎn)業(yè)顛覆式發(fā)展的當下,作為已經(jīng)落地的大模型產(chǎn)品,數(shù)字人已經(jīng)跨越了“AI+”,正式進入AI重構的時期。
首先,從技術來看,作為大模型的集大成者,不論是生成數(shù)字人的方式和步驟,抑或是其如今展現(xiàn)出來的能力,都有足夠的技術支撐,跨過“恐怖谷”,達到真正商用的階段,而配上如今低成本的配置,企業(yè)可以低門檻嘗試。
其次,從具體的效果而言,作為使用數(shù)字人的企業(yè),都可以基于數(shù)字人改變自身的企業(yè)經(jīng)營管理方式。以電商為例,在直播、數(shù)字人回復、AI外呼等等各方面,數(shù)字人都在構建一種新的交互方式,幫助企業(yè)更好地傳遞聲音,創(chuàng)造價值。
同樣,在商業(yè)化角度也更是如此,即作為一種SaaS形態(tài),能清晰感知到的是AI數(shù)字人已然顛覆過去以往市場對SaaS產(chǎn)品低粘性、高流失、難定制的印象,其某種程度更等同于企業(yè)的“固定員工”。
可以說,作為如今唯一可落地、可大范圍時間的AI產(chǎn)品,數(shù)字人在將大模型技術的顛覆性在無數(shù)的產(chǎn)業(yè)場景中逐一展現(xiàn),并且貢獻出AI原生的“顛覆式”增量。
實際上,這也正是京東的思考。即在如今的大模型時代中,京東一直以來的口號是向產(chǎn)業(yè)進發(fā)。
在過去的一年時間里,在強大的基座大模型之上,外界能看到的是京東似乎一直基于數(shù)字人發(fā)力,不論是東哥直播,還是幫助品牌伙伴的CEO做數(shù)字人,以及在金融、文旅等等方向進行的數(shù)字人的落地,外界也更在對這種“單一的聲音”提出質(zhì)疑。
但這背后對應的是京東一直定位的產(chǎn)業(yè)大模型思維。即相較于市面上大模型廠商在小參數(shù)、開源、閉源等越來越多概念上的爭論,京東所做的只有一點——尋找當下階段中大模型能力的最佳、最實用釋放點,兼?zhèn)銩I力、產(chǎn)品力、價值力、生產(chǎn)力,如今這個答案已經(jīng)給出,正是數(shù)字人。
肉眼可見的是,京東云言犀數(shù)字人已經(jīng)成為無數(shù)企業(yè)真實使用的大模型產(chǎn)品,不僅電商,也不僅直播。而在不經(jīng)意間,在數(shù)字人這個最具落地的AI大模型方向,不論是技術、落地、場景,還是商業(yè)化服務體系,京東都已然成為國內(nèi)最佳領跑者。
但還不止于此,在如今的京東內(nèi)部,類似數(shù)字人這種兼?zhèn)洚a(chǎn)品和生產(chǎn)力價值的顛覆式產(chǎn)品方向也在被加速尋找、研發(fā)。
“我們在大模型方向,更多追求的是一種雙贏的模式,最終希望數(shù)字人這些AI產(chǎn)品能夠給品牌商家?guī)韮r值,他們也愿意為之付費,建立一種良性的循環(huán)?!?/strong>上述負責人告訴我們。
以數(shù)字人為起點,在大模型時代,京東正在給出屬于自己的回答。
本文來自投稿,不代表增長黑客立場,如若轉載,請注明出處:http://gptmaths.com/cgo/coo/120880.html