個性化大模型,將大開眼界

天貓精靈把大模型做“小”了

撰文?| 吳坤諺

編輯?| 王? ?潘

先有理論還是先有應(yīng)用?

起碼在涌現(xiàn)能力上,是應(yīng)用為先。例如大語言模型(LLMs)的涌現(xiàn)能力(emergent ability),以GPT3為代表的主流大語言模型在參數(shù)規(guī)模超過10^22級別后,效果突然大幅提升。

這讓大模型的研發(fā)在短短數(shù)月內(nèi)進(jìn)入了一場取決于數(shù)據(jù)獲取和算力調(diào)配的競賽,“技術(shù)上有深度但競爭呈紅?!?。但就在業(yè)內(nèi)相互比拼參數(shù)多少的時候,天貓精靈在嘗試用億級參數(shù)做AIGC。

4月,天貓精靈公開了首個接入千問大模型的智能硬件demo,近日又透出了一款研發(fā)中的AIGC新型硬件demo——智能隨身眼鏡。目前市場公版暫不清楚升級政策,但從工程體驗來看,具有隨身聊天+語音生成的功能。

個性化大模型,將大開眼界

據(jù)了解,該款智能隨身眼鏡的載體是天貓商城中在售的CZ0001,原先的設(shè)備已經(jīng)搭載了骨傳導(dǎo)結(jié)構(gòu)為基礎(chǔ)的通話、音頻、防水等功能。在實(shí)機(jī)體驗中,demo通過原搭載在智能眼鏡中的收發(fā)聲單元與測評人流暢交互,形式上也并非一般大模型中展現(xiàn)的一問一答,而是更偏向于溝通的人性化交互。此外,該demo在接收人聲信號后的反應(yīng)速度較快,在健康、辦公以及游戲等多樣化的消費(fèi)場景中都展現(xiàn)出了不錯的反應(yīng)速度,并未出現(xiàn)卡殼的現(xiàn)象。

智能硬件和軟件一樣,存在與大模型相結(jié)合的無數(shù)可能,是大模型的又一個具備豐富的落地應(yīng)用場景的方向。小度開始做手機(jī),天貓精靈做眼鏡,背后是對智能終端發(fā)展不同的思路。天貓精靈demo的問世,也意味著大模型進(jìn)入了軟件應(yīng)用之外的場景,這無疑標(biāo)志著AIGC硬件會逐漸走入更加個人化的、隨身的垂直使用場景中。

大模型不應(yīng)厚B薄C

大模型領(lǐng)域,我們還在朝著OpenAI緊追慢趕,只是在商業(yè)化領(lǐng)域,國內(nèi)玩家的步伐明顯更快。在今年4月到5月間的大模型井噴期,一眾入局者在公布了自家大模型的同時也給出了商業(yè)化落地的路徑。

就目前來看,國內(nèi)大模型主流的商業(yè)化路徑有兩種:其一是以通用大模型為底座,接入如今豐富的移動互聯(lián)網(wǎng)應(yīng)用生態(tài);其二是扎根某個垂類生態(tài),以特定的具體場景中產(chǎn)出的高質(zhì)量數(shù)據(jù)作為大模型的“涌現(xiàn)”能力的養(yǎng)料。只是在目前已公開的多條路徑中,B端場景占據(jù)多數(shù)。

這其實(shí)并不奇怪,面對涌現(xiàn)能力“大力出奇跡”的特點(diǎn),大模型訓(xùn)練往往耗資甚巨,落地的想象也浩如煙海。在重資產(chǎn)投入下,選擇在數(shù)據(jù)積累更厚、應(yīng)用更成熟的垂直領(lǐng)域落地,可以快速進(jìn)入自我造血的良性循環(huán)。而且,如果考慮成本回收以及變現(xiàn)問題,付費(fèi)能力更強(qiáng)的B端自然是首選。

比較典型的是,僅4月期間,多家大模型宣布接入辦公場景,如協(xié)同辦公、辦公助手等。但阿里的野心卻遠(yuǎn)不止于此,電商起家的深刻烙印,讓阿里在大模型的商業(yè)化落地中將C端放在了與B端相等的位置上,借助已有的語音交互基礎(chǔ),早在通用大模型通義千問面世前便以天貓精靈語音助手為載體,基于演員“鳥鳥”的類GPT應(yīng)用。

相比于需要“調(diào)教”的通用大模型以及偏向B端應(yīng)用的垂類大模型,接入大模型的天貓精靈demo可以應(yīng)對更復(fù)雜的交互場景,支持基于人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)。當(dāng)人類詢問一個問題(Query)時,天貓精靈demo會首先經(jīng)過貓耳算法將其轉(zhuǎn)換為文本,隨后通過大模型產(chǎn)生個性化的對話回復(fù),最后再到個性化的語音合成給出回答。整個過程還有Multi-Turn對話系統(tǒng)來支持,確保低時延、支持多輪對話以及隨時打斷。

只是在接收并理解人聲信號的時候,天貓精靈demo還是出現(xiàn)了語義理解錯誤的問題。而且實(shí)際測試非常日常且生活化,對于復(fù)雜問題的處理可能還沒到位。

個性化大模型,將大開眼界

更值得一提的是,天貓精靈demo所展現(xiàn)出的智能交互水平并非基于參數(shù)量在十萬億以上的通義千問大模型,而是基于相對更小、在外界看來是作為通用大模型“知識蒸餾”的中小模型。

資料顯示,天貓精靈接入的個性化大模型在參數(shù)規(guī)模上是億級到十億級,通過針對消費(fèi)場景的不斷微調(diào)和強(qiáng)化學(xué)習(xí),以低于行業(yè)標(biāo)桿OpenAI研究的涌現(xiàn)參數(shù)標(biāo)準(zhǔn)做到了近似千億級大模型的生成水平,在計算資源消耗大幅降低的同時兼顧了清晰的商業(yè)模式

這是國內(nèi)大模型進(jìn)一步有效控制大模型成本的“個性化”嘗試。雖然涌現(xiàn)能力原理的面紗還是未能揭開,但天貓精靈demo的出現(xiàn)顯然是大模型訓(xùn)練路線中的一次有效探索。

至于商業(yè)化的落地,天貓精靈demo也是業(yè)內(nèi)難得的面向消費(fèi)場景的大模型應(yīng)用。

無論是移動互聯(lián)網(wǎng)應(yīng)用中催生的多元化平臺生態(tài),還是區(qū)塊鏈應(yīng)用催生的NFT、數(shù)字藏品,面對新生事物,C端用戶往往付費(fèi)意愿更強(qiáng)。造成這一現(xiàn)象的根本原因在于決策人,B端的決策人往往是企業(yè)領(lǐng)導(dǎo)、采購部門,他們并非產(chǎn)品的直接使用者,而且需要考慮成本、預(yù)算、適用性等多個維度,而C端的決策者是自己,不僅更容易在大模型的認(rèn)知焦慮下驅(qū)使付費(fèi),決策相對非理性,而且成交周期短,更容易進(jìn)入自我造血的循環(huán)。

只是在類GPT應(yīng)用中,C端用戶由于GPT鎖區(qū)而苦于沒有落地產(chǎn)品可以使用和體驗,如今面世的大模型又將商業(yè)化重心落腳于B端。至少目前,阿里的天貓精靈AIGCdemo選擇了人數(shù)相對少的路徑,而且落地的想象也足夠豐富。

生活化的“無感”

既然個性化大模型和智能終端的結(jié)合是一個豐富、有落地應(yīng)用場景的方向,為何卻鮮少有人嘗試?這一問題的答案或許能自元宇宙的前車之鑒中探求。

和元宇宙風(fēng)口相似,大模型的應(yīng)用同樣存在不同企業(yè)的認(rèn)知基礎(chǔ)上分化出的不同方向。只是曾經(jīng)的元宇宙卻無法為消費(fèi)者帶來足夠沉浸的體驗,而大模型卻具備這樣的潛力。

以如今大模型基本的NPL文本生成為例,我們僅需要登錄大模型的入口,輸入問題指令即可快速獲得回答,而元宇宙所追求的沉浸式賽博空間,于消費(fèi)者而言不僅缺乏硬件設(shè)備支持,同時以目前公用網(wǎng)絡(luò)帶寬連云游戲都難以cover的情況,大量消費(fèi)者共處在某一個賽博空間中娛樂、生活的愿景只能停留在春秋筆法中,難以落地。

只是目前多數(shù)大模型也只是達(dá)到了消費(fèi)場景的初步需求。

在消費(fèi)場景中,用戶需要和追求的是“無感”的使用體驗,即要求更多具有沉浸感的交互能夠在無意識的情況下自然下發(fā)生。通常,“沉浸感”的說法常常出現(xiàn)在游戲、XR等偏重虛擬現(xiàn)實(shí)體驗的領(lǐng)域,而在在大模型需求的多模態(tài)交互語境下,沉浸感自然可以進(jìn)一步解釋為”無感”的交互方式?!?/p>

簡單來說,即使做不到像3A大作一樣呈現(xiàn)光怪陸離的世界以供體驗,也需要像我們?nèi)粘3鲂兄袝o意識地打開天氣APP看看天氣,打開打車軟件叫個車。僅需簡單對比使用體驗便不難看出,目前對C端用戶的“無感”體驗上,大模型玩家們的功力還遠(yuǎn)遠(yuǎn)不夠。

即使是被業(yè)內(nèi)奉為標(biāo)桿的ChatGPT,用戶在付費(fèi)使用時也需要經(jīng)歷解鎖設(shè)備、打開網(wǎng)頁、輸入對應(yīng)問題三個環(huán)節(jié),期間還需要不斷通過prompt來獲取想要的內(nèi)容。至于當(dāng)下越來越多的、搭載在某個應(yīng)用生態(tài)的大模型,則與曾經(jīng)的元宇宙應(yīng)用相似。由于不能搶了平臺原生應(yīng)用的“風(fēng)頭”,往往需要用戶在平臺生態(tài)中找到入口,相對網(wǎng)頁載體更加麻煩。

換句話說,假設(shè)將大模型進(jìn)入我們?nèi)粘I畹臓顟B(tài)稱為 AI 2.0 ,如今的應(yīng)用體驗充其量是 AI 1.5 。

這樣的儀式化過程就像早期的互聯(lián)網(wǎng),個人計算機(jī)只能通過電話線和網(wǎng)絡(luò)交換器核心進(jìn)行連接,并使用modem將電話線傳輸?shù)?00HZ到3400HZ的模擬信號波形轉(zhuǎn)換為計算機(jī)可以處理的信號,因此彼時也將上網(wǎng)戲稱為“沖浪”。這樣的復(fù)雜流程天然與消費(fèi)場景相悖,即使大模型能憑借優(yōu)異的工具特性牢牢抓住老板和打工人們,也難以融入我們的日常生活之中。

與之相比,以智能硬件為入口反而是大模型接入日常消費(fèi)場景的一記“妙手”。

生活化才是未來

如果將時間回?fù)苤羶赡昵埃菚r無論是智能穿戴設(shè)備還是大模型,都不會想到今天兩者的結(jié)合。

彼時大模型只是在NPL(自然語言處理)、CV(計算機(jī)視覺)兩條AI賽道爆發(fā)后的科研嘗試,以阿里為代表的頭部大廠將參數(shù)量卷到10萬億級別時,缺乏明確的商業(yè)路徑和巨大的算力投入讓大模型止步于研究階段。而智能穿戴設(shè)備同樣也走進(jìn)平臺期,相對普通用戶而言稍顯雞肋的豐富功能與品牌溢價讓增長愈發(fā)乏力,入局者不得不將目光放向?qū)】倒δ芨鼮橹匾暤闹欣夏晔袌觥?/p>

此外,兩者更大的相同點(diǎn)在于技術(shù)存在實(shí)際冗余。

由OpenAI測算出的大模型涌現(xiàn)規(guī)模是百億級,可2021年,國內(nèi)的大模型的參數(shù)已經(jīng)卷上10萬億。以天貓精靈demo為代表的智能眼鏡所需的骨傳導(dǎo)、算法、發(fā)聲單元或是其他智能穿戴設(shè)備的技術(shù)功能也日趨成熟。而更能體現(xiàn)技術(shù)冗余的,則是兩者在應(yīng)用形式上遲遲難以發(fā)生變化。

隨著時間的催化,技術(shù)上冗余會不斷匯聚,由此也有可能迸發(fā)出新的應(yīng)用形式。

只是業(yè)務(wù)方向的嘗試多種多樣,當(dāng)局者迷才是一眾先行者的眾生相。例如令曾在3G時代大力發(fā)展視頻通話業(yè)務(wù)的運(yùn)營商始料不及的是,該業(yè)務(wù)會在4G時代進(jìn)入尋常百姓家。

回到天貓精靈一系列大模型測試之上,我們緣何判斷這將是一條可行路徑?

因為就目前而言,demo作為新型應(yīng)用形式已經(jīng)達(dá)成了使用體驗的躍進(jìn)。其一是智能穿戴設(shè)備所預(yù)設(shè)的實(shí)現(xiàn)用戶信息交互、人體健康監(jiān)測、健康放松及生活娛樂等功能都可以在語音這一模態(tài)的輸出下得以觸達(dá),其二是大模型也能借由消費(fèi)品載體進(jìn)入我們的生活。

這條路徑的終點(diǎn),是人人都能擁有鋼鐵俠的賈維斯(漫威漫畫中的強(qiáng)人工智能)。

個性化大模型,將大開眼界

阿里巴巴集團(tuán)首席執(zhí)行官張勇在4月的阿里云峰會上說的“所有產(chǎn)品都將接入AI大模型”所言非虛。只是根據(jù)實(shí)測結(jié)果,天貓精靈demo距離落地還有一段不小的距離。

在個性化大模型的訓(xùn)練中采用億級參數(shù),也可能商業(yè)化成本管控之下的結(jié)果,但這并不妨礙demo作為行業(yè)的一次有效創(chuàng)新。大模型的落地路徑無數(shù),如果大模型確是一次堪比第二次工業(yè)革命的浪潮,那么率先亮出“燈泡”以“先聲奪人”,不知這是否是一件好事。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/97994.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-05-19 21:24
下一篇 2023-05-20 14:05

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論