OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R
文|郝 ?? 鑫

1月10日,OpenAI推出了在線商店“GPT Store”。該商店已于昨日開始向付費用戶、團(tuán)隊和企業(yè)用戶推出,商店匯集了用戶為各種任務(wù)創(chuàng)建的ChatGPT的自定義版本。

2023年初到年末,Agent就像一位來自異域的吉普賽女郎,“神秘”且“性感”。

從微軟發(fā)布Microsoft 365 Copilot,引入一種基于大模型的應(yīng)用開發(fā)范式,揭開了智能化的第一篇章;

到AutoGPT、BabyAGI、HuggingGPT、AgentGPT等單一Agent,向MetaGPT、AutoGen、ChatDev等多Agent框架進(jìn)化,勾勒出如“斯坦福小鎮(zhèn)”般的群體智能體藍(lán)圖;

再到OpenAI開發(fā)者大會,提出用“GPTs”方式開發(fā)Agent,更便捷的方式意味著門檻進(jìn)一步降低,借此也引發(fā)了一波Agent創(chuàng)業(yè)熱潮。

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

(圖:用戶創(chuàng)建的各種GPTs)

剛結(jié)束的奇績創(chuàng)壇秋季路演中,AI方向,51家大模型主題公司,有34家與Agent 相關(guān)。

投資人態(tài)度一百八十度大轉(zhuǎn)彎,從諱莫如深到求賢若渴,熱錢撒向了瀾碼科技、實在智能、AutoAgents等新秀。

但至此,也才猶如一陣風(fēng)吹過,微微掀起了Agent這位女郎面紗的一角。

“ AI Agent就是未來”,OpenAI聯(lián)創(chuàng)Andrej Karpathy呼喚著。

微軟比爾蓋茨發(fā)出了“五年內(nèi)每個人都將擁有AI私人助理Agent,Agent將顛覆軟件行業(yè) ”的最強(qiáng)音。

Agent未來將至,但籠罩在其身上的迷霧卻久久不能散去。在基本的概念理解上,仍然眾說紛紜,有人認(rèn)為Agent是一種分解復(fù)雜任務(wù)的框架;有人認(rèn)為Agent是大模型應(yīng)用的落地抓手;有人認(rèn)為是一種新的交互方式;也有人認(rèn)為是一種原子化的智能生產(chǎn)力……

對于Agent的不同理解,一定程度上決定了道路選擇。從目前落地現(xiàn)狀來看,大致可以分為三類:

重塑工作流,推動一些本身就有機(jī)器參與的行業(yè)從自動化走向智能化,典型領(lǐng)域如RPA、BI等;

與大模型、企業(yè)私域數(shù)據(jù)結(jié)合,嵌入到原有業(yè)務(wù)中,落地企業(yè)級應(yīng)用;

將Agent視為可“自我進(jìn)化”的新物種,通過加強(qiáng)其學(xué)習(xí)理解能力,來自行解決人類可能出現(xiàn)的問題。

“核心在于不去主動定義Agent,而是讓Agent來自我定義”,System2 Research產(chǎn)品化負(fù)責(zé)人陳鍇杰道。

作為Agent“自我進(jìn)化”觀點的推崇者,集結(jié)了OpenAI GPT 架構(gòu)的共同作者和來自MIT、劍橋、普林斯頓等學(xué)校的技術(shù)和理論資源的創(chuàng)業(yè)公司System2 Research ,從2018年就已經(jīng)關(guān)注到了Agent技術(shù),GPT能力的涌現(xiàn)讓其看到落地的可能性。得益于此,在大部分企業(yè)還在鉆研概念和技術(shù)階段,這個十人規(guī)模的團(tuán)隊已經(jīng)在開始在時尚、游戲、教育等領(lǐng)域探索落地和商業(yè)化。

大模型來了以后,Agent發(fā)生了怎樣的改變?如何讓Agent像人一樣自我進(jìn)化?為什么泛娛樂場景是Agent快速著陸的第一站?帶著重重疑惑,光錐智能對話System2 Research團(tuán)隊,解開關(guān)于Agent的迷思。

核心觀點如下:

1、Agent的脈絡(luò)就是在不斷地抽象世界知識去壓縮,什么時候抽象能力足夠強(qiáng),能支撐在足夠多場景互動,就是其從實驗室走向應(yīng)用之時。

2、因為大模型能力的突破,未來五年,Agent技術(shù)將會有極大的改變。

3、真正發(fā)生改變的是,有了大模型后,今天的Agent完成了從演員到導(dǎo)演的角色轉(zhuǎn)變。

4、核心在于不去主動定義Agent,而是讓Agent來自我定義。從需求起點出發(fā),Agent可以自行去填補(bǔ)中間過程空白,完成最終的目標(biāo)。

5、Agent與大模型能力處于垂直方向,即大模型的底座越好,Agent的能力也就越強(qiáng)。

以下為對話實錄:

?

光錐智能:OpenAI的開發(fā)者大會徹底帶火了Agent的概念,這對你們這類Agent創(chuàng)業(yè)公司有哪些直接影響?

System2 Research:我覺得這個問題十分有意思,以前我們在和投資人接觸聊Agent的時候,投資人的第一反應(yīng)是“哦,是Agent”,表現(xiàn)出的興趣不大,大多數(shù)情況下其實不知道我們在干什么。但現(xiàn)在出去再聊,幾乎是一擁而上,路演現(xiàn)場,雖然只是簡單地展示了一下demo,還是有很多人過來主動聯(lián)系。總之,大家的眼神中多了一絲驚喜。

光錐智能:你和你的團(tuán)隊是從什么時候關(guān)注到Agent技術(shù)的?是什么原因讓Agent從實驗室走向了應(yīng)用?

System2 Research:實際上,團(tuán)隊中大多數(shù)人都在上學(xué)期間或?qū)嶒炇依锞徒佑|到了Agent相關(guān)的理念和技術(shù),在這個研究方向上甚至有人一直從2018年跟進(jìn)到了現(xiàn)在。以我來舉例,早在大二的時候就接觸到了Agent,那時我在杜克大學(xué)的交互實驗室里面研究如何控制火星車的運行,其中涉及的控制算法跟Agent的概念大致相同。可以把火星車想象成一個Agent,要讓它能夠自主地在復(fù)雜環(huán)境中運行、反饋。

在第一次游戲創(chuàng)業(yè)上,我也曾有過類似的嘗試。2020年,那時還沒有大模型的概念,所以要完成一個游戲世界的構(gòu)建,需要通過壓縮現(xiàn)實世界的知識來實現(xiàn),以此來模擬NPC、玩家的心智,達(dá)到更好的體驗效果,那也是我第一次去主動研究Agent技術(shù)。盡管,我們設(shè)計了很多玩法,推動游戲用戶來進(jìn)一步豐富游戲世界模型,但模擬、反饋效果卻不是很盡如人意。

我們發(fā)現(xiàn),Agent從只能模擬運行幾條簡單的規(guī)則,發(fā)展至從心理學(xué)、神經(jīng)科學(xué)的角度來仿真人的思考過程,其整條脈絡(luò)就是在不斷地抽象世界知識然后去壓縮,什么時候抽象能力足夠強(qiáng),能支撐在足夠多場景中互動,就是其從實驗室走向應(yīng)用之時。

顯然,這個時刻已經(jīng)來了,那就是GPT的誕生。今年年初最讓我震撼的瞬間就是,基于GPT模型的一些小范圍嘗試,竟然能夠完成Agent在心智層面對人的高度抽象和模擬。也是從那個時刻開始,我們堅定地認(rèn)為,因為大模型能力的突破,未來五年,Agent技術(shù)將會有極大的改變。

光錐智能:關(guān)于Agent到底是什么,至今仍眾說紛紜,你們是如何定義和理解Agent概念的?

System2 Research:我們通常會嘗試用一種比喻來解釋對Agent概念的理解。首先,我們談到Agent的前提,它得是一個帶有智能屬性,能在某一個環(huán)境中做動作,并基于這個行為在環(huán)境空間中做出反饋。這個核心的定義,發(fā)展了20多年,其實差異性不大。我們認(rèn)為,真正發(fā)生改變的是,有了大模型后,今天的Agent完成了從演員到導(dǎo)演的角色轉(zhuǎn)變。

以前控制Agent的主動權(quán)在用戶手中,Agent被告知,表情需要再夸張一點,腿需要再抬高一點,按照指令來演出。但現(xiàn)在,Agent進(jìn)化為了導(dǎo)演,能夠指揮片場所有演員和工作人員的編排,最后呈現(xiàn)出一部大戲。

光錐智能:你們對Agent的理解和現(xiàn)在市場上其他定義的區(qū)別在哪里?

System2 Research:我們看到,現(xiàn)在大部分的大模型都是通過prompt這類language engine(語言引擎)來喚醒,這相當(dāng)于我現(xiàn)在有GPT這樣的技術(shù),也有一個目標(biāo),但技術(shù)到目標(biāo)實現(xiàn)中間存在特別大的鴻溝。我們認(rèn)為,這個gap,靠語言指令是無法填補(bǔ)的,要靠具體的動作來完成實現(xiàn)。

我們的核心在于不去主動定義Agent,而是讓Agent來自我定義。這樣的定義,十分具有生命力,因為它是從問題和需求角度出發(fā),即從發(fā)出指令、產(chǎn)生需求的起點,到中間過程再到目標(biāo)實現(xiàn)都是靠智能體自行完成,而大模型在其中的角色就是提供Agent運行所需的能力支持。

比如在學(xué)習(xí)設(shè)計過程中,我們讓Agent自己去學(xué)習(xí)和理解,去看各種成功的和失敗的案例,直接從這些案例中掌握通用的方法,提升設(shè)計的能力。等到開始設(shè)計鞋子的時候,就不需要人去告訴它第一步應(yīng)該做什么,第二步應(yīng)該找哪些顏色搭配方案參考,而是可以像一個設(shè)計師一樣,有自己的一套方法論。

過分地去強(qiáng)調(diào)流程、組織是沒有太大意義的,特別是在創(chuàng)意性的行業(yè),畢竟作為人類我們最想要的是最終的呈現(xiàn)結(jié)果,到底是三步還是十步完成,不是很重要。若Agent在自我學(xué)習(xí)后,幫人類簡化流程,一步到位,將能釋放更大的生產(chǎn)力。

光錐智能:OpenAI以“GPTs”的方式提出了Agent的創(chuàng)作框架,在你們看來,目前這種框架還存在哪些缺陷?基于自身的思考,你們?nèi)绾螐募夹g(shù)上構(gòu)建自身的Agent?

System2 Research:OpenAI提出了Agent創(chuàng)作框架,但事實上,GPTs 只是 Agent框架,并沒有解決Agent的核?技術(shù)要點。在實際落地過程中,我們也發(fā)現(xiàn),GPTs也僅能滿足一些初步的需求,并不能真正地現(xiàn)實應(yīng)用場景中。

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

(圖:使用ChatGPT-4創(chuàng)建GPTs的界面)

因此我們小組的研究著重于解決 GPT-4 和 GPTs 中沒有解決的長期記憶、魯棒性、成本高、效率低、可控性差等一系列的Agent問題。

總結(jié)下來,我們的整個技術(shù)框架包含了五個特點。

長線程能力。我們的長線程思考能力是原來智能體GPT的7.5倍,Agent也更像人,不像工具,能解決復(fù)雜問題。像一個導(dǎo)演可以操控一群演員來完成的任務(wù),創(chuàng)造自己。

精確可控。讓大模型與數(shù)值模型結(jié)合,能夠無縫結(jié)算到數(shù)值系統(tǒng),或由數(shù)值系統(tǒng)引導(dǎo)大模型的生成。

魯棒性更好。實驗數(shù)據(jù)顯示,我們構(gòu)建的Agent魯棒性是GPT的1.8倍。

更高的效率和更高的性價比。通過技術(shù)把Agent思考交流的過程內(nèi)化,直接訓(xùn)練到模型里面,輸出速度比GPT-3.5稍慢,但效果更好。內(nèi)化后,不會占用大模型的token數(shù)量,可以用比GPT-3.5更低的成本,大規(guī)模運行比GPT-4 效果更好的Agent。

無限記憶、學(xué)習(xí)遷移能力強(qiáng)。我們論文中提到一個發(fā)現(xiàn),即在Agent已經(jīng)學(xué)習(xí)了很多內(nèi)容,在學(xué)習(xí)新任務(wù)的同時,舊任務(wù)的表現(xiàn)沒有明顯的下降。這意味著Agent具備了強(qiáng)大的遷移學(xué)習(xí)能力,就像滾雪球一樣越學(xué)越靈,可以更快地跨越更多的場景,而且可以用同一套模型去服務(wù)一整個行業(yè)。

光錐智能:System2 Research和時諦智能的關(guān)系是怎樣的?為什么把時尚行業(yè)作為Agent技術(shù)落地應(yīng)用場景的第一站?

System2 Research:System2 Research小組是?個專注推動大型模型領(lǐng)域革新的研究?組,集合了一些來自MIT、劍橋、普林斯頓等院校的頂尖學(xué)者和實踐者。其中不少人在技術(shù)和理論方面都有所積淀,比如曾經(jīng)與OpenAI GPT 架構(gòu)的共同作者Karthik,以及ReAct和ToT框架的作者姚順雨,共同發(fā)表了Agent技術(shù)框架FireAct。

總的來說,System2 Research小組主要攻克構(gòu)建Agent所需要的核心技術(shù),時諦智能實際上是我們團(tuán)隊落地行業(yè)應(yīng)用的第一批應(yīng)用場景。

光錐智能:以鞋子設(shè)計為例,Agent技術(shù)具體是怎樣與時尚行業(yè)結(jié)合的?Agent如何影響或重塑時尚行業(yè)的各個流程的呢?

System2 Research:我們最開始接觸時尚行業(yè)的時候就是思考到底時尚行業(yè)的卡點是什么,發(fā)現(xiàn)在企劃,設(shè)計,銷售,供應(yīng)鏈等各個環(huán)節(jié)都很依賴人的經(jīng)驗去決策。大家都迫切希望AI能夠基于數(shù)據(jù)去思辨,當(dāng)下流行的是什么,消費者需要什么,應(yīng)該設(shè)計什么樣的產(chǎn)品,要生產(chǎn)多少件衣服才能滿足市場需求?并且在這個過程中,通過人機(jī)的協(xié)同,輔助真人設(shè)計師,去完成一個可控的好設(shè)計,同時在后續(xù)選款、測款、配補(bǔ)調(diào)的過程中給出有數(shù)據(jù)參考的決策。

在這個過程很多人面臨的另一個問題是如何讓AI記住我們,記住我們和它之間的溝通內(nèi)容,以避免每次都要從頭開始。在System2 Research之前這個問題目前還沒有好的解決辦法。

我們很高興能與時諦一起基于他們原有的一套時尚行業(yè)的全鏈路解決方案(企劃-3D設(shè)計協(xié)同-生產(chǎn)系統(tǒng))FIM,加上我們system2 agent的planning和memory能力,充分運用他們的行業(yè)數(shù)據(jù)積累,將其變得更智能化。

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

在時諦智能的FIM平臺上,設(shè)計師可以和Agent一起基于線上的多維度數(shù)據(jù)分析當(dāng)下符合企業(yè)調(diào)性的產(chǎn)品方向,可以討論如何設(shè)計新的爆款,也可以讓它快速檢索所需要的設(shè)計素材。這個過程是既有對話式,也有操作式,設(shè)計師隨時都可以向已經(jīng)積累了大量時尚行業(yè)認(rèn)知的Agent發(fā)起對話,可以尋求設(shè)計靈感、修改建議。

我們和時諦的合作,行業(yè)感覺最大的亮點就是可控、精準(zhǔn),可能只是簡單的四個字,但是卻是極大的突破。

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

光錐智能:除了時尚行業(yè),你和你們團(tuán)隊還比較看好哪些領(lǐng)域?為什么這些方向與Agent結(jié)合會比較有潛力?

System2 Research:時尚、教育、游戲還有大量泛娛樂的領(lǐng)域,我們都在接觸。

泛娛樂行業(yè)內(nèi)容生產(chǎn)中,本身就有很多可以替代的部分,在實時互動過程中,可以通過Agent加入更多新的玩法,例如,在看一部劇的時候,暫停下來就能近距離地和劇中的人物直接繼續(xù)對話,或者遇到不喜歡的情節(jié)時,直接再造一個平行世界,繼續(xù)往下看等等。

其次,娛樂性的行業(yè)的容錯率也相對較高。大模型的幻覺是硬幣的兩面,不精確也意味著有創(chuàng)造力。我認(rèn)為,娛樂的本質(zhì)就是對一些特異事件的壓縮和重現(xiàn),比如說我們看一個古裝言情,它抽象的其實是人類社會活動中宮廷角斗、商業(yè)爭奪這一部分核心社會關(guān)系。不管是哪一種娛樂形式,大家之所以會覺得它很有魅力,就是是因為它抽象了我們生活中身邊的一部分,并且能在這部分體驗中獲得現(xiàn)實生活中滿足不了的東西。

我們最近推出的產(chǎn)品 midreal.ai 就是上述技術(shù)和思考的結(jié)晶。midreal.ai 目前運行在 Discord 中,為用戶提供了一種全新的互動圖文故事體驗。用戶只要輸入一句自己幻想的世界觀,就能和 AI 展開 10 分鐘的圖文互動。目前我們的 Discord 中已經(jīng)有超過一萬名熱情的內(nèi)測用戶,每天進(jìn)行數(shù)千次故事互動。我們在 2 月份就會引入包括動圖在內(nèi)的更多媒介,并且擴(kuò)展游戲玩法,加入對戰(zhàn),讓用戶和朋友們一起沉浸在幻想世界中,去滿足現(xiàn)實世界無法實現(xiàn)的想象。

光錐智能:當(dāng)大家還在談Agent概念的時候,System2 Research已經(jīng)開始了行業(yè)應(yīng)用落地,你們?nèi)绾我?guī)劃未來的商業(yè)化進(jìn)程?

System2 Research:目前看,我們Agent的技術(shù)相當(dāng)于已經(jīng)在時諦智能的軟件平臺上跑通了,已經(jīng)有客戶在使用內(nèi)測產(chǎn)品。另外一個在游戲領(lǐng)域,我們的角色是Agent的供應(yīng)商,幫助一些游戲廠商做智能NPC。再向前一步,可能會考慮尋找企業(yè)跟我們一起做多智能的開放世界,大概是中期會推出的一個項目。

光錐智能:比爾蓋茨認(rèn)為軟件的時代已經(jīng)過去,最終Agent會替代App,成為新的應(yīng)用形式,你們怎么看待這個觀點?從萌芽到替代大概的周期要多久?

System2 Research:我覺得要看Agent能做哪些事情,打開一個軟件買菜,這就是一個action;打個電話,這也是一個action,所以從技術(shù)和整個社會最高效的運行來講,的確是Agent能代替所有的東西。如果,再能實現(xiàn)作為個人助理管理所有Agent的目標(biāo),那人類可能離解放也就不遠(yuǎn)了。

OpenAI GPT商店來了! 創(chuàng)業(yè)公司打不過就加入?|對話Agent創(chuàng)業(yè)公司S2R

(圖:騰訊論文中對AppAgent的構(gòu)想,讓 AI 自己去玩手機(jī))

接下來幾年,Agent會怎么樣逐漸改變商業(yè)世界還是值得期待的一件事情。我們最近也在思考,往小的方向思考,作為一個創(chuàng)業(yè)團(tuán)隊,我們可能會優(yōu)先考慮落地游戲、教育、時尚幾個場景,思考需要用Agent去替代哪些環(huán)節(jié),如何實現(xiàn)降本增效,如何產(chǎn)生全新的互動模式等等。

往大了想的話,可能就是Agent在經(jīng)濟(jì)生產(chǎn)行為中的比重,看它能不能占到現(xiàn)在應(yīng)用市場的10%,然后是到后端、工廠、制造業(yè)、醫(yī)療行業(yè)中,看它能從GDP中切出來多少。

光錐智能:開發(fā)者大會結(jié)束之后,有一種論調(diào)是OpenAI殺死了很多創(chuàng)業(yè)公司。你們覺得創(chuàng)業(yè)公司的邊界在哪里呢?如何保證自己目前所做的項目不被OpenAI或者是其他大廠所顛覆,保持生命力,穿越下一個經(jīng)濟(jì)周期?

System2 Research:我們的能力基本屬于和大模型能力垂直的一個能力。翻譯過來就是,大模型的底座越好,我們Agent的能力也就越強(qiáng)。隨著我們自己技術(shù)、算法的進(jìn)步,以及落地場景的逐漸成熟,競爭壁壘也就越來越強(qiáng)。

除非今天OpenAI專門開辟出Agent這個方向,All in Agent,那可能會對我們這些創(chuàng)業(yè)公司造成降維打擊。但這還存在一個核心的問題,Agent要變強(qiáng)大,還需要專業(yè)的行業(yè)數(shù)據(jù),今天所有人都在擔(dān)心OpenAI拿他們的私有數(shù)據(jù)來訓(xùn)練,不太可能放心把這些數(shù)據(jù)貢獻(xiàn)出來給OpenAI,以后對數(shù)據(jù)的管理只能是越來越規(guī)范,而這對Agent創(chuàng)業(yè)公司來說就是機(jī)會所在。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/112257.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2024-01-11 07:08
下一篇 2024-01-11 15:35

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論