文|白 鴿
編|王一粟
2024年,具身智能可以說是AI領域最火熱的賽道之一。
所謂具身智能,可以理解為人工智能和機器人技術深度結合的產(chǎn)物,是“長了身體的智能”,能夠直接與物理世界進行交互。目前業(yè)內(nèi)普遍認為,人形機器人是具身智能落地的最佳硬件載體。
也正因此,以機器人為主體的具身智能在全球徹底火了,機器人公司如雨后春筍般出現(xiàn),具身智能領域的投融資也非?;馃帷?/p>
據(jù)公開資料顯示,2024年上半年做具身智能機器人的公司可能已超過70家,其中,華為等大廠也開始布局該賽道,創(chuàng)企們則頻頻獲得融資,甚至產(chǎn)品尚未落地,就已經(jīng)估值數(shù)十億元。
今年11月5日,成立不到一年,致力于“將通用人工智能帶入物理世界”具身大模型企業(yè)Physical Intelligence宣布新一輪4億美元融資,估值達到24億美元。9月,李飛飛老師創(chuàng)立的空間智能公司W(wǎng)orld Labs在完成1億美元融資后,兩個月內(nèi)又完成了新一輪2.3億美元融資;7月,致力于“開發(fā)扎根于物理世界的通用人工智能(AGI)”企業(yè)Skild AI宣布完成3億美元A輪融資,估值達到15億美金。
那么,在這一輪具身智能賽道中,創(chuàng)業(yè)企業(yè)究竟該如何走出差異化競爭優(yōu)勢?具身智能背后的技術發(fā)展路徑又是如何?未來機器人時代到底將會在什么時間到來?
近期,我們與具身智能新銳企業(yè)智澄AI創(chuàng)始人兼CEO胡魯輝進行了一場深度交流,這位行業(yè)大咖對具身智能的技術發(fā)展和行業(yè)趨勢,給出了自己的思考和解法。
“我們是一家通用人工智能公司,核心技術是理解物理的世界模型,對標斯坦福李飛飛老師的公司?!焙斴x如此說道,“但是我們產(chǎn)品形態(tài)并非是模型,而是具身智能機器人?!?/p>
在胡魯輝看來,世界模型和主流的多模態(tài)大模型主要有兩方面不同之處,一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息,相比于多模態(tài)大模型,其輸入的數(shù)據(jù)形式以實時感知的外部環(huán)境為主,而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。
另一方面,世界模型輸出的結果,更多的是時間序列數(shù)據(jù)(TSD),并通過這個數(shù)據(jù)可以直接控制機器人。而多模態(tài)大模型輸出的結果仍是以信息為主。同時物理智能需要與世界進行實時交互,其對時效性要求較高,而多模態(tài)大模型更多是與人交互,對時效性要求較低。
也正因此,世界模型也被行業(yè)人士看做是邁向AGI(通用人工智能)的必經(jīng)之路。
作為曾在微軟、亞馬遜、華為美國研究院、Meta這樣的頂尖科技巨頭擔任高管的行業(yè)專家,胡魯輝其實早就意識到AI能夠與物理世界結合,并一直尋找合適的創(chuàng)業(yè)機會。
2024年年初,智澄AI正式成立。胡魯輝對公司的整體發(fā)展規(guī)劃,也分為兩部分:一是以打造世界模型為核心,持續(xù)進行技術創(chuàng)新和研發(fā)突破;二則是要真正的實現(xiàn)產(chǎn)品落地應用,“我們現(xiàn)階段也在與客戶進行深度合作,今年將以產(chǎn)品升級迭代為主,明年將開始真正落地商業(yè)化應用。”
據(jù)悉,今年5月開始,智澄AI的人工智能機器人原型一(TR1)、原型二(TR2)相繼完成。胡魯輝將智澄AI的人工智能機器人命名為TR,即Transforming Robot(即意為“改變機器人”)。
“雖然世界模型的研發(fā)是個持續(xù)的過程 ,但我們產(chǎn)品迭代和商業(yè)落地速度很快,現(xiàn)在基本上兩個月一次迭代?!焙斴x說道。
事實上,當前具身智能行業(yè)發(fā)展的關鍵挑戰(zhàn)之一,就是機器人的泛化能力。
畢竟,在硬件相差不大的情況下,機器人的抓取能力和動作靈活性完全依賴于“大腦”的智能化程度。只有擁有強大的泛化能力,機器人才能適應各種任務場景,具備真正的“可用性”。
胡魯輝也表示,應對當前挑戰(zhàn),智澄AI的泛化能力主要體現(xiàn)在三方面:
任務泛化:機器人既能夠做這個任務,也能夠做別的任務。
環(huán)境泛化:典型場景類似無人駕駛,需要識別理解不同路況環(huán)境,對機器人而言能夠適應不同的環(huán)境。
本體泛化:同一個模型既能驅(qū)動這類機器人本體,也能夠用另外一類機器人本體。
“對具身智能來說,只有具備任務、環(huán)境和本體三種泛化能力,才能夠真正推動機器人時代到來?!焙斴x說道,“但想要實現(xiàn)三種能力的泛化,以目前的多模態(tài)大模型技術來說很難突破。我們將打造澄靈世界模型,分三個階段,花費2-3年時間,逐步推進物理世界模型,使其能夠?qū)崿F(xiàn)像人一樣的泛化能力?!?/p>
不過,在邁向通用人工智能的道路上,目前面臨著諸多挑戰(zhàn),包括算法、數(shù)據(jù)、算力等多方面,除了應對上述挑戰(zhàn)之外,胡魯輝認為,智能工程和模型架構是另外兩個更為關鍵的要素,而智澄AI創(chuàng)始團隊在這兩個方面有多年國際領先的實戰(zhàn)經(jīng)驗。
面對日新月異的技術和產(chǎn)業(yè)變化,胡魯輝也表示,智澄AI將堅持以物理智能為核心技術,不斷加強自身技術能力的迭代,積極擁抱行業(yè)變化,推動機器人時代的到來。
以下為光錐智能與智澄AI CEO胡魯輝詳細對話內(nèi)容(經(jīng)光錐智能編輯整理):
01 每2個月迭代一次,明年將實現(xiàn)產(chǎn)品商業(yè)化落地
Q:從模型算法到智能機器人的落地,有哪些難點需要克服?我們用了多久實現(xiàn)了從模型算法到智能機器人的落地?
A:?整體挑戰(zhàn)還是蠻多的,主要是模型架構、智能工程和產(chǎn)品落地三個方面。智澄AI模型架構是端到端智能原生的世界模型,從智能工程,包括數(shù)據(jù)的采集、模型的訓練和發(fā)布等等,產(chǎn)品落地是結合泛化能力和實際的客戶需求快速迭代。2024年4月初公開創(chuàng)業(yè)方向,也差不多是這個時候開始做產(chǎn)品研發(fā),產(chǎn)品名稱為TR(Transforming Robot),基本上每2個月實現(xiàn)一次產(chǎn)品迭代,現(xiàn)有多款人工智能機器人產(chǎn)品在進行研發(fā)。
Q:最新兩代產(chǎn)品基本完成,智澄AI后續(xù)的產(chǎn)品研發(fā)及市場落地策略如何?
A:?我們的整個戰(zhàn)略方針是兩條腿走路,一方面不斷進行技術創(chuàng)新和研發(fā)突破,另一方面進行產(chǎn)品落地,我們現(xiàn)在和多家行業(yè)頭部客戶進行深度合作,計劃今年主要以技術產(chǎn)品迭代為主,明年開始產(chǎn)品落地和商業(yè)化應用。
Q:您大概是從什么時候決定做智澄AI這樣的公司?了解到咱們團隊具備國際領先的AI模型與數(shù)據(jù)能力,這次創(chuàng)業(yè)為什么選擇具身智能賽道?
A:?在2022年底,我已經(jīng)在思考這個事情,當時ChatGPT剛剛出來。其實更早之前我還寫了一篇關于生成式人工智能的文章,這篇文章被廣泛引用,當時AIGC還沒有火起來,結論就是AI是能夠跟物理智能結合。從科技角度,現(xiàn)在是移動互聯(lián)網(wǎng)時代,下一個時代是機器人時代,想改變機器人現(xiàn)狀,推動機器人時代的到來,核心技術是人工智能,而我和智澄AI部分核心團隊在人工智能基礎模型及關鍵大數(shù)據(jù)等方面深耕多年。
Q:因為其實近一年具身智能火爆,有很多企業(yè)加入到賽道當中,包括初創(chuàng)企業(yè)和一些大廠。在競爭激烈的環(huán)境下,智澄AI作為創(chuàng)業(yè)團隊,未來有哪些核心競爭優(yōu)勢?以及該如何去突破?
A:?主要兩方面,一方面我們堅持以理解物理世界、實現(xiàn)通用人工智能為愿景,不管外界變化如何,以物理智能為核心技術,推動機器人時代的到來。另一方面,我們不斷加強技術產(chǎn)品的迭代,同時結合產(chǎn)業(yè)理解和技術創(chuàng)新,持續(xù)推出匹配市場需求的產(chǎn)品。
Q:特斯拉在10月份“We,Robot”發(fā)布會上展示了人形機器人Optimus2,說成本會到2-3萬美金價格區(qū)間,您是如何看待這一定價的,以及您認為未來機器人的價格會到什么區(qū)間,才能夠?qū)崿F(xiàn)真正的普惠于民?
A:?在特斯拉的帶動下,現(xiàn)在人形機器人確實比較火。另外我們生活的世界其實是圍繞人類習慣而構建的,因此很多場景,人形機器人會更合適。但我們最終目的是服務于人,幫助人解決問題,所以要思考做什么樣機器人,而不僅僅只是說要像人。比如說未來汽車也是一種機器人,但不能說讓車變成人的形態(tài)背著你跑,現(xiàn)在汽車形態(tài),是比較舒服的形式,所以沒必要做成人形。
對于價格,則是相對的,現(xiàn)在一輛汽車能夠賣到20萬人民幣,就是一個普遍能夠接受的價格,而賣到4-5萬人民幣,也是可行的,因為面對的是不同的需求和不同的受眾群體。因為本身場景就不太一樣,我覺得價格本身不是很關鍵。
Q:之前在制造業(yè)中,已經(jīng)有很多雙臂機器人進行應用,能夠滿足工廠的生產(chǎn)需求,智澄AI的雙臂機器人,會率先落地制造業(yè),那這與上一代機器人,在實際應用上,會有哪些明顯感知的區(qū)別?以及對制造業(yè)工廠而言,會產(chǎn)生哪些更有價值的效益?
A:?我們圍繞具身智能,做人工智能機器人,主要目的還是做事情干活,幫助人解決問題,所以也是從人類的角度思考出發(fā)。因為人做事情的主要部位是雙手,所以我們率先從手開始,即單臂機器人到雙臂機器人。我們的機器人是基于AI原生模型,相比傳統(tǒng)機器人控制系統(tǒng),有本質(zhì)的變化。傳統(tǒng)的MPC/WBC本質(zhì)還是基于規(guī)則的控制系統(tǒng),優(yōu)勢比較明顯,即可以實現(xiàn)精準控制操作,缺點就在于類似于自動駕駛這種強化學習,泛化能力比較差,稍微調(diào)整一下,就需要重新開始編程,過程比較繁瑣,類似于自動化系統(tǒng)應用。而且,因為這種可擴展性差,也會導致其開發(fā)和工程成本比較高。
智澄AI的模型則類似于人腦,已具備一定的泛化能力,最終目標是其有很強的泛化能力,能夠很好的適應環(huán)境,不會因為環(huán)境的變化或任務的變化而重新來過。我們的技術以及解決方案,將真正推動機器人時代的到來。
移動互聯(lián)網(wǎng)作為上個時代影響全球數(shù)十億用戶的核心技術浪潮,當下已基本進入存量市場,機器人作為AI在物理世界的硬件載體,有望進入十億級用戶的日常生產(chǎn)及生活之中,我認為將是下一波科技浪潮中更大的增量市場。
雖然逐步優(yōu)化產(chǎn)品成本是讓機器人快速普及的推動方式之一,但僅降本很難真正改變行業(yè)現(xiàn)狀,所以我們更多要做的是讓一個模型不僅僅驅(qū)動一種本體更實用,而是使得不同型號、不同性能的機器人本體都能具備更高的功能實 用性,推動本體智能化水平實用、大規(guī)模的量產(chǎn)的同時也大幅降低成本。
02 從交互形式、輸出結果來看,多模態(tài)大模型與世界模型的本質(zhì)區(qū)別?
Q:多模態(tài)大模型如GPT和我們想做的物理世界大模型,本質(zhì)的區(qū)別是什么?
A:?目前多模態(tài)大模型主要是信息智能(輸入和輸出都是文字、音頻、圖像等信息),以信息交互為主,我們做的事情是物理智能,物理智能可以有很多的應用方向,我們主要是聚焦具身智能/機器人方向的應用,幫助機器人更好的理解物理世界。
從實時性來講,物理智能的輸入是對外界的直接感知,不是靜態(tài)信息輸入的形式,通過傳感器直接感知帶有時間序列的外界環(huán)境信息,輸出的則是時間序列數(shù)據(jù)(TSD),物理智能需要跟現(xiàn)實世界實時、高頻交互。而多模態(tài)大模型的信息往往是過往一段時間的靜態(tài)沉淀信息。
Q:自動駕駛汽車也需要與物理世界實時交互,與家庭/工作場景的機器人在技術實現(xiàn)難度有什么異同之處?
A:?自動駕駛汽車也是機器人的應用場景之一,自動駕駛汽車的自由度或者說控制指令相對簡單(如方向、剎車、油門等),其挑戰(zhàn)的地方是車的速度更快,即便出現(xiàn)小概率的失誤也可能造成重大的損失。
相對于“汽車機器人”來說,如果在家用、生產(chǎn)、危險等場景的替代或服務人類勞動機器人,其動作復雜度及任務控制指令相對來說也許會更復雜,但機器人執(zhí)行一般的生產(chǎn)或服務工作可接受的失誤容忍度相對自動駕駛來說更寬松,即便偶然出現(xiàn)一次如杯子掉落等問題,損失相對可控。
Q:我們的機器人模型在實際工作中,如何克服可能出現(xiàn)的長尾問題?從而提高泛化性
A:?當前強化學習技術路徑在無人駕駛領域被廣泛使用,但至今仍未讓車真正實現(xiàn)無人駕駛上路。我們的世界模型核心是解決泛化性問題,并沒有從強化學習的獎勵機制出發(fā),而是從端到端神經(jīng)網(wǎng)絡去實現(xiàn),這是本質(zhì)性的區(qū)別。
同時機器人在理解物理世界的時候,也需要像人一樣,具備一定的預測能力,才能夠?qū)]被訓練過的事情有一定的應對能力。一方面因為永遠有長尾問題存在,另一方面物理世界本身也是在不斷變化的,所以我們的物理世界模型希望實現(xiàn)機器人能夠像人一樣具備思考、推斷、舉一反三的能力。
Q:未來物理世界大模型發(fā)展軌跡是否會與GPT在過去幾年的迭代發(fā)展有相通之處?
A:?從未來的發(fā)展預判來看,就像GPT一樣,它也會是一個階段一個階段的發(fā)展過來?,F(xiàn)階段世界模型已經(jīng)表現(xiàn)出很不錯的能力了,例如我們已經(jīng)可以實現(xiàn)了用單個模型控制實現(xiàn)多個任務、也可以實現(xiàn)在不同光線場景條件下完成任務的泛化能力。
從另一個層面來說,多模態(tài)大模型其舉一反三能力、自監(jiān)督學習等能力,這些技術、特性也會被引入到世界模型開發(fā)改進中,來幫助世界模型快速發(fā)展。
03 具身大模型只有具備任務、環(huán)境、本體三重泛化能力,才能真正推動機器人時代到來
Q:如何理解機器人的泛化能力?是從一個固定場景訓練升級,然后泛化應用到其他場景中嗎?
A:?現(xiàn)階段深度強化學習雖然不能夠解決長尾場景問題,但在實際的生產(chǎn)線中(如汽車生產(chǎn)線的某一部分),通過強化某一任務的技能,效果反而會更好一些。但如果汽車生產(chǎn)線伴隨柔性生產(chǎn)的趨勢需要定期變化,強化學習路徑的可擴展性有限,需要重新采集數(shù)據(jù)進行學習。
而物理世界模型則可以很快適應這種調(diào)整,不需要針對任務變化重新訓練一遍,而是可以基于原來的基礎馬上調(diào)整,適用于新任務。另外在跨場景中,世界模型也可以實現(xiàn)輕松的遷移。
打個比方,現(xiàn)階段世界模型有點像一顆小樹苗,雖然當前與其他樹苗在外觀差異不大,未來潛力巨大,更有機會長成參天大樹。
Q:世界模型有一個很好的泛化能力,您覺得這種泛化的能力,主要來自哪個技術能力的突破?
A:?一方面是很強的理解物理世界的能力,就像人一樣,在能感知到環(huán)境的情況下,能夠做出實時的決策判斷。機器人操作也好,無人車運行也好,都是不斷地進行決策。
另一方面物理世界大模型與多模態(tài)大模型的涌現(xiàn)很類似,能夠舉一反三,在物理世界的任務上有很強的泛化推理能力。但也需要避免多模態(tài)大模型會出現(xiàn)的幻覺問題,而物理世界的機器人我們希望能夠真正可靠(不存在幻覺問題),我們將分成幾個階段逐步優(yōu)化模型,從而使其能夠既可靠,又能夠具備泛化能力。
Q:智澄AI的大模型訓練是否會面臨算力成本的問題?如何解決這一難題?
A:?算力也是重點投入的方向之一,我們會隨著模型分階段的訓練目標持續(xù)投入。同時由于我們具備深厚的模型架構及工程化能力,模型體量會遠小于當前多模態(tài)大語言模型,算力需求也相對可控。
本文來自投稿,不代表增長黑客立場,如若轉載,請注明出處:http://gptmaths.com/cgo/127602.html