文|劉俊宏
編|王一粟
特斯拉的端到端自動駕駛到底怎么做的,至今無人能說清。但理想和其他中國第一梯隊的智駕廠商們在探索的過程中,收獲了最新的三個共識。
要想智駕真正意義全國都能開,過去基于“規(guī)則”的智駕開發(fā)模式已經(jīng)趨近極限,需要用大模型“端到端”的方案讓汽車自己學會如何駕駛。
但在訓練端到端大模型時,過程就像是煉丹。擁有更多高質(zhì)量的數(shù)據(jù)只是“原材料”,“正確”配比投入到模型訓練中的數(shù)據(jù),才能讓智駕擁有良好表現(xiàn)的同時,兼顧面對不同場景的兼容性。
雖然,端到端大模型顛覆了過往智駕的開發(fā)和訓練模式。但端到端大模型所帶來的智駕能力提升,目前根本看不到上限。
對于整個汽車智駕行業(yè),2024年無疑是最重要的分水嶺。不僅是因為智駕完成了“全國都能開”的階段性目標,高階智駕在今年正式開始普及。更是因為當智駕走向大模型端到端之后,各路玩家雖然目標一致,但技術(shù)上正在“分道揚鑣”。
“已經(jīng)來到了無人區(qū)。沒有人說自己的端到端是怎么做的,大家都在盲人摸象?!?span id="czcps4t" class="wpcom_tag_link">理想汽車智能駕駛技術(shù)研發(fā)負責人賈鵬在近期的一個小范圍媒體溝通會上對光錐智能稱,很多技術(shù)都尚處于探索階段。
帶著這樣的視角,光錐智能與理想汽車智能駕駛研發(fā)副總裁郎咸朋和理想汽車智能駕駛技術(shù)研發(fā)負責人賈鵬進行了面對面深度交流。從理想汽車大模型端到端智駕研發(fā)過程的實踐中,揭開了不少智駕“端到端”的“迷局”。
前方干貨預警,核心觀點如下:
1. 目前“端到端+VLM(視覺模型)”的方案是能夠支撐到自動駕駛的。后續(xù)會結(jié)合大模型的多模態(tài)能力,統(tǒng)合語音、語言、視覺、激光雷達最終實現(xiàn)L4。
2. 從端到端開始,智駕才真正意義上是用AI的方式做自動駕駛。真正用數(shù)據(jù)、算力加上訓練實現(xiàn)模型自動化自我迭代,減少過往大量的人力參與,智駕整體迭代速度會變得非常快。
3. 測試智駕大模型的能力需要“考試”能力的配合。不僅需要真人“老司機”駕駛數(shù)據(jù)的“真題卷”、智駕運行被接管時的“錯題集”,還有基于世界仿真+Sora的“模擬題”。
4. 端到端智駕大模型很神奇。投喂什么數(shù)據(jù),就能產(chǎn)生相應能力。訓練智駕模型最重要的就是數(shù)據(jù)配比,投喂數(shù)據(jù)的配比不同,決定了智駕的能力表現(xiàn)。
5. 為了保證投喂數(shù)據(jù)的質(zhì)量,還需要配套工具鏈對數(shù)據(jù)進行高質(zhì)量挖掘。
以下為采訪實錄(為方便閱讀,光錐智能做了一些文本優(yōu)化):
做大模型端到端智駕,是在探索“無人區(qū)”
Q:目前理想這套端到端+VLM的智駕架構(gòu),是基于什么想法設(shè)計的,未來會怎么變化?
郎咸朋:去年戰(zhàn)略會時期,我們參考了包括特斯拉FSD在內(nèi)的智駕方案,發(fā)現(xiàn)想要實現(xiàn)自動駕駛的目標,存在很大的挑戰(zhàn)。因為不管傳統(tǒng)感知決策模型的智駕還是端到端都需要大量數(shù)據(jù)作為基礎(chǔ)。根據(jù)已知的數(shù)據(jù),通過訓練或者人工設(shè)計規(guī)則去滿足智駕的場景。但這樣就會導致系統(tǒng)在沒見過的場景下不能很好工作。
想要做到自動駕駛,就必須要車輛擁有與人一樣的思考決策或者判斷推理的能力。所以我們采用了跟人類大腦的思考和認知方式比較類似的雙系統(tǒng)架構(gòu)。具體而言,系統(tǒng)一是端到端模型,系統(tǒng)二用了VLM。未來有沒有其他的實現(xiàn)方式,我們還在探索,但目前通過實踐和迭代來看,這套框架是比較適合后面做自動駕駛的。
賈鵬:對比了特斯拉在美國的表現(xiàn)之后,我們發(fā)現(xiàn)特斯拉在簡單道路上行駛很順,但在復雜道路上的接管率很高??紤]到中國道路復雜程度比美國更高,所以我們認為單獨的一個端到端系統(tǒng)可能不夠,需要在端到端的基礎(chǔ)上再加一個有泛化、邏輯思考能力的一套系統(tǒng)(VLM)。VLM雖然不直接控車,但是會起到提供決策的作用。下一步隨著大模型的發(fā)展,端到端和VLM兩個模型可能合二為一。更進一步,借鑒大模型多模態(tài)的發(fā)展趨勢,也可能朝著原生多模態(tài)的方向,統(tǒng)一語音、視覺和激光雷達 。
我們認為,這套范式應該能夠支撐我們做到L4。同時,參考具身智能的發(fā)展,我們也已經(jīng)能看到這套模型應用的雛形。這可能就是我們追求實現(xiàn)真正人工智能的終極答案。我們現(xiàn)在實現(xiàn)了無圖智駕全國都能開,端到端實踐下來效果還不錯。再往下,可能就到了無人區(qū),最終通向自動駕駛或L4。
Q:端到端和VLM這兩個系統(tǒng)是怎么協(xié)作的?
賈鵬:這倆系統(tǒng)一直都在分開實時運行。端到端這邊模型小一點,運行幀率比較高,大概十幾赫茲。
另一邊VLM因為規(guī)模參數(shù)量大得多(22億參數(shù)),目前運行幀率大概是3-4赫茲。它起到的作用是提供一個參考決策。例如在高速ETC場景,VLM可以告訴汽車走哪邊。VLM系統(tǒng)其實一直都在,只是它把決策結(jié)果和參考的軌跡點提供給系統(tǒng)一,端到端系統(tǒng)在推理時會參考VLM提供的信息。
Q:后續(xù)推送的節(jié)奏是什么樣的
郎咸朋:肯定會加快。
端到端幾乎重塑了之前的研發(fā)和交付流程。端到端之前,不管是有圖、無圖,還是模塊化或“分段式”端到端方案,與One Model的端到端差別在于是否有人工參與。之前方案開發(fā)是基于需求分析、產(chǎn)品設(shè)計、研發(fā)、測試,最后到交付的理念。如此一來,當初的設(shè)計方案就限定了能力能夠達到的上限。
隨著自動駕駛的發(fā)展,真實場景是無限的,不可能提前定義所有場景。端到端表面上看是一個大模型去替代之前的幾個小模型。但在我理解端到端代表著真正用AI做自動駕駛的分水嶺。因為端到端是由數(shù)據(jù)驅(qū)動的,是算力、數(shù)據(jù)、模型相互配合,高度自動化的自我迭代過程。
但同時,端到端時代也帶來了模型能力的評價和測試的挑戰(zhàn)。因為端到端是一個從輸入直接到輸出的“黑盒”,我們沒法直接寫個規(guī)則或者直接從決策的角度來評價模型的效果。
那么如何評價模型的能力?為此,我們有一個專門用來檢驗模型能力的考試模型。其中,這個模型首先根據(jù)真人“老司機”的駕駛指標,從我們80萬車主中取大概3%的數(shù)據(jù)作為模型的正樣本,也就是“真題庫”。同時,我們根據(jù)智駕正常測試或開車時,用戶接管和退出時發(fā)生的狀況,生成模型的“錯題庫”。此外,我們還會根據(jù)所有的數(shù)據(jù)生成“模擬題”,針對模型容易出問題的部分,再生成一些內(nèi)容訓練。
有了這些題目之后,衡量模型能力首先要驗證之前“錯的題”還會不會出錯,然后再考一下之前“會的題”表現(xiàn)情況,最后再用模擬題“考一考”。這樣對每一版模型能“打一個分數(shù)”后,根據(jù)分數(shù)表現(xiàn),再決定是否能進入下一步類似于千人早鳥測試的驗證階段。換句話說,模型在推送給用戶之前,已經(jīng)經(jīng)過了上述包含了上萬公里規(guī)模的考試驗證。
接下來的早鳥測試,實際上是通過上千輛用戶車幫我們做道路驗證和測試。在這個過程中,不會影響用戶正常開車體驗。我們通過影子模式,數(shù)據(jù)實時回傳到后臺進行自動化分析,然后根據(jù)這些數(shù)據(jù)再進行下一輪的自動迭代訓練。所以你會看到,我們整個迭代速度會非???。
在之前傳統(tǒng)智駕迭代的流程中,場景設(shè)計、研發(fā)、測試,再到交付之后問題分析和修改,都需要大量的人力參與。但到了端到端之后,數(shù)據(jù)收集、樣本制作、自動化訓練、自動化評測考試、自動化迭代,到最后的影子測試,這里面人的參與度變得非常少。
Q:模擬題是怎么制作的?后續(xù)如何持續(xù)提高模型能力?
賈鵬:考題主要分兩種,一種是基于真實數(shù)據(jù)。我們把正常行駛數(shù)據(jù)和出錯數(shù)據(jù)拿回來,通過3D重建技術(shù)還原場景進行連續(xù)測試。
另一種就是很難真實獲取的長尾問題,這就需要一些對應的生成工作。之前我們在發(fā)布會上提到,我們的世界模型并不是純Sora那種生成。而是基于重建和生成的結(jié)合,相當于在重建的基礎(chǔ)上做泛化,生成符合真實世界規(guī)律的場景。這種模式與此前自動駕駛仿真基于人為“擺放”的場景不同,本質(zhì)上可能跟大語言模型訓練“大力出奇跡”類似。相比追求單一項目的完美表現(xiàn),我們更追求模型在泛化能力下,每個能力都能實現(xiàn)90分以上的效果。
后續(xù)能力提升,我們首先是組建了一個包含產(chǎn)品、主觀評測,還有之前做無圖方案的功能工程師的團隊,他們寫prompt生成場景。此外,我們當前80萬的車主在給我們時時刻刻上傳case。其實本質(zhì)上還是人工“出題”和現(xiàn)實數(shù)據(jù)結(jié)合。
Q:利用AI做虛擬仿真,是否改變了整個驗證的流程?那些關(guān)鍵技術(shù)促進了仿真驗證環(huán)節(jié)的進步?
賈鵬:仿真最重要的還是做出攝像頭看到的樣子?,F(xiàn)在對仿真變化最大的技術(shù)就是NeRF(輻射神經(jīng)場),可以把一組視頻還原出3D模型的材質(zhì)和光照。但3D重建最大的問題在于,如果某個視角沒見過,那么生成的部分就會模糊。所以我們現(xiàn)在想把Sora的生成與NeRF結(jié)合在一起,把沒見過的部分給補上,這樣就能產(chǎn)生一個360°的3D世界模型。這是跟以前最大的區(qū)別。
郎咸朋:仿真的進步,基本就是解決之前仿真看起來很假和視角缺陷的問題。對比而言,理想自動駕駛的演進其實也是同樣的規(guī)律。
高速NOA時期,用高精地圖方案能解決。到了城市之后,高精地圖很難解決。一開始我們嘗試用感知配合局部NPN(神經(jīng)先驗網(wǎng)絡(luò))的方案減少對地圖的依賴。但這樣還是不行,只要需要圖,那就會存在新鮮度的問題。想達到全國都能開,就必須扔掉圖。那么,用傳統(tǒng)方式做無圖的話,就需要投大量的人力去迭代、更新、測試。但新的問題是,即使投入如此多資源,能力還是達不到擬人的效果。所以我們現(xiàn)在才轉(zhuǎn)到了現(xiàn)在的VLM和端到端。
其實技術(shù)的迭代并不像大家想象的復雜,都是遇到問題解決問題。只不過遇到問題之后,第一能不能想到本質(zhì),第二是看到本質(zhì)之后,能不能有決心和執(zhí)行力解決問題。
Q:VLM是必須的嗎,重要性如何?
郎咸朋:我們現(xiàn)在正在探索它的能力。它目前在主路、輔路的車道選擇上,已經(jīng)體現(xiàn)出了價值。但如果沒有它,其實也不會出安全問題。我們實現(xiàn)L3主要還是依靠端到端,它代表的是人正常情況下的駕駛能力。但面向L4,一定會需要VLM或者大模型。它可能90%以上的時間不起作用,但它真正能應對未知場景的決策能力是智駕從L3走向L4的關(guān)鍵。
Q:這套能力的系統(tǒng)上限到底是在哪?
郎咸朋:現(xiàn)在我們的端到端和VLM應該是站在了無人區(qū)的邊界。再往前,其實當前做端到端的各家公司也都是在探索階段。理想作為One Model端到端的先行者,在探索的過程中,我們發(fā)現(xiàn)數(shù)據(jù)規(guī)模帶來的性能提升,現(xiàn)在還沒有看到上限。論極限的話,可能還是基于芯片本身的算力。我們算了一下英偉達Orin X芯片,大概能夠支撐三個億左右的端到端產(chǎn)品規(guī)模。
賈鵬:現(xiàn)在對于大模型來說,目前車端芯片最主要的瓶頸是內(nèi)存帶寬。
Q:現(xiàn)在理想端到端跟其他人的差別是什么?算力規(guī)模大概是什么樣?
賈鵬:大家現(xiàn)在真的都進入到了無人區(qū),其他廠商也沒說過自己的端到端是怎么做的。我們現(xiàn)在的端到端模型是生成軌跡,然后再加一些安全兜底。在模型能力沒達到上限之前,還是要處理一些特定情況,例如可能發(fā)生的智駕猛打方向盤。
云端算力這塊,理想大概是4.5EFLOPS。這個數(shù)據(jù)其實跟公司的開支有關(guān)系,背后還是要用利潤支撐。
郎咸朋:隨著智駕模型訓練,未來算力需求會指數(shù)級上升。我們預計,如果做到 L3和L4自動駕駛,一年光是訓練算力的花銷大概為10億美金。將來我們拼的就是算力和數(shù)據(jù),自動駕駛做到后面其實還是拼錢,是企業(yè)盈利能力的比拼。
調(diào)教模型像煉丹,數(shù)據(jù)重要性的維度變多了
Q:在數(shù)據(jù)這一塊,如何更高效采集和利用?
郎咸朋:理想的一個優(yōu)勢,就是L系列車型長得比較像。好處是數(shù)據(jù)可以共用,除了車型有長短大小的區(qū)別,所有車上攝像頭配置和安裝位置都大體一致。而且我們從2019年第一代理想one開始,就開始做數(shù)據(jù)工作。當時我們是在Mobileye的攝像頭旁邊,放了一個我們自己的數(shù)據(jù)分析和采集的攝像頭。從這個攝像頭開始,我們就在做數(shù)據(jù)的閉環(huán)研發(fā),積累了大量經(jīng)驗。目前我們有80萬車主,積累超過12億公里的有效訓練數(shù)據(jù)。數(shù)據(jù)量是國內(nèi)最多的,沒有之一。
賈鵬:數(shù)據(jù)只要把傳感器原始數(shù)據(jù)和汽車的駕駛行為拿回來就夠了。
郎咸朋:一個完整的數(shù)據(jù),是大概20秒到30秒左右的小視頻。它包含所有周圍攝像頭、激光雷達等傳感器的數(shù)據(jù),以及這幾十秒之內(nèi)方向盤、油門、剎車等的車輛駕駛數(shù)據(jù)。
Q:數(shù)據(jù)工作最重要的部分是什么?
郎咸朋:模型和數(shù)據(jù)迭代相關(guān)聯(lián),如果算法迭代,那么對數(shù)據(jù)的要求也會改變。但總之,需要的原始數(shù)據(jù)都是一樣的。
數(shù)據(jù)工作中,最重要的部分就是數(shù)據(jù)配比。舉個例子,今年早期測試的時候,發(fā)現(xiàn)模型平時開車表現(xiàn)還不錯。但一到等紅綠燈的時候,車就總想著變道。后來我們發(fā)現(xiàn),是平時訓練的時候刪掉了很多紅燈前等待的數(shù)據(jù)。這份數(shù)據(jù)的重要性在于,它讓模型知道等待的重要性,而不是一旦慢下來就要考慮變道。
訓練端到端模型,跟古代煉丹沒什么區(qū)別。正確配比數(shù)據(jù),直接影響自動駕駛的體驗得分。認識到數(shù)據(jù)配比的重要性后,我們還配套研發(fā)了用于后臺數(shù)據(jù)庫的數(shù)據(jù)挖掘小模型、場景理解小模型、數(shù)據(jù)查找等的一系列配套的工具鏈和基礎(chǔ)建設(shè)。這些小模型的意義,在于我們后臺系統(tǒng)能很快速挖掘或獲取某個特定數(shù)據(jù)。這也是我們多年積累的一個非常重要能力。某種意義上說,這種能力甚至大于模型的能力,沒有這些原始數(shù)據(jù)和基礎(chǔ)建設(shè),在好的模型也難以訓練出效果。
Q:發(fā)現(xiàn)紅綠燈的問題,再去定位數(shù)據(jù)缺失。這種訓練方式跟以前有什么不同?
郎咸朋:我們有一套非常好用的工具鏈。比如發(fā)現(xiàn)一個Bad Case,會回傳到我們內(nèi)部的“分診臺”系統(tǒng),自動分析到底是哪里的問題。這套模式并不是基于傳統(tǒng)意義上的分類,也是經(jīng)過模型訓練給出的建議結(jié)果。有了結(jié)果之后,再根據(jù)建議找到類似的場景,或是告訴我們訓練樣本需要補充什么樣的數(shù)據(jù)。然后在進行下一步的訓練。
最終還是回到數(shù)據(jù)“調(diào)配方”或是“調(diào)配比”的訓練中來。
Q:整套優(yōu)化流程是否可以理解為,先發(fā)現(xiàn)問題,診斷完再找到更好的片段補充訓練?
郎咸朋:對,而且我們整個過程就跟治病一樣。類比治病可以同時使用多種藥物,我們會同時訓練多個模型。所以訓練算力的重要性,再次提到了臺前。我們現(xiàn)在最多同時訓練十來個模型,再經(jīng)過評分系統(tǒng)打分。
賈鵬:訓練模型最重要的是兩個方面。第一是數(shù)據(jù)的配比,針對一些類似的場景,需要加多少數(shù)據(jù)才能把Case解決掉。這背后是對不同場景對數(shù)據(jù)要求不同的know-how。第二點是模型的超參。加入新的數(shù)據(jù)后,針對模型內(nèi)部的參數(shù)如何調(diào)整,我們一般會有5-6版模型同時訓練,然后再看哪一版解決了問題,同時得分也更高。
Q:端到端模型最難的是解決什么問題?
賈鵬:端到端本質(zhì)上是模仿學習。數(shù)據(jù)端只要控制質(zhì)量,給了什么樣的數(shù)據(jù),它就能模仿下來。但模型同時還有一定的涌現(xiàn)能力,所以從中模型會生成自己原本不知道的能力。就像環(huán)島一樣,模型自然而然就學會了。我覺得所有的控制量都在一頭一尾。
“一尾”現(xiàn)在是通過模型來考試。但我們團隊現(xiàn)在花最大力氣的,是精確數(shù)據(jù)配比和保證數(shù)據(jù)質(zhì)量,解決“一頭的問題”。
因為模型本身能投喂的數(shù)據(jù)量存在上限,投喂太多,模型就開始遺忘了。所以最難的事情就在如何在限定的投喂數(shù)據(jù)量中,分配每個場景投喂的數(shù)據(jù)量,讓模型實現(xiàn)最大的兼容性?,F(xiàn)在我們做了很多的工具鏈。比如給數(shù)據(jù)打標簽,這些標簽打的越細膩,配比的時候就更容易精確“抓到”。針對不能容易智駕打出標簽的,我們從中提取特征,判斷這段數(shù)據(jù)跟其他那一段相似度高。
這些能力都是外界很難看到的底層應用,我們也是慢慢積累過來的。
Q:大模型接下來有什么打算?
賈鵬:我們目前的大模型分成了兩塊。一塊是車端VLM視覺語言大模型,就是系統(tǒng)二,是用于車端決策的;另一塊是云端的世界模型,用于系統(tǒng)一和系統(tǒng)二的考試和驗證。將來可能在車端整合系統(tǒng)一加系統(tǒng)二,再加上云端這套用來考試的模型。再接下來,我們可能會整合一套理解加生成合一的超級大模型。這樣通過蒸餾或者強化學習的方式,把大模型的知識都放到車端。
郎咸朋:剛才賈鵬提到的構(gòu)想,實際上是我們RD(研發(fā)工程師)團隊正在做的預研。
我們?nèi)ツ?月份在戰(zhàn)略會上,李想第一次明確了兩件事情。第一是智能駕駛是公司的重要戰(zhàn)略,第二是我們技術(shù)預研是走向未來人工智能領(lǐng)先的重要工作。對應到我們自動駕駛團隊內(nèi)部,我們一直都有一條交付的明線。另一條暗線則是預研。之前我們在交付上投入了大量的資源,但我們的算法和研發(fā)人員會自發(fā)的去做 RD工作。在交付最忙的時刻,還會對外發(fā)表一些技術(shù)論文。
所以結(jié)合近一年來理想智駕能力的變化。實際上我們在做百城NPN(神經(jīng)先驗網(wǎng)絡(luò))的時候,就已經(jīng)在做無圖的方案。今年1月份切到了無圖方案后,端到端就在做預研了。目前我們的端到端正在做一些后續(xù)的迭代和鳥蛋交付的工作。再下一步技術(shù)方向的預研,包括統(tǒng)一的大模型和我們對L4的探索。
與80萬車主,共闖大模型“端到端”
Q:理想端到端團隊的規(guī)模大概是多少,包括之后組織上有沒有什么變化?
郎咸朋:我們組織主要是基于當前技術(shù)和業(yè)務(wù)方案的變化,經(jīng)過了一些調(diào)整。
之前做無圖的時候,就在端到端的初步預研。起初我們參考華為擴張智駕團隊的模式,發(fā)現(xiàn)這樣需要全國各地都要鋪開,問題分析、研發(fā)工程師、測試人員都需要招人。但是結(jié)合剛才提到的智駕能力提升,擴張團隊不能解決智駕走到自動駕駛的根本問題。
所以我們回歸用戶需求。用戶具體的需求可能不是要智駕具體的接管率數(shù)值,而是一個像老司機一樣的智駕體驗。如果這樣看的話,那么之前偏規(guī)則的方案可能永遠都達不到。不管是模塊化架構(gòu)還是“分段式”端到端,只要涉及到規(guī)則,研發(fā)效率就會低,而且還會摻雜人為的理解。拿我們現(xiàn)在端到端和無圖兩個版本對比,端到端會在細節(jié)上更擬人化。例如轉(zhuǎn)彎操作,原來的方案是根據(jù)一些參照物生成確定性的轉(zhuǎn)彎路徑。但如果是人來操作,就會考慮通過路徑中的更多因素??傊?,具體存在的規(guī)則,會讓用戶實際體驗覺得別扭。
所以我們看到,如果鋪人力用規(guī)則來做智駕的話,第一是需要大量的人,第二是這些場景還是做不過來。所以就要升維解決這個問題,用模型驅(qū)動的端到端方案。基于此,我們年初跟李想討論,如果智駕技術(shù)走向下一階段,可能需要迭代整體技術(shù)和工作方案。同時,團隊可能也不需要用到那么多人。
參考我們智能駕駛團隊過往的決策和組織調(diào)整,都十分注重執(zhí)行效率。2021年,我們切入自研,2022年,拿掉了角雷達。2023年,我們技術(shù)進化了三代,從有圖到NPN(神經(jīng)先驗網(wǎng)絡(luò))到無圖,再到現(xiàn)在的端到端。組織的決策速度和執(zhí)行效率,是我們一直以來的優(yōu)勢。對應現(xiàn)在的組織規(guī)模調(diào)整,我們覺得完全可以參考特斯拉。特斯拉的軟件和策劃團隊一直是比較小的規(guī)模,大概200人左右。我們比特斯拉的車型多,再加上智駕有max和pro兩個平臺。所以我們組織的人數(shù),會比特斯拉多一些,但不會到幾千人那種規(guī)模。
所以本質(zhì)上還是組織跟著業(yè)務(wù)需求而變化。原先解決問題的人,現(xiàn)在變成了設(shè)計解決問題工具的人。
Q:接下來的交付預期?現(xiàn)在是否還有實車按照地區(qū)跑測試?
郎咸朋:我們不會按照地區(qū)開放功能。全國車主只要能更新,它就在各個地方都能跑。
接下來的推送節(jié)奏,我們還是以考試和成績作為主要參照??荚囀紫鹊镁S度還是安全性,這部分不允許智駕丟分,其次再是能力和挑戰(zhàn)的題。智駕模型通過考試后,我們通過千人早鳥的方式,推到正式的用戶車上。當然,在推送之前會跟內(nèi)測用戶溝通好風險和問題,并希望通過他們在實際道路上測試,我們再收集和解決問題。
至于能否使用接管率,統(tǒng)計學意義上的指標來評價新版本是否可以推送。我們還在迭代具體的指標。但具體下一步推送,千人之后可能會再推一個萬人。但總歸我們希望越早推送越好。用李想的話說,最快在今年,最慢也是明年上半年。
Q:咱們后面整個端到端技術(shù)升級的路線會分為哪幾個重要階段?階段的規(guī)劃是怎么樣的?
郎咸朋:目前我們現(xiàn)在的方案還沒看到上限。同時,我也認為它可以幫我們走到 L3。在這個過程當中,我們需要做的只有持續(xù)迭代自己的數(shù)據(jù)和算法。
Q:環(huán)島這種比較難的場景,在技術(shù)上要如何解決?什么節(jié)點能解決掉?
賈鵬:環(huán)島問題現(xiàn)在已經(jīng)解決了,我想分享一下這個過程中有趣的故事。我們起初投喂80萬clips的時候,還過不了環(huán)島。后來當數(shù)據(jù)量達到100萬clips時,他自己就能過環(huán)島了。我覺得是100萬clips里頭剛好有一些環(huán)島數(shù)據(jù)的原因。模型確實很神奇,你喂了什么數(shù)據(jù),他就能學會相應能力。ETC場景也是類似,現(xiàn)在端到端的版本能自己過ETC。這是因為VLM在理解文字和LED指示燈后,對汽車進行了指引。
Q:這是否意味著,環(huán)島、掉頭等能力,只有端到端才能做?
賈鵬:如果是以前分段式的智駕,那就是首先要感知,然后讓規(guī)控生成各種假設(shè)。比如調(diào)頭的話,就要擬合出調(diào)頭線。但不同路口的掉頭場景不太一樣,生成的調(diào)頭線也不一樣。換句話說,難做到一套代碼把所有環(huán)島、調(diào)頭搞定,種類太多了。
郎咸朋:端到端本質(zhì)是能力。只要模型能力夠了,就能實現(xiàn)這種功能。就像是我們之前的經(jīng)驗,沒有特意設(shè)計過環(huán)島,但一下子突然能過了。同樣,上個時代大家覺得ETC很難。現(xiàn)在你會發(fā)現(xiàn)它自然而然就可以解決。我覺得這是技術(shù)或者維度的代際提升所帶來的變化。不過,端到端這一代技術(shù)也有自己的問題,我們也還在持續(xù)探索當中。
Q:未來智駕商業(yè)化有什么考量?
郎咸朋:如果真到了L4階段的話,我相信可能會有一些變化。我們現(xiàn)在是不收費的,用戶選擇AD Max版本時補了差價。我希望隨著我們產(chǎn)品力的提升,用戶對自動駕駛的認可?;蛟S結(jié)合自動駕駛的安全性,包括商業(yè)保險這一塊都可以進行商業(yè)模式的探索。
但最重要的還是,端到端把智駕的門檻進一步拔高。如果智駕玩家缺少數(shù)據(jù)和算力,那么它與領(lǐng)先的差距會越來越大。對應到企業(yè)運營上,就是更多的資源,資金的投入,車輛的銷售。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/122138.html