文|光錐智能 周文斌
2018年以后,Transformer及其衍生變種的大模型開始逐漸替代卷積神經網絡,席卷自然語言處理、圖像識別、語音識別等多個AI領域。
2019年,也是在AI DAY上,時任特斯拉AI總負責人安德魯·卡帕西(Andrej Karpathy)提出,特斯拉自動駕駛要像人一樣開車,要在2021年取消激光雷達,并引入“大模型”對特斯拉的自動駕駛系統進行訓練。
之后,特斯拉代表的純視覺自動駕駛方案在行業(yè)里獨領風騷,而在安德魯·卡帕西的推動下,Transformer大模型也開始成為解決自動駕駛難題的主流方案。
大模型的特點是結構簡潔、可無限堆疊基本單元得到巨大參數量,只要擁有足夠規(guī)模的數據,其可提升的潛力上限就極高。但問題在于,要驅動大數據,訓練大模型,就必須要有超大算力的支持。所以,特斯拉在2019年同時發(fā)布的還有Dojo超級計算系統。
在國內,毫末率先引入了Transformer的技術,之后也是最早建立自己超算中心的自動駕駛企業(yè)。就像在大家普遍選擇高精地圖的時候,毫末選擇了重感知方案一樣,雖然當時不是主流,但后來卻逐漸成為行業(yè)共識,如今超算中心也大有成為自動駕駛企業(yè)標配的趨勢。除了特斯拉之外,2022年蔚來、小鵬、大陸等多家企業(yè)都開始建立自己的超算中心。
走與大多數人不一樣的路,這不僅是毫末對自動駕駛的深度理解和洞察,也是毫末自身戰(zhàn)略勇氣和戰(zhàn)略定力的表現。而歷史的經驗也在一次次說明,毫末的判斷每一次都踩中了自動駕駛發(fā)展的脈搏。
1月5日,毫末再次舉辦AI DAY,這一次,毫末在自動駕駛數據智能體系MANA(雪湖)的基礎上,又推出了新的智算中心MANA OASIS(雪湖·綠洲)。
毫末智行董事長張凱在AI DAY上提到:“隨著自動駕駛企業(yè)向3.0時代邁進,“大模型+大數據”的數據驅動模式,成為自動駕駛技術進化的關鍵,而驅動大模型和海量數據訓練的超算中心將成為自動駕駛企業(yè)的入門配置?!?/strong>
毫末智行董事長張凱
當拼完大模型,自動駕駛又開始拼大算力,這不僅讓自動駕駛公司在技術難度上提升了一個臺階,也在“鈔能力”上又提高了要求。
不過,當一切準備就緒,自動駕駛在城市落地的可行性也提升了一大步。
01 生長于雪湖的智算中心
對于自動駕駛來說,算力的重要性不言而喻。
特別是當越來越多搭載自動駕駛輔助系統的車輛行駛在城市道路上之后,復雜的道路環(huán)境、指數級增長的車輛都讓自動駕駛的數據量爆發(fā)式增長。
而數據量增加,原來依靠CNN卷積神經網絡訓練自動駕駛的方式效率就有些低了。所以2018年之后,在特斯拉的帶動下,能夠提高訓練效率的Transformer訓練模型開始流行。
但問題也隨之而來——要驅動這樣的大數據、大模型就必須要有超強算力作為支撐。
“超算中心將會成為自動駕駛公司的入門配置”,張凱在此次AI DAY上表示,這將是自動駕駛2023年的一大趨勢。
事實上,國內外頭部的自動駕駛相關企業(yè)都在建設自己的超算中心,比如2022年6月英偉達披露,蔚來正在利用它們的芯片構建數據中心,以支持深度學習模型的迭代和自動駕駛算法的訓練。8月,小鵬也宣布和阿里云在烏蘭察布建成了自動駕駛智算中心“扶搖”。
在國外,除了特斯拉之外,全球頭部的汽車行業(yè)Tier 1大陸集團也在構建自己的高算力集群,用于加速開發(fā)自動駕駛解決方案,主要應用場景包括深度學習和仿真測試。
成立僅僅三年,毫末作為一家創(chuàng)業(yè)公司,其在關鍵領域的布局絲毫不遜于這些巨頭。2021年,毫末在年底的AI DAY上發(fā)布了自己的自動駕駛數據智能體系MANA,中文名字叫雪湖。
這是一個源自《三體》的名字,羅輯在這里悟出了“黑暗森林法則”,成為他持有的一把利劍為人類帶來66年的和平。而這次毫末在AI DAY發(fā)布的智算中心綠洲(MANA OASIS),也從雪湖當中孕育而出。
火山引擎總裁譚待(左),毫末智行CEO顧維灝(右)
從數據上看,MANA OASIS綠洲具有每秒67億億次的浮點運算能力,具有每秒2T的存儲帶寬,和每秒800G的通信帶寬。
首先是浮點運算,AI大模型的訓練依靠的不再是傳統CPU的邏輯推理能力,而是以AI加速器為主的浮點運算能力。
其次是存儲帶寬,自動駕駛的訓練任務文件通常比較復雜,比如毫末用來訓練的自動駕駛數據被稱為Clip,它是包含圖像、視頻,以及毫米波雷達、激光雷達等多種信號的小文件。
無數這樣的小文件構成自動駕駛訓練的數據,自動駕駛在訓練過程中需要隨機調用這些數據,為了降低延遲,提高數據的訪問和傳輸效率,就需要更大的存儲帶寬作為支撐。
為此,毫末還專門組建了一套以場景庫標簽為索引的文件管理系統。有了這套系統,在2TB/s存儲帶寬支持下,MANA OASIS針對百億規(guī)模的小文件隨機讀取延時小于500微秒。
最后則是800G的通信帶寬,這是因為自動駕駛所需要的模型需要更好的并行計算框架才能把硬件資源都利用起來。再加上現在人工智能發(fā)展很快,新的算法層出不窮,需要盡快引入新的技術和模型,這些都需要高通信帶寬的支持。
在毫末看來,智算中心或許和羅輯的面壁計劃一樣,可以成為解決當前自動駕駛瓶頸的一把利劍。
圖源:《三體》動畫
但到這里毫末其實還不滿足,他們想要在智算中心上做一些更極致的優(yōu)化。也是這個原因,這次毫末的智算中心的合作伙伴選擇了火山引擎。
作為字節(jié)旗下的云服務平臺,火山引擎在支持抖音的過程中積累了對視頻、視覺豐富的理解和經驗。毫末CEO顧維灝也特地提到,火山引擎在這一方面為MANA OASIS提供了很大助力。
例如在高性能算子庫方面,火山引擎提供超過500個高性能算子,基本讓當前神經網絡所能用到的算子都有了高性能版本,這讓MANA OASIS可以支持包括Transformer在內的超過200組網絡結構。
而在大模型的訓練框架上,MANA OASIS能夠實現單機8卡就能訓練百億參數大模型的效果,實現跨機共享expert(專家)的方法,完成千億參數規(guī)模大模型的訓練,訓練成本降低到百卡周級別;同時,MANA OASIS還能同時處理圖片、點云、結構化文本等多種模態(tài)的信息,既保證了模型的稀疏性、又提升了計算效率。
整體上,字節(jié)通過部署Lego高性能算子庫、ByteCCL通信優(yōu)化能力、大模型訓練框架等軟硬一體的方式,把算力優(yōu)化到極致。張凱透露,“MANA OASIS的應用讓毫末的自動駕駛訓練效率提升了100倍?!?/p>
在智算中心的加持下,張凱認為,隨著自動駕駛AI大模型在云端的深入應用,行泊一體的持續(xù)迭代升級和效率提升。車端智能駕駛系統的綜合成本將大幅度實質性降低。以重感知技術為主,主要依托視覺方案的智駕系統將可以在中低算力的車端平臺上部署。
“2023年,智能駕駛的下半場進入加速期,高階輔助駕駛產品的商業(yè)應用將迎來大規(guī)模落地?!睆垊P表示:“到2025年中國高階輔助駕駛搭載率將達到70%。智能駕駛功能成為必選因素,智能駕駛已迎來商業(yè)化的加速發(fā)展。”
02 用大模型“降本”“增效”
有了智算中心,自動駕駛公司就能更加高效地訓練大模型。
在這次AI DAY上,毫末發(fā)布了五個最新的大模型,分別是視頻自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型和人駕自監(jiān)督認知大模型。
首先是視頻監(jiān)督大模型,它解決的主要是數據化標注的問題。
前面提到,為了降低成本,提高訓練效果,毫末將原來的離散幀,也就是單幀標注數據變成了連續(xù)的Clip形式。但問題在于,當新技術應用之后,過去積累的數量龐大的單幀數據就無法再使用了。
“真實的視頻每秒至少10幀以上,原來的離散幀一秒鐘只會標注一幀,中間還有許多空隙是沒有標注的。”毫末技術副總裁艾銳這樣解釋單幀和Clip的差別。
所以,為了把之前的數據用起來,毫末就需要把單幀數據的空隙補上,標注成Clip的形式。只是這個過程如果用人工標注,成本會非常高,所以才有了視頻監(jiān)督大模型,這是一套數據自動標注的方法。
圖:視頻自監(jiān)督大模型演示
“目前我們基本上達到了百分之百的自動化,只需要非常少量的,大概2%的人工做一遍抽檢就可以了,整個成本節(jié)省是非常顯著的。”提到視頻監(jiān)督大模型的效果,艾銳如此說道。
在國外,特斯拉其實也做著類似的事情。去年6月份,特斯拉開啟首輪裁員,首先被裁的就是數據標注的員工,一個原因就在于自動標注系統的應用。
然后是3D重建大模型,解決的是低成本數據獲取和補充的問題。
自動駕駛發(fā)展到現在,各大企業(yè)已經累計了幾千萬,甚至上億公里的路測數據。這些數據可能解決了自動駕駛99%的corner case,但是剩下的1%因為不太容易遇見,所以需要花費巨大的成本或者時間。
比如同一個環(huán)境,春夏秋冬不同的時間,同一輛車的通行情況也會有所不同。如果按正常的數據收集,這個過程就很長。
而3D重建大模型則可以通過幾張照片,或者某個場景的一段視頻就把這個場景主要的靜態(tài)結構以3D的形式重新建立起來。這其中的邏輯和之前流行一時的元宇宙虛擬人捏臉有些相似,即用戶只需要上傳一張照片,平臺就能夠生成一個3D人物模型,讓你看到不同角度的樣子。
圖:左右兩個視頻,你能分清哪個是3D重建的嗎?
有了這樣的技術,自動駕駛訓練就可以通過算法得到一些極限路況下的數據,或者補充一些之前缺失的數據。比如我們擁有某個路段春天的行駛數據,通過算法就可以直接獲得冬天的數據。
“我們現在的很多算法研發(fā)在做場景數據補充的時候都會使用這個方法,基本上能讓我們感知在這些困難場景下的錯誤率有明顯的下降?!卑J提到。
而這兩個模型總結下來,解決的都是數據分布、處理效率和成本的問題,這也是智算中心核心要解決的問題。
再然后是多模態(tài)互監(jiān)督大模型,它解決的問題是如何讓車輛識別并通過復雜路況。
在自動駕駛行駛過程中,毫末發(fā)現對于已知物體,自動駕駛的識別都沒有問題,但如果道路上出現一些奇怪的、無法描述的東西自動駕駛就還存在缺陷。
解決這個問題,最簡單粗暴的方法,是將所有遇到的物體都做上標注,但成本也很高。而且更大的問題在于,各種奇怪的物體其實是不可能完全標注的。
所以毫末選擇了另外一種方法,就是不去糾結這個東西具體是什么,我們只需要知道它有多高、多寬、是否會對行駛產生影響。
在去年的AI Day上,特斯拉也發(fā)布過一個名叫占用網絡(Occupancy Network)的算法。這個算法不去糾結障礙物具體的語義,而是以3D幾何信息的方式對物體進行顯示,其感知結果就直接可以用來指導自動駕駛路徑規(guī)劃。
而毫末的多模態(tài)監(jiān)督大模型,則是通過讓視覺、激光雷達、毫米波等不同傳感器相互監(jiān)督,再采用激光雷達點云對視覺進行驗證的方法,達到與占用網絡相似的結果。
之后的動態(tài)環(huán)境大模型,則主要是為了讓自動駕駛車輛擺脫高精地圖的限制。
其原理在于,讓自動駕駛把注意力機制從常規(guī)的空間注意力轉到拓撲注意力,用一個自回歸的編碼器來實現,讓系統能夠像人一樣,根據現在的情況預測之后的道路情況。
艾銳稱,“這種方法我們在北京和保定的很多路口都做了嘗試,對于大部分的路型,使用現在的方法都沒有問題,可以達到95%的準確率?!?/p>
最后的人駕自監(jiān)督認知大模型,則是為了讓自動駕駛開車更像人。
在過往的自動駕駛訓練中,企業(yè)通過數據驅動的方式解決駕駛決策的問題。各種數據一股腦地喂給AI,AI并不會分辨其中的好與壞,只是單純的將各種數據綜合,因此它往往會得到一個平均數,而無法提升到一個好司機的水平。
所以人駕自監(jiān)督認知大模型的目的,就是為了讓自動駕駛系統區(qū)分“什么是好的駕駛方法”。
在傳統的解決方案中,最直接的辦法就是采集許多司機的行為,讓模型學習他們的開車行為?;蛘哂萌斯みM行標注,告訴AI什么是好的,什么是不好的。但這樣成本又會很高,而且最重要的是,對于自動駕駛來說,這是一種比較黑盒的方法,即自動駕駛只是在單純的模仿,是知其然而不知其所以然。
人駕自監(jiān)督認知大模型在做的,是去對比學習那些被司機接管的數據,畢竟接管往往意味著司機對AI的駕駛不滿意,而學習接管后的駕駛方式,則能夠幫助AI在駕駛能力上越來越向老司機靠近。
艾銳提到,毫末之所以會選擇這種方案,也是因為受到最近很火的ChatGPT的啟發(fā)。
“在GPT-3之前,谷歌OpenMind已經做了好幾年,但并沒有引起特別大的反響,這次ChatGPT突然火了,一個很重要的原因是把一個人類行為的反饋加進來,有一個專門用人類行為進行反饋的強化學習?!卑J提到:“通過人類的這些反饋行為,AI可以分辨它應該在什么時候給出什么質量的回答,然后自動把一些低質量的回答去掉,所以大家才覺得這個機器人比較像個正常人?!?/p>
03 輔助駕駛“城市爭奪戰(zhàn)”
從智算中心到五大模型,毫末總是會用更低的成本,更高的效率獲得、處理自動駕駛數據。
比如視頻監(jiān)督大模型和3D重建大模型都是為了降低數據獲取成本,提高數據獲取的效率。而多模態(tài)監(jiān)督大模型是為了減少數據處理中人工參與的部分,以此來降低成本。
能做到這一點,是因為毫末對于自動駕駛在場景落地的終極思考足夠深入。
除了特斯拉之外,2022年4月,毫末發(fā)布了中國首個大規(guī)模量產的城市輔助駕駛產品;9月初,小鵬城市輔助駕駛(NGP)開始在廣州推送,之后不久搭載華為自動駕駛的極狐汽車在深圳城區(qū)智能導航輔助(NCA)。而除了這些已經發(fā)布、落地的,蔚來、理想、阿維塔,新勢力有一家算一家,都給城市輔助駕駛定下了時間。
可以說,2022年以來,城市輔助駕駛成為各大車企和自動駕駛企業(yè)爭奪最激烈的焦點。
但截至目前,城市輔助駕駛鋪開的速度都遠沒有想象中的迅速。如今,支持小鵬NGP的城市仍然只有廣州一個,華為NAC也僅限于上海和深圳。
而發(fā)布快,落地慢的一個核心問題就在于,面對復雜的城市道路環(huán)境,城市輔助駕駛還有太多問題沒有解決。
比如高精地圖的問題,華為、小鵬的城市輔助駕駛之所以被限制在廣州、深圳和上海,很大一個原因在于只有這幾個城市的地圖通過了審核。
圖:行駛中的毫末城市輔助駕駛NOH
為了避免這種限制,毫末首先提出了“重感知”的自動駕駛方案。我們會發(fā)現,在這次五大模型中的動態(tài)環(huán)境大模型就是為了讓自動駕駛車輛盡量地減少、甚至擺脫對地圖的依賴。
當然,地圖的審核只是一方面,更多的問題還在于面對快速發(fā)展的中國城市,高精地圖的數據采集、鮮度保持都面需要高昂的成本和挑戰(zhàn)。
“我們發(fā)現,北京每100公里道路的拓撲結構平均半年會變化5.06次,為了更好地解決復雜路口的問題,我們對地圖的依賴還要進一步減弱?!卑J說。
除此之外,多模態(tài)互監(jiān)督大模型則是為了增加自動駕駛在城市道路上的通過性,讓自動駕駛能夠適應更多的路況。
目前,城市輔助駕駛仍然屬于L2的狀態(tài),而L2與L3、L4最大的區(qū)別在于,系統能否解決規(guī)定之外的場景,并保證安全。L2無法識別到運營規(guī)則之外的場景,L3能夠識別到,并保證能及時移交權限給人類駕駛員。L4則需要自動駕駛不僅能夠識別到運營規(guī)則之外的場景,而且大概率能夠安全通過,即使不能通過,也能安全停下來。
圖森未來首席科學家王乃巖這樣區(qū)別L2、L3和L4:“L2系統不需要處理失效,L3系統只需要檢測失效,L4系統則要妥善處理失效。”
本質上,毫末和特斯拉的方案,都是為了增加自動駕駛的通過性,并保障安全,在逐步從L2向L3,甚至L4去做過度和準備。
而這個過程,其實是依賴于重感知選擇。可以說,城市導航輔助駕駛進入重感知階段,大規(guī)模量產交付的大幕才開始拉開。
而最后的人駕自監(jiān)督認知大模型,解決其實是一個體驗的問題。
只有讓自動駕駛和人類的駕駛更像,才能給到用戶更好的乘車體驗,用戶也更愿意買單。
這里面其實存在一個自動駕駛落地的悖論,即車企和自動駕駛企業(yè)期望軟件和車輛盡快量產落地,好收回數據來持續(xù)迭代算法。但對于用戶來說,面對一個并不成熟,甚至只能限制使用的產品,額外溢價去進行購買的意愿其實并不會很高。
所以,人駕自監(jiān)督認知大模型本質上是基于真實用戶的數據驅動,讓產品的體驗更好,讓消費者更愿意買單,從而推動整個自動駕駛系統的訓練進入良性循環(huán)。
而其背后,也預示著未來自動駕駛系統的比拼,將由具備功能轉變?yōu)樘嵘ㄇ谛剩到y迭代更加精準,迭代速度進一步加快轉移。
顧維灝曾總結過一個自動駕駛能力發(fā)展曲線:f(x)=Z0+M(x)。
其中F代表產品力,Z0代表第一代產品的能力,M是一個把數據轉化為知識的函數,包括:數據獲取、數據表達、數據存儲、數據傳輸、數據計算,數據驗證。
無論是智算中心還是大模型,本質上都是在以更低的成本獲得更多M(x)的能力。而隨著一系列大模型的應用,算法性能開始提升,訓練成本隨之降低,未來自動駕駛可能搭載的車型價格必將進一步下降,能夠覆蓋的城市也將進一步拓寬,讓更多人能夠享受到自動駕駛的體驗。
截至2022年年底,毫末HPilot(城市輔助駕駛)已在包括魏牌、坦克、歐拉等近20款車型上搭載,用戶輔助駕駛行駛里程突破2500萬公里。2023年,毫末更是計劃陸續(xù)落地到國內100個城市。
可以預見,普通人能夠用上的自動駕駛將會離我們越來越近。
從左至右:毫末智行CIO甄龍豹,毫末智行CEO顧維灝,毫末智行董事長張凱,毫末智行COO侯軍
本文來自投稿,不代表增長黑客立場,如若轉載,請注明出處:http://gptmaths.com/quan/89201.html