CVPR最佳論文:大模型成就端到端自動駕駛|焦點分析|當(dāng)前動態(tài)
文丨李安琪
編輯丨李勤
(資料圖片)
與自動駕駛相關(guān)文章,首次獲得全球頂級計算機(jī)視覺會議CVPR的最佳論文。
6月22日,全球頂級計算機(jī)視覺會議CVPR 2023公布了最佳論文等獎項。一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動駕駛)論文,成功從9155篇投稿、2359篇接收論文、12篇入選最佳論文候選名單中脫穎而出。
這也是近十年來,CVPR會議上第一篇以中國學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。該論文由上海人工智能實驗室、武漢大學(xué)及商湯科技聯(lián)合完成。
CVPR在學(xué)術(shù)界及產(chǎn)業(yè)界的影響力毋庸置疑,與ICCV、ECCV并列為計算機(jī)視覺領(lǐng)域三大頂級會議。全球最聰明的頭腦匯聚于此,特斯拉也連續(xù)幾年在CVPR上公布其自動駕駛技術(shù)最新進(jìn)展。
今年的競爭相當(dāng)激烈。據(jù)公開信息,今年12篇入選最佳論文候選名單機(jī)構(gòu),不僅有谷歌、Stability AI等人工智能領(lǐng)域頂尖企業(yè),也有上海人工智能實驗室、斯坦福大學(xué)、康奈爾大學(xué)、香港中文大學(xué)、香港科技大學(xué)、南洋理工大學(xué)等研究機(jī)構(gòu)及高校。
而上海人工智能實驗室、武漢大學(xué)及商湯科技聯(lián)合獲獎的關(guān)鍵在于,提出了一個感知決策一體化的自動駕駛通用大模型UniAD。
大會官方組委會認(rèn)為,論文提出的端到端感知決策一體框架,融合了多任務(wù)聯(lián)合學(xué)習(xí)的新范式,使得進(jìn)行更有效的信息交換,協(xié)調(diào)感知預(yù)測決策,以進(jìn)一步提升路徑規(guī)劃能力。
這證明了大模型與自動駕駛產(chǎn)業(yè)結(jié)合的潛力。今年初,ChatGPT的爆火,讓機(jī)器學(xué)習(xí)與理解人類語言的能力有了本質(zhì)飛躍。而大模型,也有望為自動駕駛產(chǎn)業(yè)落地指出更清晰的方向。
端到端的自動駕駛大模型UniAD
論文指出,隨著深度學(xué)習(xí)發(fā)展,自動駕駛算法被組裝成一系列任務(wù),包括目標(biāo)檢測與跟蹤、在線建圖、軌跡預(yù)測、占據(jù)柵格預(yù)測等子任務(wù)。
基于這些子任務(wù),行業(yè)有著多種自動駕駛系統(tǒng)框架設(shè)計:模塊化設(shè)計,多任務(wù)框架,但兩種方案都面臨著累積錯誤或任務(wù)協(xié)調(diào)不足的困擾。
比如自動駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計方案,每個獨立的模塊負(fù)責(zé)單獨的子任務(wù)。這種方案具備簡化研發(fā)團(tuán)隊分工,便于問題回溯,易于調(diào)試迭代等優(yōu)點。但由于將不同任務(wù)解耦,各個模塊相對于最終的駕駛規(guī)劃目標(biāo)存在信息損失問題,且多個模塊間優(yōu)化目標(biāo)不一致,誤差會在模塊間傳遞。
論文認(rèn)為,多任務(wù)框架是更優(yōu)雅的一種設(shè)計方案,代表性企業(yè)有美國特斯拉、中國小鵬汽車等。方案中不同任務(wù)使用同一個特征提取器,具備便于任務(wù)拓展、節(jié)省計算資源等優(yōu)點。但不同任務(wù)之間仍存在預(yù)測不一致、表征沖突的問題。
a為模塊化設(shè)計、b為多任務(wù)框架、c1/c2為兩種端到端方案、c3為UniAD方案示意 圖源論文
相比之下,端到端自動駕駛方案將感知、預(yù)測和規(guī)劃所有節(jié)點視為一個整體,但現(xiàn)有的兩種端到端方案也還面臨挑戰(zhàn)。
一種簡單的方式直接以傳感器信號作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結(jié)果,但缺乏可解釋性與實際應(yīng)用安全性,尤其是在復(fù)雜的城市道路場景。
另一種方案是,對模型進(jìn)行顯式設(shè)計,將整個架構(gòu)分為感知-預(yù)測-規(guī)劃模塊,使其具有部分中間結(jié)果表達(dá)。但這種方式面臨檢測結(jié)果在模塊間不可微導(dǎo)致無法端到端優(yōu)化,稠密BEV預(yù)測時長有限,過去-未來、物體-場景等多維度信息難以高效利用等困難。
因此,本篇論文提出了一個端到端方案Unified Autonomous Driving,即UniAD。上海人工智能實驗室指出,UniAD能夠成功解決不同任務(wù)融合難的問題,從而實現(xiàn)多任務(wù)和高性能的關(guān)鍵在于以下兩點。
一是多組查詢向量的全Transformer 模型:UniAD利用多組 query 實現(xiàn)了全棧 Transformer 的端到端模型,可以從具體 Transformer 的輸入輸出感受到信息融合。二是以最終“規(guī)劃”為目標(biāo),全部模塊通過輸出特定的特征來幫助實現(xiàn)最終的目標(biāo)“規(guī)劃”。
自動駕駛端到端架構(gòu) (UniAD) 的流程 圖源論文
從論文來看,UniAD 將感知、預(yù)測、規(guī)劃等三大類主任務(wù)、六小類子任務(wù)(目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃)整合到統(tǒng)一的端到端網(wǎng)絡(luò)框架下。
具體來說,將一系列多攝像頭圖像輸入特征提取器,并通過 BEVFormer 轉(zhuǎn)換為統(tǒng)一的鳥瞰圖(BEV)。這部分可以快速替換為其他BEV模型,具有較好可拓展性。
在感知環(huán)節(jié)中,UniAD的目標(biāo)檢測與跟蹤模塊可以實現(xiàn)對動態(tài)元素的特征提取、幀間物體跟蹤;在線建圖模塊實現(xiàn)了對靜態(tài)物體的特征提取、實例級地圖預(yù)測;
在預(yù)測模塊,UniAD可以實現(xiàn)動靜態(tài)元素交互與長時序軌跡預(yù)測;占據(jù)柵格預(yù)測模塊實現(xiàn)了短時序全場景BEV、實例級預(yù)測;
在規(guī)劃模塊,UniAD實現(xiàn)基于自車query的軌跡預(yù)測和基于占據(jù)柵格的碰撞優(yōu)化。
論文表示,UniAD 的培訓(xùn)分兩個階段:首先聯(lián)合訓(xùn)練感知部分,即目標(biāo)跟蹤和建圖模塊,這將持續(xù)幾個階段(在實驗中為 6個階段),然后使用所有感知、預(yù)測和規(guī)劃模塊端到端地訓(xùn)練模型20個階段。
從結(jié)果來看,論文表示,在 nuScenes 真實場景數(shù)據(jù)集下,所有任務(wù)均達(dá)到領(lǐng)域最佳性能(State-of-the-art),尤其是預(yù)測和規(guī)劃效果遠(yuǎn)超之前最好方案。其中,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車道線預(yù)測準(zhǔn)確率提升30%,預(yù)測運動位移和規(guī)劃的誤差則分別降低了38%和28%。
在晴天直行場景中,UniAD 可以感知左前方等待的黑色車輛,預(yù)測其未來軌跡(即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃⒘⒓礈p速以進(jìn)行避讓,待黑車駛離后再恢復(fù)正常速度直行 圖源上海人工智能實驗室
在雨天轉(zhuǎn)彎場景中,即便面對視野干擾較大且場景復(fù)雜的十字路口,UniAD 能通過分割模塊生成十字路口的整體道路結(jié)構(gòu)(如右側(cè) BEV圖中的綠色分割結(jié)果所示),并完成大幅度的左轉(zhuǎn) 圖源上海人工智能實驗室
從論文到產(chǎn)業(yè)還要多久?
當(dāng)然,從前瞻學(xué)術(shù)論文到產(chǎn)業(yè)跟進(jìn)、技術(shù)大規(guī)?;萜眨枰臅r間并不短。
以當(dāng)下被行業(yè)火熱討論的BEV為例。2021年特斯拉首次基于Transformer將攝像頭2D圖像拼接轉(zhuǎn)化成3D圖景,生成鳥瞰圖 “Bird"s Eye View”,簡稱“BEV”。這是大模型在自動駕駛感知環(huán)節(jié)的應(yīng)用。
兩年時間過去,當(dāng)下國內(nèi)企業(yè)雖已紛紛跟進(jìn),但僅有少數(shù)幾家能拿出先期成果。
而UniAD大模型是更為龐大的、涉及感知、預(yù)測、規(guī)劃的復(fù)雜系統(tǒng)工程,其中的技術(shù)優(yōu)化與工程化落地只會比BEV更艱難。
論文本身也指出,協(xié)調(diào)這樣一個具有多個任務(wù)的綜合系統(tǒng)并非易事,需要大量的計算能力,尤其是經(jīng)過時間歷史訓(xùn)練的計算能力。如何為輕量級部署設(shè)計和管理系統(tǒng)值得未來探索。
論文作者之一、上海人工智能實驗室青年科學(xué)家李弘揚博士表示,UniAD提供了全套關(guān)鍵自動駕駛?cè)蝿?wù)配置,其充分的可解釋性、安全性、與多模塊的可持續(xù)迭代性,是目前為止最具希望實際部署的端到端模型。這套基于視覺的全棧自動駕駛框架,據(jù)初步測算,每年節(jié)省激光雷達(dá)與標(biāo)注成本可達(dá)千萬級。
部分玩家已經(jīng)在行動。據(jù)36氪了解,小鵬和理想汽車都在籌備研發(fā)全棧端到端自動駕駛方案?!澳壳靶Ч€不太好,但潛力很大。”有內(nèi)部人士透露。
總而言之,新的技術(shù)的種子已經(jīng)播下,行業(yè)新一輪競賽也可能已經(jīng)開始。接下來,就看誰能給出更肥沃的土壤與更恒久的耐心。
文章參考:
1.《Planning-oriented Autonomous Driving》
2.《AIR學(xué)術(shù)|上海人工智能實驗室李弘揚、陳立:端到端自動駕駛算法設(shè)計思考》
3.《上海AI實驗室聯(lián)合團(tuán)隊獲CVPR最佳論文獎 | CVPR 2023》
關(guān)鍵詞:
相關(guān)閱讀
-
CVPR最佳論文:大模型成就端到端自動駕...
文丨李安琪編輯丨李勤與自動駕駛相關(guān)文章,首次獲得全球頂級計算機(jī)視覺 -
全球速訊:品牌運營推廣方案 品牌運營...
為確保事情或工作高質(zhì)量高水平開展,時常需要預(yù)先開展方案準(zhǔn)備工作,方 -
熱議:為什么打不開qq游戲(qq游戲夜店...
1、IE瀏覽器出現(xiàn)故障會導(dǎo)致打開IE卡死等故障,可以嘗試重置IE瀏覽器設(shè) -
如果我找服裝設(shè)計公司給我們公司設(shè)計工...
如果我找服裝設(shè)計公司給我們公司設(shè)計工作制服,那么這件服裝的著作權(quán)和 -
今熱點:克魯伊夫,他說過一句話,球場...
克魯伊夫,他說過一句話,球場上有22個人,一場球賽90分鐘,平均每個人 -
趙志國:燃?xì)獍踩O(jiān)管,咋就這么難?|世...
【文 觀察者網(wǎng)專欄作者趙志國】6月21日的銀川某燒烤店燃?xì)獗ㄊ鹿?,?/a> -
【全球播資訊】太厲害了!這支部隊14分...
橋梁遭“敵”炮火打擊“損毀”,友鄰部隊前行受阻……模擬實戰(zhàn)背景... -
國內(nèi)首條跨省軌交系統(tǒng)無感換乘線路開通
6月24日上午11時,蘇州軌道交通11號線開通運行,全線28座車站開放,與 -
實時:寧夏銀川燒烤店燃?xì)獗ㄊ鹿?名犯...
新華社銀川6月24日電(記者艾福梅、劉海)記者24日從有關(guān)部門獲悉,寧夏 -
1.06億人次,超2019年同期!端午出游很“熱”
中新網(wǎng)6月25日電(記者李金磊)這個端午假期,旅游就跟天氣一樣:熱。6月 -
【世界熱聞】中蒙邊境森林草原火災(zāi)聯(lián)防...
本網(wǎng)訊(內(nèi)蒙古日報社融媒體記者畢力格巴特爾見習(xí)記者張璐)近日,中蒙邊 -
快消息!全國現(xiàn)代五項錦標(biāo)賽收官 我區(qū)...
本網(wǎng)訊(內(nèi)蒙古日報社融媒體記者柴思源)6月21日,“韻味杭州”浙江大... -
美蒙大拿州發(fā)生一起火車脫軌事故 多節(jié)...
當(dāng)?shù)貢r間24日,美國蒙大拿州斯蒂爾沃特縣發(fā)生一起火車脫軌事故,目前沒 -
北京地鐵:地鐵10號線一列車在分鐘寺站...
???此前報道:地鐵10號線一列車在分鐘寺站因車載故障,影響上行(外 -
天天快資訊丨銀川燒烤店爆炸事故原因公布!
今日,銀川市公安局興慶區(qū)分局發(fā)布了一則警情通報,全文如下: 2023年6 -
世界新資訊:COMEX 8月黃金期貨收漲1.03%
COMEX8月黃金期貨收漲1 03% -
翔安將新建一所48班小學(xué)——新溪尾小學(xué)
新溪尾小學(xué)效果圖。(市資源規(guī)劃局提供)翔安區(qū)將新建一所48個班的小學(xué) -
一季度中國支付體系運行平穩(wěn) 人民幣跨...
中國人民銀行近日發(fā)布的2023年第一季度支付業(yè)務(wù)統(tǒng)計數(shù)據(jù)顯示,一季度, -
高速通行量較2019年同期增長逾兩成 端...
高速通行量較2019年同期增長逾兩成端午小長假武漢周邊探親流火爆---湖 -
螺旋焊接鋼管行業(yè)發(fā)展現(xiàn)狀調(diào)查2023 我...
焊管是一種具有中空截面、周邊沒有接縫的長條。具有中空截面,大量用作