全职猎人1999_日韩综合社区_久草播放_黄色a一级一级一级免费看_午夜在线视频一区二区三区_国产日韩精品SUV

400-821-6015
行業(yè)資訊
您當(dāng)前的位置:首頁(yè) ? 行業(yè)資訊 ? 行業(yè)資訊
內(nèi)部資訊行業(yè)資訊

全面帶你了解端到端大模型的底層邏輯(一)

發(fā)布日期:2024-10-29

作者 | Jessie

出品 | 焉知


      自動(dòng)駕駛領(lǐng)域的發(fā)展見(jiàn)證了采用端到端算法框架的方法的快速增長(zhǎng),這些方法利用原始傳感器輸入來(lái)生成車輛運(yùn)動(dòng)計(jì)劃,而不是專注于檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)等單個(gè)任務(wù)。與模塊化管道相比,端到端系統(tǒng)受益于感知和規(guī)劃的聯(lián)合特征優(yōu)化。由于大規(guī)模數(shù)據(jù)集的可用性、閉環(huán)評(píng)估以及對(duì)自動(dòng)駕駛算法在具有挑戰(zhàn)性的場(chǎng)景中有效執(zhí)行的需求不斷增加,該領(lǐng)域蓬勃發(fā)展。 

      傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化部署策略,其中感知、預(yù)測(cè)、規(guī)劃等各個(gè)功能都是單獨(dú)開(kāi)發(fā)并集成到車載車輛中。規(guī)劃或控制模塊負(fù)責(zé)生成轉(zhuǎn)向和加速輸出,在確定駕駛體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。模塊化Pipeline中最常見(jiàn)的規(guī)劃方法涉及使用復(fù)雜的基于規(guī)則的設(shè)計(jì),這通常無(wú)法有效解決駕駛時(shí)發(fā)生的大量情況。因此,利用大規(guī)模數(shù)據(jù)并使用基于學(xué)習(xí)的規(guī)劃作為可行的替代方案的趨勢(shì)日益明顯。
      我們將端到端自動(dòng)駕駛系統(tǒng)定義為完全可微分的程序,該程序?qū)⒃紓鞲衅鲾?shù)據(jù)作為輸入并生成計(jì)劃或低級(jí)控制操作作為輸出。圖 1 (a)-(b) 說(shuō)明了經(jīng)典公式和端到端公式之間的差異。傳統(tǒng)方法將每個(gè)組件的輸出(例如邊界框和車輛軌跡)直接輸入后續(xù)單元(虛線箭頭)。相反,端到端范式跨組件傳播特征表示(灰色實(shí)線箭頭)。例如,優(yōu)化函數(shù)設(shè)置為規(guī)劃性能,并通過(guò)反向傳播(紅色箭頭)最小化損失,在此過(guò)程中任務(wù)得到聯(lián)合全局優(yōu)化。

圖片

圖 1:自動(dòng)駕駛端到端整體概覽

      本文首次提供了端到端自動(dòng)駕駛的全面分析,包括高層動(dòng)機(jī)、方法論、基準(zhǔn)等。我們提倡的不是單個(gè)模塊的優(yōu)化,而是整體設(shè)計(jì)算法框架的理念,最終目標(biāo)是實(shí)現(xiàn)安全舒適的駕駛。
      1、端到端系統(tǒng)的動(dòng)機(jī)
      在經(jīng)典Pipeline中,每個(gè)模型都提供獨(dú)立的組件并對(duì)應(yīng)于特定的任務(wù)(例如交通燈檢測(cè))。這樣的設(shè)計(jì)在可解釋性、可驗(yàn)證性和易于調(diào)試方面是有益的。然而,由于各個(gè)模塊的優(yōu)化目標(biāo)不同,感知中的檢測(cè)追求平均精度(mAP),而規(guī)劃則以駕駛安全性和舒適性為目標(biāo),整個(gè)系統(tǒng)可能不會(huì)朝著一個(gè)統(tǒng)一的目標(biāo),即最終的規(guī)劃/控制任務(wù)。隨著順序過(guò)程的進(jìn)行,每個(gè)模塊的錯(cuò)誤可能會(huì)加劇并導(dǎo)致驅(qū)動(dòng)系統(tǒng)的信息丟失。此外,多任務(wù)、多模型部署可能會(huì)增加計(jì)算負(fù)擔(dān),并可能導(dǎo)致計(jì)算使用不佳。
      與傳統(tǒng)的對(duì)應(yīng)系統(tǒng)相比,端到端自治系統(tǒng)具有多種優(yōu)勢(shì)。(a) 最明顯的優(yōu)點(diǎn)是它簡(jiǎn)單地將感知、預(yù)測(cè)和規(guī)劃結(jié)合到一個(gè)可以聯(lián)合訓(xùn)練的模型中。(b) 整個(gè)系統(tǒng),包括其中間表示,針對(duì)最終任務(wù)進(jìn)行了優(yōu)化。(c) 共享主干網(wǎng)提高了計(jì)算效率。(d) 數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化有可能通過(guò)簡(jiǎn)單地?cái)U(kuò)展培訓(xùn)資源來(lái)提供改進(jìn)系統(tǒng)的新興能力。
      請(qǐng)注意,端到端范式不一定表示只有規(guī)劃/控制輸出的黑匣子。它可以像經(jīng)典方法一樣采用中間表示和輸出進(jìn)行模塊化(圖 1 (b))。事實(shí)上,一些最先進(jìn)的系統(tǒng)提出了模塊化設(shè)計(jì),但同時(shí)優(yōu)化所有組件以實(shí)現(xiàn)卓越的性能。
      本文重點(diǎn)說(shuō)明了三種流行的范式,包括兩種模仿學(xué)習(xí)框架(行為克隆和逆最優(yōu)控制)以及在線強(qiáng)化學(xué)習(xí)。
      2、方法
      本文回顧大多數(shù)現(xiàn)有端到端自動(dòng)駕駛方法背后的基本原理。并討論了使用模仿學(xué)習(xí)的方法,并提供了兩個(gè)最流行的子類別的詳細(xì)信息,即行為克隆和逆最優(yōu)控制。最后,總結(jié)了遵循強(qiáng)化學(xué)習(xí)范式的方法。

圖片

圖 2:端到端自動(dòng)駕駛方法概述

      2.1 模仿學(xué)習(xí)
      模仿學(xué)習(xí)(IL),也稱為從演示中學(xué)習(xí),通過(guò)模仿專家的行為來(lái)訓(xùn)練智能體學(xué)習(xí)最優(yōu)策略。IL 需要數(shù)據(jù)集 圖片 包含根據(jù)專家的政策收集的軌跡,其中每個(gè)軌跡都是狀態(tài)-動(dòng)作對(duì)的序列圖片IL 的目標(biāo)是學(xué)習(xí)代理策略圖片匹配圖片IL 的一個(gè)重要且廣泛使用的類別是行為克隆(BC,Behavior Clone),它將問(wèn)題歸結(jié)為監(jiān)督學(xué)習(xí)。逆向最優(yōu)控制(IOC),也稱為逆向強(qiáng)化學(xué)習(xí)(IRL),是另一種 IL 方法,它利用專家演示來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。我們將在以下幾節(jié)中詳細(xì)說(shuō)明這兩個(gè)類別。
      2.2 行為克隆
      行為克隆BC 在駕駛?cè)蝿?wù)中的早期應(yīng)用利用端到端神經(jīng)網(wǎng)絡(luò)從攝像頭輸入生成控制信號(hào)。在行為克隆中,將代理策略與專家策略相匹配的目標(biāo)是通過(guò)最小化計(jì)劃損失來(lái)實(shí)現(xiàn)的,作為收集數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)問(wèn)題:圖片這里,圖片表示一個(gè)損失函數(shù),用于測(cè)量代理動(dòng)作和專家動(dòng)作之間的距離。行為克隆因其簡(jiǎn)單和高效而具有優(yōu)勢(shì),因?yàn)樗恍枰止ぴO(shè)計(jì)的獎(jiǎng)勵(lì)設(shè)計(jì),而這對(duì)于強(qiáng)化學(xué)習(xí)至關(guān)重要。已有學(xué)者提出了進(jìn)一步的增強(qiáng)功能,例如多傳感器輸入、輔助任務(wù)和改進(jìn)的專家設(shè)計(jì),以使基于 BC 的端到端駕駛模型能夠處理具有挑戰(zhàn)性的城市駕駛場(chǎng)景。
      然而,存在一些與行為克隆相關(guān)的常見(jiàn)問(wèn)題。在訓(xùn)練過(guò)程中,行為克隆將每個(gè)狀態(tài)視為獨(dú)立且相同分布,從而導(dǎo)致一個(gè)稱為協(xié)變量偏移的重要問(wèn)題。對(duì)于一般的IL,已經(jīng)提出了幾種在策略方法來(lái)解決這個(gè)問(wèn)題。在端到端自動(dòng)駕駛的背景下,行為克隆的另一個(gè)常見(jiàn)問(wèn)題是因果混淆,即模仿者利用并依賴某些輸入組件和輸出信號(hào)之間的錯(cuò)誤相關(guān)性。這個(gè)問(wèn)題已經(jīng)在中的端到端自動(dòng)駕駛的背景下進(jìn)行了討論。基于模仿學(xué)習(xí)的端到端自動(dòng)駕駛的這兩個(gè)具有挑戰(zhàn)性的問(wèn)題將在后續(xù)文段中進(jìn)一步討論。
      2.3 行為克隆
      成本學(xué)習(xí)方法仍然存在一些挑戰(zhàn)。特別是,為了產(chǎn)生更現(xiàn)實(shí)的成本,通常會(huì)結(jié)合高清地圖、輔助感知任務(wù)和多個(gè)傳感器,這增加了多模態(tài)多任務(wù)框架的學(xué)習(xí)和構(gòu)建數(shù)據(jù)集的難度。為了解決這個(gè)問(wèn)題,MP3、ST-P3和 IVMP放棄了先前工作中使用的 HD 地圖輸入,并利用預(yù)測(cè)的 BEV 地圖來(lái)計(jì)算交通規(guī)則的成本,例如靠近中心線并避免與道路邊界發(fā)生碰撞。上述成本學(xué)習(xí)方法顯著增強(qiáng)了自動(dòng)駕駛汽車決策的安全性和可解釋性,相信受行業(yè)啟發(fā)的端到端系統(tǒng)設(shè)計(jì)是真正實(shí)現(xiàn)自動(dòng)駕駛汽車決策的可行方法。
      2.4 強(qiáng)化學(xué)習(xí)
      強(qiáng)化學(xué)習(xí)(RL)是一個(gè)通過(guò)反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)的領(lǐng)域。深度Q網(wǎng)絡(luò)(DQN)在Atari 2600基準(zhǔn)上實(shí)現(xiàn)人類級(jí)別的控制的成功已經(jīng)普及了深度強(qiáng)化學(xué)習(xí)。DQN 訓(xùn)練一個(gè)稱為批評(píng)家(或 Q 網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將當(dāng)前狀態(tài)和操作作為輸入,并預(yù)測(cè)該操作的貼現(xiàn)未來(lái)獎(jiǎng)勵(lì)(當(dāng)隨后遵循相同的策略時(shí))。然后通過(guò)選擇具有最高 Q 值的操作來(lái)隱式定義策略。強(qiáng)化學(xué)習(xí)需要一個(gè)允許執(zhí)行潛在不安全操作的環(huán)境,因?yàn)樗枰剿鳎ɡ纾袝r(shí)在數(shù)據(jù)收集期間執(zhí)行隨機(jī)操作)。此外,強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)需要更多的數(shù)據(jù)來(lái)訓(xùn)練。因此,現(xiàn)代強(qiáng)化學(xué)習(xí)方法通常會(huì)跨多個(gè)環(huán)境并行數(shù)據(jù)收集。在現(xiàn)實(shí)汽車中滿足這些要求提出了巨大的挑戰(zhàn)。因此,幾乎所有在自動(dòng)駕駛中使用強(qiáng)化學(xué)習(xí)的論文都只研究了仿真技術(shù)。
      實(shí)際上,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合已成功應(yīng)用于自動(dòng)駕駛。隱式可供性、GRI都使用監(jiān)督學(xué)習(xí)、語(yǔ)義分割和分類等輔助任務(wù)來(lái)預(yù)訓(xùn)練其架構(gòu)的 CNN 編碼器部分。在第二階段,預(yù)訓(xùn)練的編碼器被凍結(jié),并使用現(xiàn)代版本的 Q 學(xué)習(xí)對(duì)凍結(jié)圖像編碼器的隱式可供性進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)也已成功用于微調(diào) CARLA 上的完整架構(gòu),這些架構(gòu)是使用模仿學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練的。
      強(qiáng)化學(xué)習(xí)還被有效地應(yīng)用于網(wǎng)絡(luò)可以訪問(wèn)特權(quán)模擬器信息的規(guī)劃或控制任務(wù)。本著同樣的精神,強(qiáng)化學(xué)習(xí)已應(yīng)用于自動(dòng)駕駛的數(shù)據(jù)集管理。Roach在特權(quán) BEV 語(yǔ)義分割上訓(xùn)練 RL 方法,并使用該策略自動(dòng)收集用于訓(xùn)練下游模仿學(xué)習(xí)代理的數(shù)據(jù)集。WoR 采用 Q 函數(shù)和表格動(dòng)態(tài)規(guī)劃來(lái)為靜態(tài)數(shù)據(jù)集生成附加或改進(jìn)的標(biāo)簽。
      該領(lǐng)域未來(lái)的挑戰(zhàn)是將模擬結(jié)果轉(zhuǎn)移到現(xiàn)實(shí)世界。在強(qiáng)化學(xué)習(xí)中,目標(biāo)被表示為獎(jiǎng)勵(lì)函數(shù),大多數(shù)算法要求這些獎(jiǎng)勵(lì)函數(shù)是密集的,并在每個(gè)環(huán)境步驟提供反饋。當(dāng)前的工作通常使用簡(jiǎn)單的目標(biāo),例如進(jìn)度和避免碰撞,并將它們線性組合。這些簡(jiǎn)單化的獎(jiǎng)勵(lì)函數(shù)因鼓勵(lì)冒險(xiǎn)行為而受到批評(píng)。設(shè)計(jì)或?qū)W習(xí)更好的獎(jiǎng)勵(lì)函數(shù)仍然是一個(gè)懸而未決的問(wèn)題。另一個(gè)方向是開(kāi)發(fā)可以處理稀疏獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,從而直接優(yōu)化相關(guān)指標(biāo)。強(qiáng)化學(xué)習(xí)可以與世界模型有效結(jié)合,當(dāng)前自動(dòng)駕駛的 RL 解決方案嚴(yán)重依賴于場(chǎng)景的低維表示。
      強(qiáng)化學(xué)習(xí)已經(jīng)證明了在空蕩蕩的街道上的真車上成功學(xué)習(xí)車道跟隨。盡管早期結(jié)果令人鼓舞,但必須指出的是,三十年前就已經(jīng)通過(guò)模仿學(xué)習(xí)完成了類似的任務(wù)。迄今為止,還沒(méi)有報(bào)告顯示強(qiáng)化學(xué)習(xí)端到端訓(xùn)練的結(jié)果可以與模仿學(xué)習(xí)相媲美。在與 CARLA 模擬器發(fā)布一起進(jìn)行的直接比較中,強(qiáng)化學(xué)習(xí)遠(yuǎn)遠(yuǎn)落后于模塊化Pipeline和端到端模仿學(xué)習(xí)。這種失敗的原因很可能是通過(guò)強(qiáng)化學(xué)習(xí)獲得的梯度不足以訓(xùn)練駕駛所需的深度感知架構(gòu)(ResNet 規(guī)模)。RL取得成功的 Atari 等基準(zhǔn)測(cè)試中使用的模型相對(duì)較淺,僅由幾個(gè)層組成。
      3、標(biāo)桿管理

      自動(dòng)駕駛系統(tǒng)需要對(duì)其可靠性進(jìn)行全面評(píng)估以確保安全。為了實(shí)現(xiàn)這一目標(biāo),研究人員必須使用適當(dāng)?shù)臄?shù)據(jù)集、模擬器和指標(biāo)對(duì)這些系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試。端到端自動(dòng)駕駛系統(tǒng)大規(guī)模基準(zhǔn)測(cè)試有兩種方法:

    (1)模擬中的在線或閉環(huán)評(píng)估;

    (2)人類駕駛數(shù)據(jù)集的離線或開(kāi)環(huán)評(píng)估。其中需要特別關(guān)注更有原則性的在線設(shè)置,并提供離線評(píng)估的簡(jiǎn)要總結(jié)以確保完整性。

      4、挑戰(zhàn)
      對(duì)于圖 1 中所示的每個(gè)主題/問(wèn)題,我們現(xiàn)在討論相關(guān)工作、當(dāng)前挑戰(zhàn)以及有希望的未來(lái)趨勢(shì)和機(jī)遇。我們先基于處理不同輸入方式和公式相關(guān)的挑戰(zhàn)開(kāi)始。然后是關(guān)于高效政策學(xué)習(xí)的視覺(jué)抽象的討論。此外,我們還介紹了學(xué)習(xí)范式,例如世界模型學(xué)習(xí)、多任務(wù)框架和策略蒸餾。最后,我們討論阻礙安全可靠的端到端自動(dòng)駕駛的一般問(wèn)題,包括可解釋性、因果混亂、穩(wěn)健性和普遍性。
      不同的模式具有不同的特征,因此,需要有效融合它們并關(guān)注行動(dòng)關(guān)鍵特征的挑戰(zhàn)。這里我們以點(diǎn)云和圖像為例來(lái)描述各種融合策略。

圖片

圖3:輸入模式和融合策略的示例

      4.1 輸入方式
      4.1.1多傳感器融合
      盡管早期的工作成功實(shí)現(xiàn)了簡(jiǎn)單的自動(dòng)駕駛?cè)蝿?wù),例如使用單目攝像頭進(jìn)行車道跟蹤,但這種單一輸入模式不足以處理復(fù)雜的場(chǎng)景。因此,最近的自動(dòng)駕駛汽車上引入并配備了各種傳感器,如圖4所示。
      特別是,來(lái)自攝像頭的RGB圖像自然地復(fù)制了人類如何感知世界,具有豐富的語(yǔ)義視覺(jué)信息;LiDAR 或立體相機(jī)提供準(zhǔn)確的 3D 空間知識(shí)。此外,車速表和 IMU 的速度和加速度等車輛狀態(tài)以及高級(jí)導(dǎo)航命令是指導(dǎo)端到端系統(tǒng)的其他輸入線。然而,各種傳感器具有不同的視角和數(shù)據(jù)分布,它們之間的巨大差距給自動(dòng)駕駛的有效融合、互補(bǔ)帶來(lái)了巨大挑戰(zhàn)。
      多傳感器融合主要在感知相關(guān)領(lǐng)域進(jìn)行討論,例如物體檢測(cè)、跟蹤和語(yǔ)義分割,通常分為三類:早期、中、后期融合。端到端自動(dòng)駕駛算法探索類似的融合方案。早期融合意味著在將感知信息輸入特征提取器之前對(duì)其進(jìn)行組合。串聯(lián)是融合各種輸入的常用方法,例如圖像和深度、BEV點(diǎn)云和高清地圖等,然后使用共享特征提取器對(duì)其進(jìn)行處理。還有在 BEV 上繪制與透視圖像相同大小的 LiDAR 點(diǎn),并將它們組合作為輸入。為了解決視圖差異,一些工作嘗試在 2D 圖像上投影點(diǎn)云或通過(guò)提前預(yù)測(cè)圖像的語(yǔ)義標(biāo)簽為每個(gè) LiDAR 點(diǎn)附加一個(gè)附加通道。另一方面,后期融合方案結(jié)合了多模態(tài)的多個(gè)結(jié)果。由于其性能較差,因此討論較少。
      與這些方法相反,中間融合通過(guò)單獨(dú)編碼輸入,然后在特征級(jí)別將它們組合來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)的多傳感器融合。通用串聯(lián)模式也經(jīng)常被用來(lái)融合來(lái)自不同模態(tài)的特征。最近,有研究采用 Transformers來(lái)模擬特征對(duì)之間的交互。Transfuser使用兩個(gè)獨(dú)立的卷積編碼器處理圖像和 LiDAR 輸入,將每個(gè)分辨率的特征與 Transformer 編碼器互連,從而產(chǎn)生四階段特征融合。自注意力層用于傳感器Token令牌,關(guān)注感興趣的區(qū)域并更新來(lái)自其他模式的信息。MMFN 進(jìn)一步在 Transfurser 之上整合了 OpenDrive 地圖和雷達(dá)輸入。采用單級(jí) Transformer 編碼器架構(gòu)來(lái)融合最后一個(gè)編碼器塊之后的各種特征。注意力機(jī)制在聚合不同傳感器輸入的上下文和實(shí)現(xiàn)更安全的端到端駕駛性能方面表現(xiàn)出了巨大的有效性。
      4.1.2語(yǔ)言輸入自動(dòng)駕駛系統(tǒng)
      人類使用視覺(jué)感知和內(nèi)在知識(shí)(例如交通規(guī)則和所需路線)來(lái)駕駛汽車,它們共同形成因果行為。在一些與自動(dòng)駕駛相關(guān)的領(lǐng)域,例如機(jī)器人和室內(nèi)導(dǎo)航(也稱為嵌入式人工智能),將自然語(yǔ)言作為細(xì)粒度指令來(lái)控制視覺(jué)運(yùn)動(dòng)代理已取得顯著進(jìn)展。

      然而,室外自動(dòng)駕駛?cè)蝿?wù)與室內(nèi)機(jī)器人應(yīng)用相比,在以下情況下具有不同的特點(diǎn):

    (1)室外環(huán)境未知,車輛無(wú)法來(lái)回探索。

    (2)鮮明的錨點(diǎn)標(biāo)志很少,給語(yǔ)言指令的落地帶來(lái)了巨大的挑戰(zhàn)。

    (3)駕駛場(chǎng)景更加復(fù)雜,具有連續(xù)的動(dòng)作空間和高度動(dòng)態(tài)的代理。

      操縱過(guò)程中,安全是重中之重。為了將語(yǔ)言知識(shí)融入到駕駛行為中,Talk2Car數(shù)據(jù)集提供了在室外環(huán)境中定位參考對(duì)象的基準(zhǔn)。Talk2Nav、TouchDown和 Map2Seq數(shù)據(jù)集引入了使用 Google 街景的視覺(jué)語(yǔ)言導(dǎo)航任務(wù)。將世界建模為離散連接圖,并需要以節(jié)點(diǎn)選擇格式導(dǎo)航到目標(biāo)。HAD首先采用人對(duì)車的建議,并使用基于 LSTM 的控制器添加視覺(jué)接地任務(wù)。將自然語(yǔ)言指令編碼為高級(jí)行為,包括左轉(zhuǎn)、右轉(zhuǎn)、不左轉(zhuǎn)等,并在 CARLA 模擬器中驗(yàn)證他們的語(yǔ)言引導(dǎo)導(dǎo)航方法。后面,相關(guān)研究又通過(guò)關(guān)注文本動(dòng)作命令來(lái)解決低級(jí)實(shí)時(shí)控制問(wèn)題。最近,CLIP-MC和 LM-Nav 利用 CLIP,受益于大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練,從指令中提取語(yǔ)言知識(shí),從圖像中提取視覺(jué)特征。它們展示了預(yù)訓(xùn)練模型的優(yōu)勢(shì),并為使用多模態(tài)模型解決復(fù)雜的導(dǎo)航任務(wù)提供了一個(gè)有吸引力的原型。
      不同的模式通常會(huì)帶來(lái)更大的視野和感知準(zhǔn)確性,但融合它們來(lái)提取端到端自動(dòng)駕駛的關(guān)鍵信息還需要進(jìn)一步探索。必須在統(tǒng)一空間(例如 BEV)中對(duì)這些模式進(jìn)行建模,識(shí)別與政策相關(guān)的背景,并丟棄不相關(guān)的感知信息。此外,充分利用強(qiáng)大的 Transformer 架構(gòu)仍然是一個(gè)挑戰(zhàn)。自注意力層將所有令牌互連以自由建模其感興趣的領(lǐng)域,但它會(huì)產(chǎn)生大量的計(jì)算成本,并且不能保證有用的信息提取。感知領(lǐng)域更先進(jìn)的基于 Transformer 的多傳感器融合機(jī)制,也在逐步應(yīng)用于端到端駕駛?cè)蝿?wù)。
      4.2 視覺(jué)抽象
      端到端自動(dòng)駕駛系統(tǒng)大致分兩個(gè)階段實(shí)現(xiàn)操縱任務(wù):將狀態(tài)空間編碼為潛在特征表示,然后用中間特征解碼駕駛策略。在城市駕駛的情況下,輸入狀態(tài),即周圍環(huán)境和自我狀態(tài),與視頻游戲等常見(jiàn)的政策學(xué)習(xí)基準(zhǔn)相比更加多樣化和高維。因此,首先使用代理預(yù)訓(xùn)練任務(wù)來(lái)預(yù)訓(xùn)練網(wǎng)絡(luò)的視覺(jué)編碼器是有幫助的。這使得網(wǎng)絡(luò)能夠有效地提取對(duì)駕駛有用的信息,從而促進(jìn)后續(xù)的策略解碼階段,同時(shí)滿足所有端到端算法的內(nèi)存和模型大小限制。此外,這可以提高 RL 方法的樣本效率。
      視覺(jué)抽象或表示學(xué)習(xí)的過(guò)程通常包含某些歸納偏差或先驗(yàn)信息。為了實(shí)現(xiàn)比原始圖像更緊湊的表示,一些方法直接利用預(yù)訓(xùn)練分割網(wǎng)絡(luò)中的語(yǔ)義分割掩模作為后續(xù)策略訓(xùn)練的輸入表示。SESR更進(jìn)一步,通過(guò) VAE 將分割掩碼編碼為類解纏結(jié)表示。另外,預(yù)測(cè)的可供性指標(biāo),例如交通燈狀態(tài)、速度、車道中心偏移、危險(xiǎn)指標(biāo)和與領(lǐng)先車輛的距離,被用作策略學(xué)習(xí)的表示。
      在觀察到分割或可供性作為表示可能會(huì)造成人類定義的瓶頸并導(dǎo)致有用信息的丟失后,一些人選擇了預(yù)訓(xùn)練任務(wù)中的中間潛在特征作為有效的表示。ImageNet預(yù)訓(xùn)練模型的早期層可以作為有效的表示。采用通過(guò)語(yǔ)義分割和/或可供性預(yù)測(cè)等任務(wù)預(yù)先訓(xùn)練的潛在表示作為強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入,并取得優(yōu)異的性能。比如,有在VAE中的潛在特征通過(guò)從分割的擴(kuò)散邊界和深度圖獲得的注意力圖來(lái)增強(qiáng),以突出重要區(qū)域。或者通過(guò)運(yùn)動(dòng)預(yù)測(cè)和深度估計(jì)以自我監(jiān)督的方式在未標(biāo)記的駕駛視頻上學(xué)習(xí)有效的表示。也有利用一系列先前任務(wù)的數(shù)據(jù)來(lái)執(zhí)行與任務(wù)相關(guān)的不同預(yù)測(cè)任務(wù),以獲得有用的表示。同時(shí),潛在表示是通過(guò)近似來(lái)學(xué)習(xí)互模擬度量,由動(dòng)態(tài)模型的獎(jiǎng)勵(lì)和輸出的差異組成。除了這些帶有監(jiān)督預(yù)測(cè)的預(yù)訓(xùn)練任務(wù)之外,還采用了基于增強(qiáng)視圖的無(wú)監(jiān)督對(duì)比學(xué)習(xí)。進(jìn)一步將轉(zhuǎn)向角辨別添加到對(duì)比學(xué)習(xí)結(jié)構(gòu)中。
      由于當(dāng)前的方法主要依賴于人類定義的預(yù)訓(xùn)練任務(wù),因此學(xué)習(xí)到的表示不可避免地存在可能的信息瓶頸,并且可能包含與駕駛決策無(wú)關(guān)的冗余信息。因此,如何在表示學(xué)習(xí)過(guò)程中更好地提取驅(qū)動(dòng)政策的關(guān)鍵信息仍然是一個(gè)懸而未決的問(wèn)題。
      4.3 世界模型和基于模型的強(qiáng)化學(xué)習(xí)
      除了更好地抽象感知表示的能力之外,端到端模型對(duì)未來(lái)做出合理的預(yù)測(cè)以采取安全的操作也至關(guān)重要。在本節(jié)中,我們主要討論當(dāng)前基于模型的政策學(xué)習(xí)工作的挑戰(zhàn),其中世界模型為政策模型提供了明確的未來(lái)預(yù)測(cè)。
      深度強(qiáng)化學(xué)習(xí)通常會(huì)面臨樣本復(fù)雜度高的挑戰(zhàn),這對(duì)于自動(dòng)駕駛等任務(wù)來(lái)說(shuō)尤其明顯,因?yàn)闃颖究臻g很大。基于模型的強(qiáng)化學(xué)習(xí)(MBRL)通過(guò)允許代理與學(xué)習(xí)的世界模型而不是實(shí)際環(huán)境進(jìn)行交互,為提高樣本效率提供了一個(gè)有前途的方向。MBRL方法顯式地對(duì)世界模型/環(huán)境模型進(jìn)行建模,該模型由過(guò)渡動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)組成,并且代理可以以較低的成本與之交互。這對(duì)于自動(dòng)駕駛特別有幫助,因?yàn)橄?CARLA 這樣的 3D 模擬器相對(duì)較慢。
      對(duì)高度復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境進(jìn)行建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了簡(jiǎn)化問(wèn)題,假設(shè)世界是在軌道上的,將過(guò)渡動(dòng)力學(xué)分解為非反應(yīng)性世界模型和自車的簡(jiǎn)單運(yùn)動(dòng)學(xué)自行車模型。利用分解世界模型和獎(jiǎng)勵(lì)函數(shù)來(lái)豐富靜態(tài)數(shù)據(jù)集的標(biāo)簽,通過(guò)動(dòng)態(tài)編程優(yōu)化更好的標(biāo)簽。概率序列潛在模型被用作世界模型來(lái)降低強(qiáng)化學(xué)習(xí)的樣本復(fù)雜性。為了解決學(xué)習(xí)世界模型潛在的不準(zhǔn)確性問(wèn)題,使用多個(gè)世界模型的集合來(lái)提供不確定性評(píng)估。基于不確定性,世界模型和政策代理之間的想象推出可以相應(yīng)地被截?cái)嗪驼{(diào)整。受成功的 MBRL 模型 Dreamer的啟發(fā),ISO-Dream考慮環(huán)境中的非確定性因素,并將視覺(jué)動(dòng)態(tài)解耦為可控和不可控狀態(tài)。然后,策略在分離狀態(tài)上進(jìn)行訓(xùn)練,明確考慮不可控因素(例如其他智能體的運(yùn)動(dòng))。
      在原始圖像空間中學(xué)習(xí)世界模型并不適合自動(dòng)駕駛。預(yù)測(cè)圖像中很容易錯(cuò)過(guò)重要的小細(xì)節(jié),例如交通信號(hào)燈。為了解決這個(gè)問(wèn)題,MILE將世界模型合并到 BEV 語(yǔ)義分割空間中。它將世界建模與模仿學(xué)習(xí)結(jié)合起來(lái),采用Dreamer式的世界模型學(xué)習(xí)作為輔助任務(wù)。SEM2還擴(kuò)展了 Dreamer 結(jié)構(gòu),但使用了 BEV 分割圖,并使用 RL 進(jìn)行訓(xùn)練。除了直接使用 MBRL 學(xué)習(xí)到的世界模型之外,DeRL 將無(wú)模型的行動(dòng)者評(píng)論家框架與世界模型結(jié)合起來(lái)。具體來(lái)說(shuō),學(xué)習(xí)的世界模型提供了對(duì)當(dāng)前行為的自我評(píng)估,它與評(píng)論家的狀態(tài)值相結(jié)合,以更好地了解車輛的表現(xiàn)。
      用于端到端自動(dòng)駕駛的世界模型學(xué)習(xí)(MBRL)是一個(gè)新興且有前途的方向,因?yàn)樗蟠蠼档土?RL 的樣本復(fù)雜性,并且了解世界有助于駕駛。然而,由于駕駛環(huán)境高度復(fù)雜和動(dòng)態(tài),仍需要進(jìn)一步研究來(lái)確定需要建模的內(nèi)容以及如何有效地建模世界。
      4.4 帶有策略預(yù)測(cè)的多任務(wù)學(xué)習(xí)
      多任務(wù)學(xué)習(xí)(MTL)涉及通過(guò)單獨(dú)的分支/頭基于共享表示聯(lián)合執(zhí)行多個(gè)相關(guān)任務(wù)。MTL 通過(guò)使用單個(gè)模型執(zhí)行多個(gè)任務(wù),顯著降低了計(jì)算成本。此外,相關(guān)領(lǐng)域知識(shí)在共享模型內(nèi)共享,并且可以更好地利用任務(wù)關(guān)系來(lái)提高模型的泛化能力和魯棒性。因此,MTL非常適合端到端的自動(dòng)駕駛,最終的政策預(yù)測(cè)需要對(duì)當(dāng)前環(huán)境進(jìn)行全面了解。
      與需要密集預(yù)測(cè)的常見(jiàn)視覺(jué)任務(wù)相比,端到端自動(dòng)駕駛預(yù)測(cè)稀疏信號(hào)。這里的稀疏監(jiān)督給輸入編碼器提取有用信息以進(jìn)行決策帶來(lái)了挑戰(zhàn)。對(duì)于圖像輸入,端到端自動(dòng)駕駛模型中普遍采用語(yǔ)義分割和深度估計(jì)等輔助任務(wù)。語(yǔ)義分割確保模型獲得對(duì)場(chǎng)景的高層次理解并識(shí)別不同類別的物體;深度估計(jì)使模型能夠理解環(huán)境的 3D 幾何形狀,并更好地估計(jì)到關(guān)鍵物體的距離。通過(guò)執(zhí)行這些任務(wù),圖像編碼器可以更好地提取有用且有意義的特征表示,以供后續(xù)規(guī)劃。除了透視圖像上的輔助任務(wù)之外,3D 對(duì)象檢測(cè)對(duì)于 LiDAR 編碼器也很有用。     
      隨著B(niǎo)EV 成為自動(dòng)駕駛的自然且流行的代表,高清地圖映射和 BEV 分割等任務(wù)被包含在聚合 BEV 空間特征的模型中。此外,除了這些多任務(wù)視覺(jué)任務(wù)之外,還有針對(duì)預(yù)測(cè)視覺(jué)可供性,包括交通燈狀態(tài)、到路口的距離以及到對(duì)面車道的距離等。
      端到端自動(dòng)駕駛的多任務(wù)學(xué)習(xí)已證明其在提高性能和提供自動(dòng)駕駛模型的可解釋性方面的有效性。然而,輔助任務(wù)的最佳組合以及其損失的適當(dāng)權(quán)重以實(shí)現(xiàn)最佳性能仍有待探索。此外,構(gòu)建具有多種類型的對(duì)齊和高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集提出了重大挑戰(zhàn)。
      4.5 政策蒸餾
      由于模仿學(xué)習(xí)或其主要子類別行為克隆只是模仿專家行為的監(jiān)督學(xué)習(xí),因此相應(yīng)的方法通常遵循“師生”范式。教師(例如 CARLA 提供的手工制作的專家自動(dòng)駕駛儀)可以訪問(wèn)周圍智能體和地圖元素的真實(shí)狀態(tài),而學(xué)生則通過(guò)收集的專家軌跡或僅使用原始傳感器輸入的控制信號(hào)來(lái)直接監(jiān)督。這給學(xué)生模型帶來(lái)了巨大的挑戰(zhàn),因?yàn)樗麄儾粌H必須提取感知特征,還必須從頭開(kāi)始學(xué)習(xí)駕駛策略。
      為了解決上述困難,一些研究提出將學(xué)習(xí)過(guò)程分為兩個(gè)階段,即訓(xùn)練教師網(wǎng)絡(luò),然后將策略提煉為最終的學(xué)生網(wǎng)絡(luò)。特別是,首先使用特權(quán)代理來(lái)學(xué)習(xí)如何直接訪問(wèn)環(huán)境狀態(tài)。然后,他們讓感覺(jué)運(yùn)動(dòng)代理(學(xué)生網(wǎng)絡(luò))密切模仿特權(quán)代理,并在輸出階段進(jìn)行蒸餾。通過(guò)更緊湊的 BEV 表示作為特權(quán)代理的輸入,它提供了比原始專家更強(qiáng)的泛化能力和監(jiān)督。該過(guò)程如圖 5 所示。LAV進(jìn)一步賦予特權(quán)代理預(yù)測(cè)所有附近車輛軌跡的能力,并將這種能力提煉給使用視覺(jué)特征的學(xué)生網(wǎng)絡(luò)。

圖片

圖 4:政策蒸餾(a)特權(quán)代理通過(guò)訪問(wèn)特權(quán)真實(shí)信息來(lái)學(xué)習(xí)穩(wěn)健的策略。專家用虛線標(biāo)記,表明如果特權(quán)代理通過(guò) RL 進(jìn)行訓(xùn)練,則不是強(qiáng)制性的。(b) 感覺(jué)運(yùn)動(dòng)智能體通過(guò)特征蒸餾和輸出模仿來(lái)模仿特權(quán)智能體。

      除了直接監(jiān)督規(guī)劃結(jié)果之外,一些工作還通過(guò)在特征級(jí)別提取知識(shí)來(lái)訓(xùn)練其預(yù)測(cè)模型。例如,F(xiàn)M-Net采用現(xiàn)成的網(wǎng)絡(luò),包括分割和光流模型,作為輔助教師來(lái)指導(dǎo)特征訓(xùn)練。盡管人們付出了大量的努力來(lái)設(shè)計(jì)更強(qiáng)大的專家并將知識(shí)從教師傳授給不同級(jí)別的學(xué)生,但師生范式仍然存在提煉效率低下的問(wèn)題。正如之前的所有作品所示,視覺(jué)運(yùn)動(dòng)網(wǎng)絡(luò)與其特權(quán)代理相比表現(xiàn)出巨大的性能差距。例如,特權(quán)代理可以訪問(wèn)交通信號(hào)燈的真實(shí)狀態(tài),它們是圖像中的小物體,對(duì)提取相應(yīng)特征提出了挑戰(zhàn),這可能會(huì)導(dǎo)致學(xué)生的因果混亂。因此,如何從機(jī)器學(xué)習(xí)中的通用蒸餾方法中汲取更多靈感來(lái)縮小差距是值得探索的。


總結(jié)

      我們首先討論端到端自動(dòng)駕駛系統(tǒng)的動(dòng)機(jī)和路線圖。端到端方法可以大致分為模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),我們對(duì)這些方法進(jìn)行了簡(jiǎn)要回顧。我們涵蓋閉環(huán)和開(kāi)環(huán)評(píng)估的數(shù)據(jù)集和基準(zhǔn)。我們總結(jié)了一系列關(guān)鍵挑戰(zhàn),包括可解釋性、泛化、世界模型、因果混亂等。后續(xù)文章我們將接續(xù)本文進(jìn)一步討論端到端自動(dòng)駕駛索要面臨的一系列挑戰(zhàn)。并重點(diǎn)分析其應(yīng)該接受的未來(lái)趨勢(shì),幫助讀者可以有效的整合數(shù)據(jù)引擎、大型基礎(chǔ)模型和車輛到一切的最新發(fā)展。
上海創(chuàng)程車聯(lián)網(wǎng)絡(luò)科技有限公司版權(quán)所有 滬ICP備11045498號(hào)-1   技術(shù)支持:網(wǎng)站建設(shè)
主站蜘蛛池模板: #NAME?|久久精品一二三影院|91看剧|欧美性色欧美=a在线视频|五月婷婷激情六月|成人免费一级=a久久 | 99久久成人精品国产网站|九九在线|亚洲播播|快射视频在线观看|日本毛片在线|国产高清无码视频在线观看 国产精品二区影院|久久99热精品|一级黄片毛片免费|sihu在线|亚洲精品女|99vv1com这只有精品 | 日韩网站中文字幕|国产精品入口在线观看|少妇高潮喷水久久久影院|丰满爆乳无码一区二区三区|一区二区日本在线|婷婷777 | chin=a熟妇老熟女hd|精品国产国产综合精品|成人亚洲精品777777ww|欧美日本一道本在线视频|欧美肥屁videossex精品|高潮毛片无遮挡高清免费视频 | 久久www免费视频|久久亚洲高潮流白浆|91视频入囗|#NAME?|亚洲精品无码永久在线观看|欧美黑人一级片 | 唯美清纯亚洲|最近的2019免费中文字幕|西西人体www大胆高清视频|成人超碰97|婷婷射吧|亚欧洲精品视频免费观看mv在线观看 | 精品国产31久久久久久|免费在线影视观看入口|午夜宅男影院|天天色天天色天天色|日韩=av片免费在线观看|上流社会在线观看免费 | 偷看农村女人做爰毛片色|亚洲成人=av在线播放|国内视频一区|国产三级黄色|久久色亚洲|91精选国产 | j=ap=anese护士高潮|12裸体自慰免费观看网站|免费=a一毛片|欧美人禽zozo动人物杂交|h动漫在线女生向在线精品|狠狠躁夜夜躁人人爽天天2020 | 吃奶摸下的激烈视频|亚洲人成网站18禁止中文字幕|无码=aV天堂一区二区三区|男人猛躁进女人视频免费播放|精品一区在线观看视频|欧美午夜=a级限制福利片 | 国产一级片一区|欧美在线观看中文字幕|波波成人网|亚洲第一色区|人妻免费一区二区三区最新|久久www色情成人免费 | 中国女人FREEXXXXXXX|一色一伦一区二区三区的区别|亚洲αⅴ无码乱码在线观看性色|怡春院综合|精品人妻无码一区二区三区百度|国产精品wwwwww | 18禁超污无遮挡无码网址极速|国产精品久久久久久久久久三级|91大神暴力调教|成人久久久久久久久|久久久人成影片免费观看|欧美精品成人一区二区三区四区 | 蜜桃=aV少妇久久久久久高潮不断|国产精品VIDEOSSEX国产高清|亚洲成=aⅤ人片久青草影院按摩|夜色香影院|自拍视频区|超碰综合 | 98色婷婷在线|国产精品最新视频|欧美日本国产综合一区|日本三级精品|日本按摩高潮=a级中文片|久啪视频 | 97久久精品人人澡人人爽|亚洲人成图片小说网站|99久久精品毛片免费播放高潮|夜夜操网站|三区在线|69看片 | 国产成人精品777|久久久久国内精品|国产乱妇无乱码大黄=a=a片|久久字幕网|一区二区三区无码高清视频|在线视频综合 | 91精品国产福利一区二区三区|精品国产区一区|亚洲国产三区|高挑美女被遭强高潮视频|无码熟妇αⅴ人妻又粗又大|国产真实夫妇6p酒店交换 | 亚洲欧美一区二区精品中文字幕|免费=av网站在线|国产=av日韩=a∨亚洲=av|成年=a级毛片免费观看|五月丁香六月综合缴情基地|日本又黄又粗暴的gif动态图 | 亚洲综合自拍|国产一区二区三区久久|亚洲男人第一=aV网站|精品黄网|成年免费视频|欧美三个奶波霸 | 内射小寡妇无码|丰满少妇被猛烈进入=av久久|日韩=a无v码在线播放|91亚洲国产视频|男人和女人高潮免费网站|操久在线 国产精品一区2区3区|91蝌蚪在线播放|一级国产20岁美女毛片|国产伦精品一区二区三区视频不卡|少妇内射兰兰久久|日本成人=a | 亚洲专区第一页|少妇高潮一区二区三区|四虎影院www.|在线精品视频一区二区三四|手机看片福利久久|亚洲=av成人网 | 精品成人免费一区二区三区|亚洲专区在线|欧美裸体xxxx极品少妇软件|欧洲vi一区二区三区|免费激情网站|久久久青 | 国产亚洲精品一区二区三区|狠狠插综合网|把女人弄爽特黄=a大片3人|国产精品99久久久久久人免费|永夜星河免费在线观看|日日做=a爰片久久毛片=a片英语 | 亚洲春色综合另类网蜜桃|日韩特一级|深夜福利国产精品|欧美黑人大战白嫩在线|久久久精品2019免费观看|#NAME? 日日婷婷夜日日天干|精品一区二区观看|亚洲热热色|一区二区欧美国产|自拍一二区|毛片无限看 | 奇米综合四色77777久久|精品精品国产自在97香蕉|啦啦啦在线观看|成人无码区免费=a片久久鸭软件|最近中文字幕完整视频高清1|国产精品视频免费播放 | 日韩人妻无码精品=a片免费不卡|国产亚洲综合99久久系列|国产影视精品一区二区三区|午夜理论片一级毛片免费|亚洲,国产,欧美在线|久久曰视频 | 亚洲性久久|欧美三级图片|日韩美一区二区|13小箩利洗澡无码视频网站免费|114一级片|91免费观看国产 | 成人免费=av在线播放|国产CHINESEHDXXXX宾馆TUBE|夜夜夜夜夜夜爽噜噜噜噜噜噜|午夜理论在线观看无码|亚洲人ⅴs=aⅴ国产精品|91免费影视 | 天天干在线播放|成人国内精品视频在线观看|最近2019年中文字幕大全|亚洲一区免费在线观看|久久青青草原亚洲=aV无码麻豆|三区四区 | 亚洲另类欧美综合久久|天天澡夜夜澡人人澡|最近免费中文字幕完整视频|精品bbwbbwbbwbbwbbwbbw|色婷婷五月另类综合视频在线|黄石第五季第9集回归 | h黄视频在线观看|日韩精品=a=a=a|高h喷水荡肉爽文np肉色学男男|99精品中文字幕|C=aOPORN成人免费公开|久热久爱 | #NAME?|国产成人免费高清视频|牛牛=a级毛片在线播放|黄晓明蒋欣新剧《潜行者》|国产成人艳妇=a=a视频在线|91久久精品www人人做人人爽 | 少妇被粗大的猛烈进出|肥大BBwBBWBBw高潮|日韩中文字幕网址|手机看片国产=aV无码|国产精品一区二区免费看|#NAME? | 伊人5566|久久久久久久久久久影视|国产精品正在播放|精品久久黄色|成人免费看黄yyy456|欧美伊香蕉久久综合网99 | 精品久久久蜜桃|天堂亚洲|久久精品女|蜜臀久久精品久久久更新时间|日韩精品一区二区在线播放|九九视频免费在线观看 | 国产成人毛片在线视频|视频在线播放|91福利在线看|国产亚洲无|天堂一区二区三区在线|日韩精品一卡 | 铠甲勇士全52集免费播放|饥渴丰满少妇大力进入|免费女人高潮流视频在线观看|欧美国产国产综合|麻豆tv在线观看|男人操女人的免费视频 | 爱情岛论坛亚洲永久入口口|国产欧美精品一二三|久久免费视频1|初尝人妻少妇中文字幕|光棍久久|中文字幕在线观看第一页 | 爱情到此为止在线观看|精品热99|老熟女多次高潮露脸视频|91国偷自产一区二区三区老熟女|美女久久久久久久久|高潮VPSWINDOWS国产乱 | 伊人5566|久久久久久久久久久影视|国产精品正在播放|精品久久黄色|成人免费看黄yyy456|欧美伊香蕉久久综合网99 |