一、引言
MindVLA 主要包括空間智能模塊、語言智能模塊、動作策略模塊、強(qiáng)化學(xué)習(xí)模塊,這些模塊分別有以下功能:
空間智能模塊:輸入為多模態(tài)傳感器數(shù)據(jù),使用 3D 編碼器提取時(shí)空特征,然后將所有傳感器與語義信息融合成統(tǒng)一的表征。
語言智能模塊:嵌入式部署的大語言模型 MindGP,用于空間 + 語言的聯(lián)合推理,支持語音指令和反饋,可能實(shí)現(xiàn)人車交互。
動作策略模塊:使用擴(kuò)散模型生成車輛未來的行為軌跡,引入噪聲來引導(dǎo)擴(kuò)散過程以生成多樣化的動作規(guī)劃。
強(qiáng)化學(xué)習(xí)模塊:使用 World Model 模擬外部環(huán)境響應(yīng),評估行為后果;使用獎勵模型(Reward Model):提供偏好或安全性評估,可能采用人類反饋(RLHF);使用閉環(huán)學(xué)習(xí)根據(jù)行為軌跡進(jìn)行持續(xù)優(yōu)化和泛化。
快慢思維融合于同一模型(Fast-Slow Thinking in One Model)
從零開始預(yù)訓(xùn)練的嵌入式大語言模型
高斯建模的 3D Tokenizer 增強(qiáng)空間理解
支持空間與語言的聯(lián)合推理
擴(kuò)散策略實(shí)現(xiàn)群體交互與行為生成
基于人類反饋的行為偏好學(xué)習(xí)(RLHF)
通過閉環(huán)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)泛化能力提升
下面將對以上提及的核心技術(shù)進(jìn)行剖析。
二、V-Spatial Intelligence:自監(jiān)督 3D 高斯編碼器預(yù)訓(xùn)練
2.1 傳統(tǒng)端到端自動駕駛的不足
傳統(tǒng)的端到端自動駕駛通過感知(Perception)生成 3D 目標(biāo)框(3D Boxes);然后預(yù)測模塊使用 3D 目標(biāo)和地圖預(yù)測運(yùn)動軌跡;規(guī)劃模塊根據(jù)預(yù)測進(jìn)行軌跡規(guī)劃。這種傳統(tǒng)方法采用 BEV(鳥瞰圖)或稀疏實(shí)例框作為場景表示,存在信息全面性與效率的權(quán)衡。BEV 壓縮高度信息導(dǎo)致細(xì)節(jié)丟失,而稀疏查詢可能忽略關(guān)鍵環(huán)境細(xì)節(jié)(如不規(guī)則障礙物)。密集體素表示計(jì)算開銷大,難以支持實(shí)時(shí)決策。所以理想汽車提出了 GaussianAD 框架。
2.2 GaussianAD 框架的優(yōu)點(diǎn)及核心方法
參考論文:GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
GaussianAD 用均勻的高斯序列初始化 3D 場景,并使用 4D 稀疏卷積來實(shí)現(xiàn)高斯之間的交互。然后從環(huán)視多幀圖像提取多尺度特征,并使用可變形的交叉注意力將它們納入 3D 高斯。在獲得時(shí)間 3D 高斯作為場景表示后,可以選擇使用對密集任務(wù)的高斯到體素 splatting(例如,3D 語義占用),或者使用稀疏卷積和最大池化進(jìn)行稀疏任務(wù)(例如,3D 目標(biāo)檢測、高清地圖構(gòu)建、運(yùn)動預(yù)測)。GaussianAD 使用 flow 頭來預(yù)測每個(gè)高斯的 3D 流,并將其匯總用于軌跡規(guī)劃。
2.2.1 3D 高斯場景表示
現(xiàn)有特征表示方法的不足
現(xiàn)有方法通常構(gòu)建密集的 3D 特征來表示周圍環(huán)境,并處理具有相等存儲和計(jì)算資源的每個(gè) 3D 體素,這通常會因?yàn)橘Y源分配不合理而導(dǎo)致難以解決的開銷。與此同時(shí),這種密集的 3D 體素表示無法區(qū)分不同比例的目標(biāo)。
高斯表示的優(yōu)勢
高斯表示以均勻分布的 3D 高斯初始化場景,通過多視角圖像逐步優(yōu)化高斯參數(shù)(均值、協(xié)方差、語義),生成稀疏的 3D 語義高斯集合。每個(gè)高斯單元描述局部區(qū)域的幾何和語義屬性。高斯混合模型能近似復(fù)雜場景,稀疏性減少冗余計(jì)算,同時(shí)保留細(xì)粒度 3D 結(jié)構(gòu),極大地促進(jìn)下游任務(wù)的性能提升。
感知任務(wù)
GaussianAD 首先將 3D 高斯及其高維查詢表示為可學(xué)習(xí)的向量。然后,我們使用高斯編碼器來迭代地回放這些表示。每個(gè)高斯編碼器塊由三個(gè)模塊組成:一個(gè)促進(jìn)高斯之間交互的自編碼模塊,一個(gè)用于聚合視覺信息的圖像交叉關(guān)注模塊,以及一個(gè)用于微調(diào)高斯屬性的細(xì)化模塊。與 GaussianFormer 不同,GaussianAD 使用由 4D 稀疏卷積組成的時(shí)間編碼器,將上一幀的高斯特征與當(dāng)前幀中的相應(yīng)特征集成。
提取到稀疏高斯特征后,采用 VoxelNeXt 根據(jù)稀疏體素特征預(yù)測 3D 目標(biāo)。使用 3D 稀疏 CNN 網(wǎng)絡(luò)來編碼 3D 高斯表示,一組 Agent Tokens 來解碼 3D 動態(tài)物體邊界框。
使用一組 Map Tokens 生成車道、邊界等靜態(tài)元素。
預(yù)測與規(guī)劃
端到端訓(xùn)練
三、L(Lingustic Intelligence):定制化設(shè)計(jì) LLM
L 模塊的設(shè)計(jì)思想比較容易理解,LLM 模型是強(qiáng)大且通用的模型毋庸置疑,但是其使用的是互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)資源進(jìn)行訓(xùn)練的,數(shù)據(jù)場景和分布混亂,比如存在大量與自動駕駛無關(guān)的文史類數(shù)據(jù),難以直接應(yīng)用到自動駕駛場景中,尚不具備較強(qiáng)的 3D 空間理解能力、3D 空間推理能力和強(qiáng)大的語言能力,需要在模型的預(yù)訓(xùn)練階段就要加入大量的相關(guān)數(shù)據(jù)。所以,理想汽車不計(jì)成本地從 0 開始設(shè)計(jì)和訓(xùn)練一個(gè)適合 VLA 的基座模型。在模型架構(gòu)上還進(jìn)行了稀疏化設(shè)計(jì),減少模型容量,從而實(shí)現(xiàn)推理性能的提升。
上圖為 PPT 上對 L 模塊的介紹,其核心設(shè)計(jì)思想可以總結(jié)為:
基于開源 LLM 結(jié)構(gòu),重新設(shè)計(jì)適用于智駕場景的 LLM input tokenizer;
**稀疏化:**為了在增加模型參數(shù)量的同時(shí)平衡端側(cè)推理速率,采用 MoE+SparseAttention 的高效結(jié)構(gòu);使用多個(gè)專家實(shí)現(xiàn)模型擴(kuò)容,還可以保證模型參數(shù)量不會大幅度增加;引入 SparseAttention 進(jìn)一步提升稀疏化率。
**訓(xùn)練數(shù)據(jù)配比重構(gòu):**融入大量的 3D 場景數(shù)據(jù)和自動駕駛相關(guān)圖文數(shù)據(jù),同時(shí)降低文史類數(shù)據(jù)的比例;
**進(jìn)一步強(qiáng)化 3D 空間理解和推理能力:**加入未來幀的預(yù)測生成 + 稠密深度的預(yù)測;
**提升邏輯推理能力:**人類思維模式 + 自主切換快思考慢思考,慢思考輸出精簡的 CoT(采用的固定簡短的 CoT 模板) + 輸出 action token;快思考直接輸出 action token;
**實(shí)時(shí)推理性能(10HZ):**通過以下手段壓榨 OrinX 和 ThorU 的性能,在同一個(gè) Transformer 模型中加入了兩種推理模式:
CoT 生成加速:小詞表 + 投機(jī)推理(推理模式 1: 因果注意力機(jī)制 token by token 的逐字輸出);
action token 生成加速:并行解碼的方式(推理模式 2: 雙向注意力機(jī)制并行一次性輸出);
四、A(Action Policy): 生成精細(xì)化動作
參考論文:https://arxiv.org/abs/2503.10434
4.1 總體介紹
LLM 基座模型構(gòu)建完成后,利用擴(kuò)散模型 Diffusion Model 將 action token 解碼為最終的軌跡,包括自車軌跡、他車和行人的軌跡,這樣可以提升 VLA 模型在復(fù)雜交通環(huán)境下的博弈能力。另外,Diffusion Model 還具有根據(jù)外部的條件改變生成結(jié)果,類似于圖像生成領(lǐng)域的多風(fēng)格生成。
上圖為 PPT 上對 V 模塊的介紹,其核心設(shè)計(jì)思想可以總結(jié)為:
引入多層 DIT(Diffusion Transformer)結(jié)構(gòu);
**提升生成效率:**基于常微分方程的 ode 采樣器大幅的加速 diffusion 的生成過程,使其在 2~3 步內(nèi)完成穩(wěn)定軌跡的生成;
**對齊人類駕駛員行為:**使用 RLHF 做后訓(xùn)練,通過人類偏好數(shù)據(jù)集微調(diào)模型的采樣過程, 對齊專業(yè)駕駛員的行為,提高安全駕駛的下限。其中,人類偏好數(shù)據(jù)集搭建:人類駕駛數(shù)據(jù) + NOA 的接管數(shù)據(jù)
4.2 TrajHF
TrajHF 通過 多條件去噪器生成多樣化軌跡 + 人類反饋驅(qū)動的強(qiáng)化學(xué)習(xí)微調(diào),解決了生成模型與人類駕駛偏好的對齊問題。其結(jié)構(gòu)兼顧生成能力與個(gè)性化適配,在安全約束下實(shí)現(xiàn)了駕駛風(fēng)格的靈活調(diào)節(jié),為自動駕駛的“人車共駕”提供了新范式。
4.2.1 動機(jī)
數(shù)據(jù)集偏差:傳統(tǒng)模仿學(xué)習(xí)(IL)僅學(xué)習(xí)數(shù)據(jù)集的平均行為,忽略人類駕駛的微妙偏好(如攻擊性超車、保守跟車等)。
分布偏移:生成模型易受高頻模式主導(dǎo),難以生成低頻但符合人類偏好的軌跡(如復(fù)雜交互中的適應(yīng)性行為)。
高階因素缺失:人類駕駛受風(fēng)險(xiǎn)容忍度、社會交互等隱性因素影響,現(xiàn)有模型難以編碼。
4.2.2 核心思想
人類反饋?zhàn)鳛楸O(jiān)督信號:通過人類標(biāo)注的軌跡排序或偏好標(biāo)簽,引導(dǎo)模型學(xué)習(xí)多樣化駕駛風(fēng)格。
強(qiáng)化學(xué)習(xí)微調(diào)(RLHF):將偏好轉(zhuǎn)化為獎勵函數(shù),優(yōu)化策略以最大化人類偏好獎勵。
多模態(tài)生成與約束平衡:結(jié)合擴(kuò)散模型生成多樣化候選軌跡,通過強(qiáng)化學(xué)習(xí)微調(diào)對齊偏好,同時(shí)用行為克?。˙C)損失保留基礎(chǔ)駕駛能力。
4.2.3 模型結(jié)構(gòu)
TrajHF 包括生成軌跡模型(Diffusion Policy)和 強(qiáng)化學(xué)習(xí)微調(diào)(RL Finetuning)這兩個(gè)部分,其中 RL Finetuning 是最大化人類偏好獎勵。
除了這兩個(gè)部分,個(gè)人認(rèn)為 TrajHF 中最重要的是偏好數(shù)據(jù)的自動構(gòu)建,我們首先就來介紹這個(gè)部分。
偏好數(shù)據(jù)自動構(gòu)建
偏好數(shù)據(jù)自動構(gòu)建過程如下圖所示,這個(gè)過程涉及用不同的駕駛風(fēng)格標(biāo)簽標(biāo)記大量駕駛數(shù)據(jù)。然而,出現(xiàn)了實(shí)際挑戰(zhàn),例如確定每個(gè)場景或框架是否需要駕駛風(fēng)格標(biāo)簽。以下步驟概述了這些挑戰(zhàn)和相應(yīng)的解決方案。
**場景挖掘:**人類駕駛通常發(fā)生在普通環(huán)境中,這使得很難為每個(gè)決定定義特定的駕駛風(fēng)格,而且手動手動注釋效率低下。論文發(fā)現(xiàn)人類司機(jī)接管數(shù)據(jù)可以幫助識別偏好場景。這些數(shù)據(jù)分為六類(例如,“過于激進(jìn)”或“過于保守”),每個(gè)類別對應(yīng)不同的駕駛風(fēng)格,可用于定義規(guī)則或訓(xùn)練模型,以識別偏好場景。
**關(guān)鍵幀標(biāo)注:**在確定偏好場景后,只需要標(biāo)記與偏好相關(guān)的部分,專注于發(fā)生重要動作的關(guān)鍵幀,例如速度或方向的變化。如果幀標(biāo)記過早,則定義操作尚未發(fā)生;如果標(biāo)記過晚,則該操作已經(jīng)開始。關(guān)鍵幀識別的明確規(guī)范允許基于規(guī)則的自動檢測,從而實(shí)現(xiàn)潛在的大規(guī)模注釋。
**手動檢查:**注釋的關(guān)鍵幀經(jīng)過隨機(jī)手動檢查,以確保數(shù)據(jù)質(zhì)量。人工檢查員可以在特殊情況下更新場景定義或引入新的偏好場景。
Diffusion Policy
Diffusion Policy 的核心組件是多條件去噪器(Multi-Conditional Denoiser, MCD),它的工作過程如下:
輸入:多模態(tài)感知數(shù)據(jù);
軌跡表示:將軌跡 轉(zhuǎn)換為動作空間,減少時(shí)間異方差性。
去噪過程:
輸出:生成 K 條多模態(tài)候選軌跡(8 個(gè)航跡點(diǎn),覆蓋 4 秒)。
RL Finetuning
RL Finetuning 的目標(biāo)是最大化人類偏好獎勵,主要包括獎勵計(jì)算和策略優(yōu)化兩個(gè)步驟,其中涉及較多數(shù)學(xué)計(jì)算,感興趣的同學(xué)可以自行研讀論文。
參考資料
https://zhuanlan.zhihu.com/p/1885988337225032557
GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
ibili.com/video/BV11yX5Y9EEj/?vd_source=115911bd71b74bfcc0cad43e576887e4)
GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback