博客專欄

EEPW首頁 > 博客 > 開發(fā)者說｜H-RDT：基于人類操作數(shù)據(jù)的跨本體機器人學(xué)習(xí)

開發(fā)者說｜H-RDT：基于人類操作數(shù)據(jù)的跨本體機器人學(xué)習(xí)

發(fā)布人：地平線開發(fā)者時間：2025-08-30 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

? 論文題目：

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

? 論文鏈接：

https://arxiv.org/abs/2507.23523

? 項目主頁：

https://embodiedfoundation.github.io/hrdt

H-RDT 架構(gòu)

H-RDT是一個具有20億參數(shù)的擴散Transformer，使用流匹配來建模雙臂機器人的復(fù)雜動作分布。H-RDT采用兩階段訓(xùn)練范式：1）在大規(guī)模第一人稱人類數(shù)據(jù)上預(yù)訓(xùn)練；2）通過模塊化動作編解碼器在機器人數(shù)據(jù)上進行微調(diào)，實現(xiàn)跨本體遷移。

人類動作表征設(shè)計

我們采用較為精細(xì)的3D手部姿態(tài)表示方法，將動作編碼為緊湊的48維向量，以捕捉關(guān)鍵的雙手靈巧操作信息：

雙手手腕位姿 (Bilateral Wrist Pose) ：

（1）左右手的3D位置（3×2）與6D姿態(tài)（6×2），共計18維；

（2）與機器人控制中的末端執(zhí)行器 (End-Effector) 控制參數(shù)對齊；

十個手指的指尖位置 (Fingertip Position) ：

（1）每個手五根手指，各提取一個三維坐標(biāo)，總共10×3=30維；

（2）用于表達手指張合、握持形態(tài)等細(xì)粒度操作意圖。

總計：18（手腕）+30（指尖）=48維動作表示

這種表征策略的優(yōu)勢體現(xiàn)在三個方面：

（1）動作通用性強：該表示可以視作覆蓋大多數(shù)操作型機器人的“上層動作空間”，能覆蓋如雙臂7-DoF機械臂、并聯(lián)夾爪等控制參數(shù)；

（2）保留人類操作的關(guān)鍵特征：指尖相對位置、手腕旋轉(zhuǎn)、抓取姿態(tài)等都被編碼在其中，保留了對操控幾何和力學(xué)要素的刻畫能力；

（3）提供顯式的動力學(xué)參數(shù)：相比于point flow等表征方式，無需額外增加動力學(xué)映射，更為聚焦操作語義。

模型結(jié)構(gòu)

H-RDT構(gòu)建了一個五模塊組成的DiT (Diffusion Transformer) 框架，負(fù)責(zé)從多模態(tài)感知輸入生成機器人控制序列：

視覺編碼器 (DinoV2+SigLIP) ：提取RGB觀測的視覺特征；配有MLP Adapter映射到transformer嵌入空間。
語言編碼器 (T5-XXL) ：編碼自然語言任務(wù)指令；同樣通過MLP Adapter接入主干。
模塊化動作編/解碼器：編碼器對機器人狀態(tài)向量與噪聲動作軌跡分別編碼；解碼器將輸出特征解碼為Action Chunk，其在微調(diào)階段對不同本體重新初始化。
Transformer主干（類LLaMA3架構(gòu)）：使用SwiGLU激活與RMSNorm；使用解耦交叉注意力分別對視覺和語言信息進行融合；流時間 (τ) 通過AdaLN注入。

兩階段訓(xùn)練范式

階段一：人類數(shù)據(jù)預(yù)訓(xùn)練

第一階段使用EgoDex數(shù)據(jù)集，以48維人手動作表征對H-RDT進行預(yù)訓(xùn)練。EgoDex數(shù)據(jù)集包括338 K+條軌跡、涵蓋194項不同操作任務(wù)，全面覆蓋了人類操作策略、物體交互方式以及雙手協(xié)作。

階段二：跨本體微調(diào)

第二階段對特定機器人本體微調(diào)時，需重新初始化動作編碼器和解碼器子模塊以適應(yīng)不同本體，其余模塊使用預(yù)訓(xùn)練權(quán)重進行微調(diào)。

流匹配訓(xùn)練方法

實驗結(jié)果

真機實驗

我們在三種真實機器人上進行多任務(wù)訓(xùn)練，用于驗證模型的跨本體遷移能力與實際部署的魯棒性。

1）Aloha-Agilex-2.0實驗

兩項任務(wù)均采用基于子任務(wù)的評分體系，全部完成視為完全成功。各方法各任務(wù)均測試25次。

**任務(wù)1疊毛巾：**測試模型連續(xù)折疊柔性物體的能力。

實驗結(jié)果如下表所示，H-RDT的完全成功率為52%，RDT為40%，未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的模型成功率為0。

任務(wù)2將杯子放到杯墊上：該任務(wù)測試模型的空間推理能力，要求模型根據(jù)杯子的自動選擇合適的手去抓杯子（左側(cè)杯子必須用左手抓，右側(cè)杯子必須用右手抓）。

實驗結(jié)果如下表所示，H-RDT的完全成功率為64%，RDT為28%，未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的模型成功率為20%。

2）雙臂ARX5小樣本實驗

我們設(shè)計了一個極具挑戰(zhàn)的任務(wù)：在雙臂ARX5機器人上完成113個不同的抓取放置任務(wù)，每個任務(wù)僅提供1到5個示范樣本。

實驗結(jié)果如下表所示，H-RDT成功率達到了41.6%，而π0僅為31.2%，RDT為16%，未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的模型17.6%。

3）雙臂UR5+UMI實驗

我們在雙臂UR5機器人上評估了H-RDT，人類演示數(shù)據(jù)通過UMI收集。任務(wù)為雙手協(xié)作放置外賣袋，細(xì)分為四個連續(xù)步驟：右手抓取 → 右手放置 → 左手抓取 → 左手放置。

實驗結(jié)果如下表所示，H-RDT完全成功率達到58.0%，遠(yuǎn)超RDT（29%）、 π0（31%）、未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的版本（16%）。

仿真測試

我們在仿真環(huán)境RoboTwin 2.0上進行了全面測試，包括單任務(wù)和多任務(wù)設(shè)置：

**單任務(wù)實驗：**在RoboTwin 2.0基準(zhǔn)測試的13項操作任務(wù)上評估單任務(wù)性能。每項任務(wù)使用簡單模式下收集的50個演示樣本進行訓(xùn)練，并在兩種模式下評估：包括簡單模式（干凈桌面）與困難模式（隨機光照、雜亂環(huán)境）。

H-RDT在簡單模式下取得了最高68.7%的平均成功率，在困難模式下為25.6%，顯著優(yōu)于其他方法；且在簡單和困難模式下均大幅超越未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的版本 (w/o human) ，證明了利用人類操作數(shù)據(jù)預(yù)訓(xùn)練的有效性。

**多任務(wù)實驗：**在RoboTwin 2.0的45項任務(wù)上進行多任務(wù)實驗，使用在困難模式下收集的約2250個演示樣本進行訓(xùn)練，評估了10項任務(wù)子集。實驗結(jié)果如下表所示。

在多任務(wù)場景中，H-RDT取得了高達87.2%的平均成功率，顯著優(yōu)于RDT（28.8%）、π0（48.4%）和未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練的版本w/o human（67.2%)。H-RDT相較于未經(jīng)人類數(shù)據(jù)預(yù)訓(xùn)練版本w/o human平均成功率提高了20.0%，明顯大于在單任務(wù)場景。這表明，在多任務(wù)場景中，利用人類操作數(shù)據(jù)進行預(yù)訓(xùn)練能提供更好的性能。

**跨本體泛化：**為進一步驗證H-RDT的跨本體遷移能力，在仿真環(huán)境中對兩種不同的機器人本體Aloha-Agilex-1.0和Franka-Panda進行了多任務(wù)實驗，實驗結(jié)果如下圖所示。

H-RDT在兩種機器人上均表現(xiàn)出很強的性能，在 Aloha-Agilex-1.0上達到87.2%的成功率，在Franka-Panda上達到62.9%的成功率，在兩個機器人上均顯著優(yōu)于基線方法。

總結(jié)與展望

本文提出H-RDT模型，使用具有3D手部位姿標(biāo)注的第一人稱人類操作視頻預(yù)訓(xùn)練以增強雙臂機器人的操作能力。展望未來，面對數(shù)據(jù)采集成本高、模型泛化困難等挑戰(zhàn)，人類操作數(shù)據(jù)憑借其極低的采集成本和豐富的操作語義，將成為機器人策略學(xué)習(xí)不可忽視的新“寶藏”。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞：算法 自動駕駛 算法工具鏈 地平線 征程5

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

博客專欄

開發(fā)者說｜H-RDT：基于人類操作數(shù)據(jù)的跨本體機器人學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)