【
儀表網(wǎng) 研發(fā)快訊】近日,中國科學院深圳先進技術研究院集成所智能仿生研究中心徐升團隊與澳門大學楊志新團隊合作,在機器人學習領域取得突破,提出了一種基于三維視覺融合注意力機制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)。該算法通過融合全局與局部體素網(wǎng)格特征,結合本體感知信息,顯著提升了機器人在復雜三維場景中的精細操作能力。研究成果以“Fusion-Perception-to-Action Transformer: Enhancing Robotic Manipulation With 3-D Visual Fusion Attention and Proprioception”為題,發(fā)表于機器人領域頂級期刊IEEE Transactions on Robotics,論文第一作者為澳門大學-中國科學院深圳先進技術研究院聯(lián)合培養(yǎng)博士生劉楊駿,徐升副研究員和楊志新副教授為共同通訊作者,先進院和澳門大學為共同第一單位。
研究背景:三維操作亟需“類人”感知與規(guī)劃能力
傳統(tǒng)機器人操作多依賴二維圖像觀測,難以捕捉三維空間中的物體結構、位置及姿態(tài)關系,導致精細化操作任務(如拔插、旋擰、堆疊)成功率低。雖然體素表示(Voxel Grid)能保留豐富的三維空間信息,但現(xiàn)有方法存在特征利用率低、動作預測分辨率不足等問題。人類在完成精細操作時,可通過靈活切換全局視野與局部聚焦,結合手部本體感知動態(tài)調整動作。受此啟發(fā),研究團隊提出了一種“類人”的多模態(tài)感知到動作操作框架。
核心創(chuàng)新:基于三維視覺融合注意力機制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)(圖2),其中具體包括:
1、設計全局-局部視覺融合注意力(HVFA-3D),模擬人類“先全局觀察、再局部聚焦”的視覺感知模式,增強對關鍵操作區(qū)域的關注(圖1)。
提出三維視覺互注意力機制(VMA-3D),實現(xiàn)跨尺度空間信息雙向交互,提升場景理解能力。
2、集成關節(jié)力位、末端力/力矩、夾爪狀態(tài)數(shù)據(jù),感知接觸力與運動狀態(tài),提升機器人對周圍環(huán)境接觸、本體運動和協(xié)調的感知能力。
漸進式動作預測框架,先通過低分辨率體素全局規(guī)劃,再基于高分辨率局部體素微調動作,保持網(wǎng)絡端到端特性的同時提升預測精度。
3、提出關鍵規(guī)劃步數(shù)指標(ANKA),用于評估同類算法執(zhí)行效率和規(guī)劃能力。
實驗結果:成功率提升,效率顯著優(yōu)化
研究團隊在多個仿真(RLBench)和真實機械臂(UR5)任務上驗證了FP2ATs的性能(視頻),平均成功率較體素SOTA方法提升34.4%,較點云SOTA方法提升14.6%。展現(xiàn)出有更好的規(guī)劃能力(如避障等),減少的關鍵規(guī)劃步數(shù)。
應用前景:面向通用任務的智能機器人
該工作所提出的FP2AT理論具有強泛化性能,能夠適配不同機器人操作平臺,通過多模態(tài)感知與智能操作規(guī)劃,引導機器人完成多樣化復雜操作任務。該工作是團隊在學習控制領域的進一步拓展,將來可與具身智能、人形機器人相結合,應用于家庭服務、醫(yī)療護理、工業(yè)生產(chǎn)、化學試驗等各類場景。
研究資助
本研究在國家自然科學基金面上項目、澳門科技發(fā)展基金、廣東省、深圳市、澳門大學等科技項目資助下完成。
圖1 | 體素重建與“類人”視覺感知
圖2 | Fusion-Perception-to-Action Transformer網(wǎng)絡架構
所有評論僅代表網(wǎng)友意見,與本站立場無關。