【
儀表網 研發快訊】2025年1月,北京理工大學前沿交叉科學院數據流體團隊研發出首個視覺提示遙感多模態大模型,相關成果以“EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing”為題,發表在國際頂級期刊《IEEE Transactions on Geoscience and Remote Sensing (TGRS)》。
EarthMarker為遙感通用大模型EarthGPT的延續,首次實現了遙感領域中基于視覺提示的多模態大模型,支持多粒度的視覺提示和自然語言聯合提示,實現了多粒度解譯遙感圖像,并可靈活切換遙感圖像解譯粒度,如圖像、區域和點粒度。此外,本文提出了首個遙感視覺提示大規模多模態數據集,包含約365萬多模態{圖像-點-文本}和{圖像-區域-文本}配對數據,數據集已全部開源。
EarthMarker可完成復雜視覺推理任務,尤其在遙感目標關系分析任務中性能超越GPT-4V。如圖1所示,EarthMarker展示出驚人的分析能力:其首先總結了視覺提示所標識區域分別為機場環境中的不同要素, 接著對相同類別的區域進行了聚類分析,并推理出這些標注區域在機場環境中的不同功能。
圖1 EarthMarker完成復雜推理任務:遙感關鍵標關系分析(黃色高亮部分表示錯誤)
綜合來講,EarthMarker具備多才多藝的能力。如圖2所示,EarthMarker可實現多粒度(如圖像級、區域級和點級)遙感圖像解譯,擅長于各種視覺任務,包括場景分類、指定對象分類、圖像描述、關系分析等。
圖2 EarthMarker具備多粒度遙感圖像解譯能力,可實現多任務推理
EarthMarker的總體架構如圖3所示,提出了一種共享視覺編碼機制,以增強視覺提示、整體圖像和文本指令之間的交互理解。此外,文中設計了跨域三階段學習策略,使得EarthMarker具備了空間感知和聯合指令跟隨能力。該研究貢獻了視覺和語言聯合提示多模態理解框架,并構建遙感多模態聯合提示指令數據集,展示出了極大的應用潛力。
圖3 EarthMarker總體架構
所有評論僅代表網友意見,與本站立場無關。