近日,智元機器人在其官方渠道宣布了一項重大突破,正式推出了業界首個通用具身基座模型——智元啟元大模型(Genie Operator-1),這一創新成果標志著智元在人工智能領域的又一里程碑。
智元啟元大模型的核心在于其獨創的Vision-Language-Latent-Action(ViLLA)架構,這一架構的提出,為具身智能的發展開辟了新的路徑。ViLLA架構由兩大核心組件構成:多模態大模型VLM與混合專家系統MoE。
VLM組件通過深度挖掘海量互聯網圖文數據,賦予了智元啟元大模型卓越的通用場景感知和語言理解能力。它能夠準確識別并理解圖像中的信息,同時與文本數據進行高效融合,實現了對復雜場景的全面理解。
而MoE系統則進一步增強了智元啟元大模型的動作理解與執行能力。其中,Latent Planner(隱式規劃器)通過分析大量跨本體和人類操作視頻數據,掌握了通用的動作規劃邏輯。與此同時,Action Expert(動作專家)則依托百萬級真機數據訓練,具備了精細且高效的動作執行能力。
ViLLA架構中的這三大組件相互協同,形成了一個高效且智能的系統。它不僅能夠從人類視頻中學習并快速泛化到小樣本場景,還顯著降低了具身智能的應用門檻。這一創新成果已經成功應用于智元的多款機器人本體上,展現了強大的實際應用潛力。