meta近日震撼發布了其最新的開源世界模型V-JEPA 2,這一突破性進展標志著AI在物理世界的理解與預測能力邁上了新臺階。據悉,該模型顯著提升了AI agents的物理推理能力,使其更加智能且高效。
meta的副總裁兼首席AI科學家楊立昆在官方視頻中透露,世界模型的引入讓AI無需再經過數百萬次的訓練即可掌握新技能。這一模型直接揭示了世界的運作機制,從而極大地提高了學習效率。例如,AI現在能預測人類舀出一勺東西后將其放入另一個容器的動作,甚至能理解并拆解復雜的跳水動作。
據meta的測試數據顯示,V-JEPA 2在測試任務中的規劃用時僅為英偉達Cosmos模型的三十分之一,同時成功率更高。這一顯著成果得益于V-JEPA 2使用超過一百多萬小時的視頻進行自監督學習訓練。通過這一方式,模型學習到了物理世界中的重要規律,包括人類與物體的互動方式、物體的運動方式以及物體間的相互作用。
meta強調,物理推理能力對于構建在現實世界中運作的AI agents至關重要,是實現高級機器智能(AMI)的關鍵。通過世界模型,AI agents能夠“三思而后行”,即在實際行動之前進行充分的理解和規劃。例如,在機械臂上部署V-JEPA 2模型,使其能夠執行物體操作類任務,如觸碰、抓取和擺放物體,而無需大量機器人數據或針對性訓練。
meta還發布了三個新的基準測試,旨在評估現有模型通過視頻學習和推理物理世界的能力。這些基準測試包括IntPhys 2、Shortcut-aware Video-QA Benchmark和CausalVQA,它們分別測試了模型在復雜合成環境中的物理理解能力、基于最小視頻對的物理理解視頻問答能力以及物理基礎因果推理能力。
此次V-JEPA 2的發布正值meta在AI領域大動作頻頻之際。就在前一天,meta宣布將成立新的AI實驗室,并豪擲148億美元收購Scale AI 49%的股份。這一系列舉措無疑彰顯了meta在AI領域的雄心壯志。通過世界模型的引入和基準測試的發布,meta正努力推動AI從數字世界加速走向物理世界,開啟AI技術競爭的新篇章。