今天凌晨3點,微軟在官網開源了多模態AI Agent基礎模型——Magma。
與傳統Agent相比,Magma具備跨數字、物理世界的多模態能力,能自動處理圖像、視頻、文本等不同類型數據,例如,你可以用Magma來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者下真實象棋時獲得幫助。
此外,Magma還能內置了心理預測功能,增強了對未來視頻幀中時空動態的理解能力,能夠準確推測視頻中人物或物體的意圖和未來行為。

開源地址:https://huggingface.co/microsoft/Magma-8B
github:https://github.com/microsoft/Magma
Magma功能展示
可以用Magma來充當實體機器人的大腦,例如,把蘑菇正確地放在盆裏。