【微軟開源創新框架:可將DeepSeek,變成AI Agent】金十數據2月17日訊,微軟在官網發佈了視覺Agent解析框架OmniParser最新版本V2.0,可將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,變成可在計算機使用的AI Agent。與V1版本相比,V2在檢測較小的可交互UI元素時準確率更高、推理速度更快,延遲降低了60%。在高分辨率Agent基準測試ScreenSpot Pro中,V2+GPT-4o的準確率達到了驚人的39.6%,而GPT-4o原始準確率只有0.8%,整體提升非常大。除了V2,微軟還開源了omnitool,這是一個基於Docker的 Windows 系統,涵蓋屏幕理解、定位、動作規劃和執行等功能,也是將大模型變成Agent的關鍵工具。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。