近日,微軟對其開源項目 AgentUFO 進行重大升級,正式推出全新版本 UFO²,新版本不僅新增了操作系統級別的功能,更與 Windows 系統實現了深度集成,爲用戶帶來了更高效、智能的自動化任務處理體驗。
圖源:網絡
UFO² 最大的亮點之一,在於其能夠直接調用 Windows 原生 API 和 COM 接口。相比傳統的機器人流程自動化(RPA)技術,UFO² 在執行復雜業務流程時,效率和準確性得到了顯著提升。
以 Excel 操作爲例,傳統 RPA 可能需要模擬多次鼠標點擊,才能將表格數據轉換爲圖表,而 UFO² 僅需一次 API 調用即可輕鬆完成,避免了繁瑣的視覺定位和鼠模擬操作。
測試數據顯示,UFO² 在自動化任務成功率方面,大幅領先於 OpenAI 的 Operator。在不同的測試場景中,UFO² 的成功率分別達到了 30.5% 和 32.7%,而 Operator 僅爲 20.8% 和 14.3%。
圖源:微軟
在技術架構上,UFO² 的核心控制組件 Host Agent 負責解析用戶指令、管理應用程序生命週期,並協調各個 App Agent 的執行。當用戶通過自然語言下達自動化命令時,Host Agent 會將任務分解爲一系列子任務,並分配給相應的 App Agent 進行處理。
每個 App Agent 專注於特定的 Windows 應用程序,從而實現更高效的任務執行。同時,UFO² 引入的混合控制檢測機制,結合了視覺輸入和應用程序元數據,進一步提升了系統對 GUI 元素的感知能力,確保 App Agent 在標準和非標準環境下都能穩定運行。
值得一提的是,UFO² 還創新性地推出了畫中畫模式。該模式將自動化任務與用戶的主桌面隔離開來,用戶可以在主桌面上正常工作,而自動化任務則在一個獨立的虛擬桌面中運行。
開源地址:https://github.com/microsoft/UFO?tab=readme-ov-file