【微软开源创新框架:可将DeepSeek,变成AI Agent】金十数据2月17日讯,微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AI Agent。与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。在高分辨率Agent基准测试ScreenSpot Pro中,V2+GPT-4o的准确率达到了惊人的39.6%,而GPT-4o原始准确率只有0.8%,整体提升非常大。除了V2,微软还开源了omnitool,这是一个基于Docker的 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成Agent的关键工具。
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。