升级后的 Claude 3.5 Sonnet 是第一个在公开测试版中提供“计算机使用”功能的模型,此番 Anthropic 对这套模型进行了全面改进,特别是在智能体编码与工具使用等任务场景下表现出色。AI 驱动图像初创公司 EverAI 的创始人 Pietro Schirano 发帖表示,Claude 3.5 Sonnet 是“世界上最好的编码模型,将它纳入日常工作流程,彻底改变了我的生活体验。”
与此同时,Anthropic 还发布了全新的 Claude 3.5 Haiku,成本和速度向最小体量系统看齐,但能够重现该公司最大体量系统的性能。据介绍,Claude 3.5 Haiku 的价格将与 Claude 3 Haiku 保持一致,但在多项重要基准测试当中都有着超越更大体量 Claude 3 Opus 模型的性能表现,其中包括一项由模型完成客服任务的测试。
今年 2 月,微软基于 OpenAI 的 GPT-4V 图像识别模型,专为 Windows 操作系统交互设计的智能体框架 UFO(UI-Focused)更与其有“异曲同工”之妙。UFO 能够通过对图形用户界面(GUI)和 Windows 应用程序的控制信息进行观察和分析,在单个或跨多个应用程序内无缝导航和操作,满足用户的复杂任务请求。也就是说,有了 UFO,用户通过一句话就可以操作应用界面,比如删除 PPT 上的所有注释、设计 PPT 格式、总结会议纪要并发送邮件等。
那么,Anthropic 的方案与其他操控应用的 AI 智能体有何不同?
工作原理上,据 Anthropic 介绍,其“计算机使用”功能虽然同样需观看和解读屏幕截图,但实现操作是通过训练 Claude 模型准确计算像素。具体来讲,当开发人员要求 Claude 使用计算机软件并授予其必要的访问权限时,Claude 模型会查看用户界面中的屏幕截图,而后计算出需要垂直或者水平移动多少像素才能将光标移动至正确位置。如果没有这种能力,模型将很难对鼠标进行准确操作。