不久前,谷歌意外泄露了最新 AI 发展成果 Jarvis 的“内部预览版”。Jarvis 原本是《钢铁侠》电影中 Tony Stark 的人工智能助手的首字母缩写词,全称为 “Just Another Very Intelligent System”。就像《钢铁侠》电影一样,Jarvis 应该是一个代理型人工智能,即只需要很少或不需要人类输入就能执行任务的自主系统。
被泄露的文件最初被发布在谷歌自己的云平台之上,在存留期间,其内容显示谷歌打造了一款能够浏览互联网并自主检索信息的 AI 智能体。
Jarvis 或将接管 Chrome 浏览器
据外媒报道,该 AI 智能体于本周二在 Chrome 浏览器网络商店中作为扩展程序短暂提供下载,并被描述为 “与你一起上网的好伙伴”。
据外媒报道,OpenAI 也在开发这类自主 AI 智能体。此次谷歌 Jarvis AI 意外泄露事件就发生在 OpenAI o1 模型泄露的几天之后,后者同样意外曝光了一款能够分析图像、访问网络搜索结果及数据分析等工具的新推理模型,可能很快就会发展出更多的自主网页浏览功能。
几天前的 OpenAI 伦敦开发者大会上,Sam Altman 在与 20VC 创始人 Harry Stebbings 的对谈中,就对 AI 智能体进行了这样的定义:能够接受长期任务,且在执行过程中几乎不需要监督。他举例说,“假设不是让 AI 智能体给一家餐厅打电话订餐,而是让它同时联系 300 家餐厅,找出哪家最适合或者有优惠。我认为更有意思的是那种像一位聪明的资深同事一样,能与你在项目中真正协作的智能体。”
在最近的一次 Reddit AMA 中,OpenAI 首席产品官 Kevin Weil 也暗示道,ChatGPT 将首先具备向用户发送消息的能力,而为用户执行任务将是他们 “2025 年的一大主题”。
微软团队上月低调开源的 OmniParser,在 Hugging Face 上迅速大受欢迎的同时,似乎也预示着 AI 智能体操控屏幕的未来。OmniParser 是一款解析和识别屏幕布局的 AI 工具,能够提取文本、按钮和图标等重要信息,还可以将这些元素转换成结构化的数据,精准理解用户意图,可以帮助开发者自主创建用于操控电脑或手机界面的智能体。