通信人家园

标题: 苹果开发出能看懂屏幕上下文的人工智能技术ReALM [查看完整版帖子] [打印本页]

时间: 2024-4-3 18:25

作者: gythy1978 标题: 苹果开发出能看懂屏幕上下文的人工智能技术ReALM

站长之家（ChinaZ.com）4月3日消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的人工智能技术，而且无需依赖屏幕截图或图像数据输入。这项技术被称为ReALM（Real-time Analysis of Live Media），它使得在与用户交流的过程中，智能助手能够看到用户所看到的一切内容，并理解用户当前正在进行的活动，从而随时提供帮助。

论文地址:https://arxiv.org/pdf/2403.20329.pdf

ReALM技术通过将屏幕上的元素和布局转换为文本形式，然后利用这些文本信息来解析用户提出的与屏幕内容相关的查询或指令。比如用户可以说“打开我屏幕上显示的第一个应用”或“读取屏幕中央的新闻标题”，即使实际上该智能助手并未“看到”用户的屏幕。

这种能力特别适用于需要对屏幕上信息进行快速反应和处理的应用场景，比如虚拟助手和辅助技术等。通过ReALM技术，智能助手可以更加智能地理解用户的意图，并提供更加准确和个性化的帮助和服务。

这一举措预示着 iOS18将于2024年6月的 WWDC 发布，届时我们预计将推出全新的 Siri2.0，尽管目前尚不清楚该模型是否会及时集成到 Siri 中。这并不是苹果最近几个月在人工智能领域的首次尝试，公司推出了一系列新模型、工具以及合作伙伴关系，所有这些都预示着一家准备将人工智能作为业务中心的公司。

ReALM 是苹果快速增长的人工智能研究团队发布的最新消息，也是第一个专注于改进现有模型的消息，使其更快、更智能和更高效。

该公司声称，甚至在某些任务上优于 OpenAI 的 GPT-4。最新发布的详细信息来自苹果公司于周五发布的一篇新的开放研究论文，首次由 Venture Beat 在周一报道。对于它是否将实际成为 iOS18的一部分，苹果公司对此尚未置评。

ReALM 是如何工作的?

ReALM 与 GPT-4等模型相比要小得多。但这是因为它不需要做所有的事情。它的目的是为其他人工智能模型提供上下文，比如 Siri。

这是一个视觉模型，重新构建屏幕并标记每个屏幕实体及其位置。这创建了屏幕布局的基于文本的表示，可以传递给语音助手，为用户请求提供上下文线索。

在准确性方面，苹果表示，尽管体积更小、速度更快，ReALM 在一些关键指标上的表现与 GPT-4相当好。

这对 Siri 意味着什么?这意味着，如果未来版本的 ReALM 被部署到 Siri—— 甚至是这个版本 —— 那么当用户告诉它打开这个应用程序，或者告诉我这个图像中这个词的含义时，Siri 将更好地理解用户的意图。

它还将使 Siri 在不必完全部署像 Gemini 这样的大型语言模型的情况下具有更多的对话能力。当结合其他最近的苹果研究论文，允许 “一次性” 响应 —— 即 AI 可以从单个提示中获得答案 —— 这表明苹果仍在大力投资于 AI 助手领域，而不仅仅依赖外部模型。

附件: 6384775994885076952967036.png (2024-4-3 18:25, 27.82 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjI3MDgxfDY1MzVjOWM3fDE3MzA4MjA3OTB8MHww

通信人家园 (https://www.txrjy.com/)