通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级军士长

注册:2007-10-294
跳转到指定楼层
1#
发表于 2024-11-29 21:40:55 |只看该作者 |倒序浏览










Agent交互新体验。

作者|赵健

想象这样一个场景:在你的手机上有一个AI助手,只要你发出一个指令,它就可以在微信上给老板的朋友圈点赞并写评论,在淘宝上购买某一款历史订单产品,在携程上预订酒店,在12306上购买火车票,在美团上点外卖......

这一场景已经不再是想象,而是变成了现实。

今天,在ChatGPT发布两周年的前一天,智谱举办OpenDay,发布了用AI替代人类执行任务的三款智能体Agent,分别是面向手机的phone use——AutoGLM,面向电脑的compute use——GLM PC,以及面向网页的GLM-Web能力。

在此之前,业内的Agent有很多进展,但更多是以普通人不好理解的技术框架的形态出现。

今天,智谱真正将这背后的技术落地为人人可以感知的产品。用一句话就能操作电脑和手机的时代即将到来了。

1.一句话操作电脑和手机


什么是AutoGLM?

只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。

这并非智谱第一次发布相关能力。2024年1月,智谱在技术开放日上发布了All Tools工具;2024年10月,智谱发布第一个产品化的Agent——AutoGLM 。本次OpenDay,智谱在Agent 技术方面的布局继续拓展。

「甲子光年」也在第一时间体验了AutoGLM。

AutoGLM有点像Siri,但是Siri最多帮你打开某个App,而AutoGLM则可以进一步像人类那样操作手机。只需要发出一个相对简单的指令,AutoGLM就会自动去执行。

比如,可以让AutoGLM订外卖点咖啡:



也可以让AutoGLM订火车票、机票,甚至可以在不同的App之间比价:



目前,AutoGLM能够操作的App如下:




AutoGLM是一个非常早期的技术,目前还有一些明显的不足之处。

第一,每一个步骤之间的间隔延迟较大,可能要停留好几秒的时间,达不到人类操作般丝滑。不过,随着技术的进步,这种延迟并不是一个很大的技术难题。

第二,AutoGLM有时会被手机弹窗干扰。比如点咖啡时,美团App可能会推送“天降红包”弹窗,AutoGLM有时不由自主地点击去,从而会打断任务。

第三,AutoGLM有时也会出错。比如当我让它订火车票时,它会询问我选择的车次。当我告诉它选择用时最短的一列时,它并没有执行该指令,而是选择了用时更久的车次。

AutoGLM还有很大的提升空间。但不得不说,它可能已经表现出了贾维斯那样的AI助手的早期雏形。

在被AutoGLM丝滑的“类人”操作震惊到的同时,很快另一种感受也随之而来,那就是“担忧”。如果AI助手可以自动操作我的手机,是否会造成数据或隐私泄漏的风险?

对此,智谱表示,AutoGLM严格尊重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,AutoGLM本身并不会主动获取用户的个人隐私信息,对于授权范围以外的任务会主动提示用户获取用户同意,涉及交易、支付等重要操作的步骤也会向用户进一步询问是否执行。每次关闭应用在后台再次启动AutoGLM功能,都会重新向用户申请无障碍权限,用户想退出使用的,也可以选择在手机设置页面进行手动关闭。

隐私与数据安全是一道红线。如果这一问题被很好地解决,那么可以想象的是,未来的AI应用与智能设备将充满想象力,AI技术也将真正惠及千万家。

2.从Chat到Act


在ChatGPT横空出世两年后,我们终于看到了一个不止于写诗作画,而是真正在手机或电脑上带来人机交互体验革新的AI Agent的样子。

智谱CEO张鹏表示,AutoGLM展现了大模型从对话(Chat)走向操作(Act),从生成式AI迈向代理式AI的演进趋势。

AI Agent是过去一年非常火的话题。Gartner已将代理式AI列为2025年十大技术趋势之一,并预测到2028年,至少有15%的日常工作决策将由代理式Al自主完成。

值得关注的是,在大模型技术到来之前,没有任何方法能够替代人类实现智能的与机器交互的方式。

过去的键盘、鼠标、多点触控这样的物理交互形式,到dos、图形界面和iOS这样的操作系统,本质上还是让人来适应机器。以至于今天用户仍然需要花费大量的时间去学习形形色色等我软件操作界面。现实中复杂的企业软件界面让人无所适从,跨多个的应用来完成复杂的工作流,这中间有大量的重复机械性交互,但却依然必须都由人来手动操作。

去年大模型出现之后,微软第一时间发布了Copilot,即副驾驶形态,是人机交互改变的第一步。但Copilot就是最终答案吗?或许,它只是一种过渡形态。

2024年3月,红杉资本在其AI Ascent主题活动上预测,2024年人工智能趋势的第一条就是:Copilot将逐渐向Agent转变,也就是从“副驾驶”转向“主驾驶”。

过去一年里,我们看到业内的科技公司都在Agent上积极布局,包括苹果的Apple Intelligence,谷歌的Jarvis,Anthropic的Computer Use,智谱的AutoGLM,以及OpenAI即将发布的Operator等等。

在技术进步的推动下,今天大模型加持的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,甚至能实现人类的PDCA(Plan-Do-Check-Act)循环,自我提升。总的来说,Agent已经初步具备了模仿人类与物理世界互动的能力。

如何理解Agent?在智谱看来,“机器智能”的本质在于对世界的理解能力以及预测能力,但理解与预测不限于ChatGPT式的语言文本,也不限于Sora式的图像视频,它还可以预测“操作序列”——操作序列的预测就是AI Agent,它代表了一种未来真正的人机交互方式,就是让机器来适应人。

Agent是通往AGI的重要一步。智谱定义了大模型发展的五个阶段,与OpenAI的定义有所不同,其中,L1代表语言能力,L2代表逻辑思维能力与多模态能力,L3代表使用工具(Agent)的能力,L4代表自我学习的能力,L5代表全面超越人类、探究科学规律的能力。




并且,智谱也提出了他们认为每一个阶段的进度条。目前,L1的语言能力已经达到80%;L2的逻辑思维能力完成度为60%,o1模型是推理模型的新范式;L3 Agent的能力还比较早期,只有40%,与人类相比还有很大的提高空间;L4、L5基本才刚刚开始。

尽管目前技术还比较初期,但Agent的未来应用已经展现出了强大的前景。理论上讲,随着Agent能力继续提升,它们将能调用越来越多的应用app,适配越来越多的操作系统,实现越来越复杂的连贯自主操作。

张鹏认为,目前的Agent能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。这可以看做是大模型通用操作系统(LM-OS)的一种雏形。

这已经对人机交互形式产生影响。未来,基于大模型智能能力(从L1到L4乃至更高),有机会实现原生的人与机器交互的方式LM-OS,这将改变人与机器交互的方式。

3.智能设备的Agent未来


强大Agent的出现,也将会给智能设备打开新的可能。

通过端侧芯片性能优化和端云一体架构,Agent不仅在操作系统OS和应用app上实现用户体验变革,还能将其推广到各类智能设备上。

智谱COO张帆表示,包括汽车、眼镜、音箱乃至具身智能和各类AI原生硬件,都能基于Agent能力实现人机交互的新升级。手机+AI 会变成随身个人智能助理,PC+AI 将会成为全新生产力工具,汽车+AI 将会让车成为人们的智能第三生活空间。

当然,大模型不仅仅会为手机、PC和汽车带来机会,而是会惠及各种各样的智能设备,从手机到电脑,再到汽车、眼镜、家居和各种edgeside设备,理论上是没有边界限制的。

AI时代智能设备的基础要素,随着大模型和Agent能力的持续提升,正在发生变化。为此,智谱已在芯片、应用app、操作系统OS和模型侧进行了长时间、全链路布局。

一是芯片适配与算力保障。智谱同终端芯片厂商展开密切协作,尤其是和包括高通、英特尔等端侧芯片厂商联合调教端侧大模型,以充分发挥最新芯片的性能。

二是完备的模型矩阵。智谱发布了不同尺寸的模型,包括大尺寸参数模型和端侧模型来适配不同的应用场景,以尽可能最大化的“榨干”每一点算力,发挥出最大的智能化的能力。




三是端云一体的解决方案。在终端层面,智谱已经和手机厂商、PC厂商实现深度合作,在 AIPC、智能助手Agent等领域有诸多成果,一方面重塑人机交互体验,另一方面也逐步推动更多edge side设备互联互通。此处操作,彼处响应,端云无缝的跨设备体验在未来有可能将依靠 Agent来完成。

随着产品化Agent的陆续推出,不同平台、终端之间的界限或许正在逐渐被打破。

去年12月,比尔·盖茨曾预测,Agent不仅将改变人们与计算机的互动方式,还将颠覆软件行业,引发自从我们从键入命令到点击图标以来计算机领域的最大革命。

一年之后的今天,智谱或许让我们看到了这场AI革命最开始改变的样子。

(封面图来源:智谱)


来源:网易

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-23 02:47 , Processed in 0.187914 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部