媲美GPT-4o的王炸模型，这家创业公司做出来了 [复制链接]

see122

军衔等级：

一级军士长

电梯直达

1^# 大中小

发表于 2024-10-11 20:10:57 |只看该作者 |倒序浏览

“你好，我是阿奇。”

今年9月的外滩大会“未来客厅”展厅一度被堵得水泄不通，在一个叫作“阿奇”的AI陪伴机器人前，孩子们反反复复摩挲着展台的边缘，嘴里不断喊着阿奇的名字。能让孩子们如此流连忘返，是因为和阿奇的互动体验十分流畅。

虽然是AI机器人，阿奇却有着“高情商”，可以“看见”用户，有着敏捷的反应速度，与其互动就如同和真人交流一样简单丝滑，在体验上全面革新此前国内的AI应用产品。这背后，是其搭载着带有音视频多模态能力的无界方舟大模型——ArkModel 2.0。

今年国庆前GPT-4o正式上线，其中的高级语音功能已经被外界期待了太久，不过目前，其仍旧只向Plus和Team用户推出，免费用户无法体验。GPT-4o的Realtime API在国庆期间推出，但限制也非常明显：无视频对话能力、成本过高（7 RMB/min）、不能定制音色、语音幻觉较多。

从体验上来看，无界方舟大模型已经可以无差别实现GPT-4o的极低延迟AI音视频互动能力。除了可以看见用户、带有情绪地快速回复用户以外，我们还从无界方舟大模型上看到了一些GPT-4o尚不具备的能力，如：大模型可以驱动3D虚拟形象，也可以驱动硬件机器人的动作，在交互上有更多革新。

其背后的研发团队到底是什么来头？无界方舟大模型又还有哪些惊喜？

01 创业仅一年，一出手就是王炸
36氪了解到，无界方舟大模型背后的研发团队，是一家创业仅一年的新秀公司——无界方舟智能技术有限公司（以下简称“无界方舟”）。

创始人兼CEO曾晓东博士，是NLP自然语言处理领域的资深专家，在该领域有超过15年的算法研究与应用经验，担任多个A类机器学习、自然语言处理、人工智能领域会议/期刊评委与区域主席。其还曾任阿里巴巴第一代机器翻译系统的核心算法科学家，也是蚂蚁技术实验室的联合创始人。据了解，曾晓东博士早在2017年于蚂蚁集团任职时就已当选《麻省理工科技评论》评选的MIT TR35，即“35岁以下科技创新35人”。值得一提的是，月之暗面创始人兼CEO杨植麟也在今年入选该名单。

无界方舟创始团队成员，均来自于国内外知名大厂AI业务第一梯队。技术团队80%为NLP自然语言处理专业博士，在NLP自然语言处理、MT机器翻译、IOT物联网硬件等领域，有着多年丰富的从业经验。产品与设计负责人为多年互联网体验战略资深专家，曾获得红点奖、IF奖、环球金趋势奖等多个国际顶尖奖项。

在众多AI创业企业中，虽然无界方舟的创业年限仅一年多，但其已在多个方面自证实力，得到众多顶级赛事和榜单的认可。

在今年WAIC期间，无界方舟在200多家全球顶级AI企业中，入选全球创新大赛决赛，并最终获得全球第5名的优异成绩。紧接着，无界方舟又入选了“2024胡润未来之星潜力企业榜”200强。

那么，究竟是怎样的产品与技术实力，才能夺得这样的市场认可度与关注度？

如大家在一些公开活动中所看到的，无界方舟大模型的产品应用效果已十分惊艳。

<iframe>&nbsp;</iframe>

随着无界方舟大模型更新至2.0版本，其也拥有了更强大的能力——实现了极低延迟+音视频多模态+情绪表达+多语言+驱动软硬件等综合能力。正如桌面机器人阿奇所演示的，它可以实时看见用户，给看不清药品说明书的老年人解读服药方法，陪伴处于口语发育期的孩子们畅聊。

从多个层面，无界方舟大模型都在让AI智能体更像真人。

02 无界方舟大模型，让AI互动更像真人
GPT-4o引发了端到端实时多模态的热潮，国内外大模型厂商纷纷跟进。

但就现阶段而言，各大厂还无法真正做到交互全面革新，如极低延时回复、可随时打断对话、可“看见”用户的视频互动、情绪表达等业内技术难题都尚未解决。这也意味着，现阶段类GPT-4o的多模态大模型仍属于半成品状态，暂时均无法提供API或SDK对接服务。

一位业内人士告诉36氪，“大厂更致力于摘取通用模型能力中的低垂果实，如ASR语音识别、LLM语言模型、TTS语音合成等。但创业公司想有一席之地，必须有自研能力，要在垂直领域、垂直场景，实现通用模型的技术突破”。

如果说大厂做的是让大模型的木桶没有明显的短板，那么无界方舟在做的就是成为一块长板，一块被别人需要的“砖”。

我们在体验了搭载无界方舟大模型的产品之后发现，其最大的优点是能够真正实现音视频多模态互动、超低延迟反馈、情绪化个性化表达等多种能力。这也使其上手体验极佳，无成本、无障碍，只要用户能沟通，就可以丝滑对话，仿佛在面对真人交流。

为了更加清晰的体现无界方舟大模型在能力方面的长处，我们制作了一张图表：

无界方舟大模型（ArkModel 2.0）是一个多模态端到端模型，能够同时处理文本、音频、图像的数据，并实现跨模态任务的转换。具体而言，模型接收不同形式的输入，如音频通过Audio Encoder编码，图像通过Image Encoder编码，这些编码后的信息在ArkModel中进行统一处理，模型通过下一个token预测生成输出，因此可以实时地流式输出文本或音频。

模型的一个显著特征是其端到端优化设计，强调直接从输入到输出的全流程学习。其中合成数据是优化过程中的关键，主要用于生成大规模的训练数据，包括从图片或语音生成文字和语音、从语音生成文本等多种类型的数据增强。这种方式有效提升了模型的泛化能力和任务适应性。

无界方舟大模型在多项多模态评测中，均超越GPT-4o等业界知名模型：

如图表所示，无界方舟大模型具备以下5点显著优势：（以下视频均为实拍，无任何后期剪辑）

优势1:

实现300毫秒超低延迟反馈，该成绩不止是纯语音，更是在音视频互动的情况下。在目前国内市场的横向对比中，几乎没有对手；

<iframe>&nbsp;</iframe>

优势2:

可实现音视频多模态互动，可以“看见”用户，可随时打断，且具备推理能力；

<iframe>&nbsp;</iframe>

优势3:

有丰富的情绪系统，互动自然，去AI感，非常适合陪伴场景；

<iframe>&nbsp;</iframe>

优势4:

有多语言能力，目前可实现21种语言，包含葡语、日语、阿拉伯语、粤语等；

<iframe>&nbsp;</iframe>

优势5:

可以驱动虚拟形象和实体硬件的动作，实现具身智能的效果。

<iframe>&nbsp;</iframe>

03 瞄准AI陪伴领域，无界方舟大模型已对外开放合作
2013年上映的科幻电影《HER》曾将人类与人工智能相爱的故事搬上银幕，这个在当时看来略显疯狂的念头，因为大模型的出现，几乎已经快要在现实中实现。

今年8月，GPT-4o语音功能首度亮相之时，就有人惊呼GPT版的《HER》来了，首批试用的用户兴奋地体验发现，其可以实现真人对话般极低延迟、可随时打断、情绪丰富的实时交互。但在那之后，市场便进入了短暂的沉寂。

一位行业专家认为：“只要类GPT-4o的技术没有达到人人可用的状态，市场离真正意义上的爆发就还很遥远。”

曾晓东博士曾受邀在今年的外滩大会上分享AI Agent的商业化落地探索，通过那些可以深层次理解用户需求的个性化智能体，AI可以实现真正意义上的走入千家万户。

而在用户眼中，它可以是一个智能音箱、一个会说话的潮玩娃娃、一个可以和儿童亲近互动的玩具狗，或是一个车载陪伴机器人。

这便是无界方舟希望实现的丰富场景，目前无界方舟大模型已能够对齐GPT-4o的交互能力，且进一步开发出自身的独特优势，例如：在保持极低延迟音视频交互的同时，还可实时驱动虚拟形象和实体硬件的动作行为。这意味着，该模型能力对于具身智能、虚拟数字人或IP形象的场景应用将更为友好和极致。

据36氪了解，无界方舟大模型现已对外开放合作，且目前是业内唯一一家对外提供音视频互动大模型的企业。主要应用场景聚焦在教育互动、智能玩偶、车企陪伴、具身智能、文旅展示等，针对儿童、银发族、学生白领等用户群体都有着不同的解决方案。

如在时下十分热门的教育陪伴领域，AI与教育的结合，可改变传统的教育模式。据36氪此前了解，多家教育企业均在探索与AI的结合。例如，通过AI模拟线下真实授课体验，做超拟人 1 对 1 的 AI 老师。这类探索的优点在于，它不仅是辅助学习，更是通过互动引导，让学生更高效地交流和吸收知识。再比如，儿童的早教产品目前集中于故事机，但除了讲故事、读绘本外，早教机更需要提供一问一答的互动方式，做到丝滑无延迟，让儿童在语言系统发育的关键时期，培养口语表达能力。因此，该类产品对于音视频互动的要求极高，无界方舟大模型可以完美适配。

另外一大热门应用品类则是智能玩具。基于上一代AI技术的产品，通常存在交互复杂（如每次对话需要按压按钮）、反馈延迟高等问题，无法实现自然对话，导致用户使用时长低、留存差。因此，在智能玩具市场中，儿童玩具、IP潮玩、明星周边、数字人盒子、虚拟宠物等产品，都可以和无界方舟大模型有很好的结合。

此外，车企陪伴、具身智能机器人、文旅/企业展示等场景，均可通过应用无界方舟大模型，来实现实时音视频互动，全面革新使用者的交互体验，从而带来业务的增长。

04 AI的尽头是AI Agent？
尽管多家大模型厂商曾在年初表态，认为今年是中国AI应用的爆发元年，但实际上，受限于模型性能，AI应用进入了瓶颈期，即便是在北美市场，资本也正在思考投资AI的性价比。

光大证券研究指出，AI Agent是打破AI应用发展瓶颈的关键，新的ScalingLaw，RL+CoT对于实现能自主规划的AI Agent至关重要。

无界方舟团队则是坚定的AI Agent追随者，深耕AI Agent技术与产品。其也由此走出了两条路线，一条是走垂直领域（生物制药）专业路线的企业级AI Agent，一条则是走陪伴路线的个人AI Agent。

如何真正降低人类使用AI的门槛，通往AGI路上的最核心基础到底是什么？华泰证券出具的报告认为，GPT-4o已初步具备Agent能力，而AI Agent才是通往AGI的核心基础，能真正革新人机交互方式。实际上，Agent也是大模型边际变化的最大能力。

或许每一个冲进人工智能领域的创业者，都有着一个用AI改变世界的理想。但所有理想都必须走向落地，才能真正不辜负理想，既要仰望星空，也要脚踏实地。

这也正是无界方舟团队的特别之处，他们因理想从大厂出来，走出舒适区，进入一个竞争激烈，但又充满可能性的赛道。曾晓东博士的终极梦想是在生命科学、人类事业上有所建树。“他想用他擅长的AI的方式，来为人类事业做些贡献，所以当这波AI热潮出现后，他毅然决然地出来创业了。”曾晓东博士的一位合作伙伴对36氪表示。眼下，大模型赛道的角逐已经行至深水区，唯有真正的价值创造者才能走到终局。

来源：36kr

本主题由版主或管理员于 2024-10-11 20:16 审核通过

0 举报本楼

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-23 07:04 , Processed in 0.224694 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册