通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级军士长

注册:2015-11-141
跳转到指定楼层
1#
发表于 2024-11-1 13:19:46 |只看该作者 |倒序浏览





智东西(公众号:zhidxcom)

作者 | 徐豫

编辑 | 漠影

在生成式AI浪潮的影响下,智能硬件开始出现全新的人机交互体验。

AI智能助手更有针对性地实时解答你的“十万个为什么”;AI卡片录音机能帮你实时转写会议内容,还随手就罗列好了会议总结、要点分析和待办事项;AR眼镜戴上后就能看到文字、图片、视频中的实时多语言字幕;智能门锁会根据来访人士定制主人的声音,模仿你的声音取快递、拿外卖,或者改变声音语调以恐吓无关逗留人士;毛绒小熊真的成为孩子的知心朋友,可以一起聊聊烦恼、疑惑和心事……

可以预见,更智能化的多模态大模型赋予了智能硬件新的生命



就在上周六,RTE 2024第十届实时互联网大会IoT分论坛圆满结束。多位AI智能硬件赛道的资深人士齐聚一堂,共同探讨如何让“智能硬件产品们”迎头赶上AI的好时代。声网IoT行业负责人吴昌儒、旷视增值业务部负责人史泽鸿,海马爸比联合创始人谭国豪、佐臻科技技术经理徐偉恩、小米Xiaomi Vela开源负责人杜超、莲偶科技软件部总裁杨旺分享了他们在打通AI与智能硬件屏障方面的实战经验

一、AI驱动多模态交互,人机互动更自然

在传统的硬件设备中,人机交互大多通过按键、触摸屏等图形用户界面(GUI)来完成。但随着AI技术的引入,尤其是对话用户界面(CUI)的崛起,用户可以通过语音、视觉、手势等多种方式与设备进行互动,带来了更加自然、直观的交互体验

“AI驱动的智能硬件不再单纯依赖固定的功能按钮或菜单,而是通过对用户意图的理解,围绕用户想要完成的任务进行设计。”声网IoT行业负责人吴昌儒举例说道,智能家居中,用户仅用一句话便可触发多个设备的联动,说出“我要看电影”,AI系统随之做出自动调节灯光、开启电视、调整空调温度等操作。这种基于任务导向的设计,让用户体验更为丝滑和智能,大幅减少了手动操作的繁琐。

住着一个AI Agent的智能硬件不用再孤立工作,而是能够与其他智能硬件之间形成互联,彼此协作。也就是说,每个设备中的AI Agent都能独立执行特定任务,同时也能根据需求与其他AI Agent协作,整体上是一个复杂且灵活的智能系统。

现场,其他与会嘉宾也围绕各自产品或业务在AI方面的落地各抒己见。

长期以来,AI与AR的结合都是智能眼镜的理想答案。对于听音乐、拍视频、翻译等需求,不少市面上在售的AR眼镜都基本能满足,佐臻科技则为AR眼镜找到了更多个性化的应用场景。

其最新款的AR眼镜不仅适用于跌倒检测、呼吸监测等看护场景,还可以满足AI或XR多人混合实时互动算绘场景的需求。也许在不久的将来,只要一副AR眼镜,人们就能远程观展、跨国云旅游、多语言同声传译、实时共享影片、异地协同查看云端文件和3D模型。



按照徐偉恩的设想,装备了AI引擎的AR眼镜未来将即时提供更多个性化的反馈。举个例子,你佩戴着AI眼镜,刚好路过了一辆停在路边的车,你多看了几眼这辆车的Logo,AI眼镜会猜到你可能对这个汽车品牌感兴趣,随之提供相关的信息。值得一提的是,这种呈现信息的方式是私人化的,可以降低人们对信息共享的顾虑。

在徐偉恩看来,声网的语音交互技术充当了AI智能硬件实时人机交互的关键神经元。而AI智能硬件只有真正实现随时随地调用资料、与人交互、与环境交互后,才能与真实生活串联起来。

当底层的语音技术还较为稚嫩时,人们很难想象手上一枚小小的戒指,也能将AIoT的风吹到直播出海这一领域。

莲偶科技最新的空间戒指TOALL L-Ring 2通过多模态大模型落地了录音转写、AI对话、同声传译等功能,有助于人们在直播、讲课件、播放PPT、看电视以及驾驶过程中尽可能解放双手。未来,外贸主播在直播过程中,戴上它“挥挥手”就可以完成口型视频合成、情绪模拟、声纹模拟、语音合成等,从而同步、同时生成多语种的直播间。



水准较高、稳定可靠的实时AI语音交互技术,可谓是AIoT的强心剂。AI智能硬件若能及时语音反馈危险情况,在关键时刻或许能“救命”。

基于高精度的数据训练,海马爸比的婴儿看护机可以实时监测婴儿的睡眠情况和哭声判断婴儿是否“遮脸”,并针对可能窒息的情况做出提醒。海马爸比联合创始人谭国豪告诉智东西,有了AIoT智能硬件技术的加持,新一代的婴儿看护器对婴儿哭声、状态的识别更敏感,可以及时发现吐奶等其他可能引发窒息的情况现在,AI智能硬件或许比新手爸妈更能听懂婴言婴语。



海马爸比下一步计划将这些AI智能硬件融入个性化育儿教育、优化睡眠的婴儿房环境、互动式讲故事、协作式育儿支持等场景,为每个有娃家庭安排一个工作经验“无上限”、具备专业知识的“智能保姆”。

谭国豪称,声网的AI x IoT智能硬件解决方案可以有效解决“自动化场景但被动化输出”的AI技术应用困境,推动了智能硬件从工具转向服务。在他看来,AIoT中的AI智能硬件不应是被动地监测和响应,而是生成有意义的内容,并与用户展开有效互动。



小米则选择用一个面向轻量AI智能硬件的系统“Xiaomi Vela”,来串联起不同生活场景中的智能硬件。将来借助该系统,小米的智能手表、智能手机、智能平板和智能电视等硬件可以在其AIoT网络中实现联动

旷视科技的AI生产力平台Brain++已实现AI视觉算法的快速量产,并将其与智能门锁、宠物智能用品、养老机器人、体育及训练等场景相结合。

其中,在宠物智能用品方面,Brain++可以提供诸如宠物检测、猫脸识别、猫砂检测和宠物Vlog等功能。在智能门锁方面,其可以实现生物特征识别、人员分析、快递和外卖提醒、儿童和宠物离家、邻居隐私保护、AOV和时光浓缩等功能。



二、秒级人机对话,生成式AI盘活IoT生态

相较于触控、空间手势等人机交互方式,语音交互的技术和形态更成熟,上手难度也更低,在AI时代仍具有独特的发展前景。吴昌儒提出多模态交互、对话式交互、大模型三者共同构成了AI Agent(智能体)

同时,语音交互技术作为AI智能硬件的底层技术之一,其即时性、准确性水平高低,在很大程度上影响着用户的人机交互体验。从“喂,Siri”,到红极一时的智能音箱、故事机,再到当前快速迭代的多模态大模型,人机语音交互的体验正在不断优化。

吴昌儒认为,实时、准确、跨平台是AI Agent真正能够引入智能硬件的关键,声网AI x IoT智能硬件方案应运而生。该方案能够在低功耗、低算力芯片上快速实现大模型的接入,具备低延时实时互动、低成本灵活适配的特性,通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

例如其对交互延迟进行优化,语音交互延时低至1s内;支持多模态 AI 语义识别和理解;支持 AI降噪,保证清晰的语音交互;支持小包体、低内存、低功耗;适配超70种主流、高性价比的芯片等,帮助开发者与企业快速构建适配自身硬件的 AI 实时语音对话服务。



声网AI x IoT智能硬件解决方案进一步优化了端到端互动体验,实现了人与设备之间基于大模型(LLM)的毫秒级互动体验,并且在80%丢包情况,即网络较差的环境下,仍能做到音频通话流畅

为了让整个集成更加简单,声网还提供了模块化的组件。企业无需额外集成STT、TTS这些模块化的组件,就可以达到音频的端到端对话目的。

除此之外要让AI听得懂,收集的信息更有效,AI降噪算法和VAD控制是非常重要的一环。为此,声网自研了AI降噪算法,可以有效抑制键盘、脚步、杂音、啸叫等超100种常见噪声,同时为了改善驾驶、商场等场景的收声效果,也针对性地优化了算法。

在流畅和清晰的基础上,声网还追求语音对话过程中自然的交流感。其AI x IoT智能硬件方案支持AI-VAD技术,具有较高的语义理解能力,可以随时打断说话,模拟了人类对话时的真实反应。

除了推出内嵌多模态大模型的AI原生设备,AI智能硬件厂商还可以通过一套AIoT智能硬件解决方案和系统,复用现有的IoT资源,提供更进阶的人机交互体验。对此,声网最新的AI x IoT智能硬件方案也能在兼容性和商业化落地上提供支持。

该方案适配超70种主流、高性价比的芯片或模组,包括展锐Cat.1系列芯片、乐鑫ESP32-S2/S3、BK7256、BK7258、杰理AC7916、博流BL808等RTOS芯片,以及高通、联发科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。


在低功耗、低算力芯片上快速接入多模态大模型这一特点,解决了部分采用端侧AI的智能硬件由于算力不足,AI功能开发受限的痛点。这也意味着,许多做IoT的企业可以利用声网的模块化组件快速挂上AI Agent,拥有AI能力,并获得新的商业化引擎。

总的来说,声网的AI x IoT智能硬件解决方案针对生产力、情感陪伴、穿戴式装置优化了AI语音交互体验,具备低延时实时互动、低成本灵活适配的特性,从而在智能硬件场景中提供真实、自然的AI语音交互体验。

结语:AI智能硬件越来越有人情味

不少AI智能硬件上下游厂商关注到一些更具有人文意义、更贴近人性的领域。

声网为独居人士提供了AI对话式的智能门锁解决方案;旷视科技自研算法生产平台AIS首次应用于非遗文化保护;海马爸比为自闭症儿童推出了一款心理咨询机器人,心理医生可以通过此类机器了解到患者更真实的想法,从而提供更准确的心理疗愈方案。

有了AI Agent的加持,物联网中各个组件之间可以更高效、灵活地通信和任务调度。AI智能硬件的角色也从“管家”变成“卫士”,未来不仅可以帮人们减少一些重复性的劳动,还可以执行更多人们原本难以兼顾的工作。

来源:智东西

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-22 04:28 , Processed in 0.216645 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部