陈伟:目前大模型技术迭代的很快,我们也在持续跟进并识别可行的技术,快速应用到 Mind GPT 研发中,同时结合我们的业务场景,我们有自己的研发节奏和主线,在模型层面,从 Mind GPT 2.0 开始我们已经切换到 MOE 架构,以此进行模型结构的创新和改进,大模型能力会放在多模态、知识增强、逻辑推理上,最近发表的论文也介绍了我们在这些方面的研究进展。
第一阶段:增强用户能力在初期,我们希望理想同学帮助用户更便捷地用车。通过视觉和语音等多模态感知能力,实现自然高效的人机交互。例如,用户可以自由使用方言或简单指令,理想同学通过大模型 Mind GPT 理解和执行车控、导航等任务,提升语音指令执行的准确性。比如,用户可以简单说一句「我上车开空调播放音乐,下车都关掉」,理想同学会根据情境自动拆解任务,感知到上车后启动空调和音乐,下车后自动关闭。这种便捷的功能让用车体验更轻松高效。
第二阶段:成为用户的助手在 Mind GPT 的支持下,理想同学进化为用户的全能助手——包括用车助手、出行助手、娱乐助手和百科老师。作为用车助手,它能回答关于车辆操作、状态查询、故障排除等问题;出行助手则可以为家庭旅游规划路线,推荐餐饮娱乐,讲解沿途文化;娱乐助手能联网查询时事热点、明星动态,播放家庭喜爱的音乐和影视;百科老师则涵盖广泛的知识,从儿童的十万个为什么,到成人关注的科技资讯,理想同学在持续成长的知识储备下,为家庭提供全方位的服务。
第三阶段:成为用户的家人随着理想同学解决问题的能力增强,与用户的信任关系逐步加深,我们希望进一步建立情感连接,最终成为家庭的数字成员。这个过程需要从信任到情感,再到身份认同的长期构建。例如,通过声纹识别,理想同学已能识别每位家庭成员;随着 Mind GPT 的记忆功能升级,我们不断加强理想同学的个性化服务能力。在 24 年的多次 OTA 更新中,理想同学更能基于对每位家庭成员的理解,主动提供个性化推荐。这是我们坚定发展的方向,希望理想同学获得更多家庭的认可与喜爱。
Q:目前整个行业,在大模型落地智能座舱方面的进展如何?
陈伟:2023 年我们 Mind GPT 行业首发之后,2024 年行业很多公司都陆续推出了接入大模型的语音助手,行业智能座舱智能化水平整体在快速提升,大模型也成为了重要的卖点。对我们而言,我们唯一关注的是基于 Mind GPT 的理想同学是否在真正解决用户问题,是否持续做到超越用户需求,是否在技术和体验上是行业引领的,做好自己最重要。
Q:各家车企都在加速大模型的落地,那理想如何打造差异化呢?
陈伟:我们的差异化聚焦于技术创新,这能够直接推动产品领先。我对差异化的理解分为两个层面:
第一层面,对于行业内类似的功能,我们的技术和体验必须显著超越。现在大模型的应用已经将 AI 助手从单一领域扩展到多元领域,我们的目标是通过技术突破,将体验从「可用」提升到「好用」。
例如,在推出 Mind GPT 前,很多公司选择简单地将大模型加入现有的任务型对话系统,以快速上线,但这种方式使用时会有割裂感。我们认为用户应该感受到的是 AI 助手变得更聪明了,而不是需要操作切换。因此,我们选择了更难但正确的路线——将大模型融入对话系统,让「理想同学」一次升级,更加智能。不需要切换操作的情况下,技能从几十个快速增加到上千个。
1、理想汽车 Mind GPT 论文《Q-MoE: Connector for MLLMs with Text-Driven Routing》被多媒体领域国际顶级会议 ACM MM 2024 录用。
2、理想论文《KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning》,被 ACL(计算语言学协会年会,Annual Meeting of the Association for Computational Linguistics)2024 收录。
3、理想论文《Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection》,被 AAAI(Association for the Advancement of Artificial Intelligence,即人工智能促进协会)收录。