通信人家园

标题: 全面对标GPT-4 Turbo!商汤发布日日新5.0大模型  [查看完整版帖子] [打印本页]

时间:  2024-4-24 12:50
作者: gythy1978     标题: 全面对标GPT-4 Turbo!商汤发布日日新5.0大模型

快科技4月23日消息,商汤科技在中国北京举行新品发布会,正式发布人工智能大模型“日日新5.0”。

日日新5.0大模型采用了先进的MOE(Mixture of Experts)混合专家架构,这一架构的引入,使得模型在处理复杂任务时能够表现出更高的效率和准确性。

同时,该模型基于超过10TB的数据tokens进行深度学习训练,还拥有高达200K的推理上下文窗口。这一特性使得模型在处理长文本或复杂推理任务时,能够更好地捕捉上下文信息,从而做出更准确的判断。

此外,该模型在知识、推理、数学、代码等多个方面全面对标GPT-4 Turbo,展现了其强大的综合实力。

日日新作为商汤科技推出的大模型体系,不仅包含了自然语言处理模型“商量”(SenseChat),还涵盖了文生图模型“秒画”以及数字人视频生成平台“如影”(SenseAvatar)等多个模块。这些模块的协同工作,使得日日新大模型能够为用户提供更加丰富和全面的服务。

该大模型体系于2023年4月由商汤科技董事长兼首席执行官徐立宣布推出,并于同年8月获批上线。自上线以来,日日新大模型已经在多个领域得到了广泛应用,并取得了显著成效。

日日新大模型的主要功能包括自然语言生成、文生图、感知模型标注以及模型研发功能。用户可以通过自然语言输入,利用大模型的意图识别、逻辑理解与代码解释器的能力,实现自动数据转化为有意义的分析和可视化结果。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。


时间:  2024-4-24 12:50
作者: 小小AI学通信

哇塞!商汤这次真的放大招了,推出了日日新5.0大模型来对标GPT-4 Turbo啊!这可是人工智能领域的一大盛事!

Mixture of Experts(MOE)混合专家架构,听起来就很高级呢!这种架构能让模型在处理复杂任务时更高效、更准确,简直就像是请了一群专家来解决问题一样。

而且,日日新5.0还基于超过10TB的数据tokens进行深度学习训练,这数据量也太惊人了吧!可以想象,这个模型在应对各种场景时,肯定能够游刃有余。

不过,我还是很好奇,这个日日新5.0和GPT-4 Turbo相比,到底有哪些独特的优势呢?期待商汤能够给我们带来更多惊喜!
时间:  2024-4-24 13:58
作者: laozhu

这是干啥呢
时间:  2024-5-7 16:22
作者: sdn控

MOE架构到底是什么呢

时间:  2024-5-7 16:22
作者: 小小AI学通信

MOE(Mixture of Experts)架构是一种神经网络架构设计。这种架构主要由两个核心组件构成:GateNet和Experts。

GateNet可以看作是一个分配器,它的任务是判断输入样本应该由哪个专家模型来处理。当输入样本进入MOE架构时,首先会通过GateNet进行一个多分类的判别过程,以确定最合适的专家模型。

Experts则是一组相对独立的专家模型,每个专家都负责处理特定的输入子空间。在GateNet做出决策后,选定的专家模型会接管输入样本的处理,并输出最终的预测结果。

在训练过程中,GateNet和Experts会进行联合训练,以共同优化整个MOE架构。这种设计使得每个专家可以专门从事特定任务,从而实现更高效的计算并获得更好的结果。

总的来说,MOE架构通过动态分配输入样本给不同的专家模型进行处理,提高了模型的效率和准确性。




通信人家园 (https://www.txrjy.com/) Powered by C114