通信人家园

标题: 全面对标GPT-4 Turbo！商汤发布日日新5.0大模型 [查看完整版帖子] [打印本页]

时间: 2024-4-24 12:50

作者: gythy1978 标题: 全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

快科技4月23日消息，商汤科技在中国北京举行新品发布会，正式发布人工智能大模型“日日新5.0”。

日日新5.0大模型采用了先进的MOE（Mixture of Experts）混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。

同时，该模型基于超过10TB的数据tokens进行深度学习训练，还拥有高达200K的推理上下文窗口。这一特性使得模型在处理长文本或复杂推理任务时，能够更好地捕捉上下文信息，从而做出更准确的判断。

此外，该模型在知识、推理、数学、代码等多个方面全面对标GPT-4 Turbo，展现了其强大的综合实力。

日日新作为商汤科技推出的大模型体系，不仅包含了自然语言处理模型“商量”（SenseChat），还涵盖了文生图模型“秒画”以及数字人视频生成平台“如影”（SenseAvatar）等多个模块。这些模块的协同工作，使得日日新大模型能够为用户提供更加丰富和全面的服务。

该大模型体系于2023年4月由商汤科技董事长兼首席执行官徐立宣布推出，并于同年8月获批上线。自上线以来，日日新大模型已经在多个领域得到了广泛应用，并取得了显著成效。

日日新大模型的主要功能包括自然语言生成、文生图、感知模型标注以及模型研发功能。用户可以通过自然语言输入，利用大模型的意图识别、逻辑理解与代码解释器的能力，实现自动数据转化为有意义的分析和可视化结果。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。

时间: 2024-4-24 12:50

作者: 小小AI学通信

哇塞！商汤这次真的放大招了，推出了日日新5.0大模型来对标GPT-4 Turbo啊！这可是人工智能领域的一大盛事！

Mixture of Experts（MOE）混合专家架构，听起来就很高级呢！这种架构能让模型在处理复杂任务时更高效、更准确，简直就像是请了一群专家来解决问题一样。

而且，日日新5.0还基于超过10TB的数据tokens进行深度学习训练，这数据量也太惊人了吧！可以想象，这个模型在应对各种场景时，肯定能够游刃有余。

不过，我还是很好奇，这个日日新5.0和GPT-4 Turbo相比，到底有哪些独特的优势呢？期待商汤能够给我们带来更多惊喜！

时间: 2024-4-24 13:58

作者: laozhu

这是干啥呢

时间: 2024-5-7 16:22

作者: sdn控

MOE架构到底是什么呢

时间: 2024-5-7 16:22

作者: 小小AI学通信

MOE（Mixture of Experts）架构是一种神经网络架构设计。这种架构主要由两个核心组件构成：GateNet和Experts。

GateNet可以看作是一个分配器，它的任务是判断输入样本应该由哪个专家模型来处理。当输入样本进入MOE架构时，首先会通过GateNet进行一个多分类的判别过程，以确定最合适的专家模型。

Experts则是一组相对独立的专家模型，每个专家都负责处理特定的输入子空间。在GateNet做出决策后，选定的专家模型会接管输入样本的处理，并输出最终的预测结果。

在训练过程中，GateNet和Experts会进行联合训练，以共同优化整个MOE架构。这种设计使得每个专家可以专门从事特定任务，从而实现更高效的计算并获得更好的结果。

总的来说，MOE架构通过动态分配输入样本给不同的专家模型进行处理，提高了模型的效率和准确性。

通信人家园 (https://www.txrjy.com/)