腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，晒混元模型及应用全家桶 [复制链接]

tayun

军衔等级：

三级军士长

电梯直达

1^# 大中小

发表于 2024-11-5 19:23:34 |只看该作者 |倒序浏览

智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西11月5日报道，今日，腾讯宣布开源MoE大语言模型混元Large、腾讯混元3D生成模型Hunyuan3D-1.0正式开源，并全面披露腾讯混元的全系列多尺寸模型、C端应用、B端应用版图。

腾讯称混元Large是业界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。

混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。

与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比，在多学科综合评测集、中英文NLP任务、代码、数学等9大维度，混元Large实现全面领先。

混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基础测试等主要技术创新，具体可参见技术报告。

腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型，不仅在定量指标上达到开源模型的先进水平，而且轻量版生成高质量3D资产只需10秒，标准版也将文/图生成3D资产的耗时缩至45秒内。

两个模型均属腾讯自研，均已经在腾讯业务场景中落地应用，经过实践的检验，是面向实用场景的应用级大模型。

新开源模型支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。腾讯云TI平台和高性能应用服务HAI也开放接入这两个模型，为模型的精调、API调用及私有化部署提供一站式服务。

混元Large Hugging Face地址：https://huggingface.co/tencent/Tencent-Hunyuan-Large

混元Large GitHub地址：https://github.com/Tencent/Tencent-Hunyuan-Large

混元3D生成模型GitHub地址：https://github.com/Tencent/Hunyuan3D-1

混元3D生成模型Hugging Face地址：https://huggingface.co/tencent/Hunyuan3D-1

一、最大开源MoE大语言模型：六大关键技术，将开源企业卷轴数据集

MoE即混合专家模型，是目前国内外主流的大模型结构。据腾讯机器学习技术总监、混元算法负责人康战辉分享，相较密集模型，MoE模型在相同成本下效果更优，在相同规模下训练/推理成本更低，而且容量大，可训练更多数据。当前MoE的挑战有训练稳定性差、专家负载不均衡等。

一些应对方案包括：1）Scaling Law探索，设计基于中小模型簇的MoE Scaling Law实验机制，探索最优的模型参数设置；2）路由机制，探索高效的专家路由策略；3）训练稳定性，涉及特有的训练schedule，loss收敛更快更稳定。

混元Large模型有六大关键技术：

1、MoE Scaling Law探索：混元团队投入大量成本，全面探索了专家个数、激活参数量和训练tokens量的Scaling Law。在MoE Scaling Law的指导下，混元-Large在算力预算内合理选择模型最佳激活参数量以及训练token数。

2、路由和训练策略：1）共享专家路由策略，共享专家负责处理共享的通用能力和知识，特殊专家负责处理任务相关的特殊能力；2）回收路由策略，有效激活每个专家的能力，使每个专家保持相对均衡的负载，充分利用训练数据，保证模型的训练稳定性和收敛速度；3）专家特定学习率适配策略，根据学习率和Batch size的缩放原则，为不同专家适配不同的最佳学习率，以提高模型训练效率。

3、高质量的合成数据：混元团队在天然文本语料库的基础上，利用混元内部系列大语言模型构建了覆盖数十个类目的高质量、高多样性、大量级的中英文合成数据，显著提升模型效果，其中数学和代码效果提升超过10%。

4、长文能力优化：针对长文领域测评数据集缺乏、方法不够客观等问题，腾讯混元Large基于公开数据，自研企鹅卷轴（PenguinScrolls）数据集，覆盖各种深度阅读理解、长文推理任务。为了填补行业真实长文评测集不足，腾讯混元即将开源企鹅卷轴评测集。

腾讯混元Large模型专项提升的长文能力已应用到腾讯AI助手腾讯元宝上，最大支持256K上下文，相当于一本《三国演义》的长度，可一次性处理上传最多10个文档，并能一次性解析多个微信公众号链接、网址，使腾讯元宝具备独有的深度解析能力。

5、推理加速优化：为了提高推理效率进行KV Cache压缩，使用Grouped-Query Attention （GQA）和Cross-Layer Attention （CLA）两种KV cache压缩策略，从head/layer两个维度联合压缩KV Cache，并引入量化技术，进一步提升压缩比，最终将模型的KV Cache压缩为MHA的5%，大幅提升推理性能。

6、Post-train优化：针对SFT难获取高质量数学、代码等数据的问题，构建百万量级合成数据，分门别类提升数学、逻辑推理、代码等能力；针对RLHF泛化性弱的问题，在离线DPO的基础上引入了二阶段在线强化策略，实现整体效果处于业界头部水平，文本创作、知识问答、数理逻辑及代码能力相较竞品有一定优势。

二、业界首个同时支持文字、图像生成的开源3D生成大模型

无论是游戏创作，还是工业设计、建筑设计等专业建模，抑或是一些社交娱乐、电商、数字孪生、PCG/UGC创作领域，都会用到3D。

传统3D资产制作存在建模门槛高、制作周期长、制作成本高等痛点，单模型制作平均要1~7天、成本耗费百万到上万元。腾讯混元3D生成大模型则能将单个3D模型制作成本降低至不到1元。

腾讯混元3D生成大模型首批开源模型包含轻量版和标准版，轻量版仅需10秒即可生成高质量3D资产，已在技术社区公开发布，包含模型权重、推理代码、模型算法等完整模型，可供开发者、研究者等各类用户免费使用。

本次开源的是1.0版本，后续还会有更完善、更先进的模型陆续发布。

3D生成是一个较新的领域，今年学术界相关论文开始涌现，工业界3D模型的效果越来越好，但大多数是闭源。

此次腾讯混元开源的3D生成大模型Hunyuan3D-1.0 ，解决了现有的3D生成模型在生成速度、泛化能力、生成质量上存在不足的问题，可以帮助3D创作者和艺术家自动化生产3D资产。

该模型可重建各类尺度物体，大到建筑，小到工具花草。

Hunyuan3D-1.0采用DiT架构，与混元DiT生图联合，支持原生中文，支持风格定制。

其技术架构引入多视图扩散，借助二维数据优势提升3D泛化性，改进点包括：

1、持续扩展数据规模、类目、质量、渲染方式，提升泛化性。

2、精细度提升：升级时空自适应CFG引导方式，针对不同去噪步数、不同视角，设置不同权重，平衡可控性与多样性，不牺牲生成质量且提升生成清晰度。

3、输入角度鲁棒性：兼容任意输入视角，通过学习到的俯仰角度矫正，提升多视图准确性与一致性。特征平面超高特征分辨率和引入任意视角的输入图进一步提升了3D生成精度。

经过定性、定量多个维度的评估，Hunyuan3D-1.0兼顾快速和高质量生成，已达到开源模型的先进水平。

在两个公开的3D数据集GSO与OmniObject3D上，腾讯混元Hunyuan3D-1.0效果优于主流开源模型，整体能力属于国际领先水平。

从定性角度评估，Hunyuan3D-1.0与行业领先的开源模型的3D生成效果表现对比也显示出较高水平，包括几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度。

从生成结果可视化来看，Hunyuan3D-1.0能够更加真实地恢复出3D资产的几何形状和纹理细节，泛化能力出色。其文生3D能力支持在45秒内基于文本生成3D资产，图生3D能力支持在30秒内基于文本生成3D资产。

文生/图生3D内网接口已上线。

根据演示，混元3D能够根据提示词快速生成一个万圣节的南瓜灯，还能将其更改成乐高风格，操作很方便。

应用方面，3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。

此前，腾讯元宝App上线了“3D角色梦工厂”玩法，支持个性化的UGC 3D人物生成。只需上传一张照片，就能生成个人专属3D角色，将3D个性定制建模费用降到0.2元。这有助于玩具制作、3D打印等行业的技术革新。

腾讯地图基于腾讯混元3D大模型，发布了自定义3D导航车标功能。用户上传一张图，就能生成个性化的3D导航车标，比传统3D车标重建方案提速91%。

后续，混元3D模型团队将持续探索多视图生成、3D扩散模型、自回归生成等3D生成路线，最终目标落地3D管线。

三、腾讯混元这一年：升级高性能MoE模型，发布原生大模型应用

康战辉回顾了腾讯混元大模型过去一年多的发展。他谈道，腾讯混元不急于为了开源而开源，在内部业务打磨好后再开源，开源模型与公司内应用模型同宗同源。

模型效果持续提升，建立在全栈自主可控的能力。腾讯混元Large模型的训练和推理均基于腾讯Angel机器学习平台。

其中，针对MoE模型通信效率问题，Angel训练加速框架AngelPTM实现了多项技术优化，性能是主流开源框架DeepSpeed的2.6倍；针对模型推理加速，腾讯Angel机器学习平台和腾讯云智能联合研发AngelHCF-vLLM框架，在最大限度保障精度的条件下，可节省50%以上显存，相比于业界主流的框架BF16吞吐提升1倍以上。

腾讯混元模型包括领域模型和通用模型，有1B、3B、7B、13B、70B等不同尺寸，覆盖六大BG多场景业务。

腾讯混元大模型PaaS平台开放支持包含混元Large模型在内的十余种混元API服务调用，可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。

2024年年初，腾讯混元就宣布在国内率先采用MoE架构模型，总体性能比上一代密集模型提升50%。此后，腾讯混元推出基于MoE架构的多模态理解大模型以及基础模型”混元Turbo”，在性能、效果、速度等多个领域表现优越，第三方测评居国内大模型第一。

相比同构MoE腾讯混元Pro，今年9月发布的异构MoE混元Turbo将推理效率提升1倍以上，成本下降50%，解码速度快20%。

多模态理解大模型混元-V也在持续升级，解锁文字、图像、3D、视频等更多模态，今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。

文生图方面，今年5月，腾讯混元全面开源业界首个中文原生DiT架构文生图大模型，评测结果国内领先。还有今天宣布开源的文/图生3D模型，单张图30秒可生成3D模型，效率与质量均在业内领先。

混元已全面接入腾讯业务，并通过腾讯云向合作生态进行赋能。腾讯内部有超过700个业务接入混元。

面向C端，微信读书的AI大纲、AI问书功能，腾讯元宝的AI搜索、AI阅读、AI角色对话等功能，都接入了腾讯混元的能力。

混元原生大模型应用腾讯元宝的AI搜索会提供可溯源引文，引文数量多、时间新、信源优质；通过延伸阅读，来满足用户对周边信息的获取需求，还会列关联问题，以引导追问学习。

其AI阅读功能具有强大的文档处理能力，可处理多格式、多文件、长记忆文档；AI精读支持图文输出、知识图谱总结、延伸阅读推荐，有助于提升学习深度和广度。

此外，腾讯元宝提供了角色对话、剧情互动、剧照cos等更多玩法。例如智能体应用AI角色对话成为了腾讯视频剧集宣发的新亮点，长相思AI角色对话的总热度达到近2亿，“相柳”单角色热度打到1.7亿，人均对话prompt数为167.3，衍生角色“毛球”的对话率超过90%。

面向B端，腾讯旗下SaaS协作产品全面接入混元，包括腾讯文档、腾讯会议、企业微信等。

混元大模型还帮助腾讯广告多场景提效，比如生成创意爆量素材、辅助内容商业价值理解、广告推荐结果生成。

结语：坚定拥抱开源，预告多款后续模型

随着自研大模型技术强大的和应用实践经验的丰富，开源已成为腾讯混元大模型的一个战略选择。

据康战辉分享，混元未来的模型开源战略是“拥抱开源，自主可控，坚持协同”。

腾讯在今年5月开源业界首个原生中文DiT图生文大模型混元DiT，今日又开源混元Large大语言模型，并将陆续开源混元AnglePTM和AngelHCF等大模型工程框架，未来还将陆续推出混元-M、混元S等模型。

全面开源的混元3D生成模型，面向企业、个人开发者提供商用品质的3D开源模型，可直接部署，降低3D资产的生产周期、成本；面向科研学者提供更大的3D基础模型，以加速新方法研究探索。未来混元3D原生大模型、混元3D自回归大模型等更多开源模型将陆续上线。

腾讯混元计划后续推出更多模态、更多尺寸的开源模型，将更多经过腾讯业务场景打磨和检验的模型开源，促进大模型技术进步和行业生态繁荣。

来源：智东西

本主题由版主或管理员于 2024-11-5 19:25 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-27 13:16 , Processed in 0.233388 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册