通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  下士

注册:2005-5-224
跳转到指定楼层
1#
发表于 2023-12-27 10:09:47 |只看该作者 |倒序浏览
上周五,中科闻歌开源了一个大语言模型YAYI2-30B,这是中科闻歌从头开始训练的一个大语言模型,参数规模300亿,基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分,超过了Google Gemini Pro,并且是目前全球第三个在MMLU得分超过80分的预训练大模型,前面两个是Google的Gemini Ultra和GPT-4。

YAYI2-30B模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/YAYI2-30B



YAYI2-30B模型架构和训练细节
YAYI2-30B模型是一个基于transformer架构的decoder-only的模型,是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型,上下文长度为4K。



YAYI2-30B的原始预训练数据集来自240TB的文本数据,包括新闻、书籍、维基百科、代码等,其中41.5%是中文数据。



YAYI2-30B模型本身采用了许多技术来加速训练,提高主权虐心,包括FlashAttention 2、MQA(multi-query attention)等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat,目前暂未开源。



YAYI2-30B模型的训练数据集
YAYI2-30B的预训练数据集可以概括为三类:

互联网数据集:包括社交媒体、开源数据集,占比49.6%;

精选一般数据集:包括不同的书本、代码、百科、学术论文等,占比19%;

领域数据集:财经、媒体、中药等,占比31.4%;


举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-5 18:40 , Processed in 0.112219 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部