只需一步,快速开始
短信验证,便捷登录
军衔等级:
二级通信军士
数量方面,据Epoch AI估算,全球用于训练通用大模型的数据中,书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽,大模型训练或将面临无数据可用的窘境。中文语料数据仅占约1.3%,Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流数据集都以英文为主,即使是最流行的Common Crawl数据集,中文数据也只占4.8%。
0 举报本楼
发表回复 回帖后跳转到最后一页
手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2024-11-5 14:36 , Processed in 0.172406 second(s), 17 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed