数量方面,据Epoch AI估算,全球用于训练通用大模型的数据中,书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽,大模型训练或将面临无数据可用的窘境。中文语料数据仅占约1.3%,Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流数据集都以英文为主,即使是最流行的Common Crawl数据集,中文数据也只占4.8%。