只需一步,快速开始
短信验证,便捷登录
军衔等级:
中尉
金磊 发自 凹非寺 量子位 | 公众号 QbitAI
即便DeepSeek V3故意用ChatGPT的输出做了训练,但这并不重要。所有在ChatGPT之后出现的大模型,几乎都见过它。 例如ShareGPT,一个并不新鲜的ChatGPT对话数据集,许多人已经尝试在它和其它ChatGPT数据源上进行调整。但即便如此,也没能出现DeepSeek V3级别的大模型。
而且要是用了ChatGPT数据的话,有些关于DeepSeek V3质量的问题是解释不通的。 例如Pile测试(基础模型压缩Pile的效果),DeepSeek V3得分几乎与Llama 3.1 405B相当,这跟它接没接触ChatGPT数据无关。 而且报告称95%的GPU-hours用于预训练基础模型,即便是跟ChatGPT数据有关,那这部分也会在post-training阶段发生(后5%)。
因为AI公司们获取数据的地方——网络,正在充斥着AI垃圾。
尽管存在风险,开发者依然被从现有AI模型中“蒸馏”知识所带来的成本节约所吸引。 意外地在ChatGPT或GPT-4输出上进行训练的模型,也不一定会展示出让人想起OpenAI定制消息的输出。
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-3-12 11:53 , Processed in 0.200398 second(s), 17 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed