DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。
DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。
这是非常伟大的工作。
每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元
每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元
突然感觉机器里好像有鬼
不需要复杂的云虚拟化,只需要容器和高效的调度器。需要真正快速、相互连接的专用网络,如RoCE或Infiniband。需要像NFS这样的通用存储,不需要太复杂,但必须快速。要让AI开发者满意,而不是系统可靠性工程师(SREs)满意。
DeepSeek团队的伟大成就在某种程度上植根于多年的专业知识,这些专业知识部分被许多人忽视了。
家人们,快来用你最难的提示考考DeepSeek V3。(后续发布竞技场榜单)
通信人家园 (https://www.txrjy.com/) | Powered by C114 |