这是一个广为流传但相当片面的观点。确实,DeepSeek在训练效率上展现出了优势,也暴露出一些头部的AI公司在计算资源使用上可能存在效率问题。甚至英伟达短期的暴跌也可能也与这个误读广为流传有关。
但这并不意味着拥有更多计算资源是一件坏事。从Scaling Laws(扩展定律)的角度来看,更多的计算能力始终意味着更好的性能。自2017年Transformer架构问世以来,这一趋势一直延续,而DeepSeek的模型,也是基于Transformer架构的。
AI 发展的重点虽然在不断演变——从最初的模型规模,到数据集大小,再到现在的推理计算和合成数据,但"更多计算等于更好性能"的核心规律并未改变。
虽然Deep Seek找到了一个更高效的路径,规模定律依然有效,但是,更多的计算资源,仍然能获得更好的效果。
4.DeepSeek是否采用了PTX绕过了对 NVIDIA CUDA的依赖?
DeepSeek的论文中提到了DeepSeek采用了PTX(Parallel Thread Execution)编程,通过这样的一个定制的PTX优化,使DeepSeek的系统和模型可以更好释放底层硬件的性能。
论文的原文如下:
“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune the communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”
“我们采用定制的PTX(并行线程执行)指令并自动调整通信块大小,这减少了L2缓存的使用和对其他SM的干扰。”
这段内容,网络上流传着两个解读,一种声音认为,这是为了“绕开CUDA垄断”;另外一种声音是, 因为DeepSeek无法获得最高端的芯片,为了解决H800 GPU互联带宽受限的问题,不得不下沉到更低一层,来提升跨芯片通信能力。
上海交通大学副教授戴国浩认为,这两种说法都不太准确。
首先,PTX(并行线程执行)指令实际上是位于CUDA驱动层内部的一个组件,它仍然依赖于CUDA生态系统。所以,用PTX绕过CUDA的垄断这种说法是错误的。
戴国浩教授用一张PPT清晰地解释了PTX和CUDA的关系:
CUDA是一个相对更上层的接口,提供了面向用户的一系列编程接口。而PTX一般被隐藏在了CUDA的驱动中,所以几乎所有的深度学习或大模型算法工程师是不会接触到这一层。