第二,它们的工作用了很多通信优化。用专家并行会引入非常大的All to All通信开销。为了降低这个通信开销,它想了很多办法。
它提出来一个DualPipe算法,核心是精细地编排计算和通信。这里有两张图,下面是它的技术包里的图片,上面是我从网上找到的。可以看到这是两个micro-batch,前向跟反向可以拆分成一些单元,比如计算attention、计算MLP。All to All有两个阶段:一是把token分发,最后在过完专家之后,会把它收回来,叫combine。这样前向和反向都有一些计算和通信。它通过精细控制GPU SM数量,保证计算和通信正好能够完全重叠。
“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune thecommunication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”
刘知远:能力密度是我们最近半年提出的一个概念。如何有效准确衡量,可以去看论文《Densing law of LLMs》。所谓的能力密度,可以理解为模型在各种评测集上所展现出来的能力,除以其参数规模。我们观察过去一年半发布的代表性模型,能力密度每100天会增加一倍,其意义就在于每过100天就可以用一半的参数,实现相同的能力。
戴国浩:这是一个非常好的问题,也是我们最近正在做的一些研究课题。举一个例子,原来的这种大模型,以Llama为例,它是一个token一个token来做输出的。但这种长思维链的过程可以分成两个阶段。一个阶段是在每一步一个token一个token输出,但形成了一段话之后,就会有这样一个思维的过程,它其实是一个sequence to sequence输出。