英伟达CEO 黄仁勋近期做客「Open Source」双周对话,同 Brad Gerstner 与 Altimeter 合伙人 Clark Tang 一起探讨了与关于 推动智能向通用人工智能(AGI)发展 的主题。
在 AI 和机器学习领域深耕多年,黄仁勋对 AI 发展现状和前景的评价一针见血: 这是一场彻底的革命。
推理迎来爆炸式增长,开源模型需求量爆棚,完整兼容的 AI 基础设施不断落地……这个 AI 大行其道的时代,黄仁勋大胆构想,希望未来的英伟达能够拥有 5 万名员工和 1 亿个 AI 助手。
当谈及英伟达在当今 AI 世界的竞争壁垒和定位时,黄仁勋对自身优势十分自信清醒,同时也有着不小的野心: 英伟达最擅长的是算法,我们的使命是为新世界构建一个无处不在的计算平台。
当然,有别于争夺市场份额,这颗野心只关乎「 开拓」。
在时长近一个半小时的访谈中,黄仁勋眼光犀利地剖析了机器学习如何重塑计算世界,AI 如何带来前所未有的技术革命,并最终掀起巨大的革命浪潮。此外,还涉及 AI 的安全性和开源争议等话题。
看似高冷的皮夹克之下,是黄仁勋对 AI 领域的炽热初心: 我会认真对待工作,认真对待责任,认真对待社会贡献以及我们所处的时代。
我们对黄仁勋在本次访谈中的 主要观点做了简要梳理,如下:
个人 AI 助手将很快出现,并且会随时间不断进化;
我们已经从人类编程转向了机器学习,整个技术栈都在实现创新和增长;
促进 AI 的加速进化,需要对「飞轮」的每个部分都进行加速;
未来的计算(应用程序开发)将高度依赖机器学习和 AI,并且会有智能体来帮助人类使用这些应用程序;
AI 不会取代工作,它将改变工作,并将对人们如何看待工作产生深远影响;
AI 的安全是基础,不一定需要为每一项重要技术单独立法,也不能让监管过度扩展到不必要的领域;
必须有开源模型来推动 AI 的创建,开源对于许多行业的激活是必要的;
以下是由 APPSO 编译的访谈全文:
从人类编程转向机器学习
Brad Gerstner:现在是 10 月 4 日星期五,我们在英伟达总部,就在 Altimeter 街下。我们将在周一召开年度投资者会议,讨论 AI 的所有影响,以及我们在智能扩展速度上的进展。
我真的想不出比你更合适的人来开启这个话题了,你既是股东,也是我们的智囊伙伴,和你一起探讨想法总能让我们变得更加明智。我们对这段友谊表示感激,所以感谢你的到来。
黄仁勋:很高兴来到这里。
Brad Gerstner:今年的主题是 将智能扩展到通用人工智能(AGI)。
令人震撼的是,两年前我们做这个的时候,主题是 AI 时代,而那是在 ChatGPT 发布前两个月。想到这一切变化,真的是让人惊讶。所以我想我们可以以一个思想实验来开始,也许还可以做个预测。
如果我把通用人工智能(AGI)简单理解为我口袋里的个人助手,正如我所理解的那样,它知道我所有的事情,拥有关于我的完美记忆,能够与我沟通,可以为我预订酒店,甚至可以为我预约医生。在你看来,今天这个世界的变化速度如此之快,你认为我们什么时候能够拥有这种口袋里的个人助手?
黄仁勋:很快会以某种形式出现。那个助手会随着时间的推移变得越来越好。这就是我们所了解的技术的美妙之处。所以我认为,刚开始时它会非常有用,但并不完美。然后随着时间的推移,它会变得越来越完美。就像所有技术一样。
Brad Gerstner:当我们观察变化速度时,我记得 Elon 曾说过,唯一重要的事情是变化速度。我们确实感到变化的速度加快了,这是我们在这些问题上见过的最快的变化速度,因为我们在 AI 领域已经研究了大约十年,而你甚至更久一些。在你的职业生涯中,这是你见过的最快的变化速度吗?
黄仁勋:是的,因为 我们重新发明了计算。这些变化很大程度上是因为我们在过去 10 年内将计算的边际成本降低了 10 万倍。如果按照摩尔定律计算,这个过程大约是 100 倍的提升,但我们做到了远远超过这一点。我们通过几种方式实现了这一目标。 首先,我们引入了加速计算,将在 CPU 上效率不高的工作转移到 GPU 上。
其次,我们发明了新的数值精度,开发了新的架构,设计了集成核心,改进了系统的构建方式,MVLink 增加了超快的内存(HBM),并通过 MVLink 和 InfiniBand 实现了全栈扩展。基本上,所有我描述的关于英伟达做事方式的细节,都促成了 超越摩尔定律的创新速度。
现在,真正令人惊叹的是,正因为如此, 我们从人类编程转向了机器学习。
而机器学习最令人惊讶的地方在于,事实证明它的学习速度非常快。所以,随着我们重新定义计算的分布方式,我们进行了多种形式的并行处理:张量并行、流水线并行,以及各种各样的并行计算方式。我们在这一基础上发明了新算法,并开发了新的训练方法。所有这些发明都在彼此之间产生了复合效应。
回到过去,如果你看看摩尔定律当时的运作方式,会发现软件是静态的。它被预设为像包装好的产品一样静态存在,然后硬件则以摩尔定律的速度发展。而现在, 我们是整个技术栈在增长,整个栈都在进行创新,我认为这就是现状。
现在突然之间我们看到了惊人的扩展,当然,这是非凡的变化。但我们以前讨论的是预训练模型以及在这个层面上的扩展,如何通过将模型大小翻倍,适当地将数据量也翻倍。
因此,每年所需的计算能力都会增加 4 倍。这当时是个大事。但现在我们看到了在后训练阶段的扩展,也看到了推理阶段的扩展,对吧?人们过去常认为预训练很难,而推理相对容易。
现在一切都变得很难,这种观点其实是合理的,毕竟将所有人类的思维都归结为一次性完成的过程是荒谬的。所以思维一定存在快思维和慢思维、推理、反思、迭代、模拟等概念,而现在这些概念正在逐渐融入进来。
Clark Tang:我认为,就这一点而言,关于英伟达最被误解的一件事就是英伟达的真正技术优势有多大,对吧?我认为外界有一种看法,认为一旦有人发明了一种新芯片或者更好的芯片,他们就赢了。
但事实是,过去十年你们一直在构建完整的技术栈,从 GPU 到 CPU,再到网络,尤其是那些让应用程序能够在英伟达平台上运行的软件和库。你认为今天英伟达的技术优势比三到四年前更大还是更小?
黄仁勋:我很感谢你意识到计算已经发生了变化。事实上,人们之所以认为(现在很多人仍然这么认为)设计一款更好的芯片就行了,是因为它有更多的浮点运算能力(flops),有更多的翻转、字节和位,你懂我的意思吗?你看他们的主题演讲幻灯片,上面都是这些翻转和浮点运算,还有各种条形图、图表之类的。
这些都很好,我的意思是,性能当然很重要,所以这些基本上确实很重要。然而,不幸的是,这是老旧的思维方式。因为那时的软件只是在 Windows 上运行的某个应用程序,软件是静态的,这意味着你能改进系统的最好方式就是制造越来越快的芯片。 但我们意识到,机器学习不是人类编程。机器学习不仅仅是关于软件,它是关于整个数据通路的。事实上, 机器学习的核心飞轮(flywheel)是最重要的东西。那么,你是如何考虑在推动这个飞轮的同时,让数据科学家和研究人员能够在这个飞轮中高效工作的?而这个飞轮从最最初的阶段就开始了。
许多人甚至没有意识到,实际上需要 AI 来整理数据,来教导另一个 AI。而仅仅这个 AI 本身就已经相当复杂了。
加速飞轮的每一步
Brad Gerstner:那它本身也在改进吗?它是否也在加速?你知道,当我们再一次思考竞争优势时,对吧?这实际上是所有这些因素的组合效应。
黄仁勋:完全正确,正是因为更智能的 AI 来整理数据,现在我们甚至有了合成数据生成以及各种不同的数据整理和呈现方式。所以在你进行训练之前,就已经涉及到大量的数据处理。而人们总是想到 PyTorch 是整个世界的起点和终点。
它确实非常重要,但不要忘了,在使用 PyTorch 之前有大量的工作,使用 PyTorch 之后也有大量工作。而关于飞轮的概念,实际上是你应该思考的方式。你知道,我应该怎么去思考整个飞轮?我该如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效运转?这并不是一个应用训练的单一步骤,对吧?这只是其中一步,好吗?
飞轮的每一步都很困难,所以你应该首先思考的不是如何让 Excel 更快运行,也不是如何让《毁灭战士》更快运行,那是过去的老路,对吧?
现在你需要考虑的是如何让这个飞轮更快。而这个飞轮包含了很多不同的步骤,正如你们所知道的,机器学习没有什么是简单的,OpenAI 所做的事情,或者 X 所做的事情,或者 Gemini 团队和 DeepMind 所做的事情,都没有什么是简单的。
因此我们决定,这才是你应该真正思考的。 这是整个过程,你需要加速每一个部分。你要尊重阿姆达(Amdahl)定律,阿姆达定律会告诉你,如果这个部分占用了 30% 的时间,我将它加速了 3 倍,我并没有真的将整个过程加速太多,明白吗?
你真的需要创建一个能加速每一步的系统, 只有通过加速整个过程,你才能真正显著改善这个循环时间,而那个学习速率飞轮,最终就是导致指数式增长的原因。
所以我要说的是,一个公司的观点实际上会反映在它的产品上。注意,我一直在谈论这个飞轮。
Clark Tang:你是说整个周期。
黄仁勋:没错,而且我们现在加速了一切。现在的主要焦点是视频。很多人都专注于物理 AI 和视频处理。试想一下前端,每秒有数 TB 的数据进入系统。给我举个例子,说明处理这些数据的管道是如何运行的,从数据摄取到准备进行训练的全过程,而这一切都是 CUDA 加速的。
Clark Tang:现在人们只在思考文本模型,但未来还包括视频模型,同时使用一些文本模型,比如 o1,来在我们开始处理之前先处理大量的数据。
黄仁勋:语言模型将会涉及到每一个领域。行业花费了大量技术和精力来训练语言模型,来训练这些大型语言模型。现在我们在每一步都使用更低的计算成本。这真的非常了不起。
Brad Gerstner:我不想过于简单化这个问题,但我们确实经常从投资者那里听到这样的问题,对吧?是的,但定制化芯片呢?是的,但他们的竞争壁垒会不会因此被打破?
我听到你所说的是,在这个组合系统中,优势是随着时间增长的。所以我听你说,我们今天的优势比三四年前更大,因为我们在改进每一个组件。而这种组合效应,意味着你知道,比如作为一个商业案例研究,英特尔曾经在技术栈中占据主导地位,而你们今天相对他们而言处于什么位置?
也许可以简单概括一下,比较一下你们今天的竞争优势与他们在巅峰时期的竞争优势。
黄仁勋:英特尔是非凡的。英特尔之所以非凡,是因为他们可能是第一家在制造工艺工程和生产方面极其出色的公司,而在制造工艺的基础上更进一步的是设计芯片,对吧?他们设计了芯片,构建了 x86 架构,并且不断制造更快的 x86 芯片。这是他们的聪明之处。他们将这一点与制造工艺加以结合。
我们的公司稍微有些不同,因为我们认识到,事实上, 平行处理并不需要每个晶体管都非常完美。串行处理要求每个晶体管都必须完美无缺,而 平行处理需要大量的晶体管以实现更高的成本效益。
我宁愿要多 10 倍的晶体管,速度慢 20%,也不愿要少 10 倍的晶体管,速度快 20%。明白吗?他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。
并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有三种不同的 CPU,它们都有各自的 C 编译器,你可以把软件编译到相应的 ISA(指令集架构)上。这在加速计算中是不可能的,在并行计算中也是不可能的。
开发出架构的公司必须开发出自己的 OpenGL。 所以我们彻底改变了深度学习,因为我们有一个特定领域的库,叫做 CUDNN。没有 CUDNN,就没有今天的深度学习。
没有人谈论 CUDNN,因为它是在 PyTorch 和 TensorFlow 之下的一层。早期还有 Caffe 和 Theano,现在有 Triton,还有很多不同的框架。那个特定领域的库,像 CUDNN,还有 Optics,一个特定领域的库叫做 CuQuantum,Rapids,还有其他很多库。 Brad Gerstner:行业特定的算法就位于那个大家都关注的 PyTorch 层之下,比如我经常听到人们说,如果没有这些底层库的话……
黄仁勋:如果我们没有发明它,任何顶层的应用程序都无法运行。你们明白我在说什么吗?从数学上讲, 英伟达真正擅长的是算法,它融合了上层的科学与下层的架构,这是我们真正擅长的。
黄仁勋在访谈中
我们已经进入推理时代
Clark Tang:现在所有的关注点终于集中到了推理上。但是我记得两年前,Brad 和我和你共进晚餐时,我们问你一个问题:你认为英伟达在推理领域的技术优势会像在训练领域一样强大吗?
黄仁勋:我肯定说过,它会更强大。
Clark Tang:你刚才提到了很多因素,比如模块化组合,不同组合的总成,有时我们并不完全了解。对于客户来说,能够在这些之间灵活切换非常重要。但你能不能再谈谈,现在我们已经进入了推理时代。
黄仁勋:推理就是大规模的推理训练,对吧?所以,如果你训练得好,那么很有可能你的推理也会很好。如果你在这种架构上进行训练而没有任何调整,它将能够在这种架构上运行。
当然,你依然可以为其他架构进行优化,但至少,因为它已经是在英伟达的架构上构建的,所以它能够在英伟达的架构上运行。
另一个方面,当然,还有资本投资方面的问题。当你训练新模型时,你会希望使用最新最好的设备进行训练,而这会留下之前使用过的设备。而这些设备非常适合用于推理。因此,会有一条免费的设备路径。
新的基础设施背后有一条免费的基础设施链,这些设备与 CUDA 兼容。所以我们非常严谨,确保整个过程的兼容性,这样我们留下的设备依然能够保持卓越性能。
同时,我们也投入了大量精力,不断重新发明新的算法,以确保当时机来临时,Hopper 架构的性能会比刚购买时提升 2 到 4 倍,从而让基础设施继续保持高效。
所以,我们在改进新算法、新框架方面所做的所有工作,不仅帮助了我们每一个安装的基础架构,Hopper 因此变得更好,Ampere 也因此变得更好,甚至 Volt 也因此变得更好。
我记得 Sam 刚刚告诉我,他们最近刚从 OpenAI 退役了他们的 Volt 基础设施。所以,我认为我们留下了这些安装基础架构的痕迹。正如所有计算基础架构一样,安装基础架构是很重要的。
英伟达的产品遍布每一个云端、内部部署,直到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改便能完美运行于边缘的机器人上。这一切的底层都是 CUDA。所以, 我认为架构兼容性的概念对大型项目非常重要。这和 iPhone 或其他设备的兼容性概念没有什么不同。
我认为,安装基础架构对推理非常重要,但我们真正受益的是,因为我们在新的架构上训练这些大型语言模型时,我们能够思考如何创造出在未来非常优秀的推理架构。
所以我们一直在思考迭代模型和推理模型,如何为你的个人智能体创造非常交互性的推理体验,比如当它需要停下来思考一段时间时,如何快速与你互动。
所以,我们是如何实现这一目标的?答案是 NVLink。你知道,NVLink 让我们能够使用这些适合训练的系统,但当训练完成后,它的推理性能也非常卓越。你希望优化的是首次 Token 的响应时间,而实现首次 Token 的响应时间非常困难,因为这需要大量的带宽。
如果你的上下文也非常丰富,那么你还需要大量的计算能力。因此,你需要在同一时间拥有无限的带宽和计算能力,才能实现几毫秒的响应时间。而这种架构非常难以实现。为此,我们发明了 Grace Blackwell NVLink。
英伟达正在构建完整的、兼容的 AI 基础设施
Brad Gerstner:你知道,我这周早些时候和 Andy Jassy 共进晚餐,Andy 说:「我们有 Tranium,还有即将到来的 Inferencia」。我认为大多数人,还是认为这些对于英伟达是个挑战。
但紧接着他说「英伟达是我们一个非常重要的合作伙伴,而且未来还将继续是我们非常重要的合作伙伴,至少在我所能预见的未来」。
世界依靠英伟达运行,对吧?所以,当你想到这些为特定应用开发的定制 ASIC,比如 Meta 的推理加速器,或者 Amazon 的 Tranium,或者 Google 的 TPUs,还有你当前面临的供应短缺问题时,这些因素会改变你们之间的动态,还是说它们只是对你们系统的补充?
黄仁勋:我们只是在做不同的事情,我们试图实现不同的目标。 英伟达正在尝试为这个新世界构建一个计算平台,这个机器学习的世界,这个生成式 AI 的世界,这个智能体 AI 的世界。
我们想要创造的是,经过 60 年的计算,我们重新发明了整个计算栈,从编程到机器学习的方式,从 CPU 到 GPU 的软件处理方式,从软件到人工智能的应用方式,对吧?软件工具、人工智能——计算栈的每个方面,技术栈的每个方面都发生了变化。 我们想要做的是创建一个无处不在的计算平台,这实际上是我们工作的复杂性所在。如果你思考我们在做什么, 我们是在构建一个完整的 AI 基础设施,我们把它看作是一台计算机。
我以前说过,数据中心现在是计算的基本单位。对我来说,当我思考一台计算机时,我不是在想那块芯片,我是在想这个概念:它是我的心智模型,里面包括所有的软件、编排和所有的机械部分。 这是我的使命,这是我的计算机,我们每年都在试图构建一台全新的计算机。
是的,这太疯狂了,之前没有人这么做过。我们每年都在尝试构建一台全新的计算机,而且每年我们都交付两到三倍的性能提升。每年我们都会将成本降低两到三倍,每年我们都会将能效提高两到三倍。
所以我们告诉客户,不要一次性购买所有设备,每年购买一点,好吗?原因是,我们希望他们能够逐步进入未来,所有的架构都是兼容的,好吗?
现在,仅仅以这样的速度构建这个平台就已经非常难了,而双倍的难度在于,我们不仅要销售基础设施或服务,而是把它们拆解开来,然后将它们集成到 GCP 中,集成到 AWS 中,集成到 Azure 中,集成到其他平台中,明白吗?
每个平台的集成都不一样。我们必须把所有的架构库、所有的算法和所有的框架集成到他们的系统中。我们把我们的安全系统集成到他们的系统中,我们把我们的网络集成到他们的系统中,对吧?然后我们每年进行大概 10 次这样的集成。而这就是奇迹所在。
Brad Gerstner:这就是奇迹所在,为什么?我的意思是,这太疯狂了。你每年都在做这些事,这真的很疯狂。想一想,是什么驱动你每年都这样做的?
然后再说到这一点,你知道 Clark 刚从中国台湾、韩国和日本回来,见了你所有的供应合作伙伴——那些你已经有十多年合作关系的伙伴。这些合作关系对于构建那个竞争壁垒的组合效应有多重要?
黄仁勋:是的,当你系统性地分解时,大家越是分解,就越会感到惊讶,整个电子行业生态系统今天是如何致力于与我们合作,最终构建出这个计算机的立方体,并将其整合到所有不同的生态系统中的?而且协调是如此无缝。显然,我们向后传递了 API、方法学、业务流程和设计规则,向前传递了方法学、架构和 API。
Brad Gerstner:这些已经被强化了几十年。
黄仁勋:强化了几十年,同时也在不断演进。但这些 API 在需要的时候必须整合在一起——所有这些在中国台湾和世界各地制造的东西,最终会落到 Azure 的数据中心。它们会组合到一起。
Clark Tang:有人只需要调用 OpenAI API,它就能正常工作。
黄仁勋:没错,完全是那种疯狂的感觉。这就是我们发明的东西, 我们发明了这个庞大的计算基础设施,整个世界都在和我们一起构建它。
它被整合到了各个领域,你可以通过戴尔销售它,可以通过惠普(HPE)销售它,它托管在云端,也延伸到了边缘设备。人们现在在机器人系统中使用它,在人形机器人中使用它,它们在自动驾驶汽车中使用,它们都在架构上兼容,这真的非常疯狂。
Clark,我不希望你误以为我没有回答你的问题,事实上,我已经回答了。我所指的与你的 ASIC 相关的问题是这样的。
我们作为公司,只是在做不同的事情。作为一家公司,我们希望能够对环境有清晰的认知。我对我们公司及其生态系统周围的一切都非常清楚,对吧?
我知道所有在做不同事情的人以及他们在做什么。有时候,这对我们来说是对抗性的,有时候不是。我对此非常清楚。但这并不会改变我们公司的目标。 公司唯一的目标就是构建一个可以无处不在的架构平台,这就是我们的目标。
我们并不想从任何人那里抢占市场份额。 英伟达是市场的开拓者,而不是份额的争夺者。如果你看我们的公司报告,你会发现我们从来不谈市场份额,从来没有一天我们会在公司内部谈论市场份额。
我们所有的讨论都是关于如何创造下一个东西?我们如何解决飞轮中的下一个问题?我们如何为人们做得更好?我们如何将过去需要一年的飞轮周期缩短到一个月?你知道,这相当于飞轮的光速,不是吗?我们在思考所有这些不同的问题,但有一件事是确定的,我们对周围的一切都有清醒的认识,但我们对自己的使命非常明确。
唯一的问题是,这个使命是否必要,是否有意义。所有伟大的公司都应该有这样的使命。
从根本上讲,问题是你在做什么?唯一的问题是,它是否必要,是否有价值,是否有影响力,是否能帮助到别人?我非常确定, 如果你是一名开发者,一家生成式 AI 初创公司,正在决定如何成为一家公司,你唯一不需要考虑的选择就是支持哪个 ASIC。
如果你只支持 CUDA,那么你可以在任何地方使用它,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决策都可以延后,你以后随时可以开发自己的 ASIC,我们对此毫不介意。
当我与 GCP 合作时,GCP、Azure 等公司,我们会提前几年向他们展示我们的路线图。他们不会向我们展示他们的 ASIC 路线图,这也不会冒犯我们,明白吗? 如果你的目标明确且有意义,并且你的使命对你自己和他人都很重要,那么你就可以保持透明。
注意,我的路线图在 GTC 上是公开的,而我的路线图在 Azure、AWS 等合作伙伴那里会更深入。我们在这些方面没有任何困难,即使他们正在开发自己的 ASIC。
|