通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  中尉

注册:2007-10-2910
跳转到指定楼层
1#
发表于 2025-2-19 15:45:37 |只看该作者 |倒序浏览




Web3天空之城·城主


【城主说】这是和国内顶级的并行计算及编译优化专家黄新平(Wesley)的一次深度谈话,关于AI,关于最近持续火热的DeepSeek R1,特别是首次深度探讨了国产算力卡在DeepSeek适配上的进展,以及国产AI算力平台的讨论,还有在这个AI时代的工作和创业。

本城已经持续发布众多国际科技大佬的播客访谈文字版,在今后也将随缘和国内外科技江湖的高人们深谈 -- 不只停留在表面的泛谈,而希望类似国外的科技播客比如Lex,在几个小时的时间跨度里静心探讨这个AI时代的科技和人文。好的内容都值得记录,并与各位分享。

关于黄新平(Welsey):贯穿软硬件全栈的系统级专家。从摩托罗拉、英特尔时代的芯指令集验证和编译器、工具链开发,到 Solaris 内核优化并推动 AVX 指令集落地;构建爱奇艺撑亿级流量的深度学习平台,实现BERT模型33倍性能跃升的TVM编译器深度改造,在AI程化领域,其开发的SparseAdagrad GPU算性能提升30倍,成功将推荐系统响应时间从50ms压缩7ms,为爱奇艺创造巨大增收。

作为创业者,黄新平以技术合伙人身份创某科技公司,凭借HPC云解决案于 2015 年登陆新三板,撑国家重大科研项;2023年创建的始智AI社区,三个打造中国版 Hugging Face,收获 2 万开发者;最新创的算由科技有限公司,四个即推出向开发者的算力服务平台 gpufree.cn,持续破解 AI 算使用瓶颈。其创办的三家科技企业,精准卡位计算架构迭代周期,形成从芯层到应层的完整技术态。

这次访谈分为以下几章节,全文约三万字:

  • AI时代漫谈

  • DeepSeek的深入探讨

  • 国产算力卡的适配进展
  • 算力平台和算力自由
  • AI时代的工作和创业


AI的时代

城主:

现在的网络世界似乎被 AI 占据了。我们今天讨论 AI,未来可能还会带着我家小朋友乐乐一起来。

黄新平:

确实,她是 AI 原生代。对她来说,AI 的存在是理所当然的,不像我们这代人感觉 AI 还是个新事物。她会觉得 AI 从她出生起就存在于她的世界中。

城主:

很高兴能进行这次对话。实际上,这样的交流我已经期待很久了。我们在软件领域深耕多年,现在正处于一个非常有趣的时间点。你又是软硬件编译优化和分布式架构领域的顶级专家,所以我想(请允许我这样说)我们非常适合一起来聊聊 AI,以及最近备受瞩目的 DeepSeek。

黄新平:最近关于 AI 的讨论很多。一个事物一旦“出圈”,各种声音都会出现,其中自然也夹杂着不少杂音。

城主:是的。那么我们先回到 AI 本身。你是什么时候开始注意到所谓的 AI 时代到来的呢?

黄新平:

比较早了,大概是 2016 年。当时我还在从事高性能计算领域的工作。那时我就在思考,高性能计算是一个既深奥又相对小众的领域,在整个数据中心的投资中,HPC 只占 2%。当时我在想,什么能够扩大它的应用范围?我看到了两个新的机会:一个是 AI,另一个是加密货币。当时我认为,加密货币可能会被国家接管,而人工智能才是更光明的方向。

城主:

那确实很早了。因为大家普遍认为 AI 时代是从 GPT 开始的,也就是 2022 年 10 月。再往前追溯,我个人关注到 AI 是在 AI 绘画模型出现的时候,那时候还不是 Transformer 模型,而是 Stable Diffusion,属于生成式模型的第一代。

生成式模型的出现,可能让大众开始关注 AI,因为像 AI 绘画这样的模型已经直接影响到了普通人,更不用说后来的 GPT 了。你认为 AI 给我们这些技术从业者带来了哪些影响呢?

黄新平:

有一个比方,可以将 AI 的发展与人类历史上的工业革命相提并论。工业革命将机械化带入了人类发展史,随后是电气化革命,自动流水线等电气化技术融入了人们的生活。再后来是软件,而现在,更进一步的就是人工智能。人工智能是人类在地球历史上第一次,无论是发明创造还是偶然发现,遇到了一个在智力上能与自己匹敌的对象。

城主:

有个有趣的说法是,无论是科幻电影还是小说,都曾幻想 AI 出现后会首先帮助人类解决体力劳动。结果却发现,AI 首先解决了脑力劳动,取代了人类的智力活动,而且首先受到冲击的是脑力劳动者。这是所有人都没有预料到的。

黄新平:

是的,大家都以为 AI 会帮我们洗衣做饭,而我们则可以去写诗作画。结果现在是 AI 在写诗作画,而我们在洗衣做饭。

城主:

这些事情正在真实发生,让人觉得有些不可思议。几年前,我们还认为这是不可能发生的。最初,像 AI 模型,它直接导致了很多美术人员失业,一些美术同学甚至转行去开了烧烤店。客观上来说,这并没有什么善恶之分,只是 AI 将效率提高了几百、几千甚至上万倍之后,人类确实难以在产出效率上与之匹敌。现在,我们可能更关注像 Cursor、Windsurf 这些 AI 编程工具在过去一年里的成熟。我自己也已经用 Windsurf 编写了上万行代码,它确实极大地提高了生产力。有时候想想,这些事情真的令人难以置信,AI 竟然能生成真正可用的生产级代码。

黄新平:

类似的事情在人类历史上也曾发生过。我还在摩托罗拉工作的时候,当时的全球 CTO 原本是学自动化的。他告诉我们,最早的时候,自动化工程师设计自动化流水线,后来自动化工程师又设计了自动化流水线的设计工具,结果自动化流水线的设计工程师就失业了,这和现在的 AI 发展是同样的道理。用刚才的比方来说,电气化带来了流水线作业,实现了体力劳动的自动化。而这次 AI,尤其是生成式 AI 的出现,将会实现智力劳动的自动化过程。这样一来,失业的显然是那些从事相对不需要太多创造性、高度重复的智力劳动的人。

城主:“高度重复”这个词,以前程序员可能从来没想过会出现在自己身上,对吧?

黄新平:是的。

城主:这是一个真实的新现象。你身边有没有看到一些程序员朋友,无论是年长的还是年轻的,因为 AI 或者 AI 编程而被裁员或者失去工作的?

黄新平:

我这边还没有看到太多这样的例子,更多的是一些资深的程序员在转型。他们正在使用 AI 编程来提高自己的效率。从另一个层面上来说,可能是公司整体需要雇佣的人数减少了,因为效率提高了。我曾经明显看到过这样的例子,原来需要几个月的工程,现在可能只需要一个月左右就能完成,而且质量还不错。在这种情况下,其实从整个就业市场来看是萎缩了,不再需要雇佣那么多人。你会发现,更有创造力的小公司反而变得更容易生存了,因为人与人之间的沟通和协作成本是很高的。当一个“小而美”的公司能够发挥巨大作用的时候,它的效率会非常高。

城主:

我非常认同。我认为 AI,特别是具备智能化编程能力的 AI 成熟之后,确实会导致一些以前需要 10 人或者 100 人的公司,现在只需要十分之一甚至更少的人员,几个人就能完成以前上百人公司的工作。

我一直在思考,这对资深程序员来说可能反而是件好事。因为他们经验丰富、知识面广,可能以前只是没有时间去实际操作那么多东西。以前,一个总监,甚至一个 CTO,他可能不是不想干活,而是没有时间干活,光是 review 代码、看文档都忙不过来。现在,他不需要管理那么多人,也不需要去批评那些代码写得不好的人,他可以直接告诉 AI 他要做什么。甚至对于一些他以前没有做过的事情,他也能大致了解,然后交给 AI 去完成。AI 会给他反馈,他看一眼就能知道是什么情况。

黄新平:

这正是 AI 特别有用的地方。在我实际的实践中也发现,程序员是一个熟练工种,只要长期使用,就会对某种编程语言或框架非常熟悉。但如果隔一段时间不用,很快就会忘记很多细节。而回忆这些细节是非常耗时的。实际上,一个资深程序员是知道应该怎么做的,只是在细节上需要去回忆。而现在有了 AI,他可以将这部分工作完全交给 AI 去完成,反而觉得更轻松。

举个例子,我是一个长期从事后端开发的人,如果让我去写前端代码,我虽然写过一些,也知道前端框架是怎么回事,但我不像专业的前端人员那么熟悉,写起来会非常非常慢。但如果有了 AI 的辅助,一切都会变得非常简单。

城主:

的确如此。有时候会觉得,这真的是一个新时代的到来。你看,就在今天我们出来之前,我看到 Unity 引擎宣布了大裁员。前两天 Meta 也进行了新一轮裁员。之前很少见到美国的大厂裁员,但在这两年 AI 快速发展的情况下,包括 Google、微软在内的很多公司都进行了明确的裁员。我认为这很可能,或者说确实是因为 AI 完成了大部分人的工作,那么对公司来说,就只有从效率上进行优化。这可能是这个时代美国需要经历的。

黄新平:我觉得这一点,就刚才我说我没有看到太多的朋友因为这个而失业,我觉得这一点也体现了中美在这个应用上有一定的差距。

城主:有一定的差距,你是说因为中国可能没有那么快会在大厂层面……

黄新平:

因为还有一个原因,中国的基础大模型的能力相对来说要弱一些。无论是 WindSurf 还是 Cursor,它们背后其实要么是 Claude,要么就是 ChatGPT,而这些服务都不对中国开放。所以导致中国获取这些服务的可获取性是比较差的。而现在因为 DeepSeek 出现之后,我觉得这股浪潮会在中国出现。

DeepSeek的探讨

城主:

我觉得这是一个关键点,刚好我们可以谈谈 DeepSeek。就像你说的,在 DeepSeek 出现之前,在中国,虽然我们知道有各种方法可以获取到国外最顶级的 AI 服务,但是从正式的渠道来说,你是无法使用的。更不用说 GPT-4 这样的顶级模型,肯定是访问不了的。即使是 Claude 3.5 Sonnet 这样的模型,实际上也很难访问。但是可能一夜之间,DeepSeek R1 就改变了一切。我不知道 Wesley 你怎么看,在我看来,DeepSeek 的出现,比我预想的还要重要,而且全世界的反应还在持续,甚至比我预料的还要强烈。

黄新平:

没错,我关注 DeepSeek,或者说圈内人关注 DeepSeek 其实比较早了,尤其是从它之前的 V2 开始,基本上在圈内已经小有名气。但是这次它能够“出圈”,我觉得有一个比方。最近也经常有人问,为什么 DeepSeek 会这么火,一下子火到这个程度?我想了很久,觉得有一个比方比较恰当:假设 ChatGPT,包括 OpenAI,是美国研发出的第一颗原子弹,奥本海默引爆了那颗原子弹,大家都看到了,哇,有这么大威力的武器。然后大家开始用 LLaMA 等各种模型去复现它,做了很多所谓的基础大模型。但实际上,你会发现它们的威力可能都只是“大炸弹”,远远没有达到核武器的级别。而 DeepSeek 呢,我认为它是第二颗原子弹。有人说这是中国的“氢弹”,甚至是“于敏型氢弹”。我的意思是,它不仅威力更大,而且在可部署性、可应用性上有了更高的表现。这才是让中国 AI 真正活跃起来的原因。我觉得再加上开源,DeepSeek 实际上是用它的技术文档明确地告诉你,我是怎样做到这一步的,这点的意义更为重大。而且这几天你也看到了,有很多团队在复现,然后在原来的小模型上用 DeepSeek 的方法训练,得到的模型在智能上远超原来的那些方法训练出的小模型。我觉得这才是刚刚开始。

城主:

我觉得围绕 DeepSeek 可以谈论的内容有很多。我们看到网上有很多相关的文章,每天都有。我觉得我们今天可以深入地探讨一下。我们都知道,这次 AI 浪潮,也就是生成式 AI,最早是源于 Google 的一篇论文《Attention is all you need》。大家可能都知道,它其实在当时只是为了做搜索引擎而写的。没有人想到它会产生如此深远的影响。

但是从那时到现在,我们是不是可以说,像美国这些 AI 大厂也好,包括这些创新公司 OpenAI、Claude,他们没有对 Transformer 的整体结构做出很重大的改变?

黄新平:

Transformer 的结构其实变化很小,更多的是在它之上的优化。其中一个很重要的就是 Scaling Law。Scaling Law 实际上应该是 2022 年 OpenAI 的一篇论文提出来的。它指出,模型的表现与数据量、计算量和参数量这三个因素之间存在着某种指数关系,呈现出一种线性关系。随着这三个因素的增加,模型的智能也会随之增加。

但实际上,其中最重要的一个因素是,当它超过某一条线之后,会出现“涌现”现象。“涌现”现象就是说,我无法预测它会产生什么样的结果,也就是说,它产生了一种人类其实很难解释的智能。

城主:

“涌现”这个词,我们应该关注到的是它的指数级的跃升。如果我们从数据的角度来看,它实际上就是指数的跃升。然后他们给“涌现”取了一个特别好听的名字,一下子它的性能就“爆”上去了。

你相信 Transformer 整个结构,它其实和我们人脑的智力结构是相同的,或者至少是类似的方向吗?

黄新平:非常非常像。我个人观点,我觉得非常像。

城主:但这实际上是一个没有任何证据能够证明的事情。

黄新平:没错。这是一个类比。所以“涌现”现象可以解释为低等动物向高等动物转化,当它的神经元达到一定规模之后,它的智能就会出现飞跃性的发展。

城主:我们没有任何……因为我们自己也没有搞清楚(人脑的智力结构)。

黄新平:因为对于意识、对于这些,我们其实还没有研究透彻。

城主:

但最终发现,可能确实就是和我们发明的 AI 一样。当你把足够多的单元组合到一起,达到几千亿个参数,它可能自然而然就会出现这种所谓的智能现象。

因为我们都知道 DeepSeek R1,它推出来就是对标了最强大的大模型,也就是OpenAI的推理大模型 GPT-4o。那你觉得它里面具体有哪些创新是最核心的,让DeepSeek R1模型能够“出圈”,而且性能能够那么优秀呢?

黄新平:

实际上,DeepSeek R1 在基础技术层面上并没有什么全新的、原创性的东西。但是它组合了很多很多已有的技术。比如说,一个我认为比较重要的创新就是利用强化学习来对齐模型的训练。这个东西其实在此之前就有很多论文,也有很多实践在做,但是做到这么大规模、效果这么好的,DeepSeek R1 绝对是第一个。

强化学习是这样构成的:它有一个 policy(策略)模型,还有一个 value(评价)模型。强化学习是通过奖励机制来实现的,就像训练人一样。你去摸一个东西,然后会掉下来一个苹果;你摸另一个东西会触电。那么这个模型就会导致你肯定不会再去摸那个触电的东西,你会去摸苹果。这就是一个奖励模型。

奖励模型中有一部分叫做 policy,就是给你一个规则,然后你按照这个规则去进行各种推理和运算,最后得到一个结果。将这个结果和真实的结果进行对比,这就是 value 模型。但这个结果可能差距很大。比如我告诉你 1 加 1 等于几,你告诉我等于 3,我就会打一下你的手心,这就是 value 模型。通过这样的反馈,你就知道自己错了。就像两个人玩游戏一样。

这就是一个强化学习的过程。但原来 policy 模型和 value 模型都是需要人工去指定的。而在 DeepSeek  R1里面是靠它自己去学习、去探索。你可以说 1 加 1 等于 3,我不干预你,但是当你继续推理的时候,你会发现你得到了一个错误的结果。

城主:把结果推出来就行了。

黄新平:

把结果推出来。有可能你最后发现自己错了,就再回头去修正。

以这样一个机制实际上会……你想,如果我训练你,规则是我给你的,这意味着你训练的结果不会超出这个规则之外。而当我不给你规则的时候,就能够发挥你的创造性。我们都知道,当你给小孩限制,这个不许做,那个不许做的时候,他可能什么都不会做,或者做得畏畏缩缩的。但当你不给他设置限制条件,只是告诉他,因为那些地方太危险了,不能……剩下的全部让他自由发挥的时候,他会发挥他的创造性,你就会发现他会得到超出你想象之外的结果。我觉得这一点很形象地体现出来了。

然后它最后拿出了 R1 模型。你可以看到,它的训练过程造就了它具有非常好的效果。

城主:

我觉得有个事情比较有趣。因为 DeepSeek  R Zero 其实完全就是致敬 AlphaZero。AlphaZero 是两个机器自我学习,然后训练出了比人类更强大的围棋 AI所以它肯定是致敬。这个思路其实就是机器自己跟自己对弈,自己学习。这个强化学习实验室的思路不是新的,已经被上一代(AlphaGo)验证过了。但我觉得有趣的是,你看,美国没有做出来。

黄新平:

这个过程其实是非常难的,工程难度和实践难度都非常大。举一个形象化的例子,你一定看过原来谷歌发布的一个视频,关于如何训练一个机器人在一个完全自由的、符合物理规则的环境下学会自主行走吗?机器人一开始躺在地上,扭动胳膊,扭动腿,然后经过很长很长时间,可能上万个小时,它都没有学会怎样控制自己的腿和脚。

所以,强化学习本身就是一个不一定能够保证得到结果的学习过程,你很难确定它一定能成功。这里面有很多很多的技巧,tricky 的地方。另外,这也需要一点运气,需要更多的工程能力来支撑你完成这件事。

这也是为什么我现在听说很多人想去复现 DeepSeek,但进展并不是特别快的一个根本原因。

城主:

一开始我都觉得 DeepSeek 至少把过程和论文都阐述清楚了,大家去复现应该是很快就能复现出来的。但事实上,这个过程并没有想象中那么快。

黄新平:没错,大家都训练过强化学习模型,知道它有多难。

城主:

所以最终,可能大家都知道路径是这样的,但谁能够把这条路走到底,并且相信它一定能成功。而且在相信它能成功的过程中,你还要找到真正正确的那条路,把它做成。这过程中,变数太多了,对不对?即使你在训练过程中,比如说你参数调错了一点,可能就走歪了。

黄新平:没错。

城主:而且你都不知道是参数调错了,还是你的方法本来就不对。

黄新平:对。

城主:这点还是很有趣的,就是你有一个全新的想法,然后能够按照全新的想法一直做到底。

黄新平:

这也是我觉得为什么 DeepSeek 会出现在这家公司,这个模型为什么会出现在 DeepSeek 这家公司的原因。

首先来说,我们都知道 DeepSeek 是幻方梁文峰创立的。他没有融资,手里有很多算力卡,所以他就没有那种需要“交作业”的焦虑。如果你拿了融资,你肯定要按照计划一步一步走,每一步都要实现什么,都要“交作业”。即使没有达到预期,也要说一些好听的话,大家要“凑”出一个作业来交差。

没有这种“交作业”的压力时,他就变成了一种“无欲则刚”的状态。他完全可以说,我认定了这条路是对的,我就沿着这条路走。至于时间长短,至于具体细节,那可能都不是最重要的。更重要的是,大家一步一步地验证这个方法,一步一步地用工程能力去实现它。

当然,另外一个原因是,我觉得幻方这家公司本身在工程方面的能力非常强,包括优化、算法框架的核心底层,甚至包括硬件级别的能力。我觉得这些都是其他公司无法比拟的。所以这两种因素结合在一起,才产生了这样一个特殊的现象。所以我认为其他公司要复现 DeepSeek,其实很难。

城主:

首先是说简单点,就是他们不差钱。有一个我们叫做“初心”的东西,有了初心之后,还能集结起一批人,然后真的是朝着一个方向去做。

黄新平:

最初的技术直觉非常关键。他认定了这条路肯定是可行的。如果遇到了挫折,那只是我们的方法不够好,再换一个方法试一试。

城主:

这很难,这个我们都知道很难。因为在一个漫长的时间里,你怎么知道你坚持的方向是对的呢?万一你坚持的方向是错的呢?

这里有一些细节。他们在 2022 年,DeepSeek 出来的时候,他们都提出了一个很重要的概念,叫做“多头注意力”,是在 V2 里面,2022 年提出的。而且最近因为 R1 模型的发布,国外 AI 大佬 Ilya 也点赞说,2022 年的一个“蝴蝶翅膀”就扇动了。他指的其实就是多头注意力。

那你想想看,多头注意力出现后,实际上在业界或者在我们这些关注整个行业的人看来,其实都……我相信至少到今年,或者说去年上半年,其实没有太多人关注到它。虽然业内已经开始讨论,但并没有引起广泛关注。所以这件事就是这样,它整个研发或者技术迭代是在一个非常正确的道路上,但是需要很长时间。

当年 OpenAI 也是这样,OpenAI 主要在 GPT-1、GPT-2 阶段是对的,但它还是打不过 Google 的 BERT,直到 GPT-3 才爆发,然后才认准了生成式这条避免“双向”的道路更强大。所以看起来 DeepSeek 也有一个类似的路径。

因为可能确实是件特别的事情,就是没有那么多外界的压力,能够专注于做这件事。如果计划出来了就一定能成功,那是因为外界的干扰太多了。我们刚才提到了它的多头注意力,这是一个很重要的机制。你能不能比较一下,它这个机制和传统的注意力机制有什么区别?

黄新平:

没错。是这样的。当时你想,GPT 和 BERT 的路线完全不同,你怎么证明你一个创业公司比一个拥有全世界最牛的 AI 专家的公司的判断更准确呢?这个东西实际上从直觉上,你再怎么说,都会面临这种压力。所以你的技术定义非常非常重要。我就认定了这个方向是这样的,而且它有确定性。我觉得对这件事情,或者说它能够全身心投入进去,不受外界干扰,这一点非常非常关键。很难,对吧?你很容易放弃。融了资,外面要“交作业”,那就“抄”一个,然后训练一个“拉满”算力的模型,这个太容易“交作业”了。所以“伟大”是无法被计划的。

DeepSeek 实际上是多头“潜”注意力,实际上是多加了一个“潜”注意力的部分。如果从技术角度来说,它加了一层“潜空间”。

城主:它是“潜空间”吗?

黄新平:

我们说的注意力机制不是 QKV 三个矩阵的运算吗?它加了一套 Q'、K'、V' 这种“潜”注意力机制,嗯?这个说起来太技术了。你可以认为它有一点模拟的是,你读过《思考,快与慢》这本书吗?人是有两套系统的,TPP(Thought Process Prompting)也提到了,我有快系统,有慢系统。慢系统里面其实是你深度思考的一个结果,很多时候是来源于你潜意识的一部分。DeepSeek 实际上是模拟了这个过程。我觉得从可以理解的角度上,可以用这种方式来解释。

你会看到你跟 R1 模型对话的时候,它整个思考的过程,那个思考过程很多是来自于“潜”注意力。它其实是因为把注意力机制用 Multi-head Latent Attention(MLA) 这种方式来表现出来,节省了非常多的硬件资源。它的“潜”层和“明”层之间有很多共享。

城主:

OK。这里面有一个非常有趣的事情,大家都认为没有办法在整个框架、整个性能上面做优化的时候,DeepSeek 做出了 10 倍的重大创新。最有趣的是,这个创新其实要过了一年到两年,才因为 R1 模型被大家所认识到。

黄新平:

是的。或者从另外一个更大的角度来说,大家都知道 Scaling Law。Scaling Law 最早是 OpenAI 提出的。那时候 Scaling Law 最主要的含义是什么呢?最早 Scaling Law 指的是预训练阶段,模型的性能与数据量、参数量和计算量这三个因素之间的关系。预训练模型的能力取决于这三个因素。但实际上,在后续的微调、对齐,甚至推理阶段,也存在着 Scaling Law。DeepSeek R1 实际上把 Scaling Law 的概念拓展到了后续的训练阶段,这部分其实是之前 Google 的 Gemini 模型所做的。而在推理阶段的 Scaling Law,实际上是 DeepSeek 真正做出来的。

所以 DeepSeek 完整地拓展了 Scaling Law 的概念。

如果要更深入地回顾 DeepSeek 的发展历程,除了刚才提到的 R1 模型的多头注意力机制,以及 V3 阶段的 多词元预测 (MTP,可以理解为一次预测多个 token),MTP 采用了一种类似“投机”的方式,先进行预测,如果预测不准确,就进行修正;如果预测准确,就直接采用。这种方法降低了推理成本,显著提高了推理速度。

城主:因为我们都知道,生成式模型的基本原理就是预测下一个 token。通常的说法是,预测下一个 token。

黄新平:

预测下一个 token”这个概念非常直观,也很有意思。如果一次只预测一个 token,速度太慢了。所以 DeepSeek 的做法是,一次预测多个 token。其实,这在某种程度上也更接近人脑的工作方式。比如,你听到我说“猫在追”,当你听到“猫”这个词的时候,其实你已经排除了很多不相关的词,你的大脑里浮现的都是跟动物或者宠物相关的词。然后你的认知范围可能进一步缩小,你立刻就能推理出很多东西,最后你选中了其中一个。

我觉得,如果你遇到一个说话特别慢的人,你的大脑的反应其实就是这个过程。

城主:没错。DeepSeek 这种一次预测多个 token 的方式,反而更像人脑。

黄新平:更像人脑。

城主:它并不是只预测下一个词,它可能预测了“一批”词。

黄新平:

对。所以原来的说法是,人工智能无法与人脑相比,因为它耗电量太大,而实现的智能却有限。但我认为随着各种优化手段的出现,随着各种对人脑机制的模拟,包括小模型能力的增强,我相信真的有一天,AI 的能耗比会与人脑相当,甚至达到一到两个数量级的差距。到那时,将会发生革命性的变化。

城主:

我想起一件事。在你提到的视频生成领域,在去年 4 月份,也就是 SORA 发布之前,主流的方法都是使用 Stable Diffusion 这种 AI 模型来逐帧生成图像。

黄新平:对。

城主:逐帧生成的结果就是,视频的连贯性会出问题,对吧?

黄新平:是的。

城主:会变形,怎么调整都不而且生成速度很慢,因为它是“变形化”的。

黄新平:它对视频中 token 的数量影响很大,上下文无法保持连贯,所以它很难生成一个连贯的视频,它对整个世界是没有理解的。

城主:

SORA,我们都知道它实际上是采用了 Transformer 架构。它一次预测应该是 4 秒左右,这是标准的。也就是说,你生成的视频,每次它都会按照 4 秒的数据来预测下一个视频片段。所以这多少也有点像我们之前讨论的“多 Token 预测”,它是一批一批地生成,没错。

只是不知道,像这种一次预测多个 token 的技术,它有没有上限。因为我们知道,现在的视频生成,它可以在一小段内保持非常好,就像它一次预测的一小段。但再往前推进,它可能就会出现偏差,需要依赖“延续”。“延续”其实有点像推理,对不对?

我觉得这很有意思。如果用语言模型的推理来类比视频生成,实际上,当一个视频向前推进时,它就是在预测后面的内容。按照这样来看的话,其实推理模型本身也是……

黄新平:

一样的。不管怎么样,你只能一次性生成有限的内容。但是,作为推理,我可以根据上下文来保证逻辑的连贯性。

城主:

我在 2022 年的时候,AI 绘画模型刚出来,有一篇帖子写的,就是预测说,可能过几年,AI 就可以写小说了。当时我觉得这不太现实,因为在推理模型,就像 GPT-o1 出现之前,AI 模型都只能处理一小部分内容,然后就“拓宽”(指超出上下文长度)。

黄新平:

一部小说的上下文长度远超出了当时模型能够容纳的范围。AI 模型必须要有推理能力,它能总结出一个梗概、一个框架,然后用这个框架来指导它继续创作,这样才能够完成一部小说的创作。

而且人自己写小说,也并不是说一开始就完全知道所有情节的。它有一个大致的方向,在写作的过程中,所有的逻辑都会引导你朝着这个方向前进。这实际上与最近的现场有关系。但是有很多时候是长线的,而长线的内容往往只有那么几条,它贯穿了整个故事。你可以理解为策略也好,大纲也好,它贯穿了整个故事。但是在某一个瞬间,有的小说家会说,我无法决定这个主角的行为和生死,因为这是由他自己决定的。这实际上是指,角色有他内在的逻辑,这个逻辑是一个很小范围内的逻辑。

城主:

那个逻辑,其实本质上也是作家基于整个小说的情节推进,进行的一种推演。所以这很有趣,很有可能我们已经越来越像 AI,或者 AI 越来越像我们,或者说越来越接近人类的智力表现。因为我们作为人,其实很多时候想事情也是一样的,你只能有一个有限的上下文。就像我们,不说别的,就说做技术、写代码,上下文也是有限的。

我们的大脑中,你确实只能关注到一小部分内容。没错。然后我们发现,不管做 AI 也好,或者做什么样的大模型也好,最终,它确实会和人脑一样,你有一个有限容量的内存,有限的上下文。然后有什么方式让它能够保持逻辑性呢?其实“逻辑”这个词本身也值得探讨,“逻辑”到底是什么?在 AI 这个层面来说,“逻辑”是不是就是指“符合某种规则”?这样说起来就涉及的内容太多了,因为我们说“推理”,“推理”就是指能够形成一个逻辑上的上下文。所以“有因果”,是不是指有因果关系,前后不矛盾,等等。

黄新平:是这样。

城主:

但最终我们发现,可能确实就像我们发明的 AI 一样,最终当你把足够多的单元组合到一起,达到几千亿个参数,它可能自然而然就会出现这种所谓的“智能”现象。

但不管怎么样,我觉得,在 DeepSeek R1 里面有很多创新。刚才说到像 DeepSeek V2,其实它的多头注意力机制;然后 V3,我们说到了它一次推演多个 token。包括用强化学习来进行训练,强化学习。这都是 R1 的一部分。但 R1 这部分,DeepSeek 拿出了一个纯强化学习的路径。对。其实现在回过头来看,就是复盘整个过程,DeepSeek 确实是每一步都非常扎实地给出了一个新东西。是因为我不知道你有没有去对比其他一些大模型的一些进展,我感觉其实不是每一个大模型公司,都能像 DeepSeek 那样,每一步都有一个特别扎实、明确的东西。

黄新平:

实际上来讲,你会发现,很多大模型公司所做的事情是在追赶 ChatGPT,而 OpenAI 不共享技术方案,还放出了很多“烟雾弹”。在这个追赶过程中,(大家)其实浪费了很多力量。

城主:

坦诚地说,我没有预料到像 DeepSeek 这么强有力的一个国产模型出现。这个东西估计大家也都没有太预料到。甚至 DeepSeek 自己可能也没想到这个模型会引起这么大的轰动。它发布的时候,只是悄悄地在网上、推特上发了一下,在 ArXiv 上发了一下。但是瞬间就有了上百万的浏览量,因为太震惊了。所以他们就直接说,我们拿出了一个模型,它和 GPT-o1 一样。我们还有一篇论文给你看。

黄新平:

而且,其实从公众的感受来说,我觉得有一个很明显的(区别):当你跟 R1 对话的时候,它展现了它的思考过程,这一点非常关键。如果你只是展现了一个最终的结果,你可能会被这个结果震惊一下。但是我会怀疑,你是不是恰好碰巧回答了这个问题。但是,当它展现了思考过程之后,会让我觉得这个结果无比的可信,甚至会觉得“对方”非常聪明,非常值得信赖,从而产生了一种情感连接。这一下子就“出圈”了。

城主:甚至,这一点是 DeepSeek 首先做到的。GPT-o1 没有做这件事,GPT-o1 就保持神秘感嘛,就是不告诉你我是怎么做的,我是怕被“偷师”。

黄新平:后来发布的模型,也有点对不上。

城主:很多人可能都知道了,英文的 Prompt 得到的是中文的推理,这就让人产生很大的疑问:为什么一个美国的公司,它的模型推理是用中文的?

黄新平:但是这个东西,我倒觉得从学术上来说无可厚非。因为如果你看过 R1 的论文,它里面其实也承认,它自己的推理过程也不完全是中文的,也有英文。它专门指出了自己的一个缺陷,也会有中英文混杂。

城主:我其实是这么想的:中国人做的模型有中英文是很正常的,因为英语语料很多。但你(GPT-o3)……当然我们可以认为,OK,我们可以认为是不是 GPT-o3mini 在训练过程中也用到了中文语料?那这个中文推理的语料是从哪里来的呢? 这个就很有意思了。

黄新平:这个就没有答案了,大家只能凭自己的猜测。

城主:

DeepSeek R1 已经是一个非常大的进展。如果我们站在一个更高的角度,如果要对它进行进一步的优化,比如面向代码开发者或硬件厂商,你认为还可以从哪些方面入手?

黄新平:

总体来看,我认为 DeepSeek 目前使用的训练语料是一个精选的高质量小语料集。它与 ChatGPT那种语料在数量级上是有区别的,但是它的质量非常高,这是另外一个层面。总体来看,DeepSeek 宣称过他们的数据量大概是多少 TB,具体的数字我有点忘记了。所以它的量级和 ChatGPT 是不太一样的。我认为下一步,Scaling Law 仍然会是有效的。

所以说,扩大模型规模,当然,扩大规模就意味着他们在工程上挑战更大。在一个千卡集群上做分布式训练,保证加速比是一个层级;如果在万卡集群上,则进入另外一个阶段,所以对工程团队的挑战会非常大。在语料方面,DeepSeek 仍然需要坚持使用高质量语料,因此语料的清洗和整理工作也会非常巨大,工程量非常大。如果数量级大到这种程度,算法的有效性是否一定能够延续下去呢?

我觉得在这个层面上,可能也会有很多困难。从这几个层面来说,我认为 Scaling Law 继续有效,继续扩大是有用的,但是难度也会非常大。当然,梁文峰是想朝着 AGI(通用人工智能)这个方向去的,我认为这一步他是必然要往下走的。

城主:

那反过来也可以这么看,DeepSeek R1 用到的机器规模、训练规模、数据量规模都远小于对方,却能拿出可以与之类比的结果。这也很厉害,这也是为什么它会这么火的原因。这确实是,有时候我觉得很多人都没有见过这种事情。

黄新平:

对,这也可以说是大模型“民主化”的一部分,对吧?“民主化”是美国之外的民主化,所有美国人之外……对,但是美国人其实原来也只是他们自己使用,但是你想重现它是做不到的,还是个“独裁体系”嘛。

城主:对,还是掌握在少数公司手里。我觉得最感慨的是,美国的各个大学机构,第一时间用上了 R1。

黄新平:商业公司也有。

城主:因为之前没有多少人有这种财力,负担不起这么大的模型,而且之前的大模型还收费,但现在DeepSeek R1是免费的。

黄新平:

是的,而且 DeepSeek R1 使用的是 MIT 许可证,这个许可证非常非常宽泛。你会看到各种大模型的授权,其实,你可以认为它们都是一个私有化的、商业级的授权。它不管你做什么,但是它会限制你的各种使用。比如 LLaMA 是不允许你用于商业的。然后,当然,如果你的公司规模大到一定程度,也是不允许使用的。所以从某种角度来说,它并没有完全开放。

城主:

所以很了不起。这一定是一个有初心的团队,有情怀。情怀当然有很多客观条件(才能实现)。我们并不能说别人要商业化或者要赚钱就不对。但最终,这是一个天时、地利、人和的结果。

而且你提到“人”,我们都知道 DeepSeek 团队里有一个最有趣的点,就是说他的团队都是年轻人。根据各方的消息,他们都是本土或者国内顶级大学的年轻人。当然,这是主力。我肯定不能说没有海归,一定是有的。但是,综合各方面的信息来看,基本上都是国内顶级大学的毕业生。

对于这一点,我不知道你怎么看?至少我自己来说,是觉得这是一件很有影响力的事情。它能够证明,中国的有才华的人,在中国的顶级大学接受教育,就能做出世界顶级的东西,你不需要跑到斯坦福,不需要跑到麻省理工。当然,去交流肯定是很有必要的。但是,不是说一定要在那里读个书,读四年、读八年。你怎么看?

黄新平:

这一点其实说来一点也不奇怪。之前就有人说,人工智能是“Chinese in US Vs. Chinese in China”(在美国的华人对在中国的华人)。有一个笑话说,一个团队如果创业,说是做人工智能的,一看没有中国人,就会问:“那你们谁干活呢?”

所以我觉得中国人在这个领域做出来这样的成绩并不奇怪。实际上,我觉得中国的基础教育层面还是非常强的,这个能力毋庸置疑。从业界的角度来看,我觉得中国无论从教育还是其他方面,真正存在的一点点差距在哪里呢?是真正掌握一些比较新的底层技术。我们原来都是做编译器、做芯片这些层面,中国其实很少有机会能接触到这个层面,因此存在一定的差距。但是我认为,量化公司自身的需求,让他们接触到了计算机的核心:性能的极致、通信的极致、硬件的极致。这些都会让他们接触到,这给他们提供了一个很好的训练机会,他们的人才可以在这里面得到训练。我认为这是根本的原因。

所以说,这些年轻人并不仅仅是在学校里训练,而是在公司里有机会进行实践。还记得当年做编译器的时候,招的人不可能有编译器的经验,招的都是 C 语言基础比较好、计算机基础非常好的人,然后经过半年一年的时间,他们逐渐就把这条路打通了,就能掌握很底层的东西。我认为(中国)人是很聪明的,这一点毋庸置疑。你的学术基础和理论基础都在,只是你没有机会接触。如果给你一个机会,你就能学到。所以这是根本的原因。

城主:

所以,能不能说也是因为,有一点在于 AI 的理论,包括深度学习、AI,其实是近两年飞速发展,把以前所有的,比如上一代的 AI 理论都推翻了。现在只是用深度学习的 Transformer 去训练。所以,可能就给了年轻人机会,在 NLP(自然语言处理)路径上的积累恐怕没有那么重要了。所以这几年最新的内容,才决定一切。

有时候想想这个事情也比较有意思。我记得在我刚开始在大公司的时候,会去讲机器学习、支持向量机的概念,很多都是以前的概念。就像过往的前辈积累的所有东西……但有些残酷的是,在深度学习 AI 这个分界或者说分水岭,这些东西其实是用不上的。

黄新平:

也不完全是用不上。但是可以像原来评价诸葛亮的那句话——“亮独观其大略,不求甚解”。你其实要知道那些基础知识,因为往往有些创新是从原来的那些(基础知识)……迁移或者发展出来。所以你其实要有这个 sense,这个东西是解决了什么问题的,在什么场景下解决这个问题的,而不是它里面的技术细节。比如 SVM(支持向量机)里高维的转化,然后它的核函数怎么写的,这些东西都可能已经没有用了。

DeepSeek国产卡适配和优化

城主:

我觉得有一个很有趣的话题,也是我很期待去探讨的话题,就是说国产硬件上面在跑 DeepSeek 的情况。

你以前工作里面曾经去运营过像十万台这样规模的服务器。就在那个时候,那接触的时候,有多少是国产的?

黄新平:

那时候是非常少的,因为我那时候是做的高性能计算。

高性能计算里面,当时因为中美关系还不至于差到这个程度,所以主流还是英特尔的 CPU,或者是英特尔的一些运算加速器。因为高性能计算最主要还是 64 位计算,跟现在不一样。然后那时候国产的芯片还没有什么太多的机会,主要是国产芯片只用在一些特殊的,比如说军工、一些特殊保密行业,国家有一些研究院所会出,比如的“太湖之光”,然后这样的国产芯片。那时候国产芯片在整个(高性能计算)上面并不是主流。

城主:

是啊,所以你看,就是这几年,由于大家都知道的原因,我们就必须要在芯片上面国产化,然后再追赶。那你怎么看这个事情呢?就是说这个事情对整个(行业)……我们可以大胆地说,这整个行业可能迫使中国的行业能够有芯片行业自主化。这一方面它其实真的限制了很多,比如说,远的不说,就说一些大家确实就是最新的 5090D,就直接限制了 AI 算力,是做得非常极致。所以你怎么看这些事情?

黄新平:

是这样。我觉得从另外一个角度来看的话,就是所谓的“文明竞争”,然后“国家竞争”,中美(的竞争)其实相当于世界谁说了算,或者谁是世界第一。这个一直是一个竞争的主题。

虽然中国一直声明不追求霸权,从中国几千年的历史来看,可能确实没有在追求霸权。然而,美国人并不这么认为,他们“做老大”做惯了。如果剥夺了他们“做老大”的权利,他们会失去很多。所以这种冲突几乎是不可避免的。在这样的背景下,中美之间,现在认为下一代的核心是人工智能。如果人工智能变成“国运之争”,那么这种“硬碰硬”几乎也是不可避免的。

美国能想到的……大家都知道人工智能是“算法 + 算力 + 数据”。数据他们管不了,算法可能也管不了,中国有人才。他们只能管控算力。算力用半导体,相对来说,掐断源头也就那么几家,甚至说白了就是只有一家,那就是台积电。

从这个层面上,台积电的生产能力加上英伟达的设计能力,形成了一种垄断性质的算力供应局面。所以美国一定会限制中国。中国在人工智能应用方面,现在特别广泛。除了对未来的期许,比如将来在工业上,所有行业的人工智能转化,将会带来一个全新的世界。就好像还在使用刀矛长枪的时候,别人已经发明了火器,根本无法竞争。

所以一定要在这个领域做出些事情来。国家在这个层面上是不遗余力地在推动。如果限制中国的算力,中国一定会想办法弥补。中国从政策层面上支持几家大的半导体厂商,提供各种政策支持。实际上,如果没有这些行动,在世界是平的情况下,国产芯片很难有机会,这是必然的。

经济学上有马太效应,“赢家通吃”。英伟达又便宜又好,生态又好,这种情况下,你怎么可能有生存空间?所以中美在 AI 领域的竞争,恰恰给中国的半导体厂商提供了一个生存的“庇护”。本来你要做生态,最难的一件事情是要有人用你。有人用你的时候,会发现问题,让你有改进的机会。这个生态其实就是因为我用不了英伟达的,被迫要用国内的,那就给了他一个迭代的机会。再痛苦几年,光刻机我也觉得不是一个不可攻克的任务。只要光刻机解决了,我觉得中国这最后一道坎就过去了。

城主:

其实我会想这个事情。当然,我们很希望它解决得越快越好,或者越高越好。但实际上,芯片这件事,就是首先要有,然后再好一点。不一定要百分之百最好。你做到了 80 分,其实可能就够用了。

黄新平:

实际上,从另一个角度来说,你看 28 纳米,和 28 纳米以上的制程,其实是中国(的强项)。你看全球的出货量就知道了,中国垄断了这部分行业。而实际上,这部分其实就跟“冰山”一样,这是冰山的下面,是非常赚钱的一部分。

然后贸易额也巨大的一部分,真正的,比如 16 纳米以下的,反而是高精尖的这一部分。我觉得就是咱们常说的“农村包围城市”,一定会有机会反超,可能就像 DeepSeek 一样。就是大家追赶上去,总有一天会冒出一个大家意想不到的结果。刚才讲的就是国产芯片,大家都知道,这个春节期间,可能国产芯片的工程师们也没休息好,被叫起来各种适配,几乎就成了国产芯片的一个“秀场”。

DeepSeek 的适配,各家国产芯片厂商都会说,DeepSeek 已经适配了。虽然背后适配的大部分可能是蒸馏模型,能够做全尺寸模型的可能还是非常少。但是这个态度一定要表明,不表明就说明你落伍了。但在这方面,从真正的应用层面来说,其实我觉得现在还处在炒作曲线的“希望之巅”,也就是高速增长期之后,迅速进入绝望的低谷之前。大家都希望用国产的 GPU、国产芯片、国产卡去适配 DeepSeek。现在是最初的“热潮期”,还没有冷却。

真正到“冷静期”的时候,情况会非常残酷。例如,你能推理多少 tokens/秒?你的上下文窗口能开多大?(训练自己的衍生模型时)刚才说的 MLA(注意力)“头”数你要设多少?这些指标会直接决定最终的表现。如果效果能够像现在 DeepSeek 官方的那样,你会发现很多东西可能是不可用的。然后,有技术能力的人一定会在这个上面“绝地反击”,达到可用的地步,这样就进入了真正的应用期。

城主:是的。我知道你在这里面做了很多工作。你分享一下,你觉得国产卡适配最大的挑战是什么?

黄新平:

我觉得国产卡分两类:一类是本来就兼容 CUDA 指令的。这种适配相对容易一些,因为你可能用的推理引擎,它们都是 CUDA 兼容的。可能会遇到个别算子不兼容,或者有一些精度的问题,但调整起来相对容易得多。这部分可能很快就能完成,比如小的蒸馏模型的部分适配,这个太容易了。至于大的、全尺寸的……

那真的就是像刚才那几个指标,你完全达到实用地步,那你还是需要做一些功课的。但总体来说,我觉得难度会变低,没有那么大。然后,反正我就把自己的性能发挥出来就行了。我也不会强求更多。另外一部分是 CUDA 不兼容的,那这部分其实难度就会比较大。而恰好中国几个比较头部的公司都是不兼容的。华为啊,这两个都是不兼容的。但他们做的事情也是在兼容(适配),在底层方面去做这个事。

城主:

对,在底层上来做这个事情。这是我特别有兴趣去探讨的一个事情。是因为你知道,CUDA 本身就是一个……其实不仅仅是针对中国,就是对好像 AMD 也是一个非常……我能说“咬牙切齿”的一个事。像 AMD 以前是用这个开源的框架去模拟了这个 CUDA,就被 AMD 也叫停了。

黄新平:是的,AMD去兼容是不允许的。

城主:对,然后还说他们两家是亲戚,这个亲戚就肯定没得做了。

黄新平:……AMD 的苏妈还是 “姑妈”好像。

城主:这个亲戚没得做。所以是很好玩。所有人都说,包括他们自己也说,CUDA 就是最大的“护城河”,对吧?

黄新平:对,没错。生态是最深的一个“护城河”。

城主:是的。而我们也知道,像之前国产卡,不是说做不出来。虽然可能弱一点,可以做出来。但最终是你要兼容那个 CUDA 软件层,那就其实是很痛苦的一个事情。

黄新平:是。

城主:其实就相当于是兼容一个另外一个硬件,你怎么去……这总是很多事情。

黄新平:对。而这个在芯片设计上面,相当于说,你的所谓的指令集架构,ISA 这一层,你要做一定的兼容。然后如果不能完全兼容的话,你要靠这个软件层面来做一层兼容。

城主:

这个其实我会觉得,确实就很“头大”。这肯定也是各大国产卡厂商想,我怎么就能够绕开它?而 DeepSeek 就是绕开 CUDA,用底层的语言,肯定是因为一些因素。他可能因为卡可能不够强劲,必须亲自去从性能层面上去做一个事。那回过头来说,像你去优化,去在国产卡上适配,他就不得不去做底层的控制。你觉得这个过程难吗?

黄新平:

这个东西其实分两个方面。DeepSeek 很多的技术能力,包括像刚才说的,所谓的绕开 CUDA。实际上,它是因为 CUDA 相当于是个高级语言,就像你写很多更高性能的程序的时候,你要用汇编来写一样。他用 PTX 来写,就相当于在汇编层面上写。他要精确地控制计算与通讯的关系。原来计算和通讯交给 Runtime 来做,交给编译器来做。现在他要精确地控制这个,以达到确定性的效果。他明确地在论文里写了“没有空泡”,“没有空泡”你就知道这个有多难。就是数据,每一个数据,来了我就被处理,来了就被处理,不会有任何的等待的过程。

这个就是性能是最优化的过程。所以,他更多的是在训练阶段,这个工程能力体现在训练阶段。一旦训练完成了这个模型之后,其实他对这些机制的依赖就会变得很低。所以,国产卡的这个适配分两个部分:如果你想代替英伟达来训练 DeepSeek,说句不好听的话,很残酷的话,现在几乎是不可能的,是没有能力做的。他做了这么多工程的实践,其实是严重依赖于英伟达的卡的硬件特性。其实他很难迁移出来,非常难。

城主:就是说DeepSeek只是在英伟达的卡上面去做模型训练的底层优化。

黄新平:没错。就相当于说我用 X86 的汇编写的代码,你想移植到 ARM 上,这个是几乎变成了一个不可能的事情。

城主:就是深度依赖于英伟达,对吧?

黄新平:

如果你假设都用 C 来写的话,那我们移植可能还有一些可能性。所以训练会变得非常难。

但是推理这个东西,其实对这个东西的依赖并不大。简单的移植这个东西可以运行,其实是一件很容易的事情。但是有一点,你运行的效果好坏,是留了很多很多可能的空间。

城主:最好奇的一点就是,当你移植到国产卡之后,看到的性能是什么?

黄新平:

这个其实全尺寸的效果非常不理想。因为总体来看的话,就是一个强制性的移植到国产卡可以运行。运行的结果来看的话,它有很多很多的额外的东西在做。实际上,它的适配是非常差,导致了它的性能其实没有发挥出来,性能非常不正常。

城主:所以还要进一步的去优化,只是说现在能跑起来。

黄新平:现在能跑起来,但是离真正能够实用起来,是有很大的差别,尤其是大规模的对外服务。

城主:

其实这里有个很有趣的点。如果只是个人在一台机器上跑DeepSeek R1,这其实根本就完全不是“企业服务”。英伟达它最重要的,不仅仅是它的卡,还有它的卡间互联,它有 NVLink。这其实是它的“杀手锏”之一。这是不是也会限制在网络上去做推理?

黄新平:这个层面呢,要看你最终实现的方式。就是你推理引擎上的实现。其实是个软件问题,不完全是一个硬件问题。

城主:这是软件问题?

黄新平:对,是个软件问题。就是推理层面。因为本身你也知道,DeepSeek 是一个 MoE (Mixture of Experts) 的结构。MoE 的话,其实它只有一部分的“机能”,它是一个高度稀疏化的模型。我一次就“进入”一个专家,这个专家的体量比较小,那这个体量有可能就能做到在一块卡上运行。

城主:这么精确的要求,所有的专家都能跑在一块卡上?

黄新平:

对。所以就是看你的显存有多大。你还记得它有一个存储压缩的机制,就是 KV cache 的那个数据的压缩。这个压缩,其实也使得它的存储量也好,它最终在你的推理里面,对显存的需求量也好,都会有缩小。这个其实有一个很精细的优化,是可以从某种程度上避免掉显卡之间的链路。当然,如果你避免不了的时候,NVLink 就会成为很关键的一点。

城主:

是。所以其实这是两个问题。你觉得现在国产化里面,多大的显存是可以避免“卡间”线路的?现在大概估计一下,这个程度上有多少?

黄新平:我觉得至少要 80GB 以上。

城主:80GB?

黄新平:对。

城主:新一代国产卡是不是差不多有一些确实能够达到这个水平?因为加显存比其他指标要容易得多。

黄新平:有很多都能够达到。

城主:

现在我看起来,我们仿佛就到了这么一个层面上,OK,大家都知道,这两三周国内都在PR嘛。所有的大厂,所有的平台,不管是不是竞品,全都说“我已经部署了DeepSeek”。现在相当于有一个免费能拿到的最顶级的大模型,我现在只要有卡,我就能用了,我就可以用起来。

黄新平:

所以就变成了……OK,现在就变成所有推理的问题。因为你在自家的 CPU 上部署一个,其实没有任何意义。其实你能不能支撑到你的业务,其实感觉现在就是一个考验。推理的时候,如果反过来,在我们国产卡市场上面,如果是说,先不看训练,在开始训练的时候,他可能深度整合英伟达的卡,我们解决不了。

城主:

那么现在在推理上面,你觉得国产卡可以发挥以前可能发挥不了的作用,然后成为R1推理的一个主要算力部分。

黄新平:

我觉得是有可能的。首先是现状,刚才也说了,性能是比较差。然后,包括像全尺寸的这块的一个优化,还都没有开始做。但是我觉得这个层面上,比那个完全没有,是 0 和 1(的问题),(对比性能做好),是 1 到 10 的问题,两者之间是有一个质的差别。

城主:对。因为以前说国产卡跑最牛的大模型,谁都不敢想。现在至少是跑起来了。

黄新平:

是跑起来了。然后剩下的就变成了它的优化能力。那就真的是“拼”技术,就是“拼”各个厂商的软件团队的能力。因为硬件已经是这样了。“拼”各个厂商的软件团队的能力,他们能如何把这个推理的模型充分地发挥起来,然后能认知到,就是在推理的整个过程当中,每一步在硬件上体现了什么,硬件上要做哪些事情,甚至要去改一改它的这个推理模型的某些运算的顺序啊、结构啊,这样的,甚至做一些算子融合啊,做这些层面的优化。最终把结果拿出来。

城主:不管怎么样,仅仅适配一个 R1 的推理,要比适配整个CUDA库要容易得多。

黄新平:给了大家一个明确的目标。

城主:这里面的难度,有可能是差两个量级,都不只一个量级。

黄新平:就是大家至少有个“奔头”了。

城主:因为你要兼容整个 CUDA,实际上那简直是……“绝望”,有点“绝望”。

黄新平:没错。现在我不需要兼容那么多了,因为所有人都用DeepSeek R1……。

城主:对。只要我的卡能跑DeepSeek R1,那就差不多了。

黄新平:没错。现在市场可能就是,你告诉我可以跑DeepSeek R1,我觉得很好,行,我可以买单了。我不需要你们跑所有的 CUDA。这个可能真的就给了机会。

城主:我觉得所谓“国运”级的科技成果,可能……不大夸张,就是因为它这里改变了很多。

黄新平:

对。如果说以前,你一定要去建立一个大的生态,确实很“缺”。我知道我们可能有很多这种跑法,你原来跑一个模型,然后跑下来,然后你发现它只是其中一个“市场”,你不可能只吃一个市场,吃不饱。然后你被迫要去做很多模型,很多模型的适配,在意味着你要做CUDA适配。

城主:现在不用想那么多,只要你支持 R1。

黄新平:只要你支持 R1,至少你可以把这部分“吃掉”……至于还要不要支持其他的,也许会变成一个不那么重要的事情。

城主:

因为 R1 足够强,所以我相信很多更上层的公司,即使偷偷使用其他的模型,也会转到 R1 上。因为其实并不是不想支持国产模型,只是国产模型模型比国外差一两个版本,不得不选择,对吧?现在 R1 这么方便,那我为什么不支持呢?一定是大家都支持。

黄新平:

是的。R1,包括 V3 这部分的能力,基础大模型的能力非常非常关键。它做好了之后,在市场上的智能体开发才有可能。

城主:

其实对我个人而言,在平常使用AI做一些工作的时候,就发现,并没有想着频繁换模型。如果用习惯了,可能就在一个模型上用。因为不同的模型,可能输出的感觉还有点差别。所以,喜欢一个模型,我就用它,我用得顺手。

黄新平:

对,这就跟人类一样。假设你明明认识一个专家,然后你问他的问题,他总是回答不对,或者总是差那么一层。另外一个医生,假设是医生,另外一个医生“一针见血”,讲出了问题的本质,告诉你要怎么做,非常清晰。那你肯定会找第二个医生,哪怕他的诊费不便宜,对吧?

城主:

所以这真是很有趣。我觉得我们在见证一个全新的开始,下一代模型”什么时候出现,不知道。因为 GPT-o3 并没有明显的“好”。今天早上才看到新闻,奥特曼在推特上宣布马上要出 GPT-5 了。估计他发现 GPT-4 “卡不住”,要赶紧拿出要拿出新模型。

我想到一个挺有趣的话题。就是刚才一直说到 CUDA。据你所知,有没有可能在国产卡里面,在国产替代里面,会出现一个类似 CUDA 的生态呢?

黄新平:

这个问题,其实每个厂家都有这个梦想。CUDA 这个“护城河”有多么好,其实人人都想有。但是CUDA的存在,其实是“天时地利人和”,也不是计划出来的。黄教主曾经“绝望”到要“卖身”,差点要把公司卖掉。然后,最终成了。其实这个并不是说想做就一定能做的。

从我国的一些实际情况来看,国家的部门其实考虑过我们能不能制定一套标准,让国产的卡都遵循这个标准,然后变成全国一个接口。但是从我的角度来说,从一个技术人的角度来说,一个愿望很美好,实际上是不可行的。

原因很简单,技术层面,待会儿再说,因为太细节了。

从历史教训来看,其实也有很多人想做这个,包括很著名的 OpenCL。OpenCL 你也知道是 Intel、AMD、惠普三家,当年他们在做的时候,那个势力完全“不可当”的时候,然后想做这么一个开放的计算语言标准。结果怎么样?它没有“成”。没有“成”并不是说他们技术能力不够,而是因为它天然地遇到了一个问题。这个问题就在于说,你硬件的性能、极致的性能,一定是紧贴着硬件。你去写 CUDA 程序,CUDA 里面一个“warp”里面有多少个 thread这个数据,都会影响到你编程的结构。这么细节的东西必须被暴露出来,才能拿到极致的性能。你如果想掩盖一切硬件的细节,想实现一个统一的接口,这两个之间是矛盾的,就是“既要……又要……”,我既要通用性,又要性能,这是不可能的一件事情。

城主:

明白。所以核心其实是说,要去兼容不同的“卡”,又要得到同样的性能的一个软件层,本身就是矛盾的。

黄新平:

确实是。因为 CUDA 自己虽然是个软件层,但其实只针对自己的硬件。它就是可以软硬协同地去做到极致的……以至到 DeepSeek 这一次,它觉得 CUDA 都还不够快,还要用 PTX 去写。

城主:是。所以即使是有一层(类似CUDA的软件层),最终性能达不到。本身你在不同的硬件上去兼容,本身就是个“伪命题”。

黄新平:

对。现在还有多少人写 CPU 的程序是用汇编?除非当你面对极端的问题,比如那几个数学库的时候,还都是用汇编来写的。

算力自由之路

城主:

最后一部分咱们聊聊算力吧。正好我对Wesley你现在做的事情很感兴趣,这个“算力自由”的AI算力平台。能不能跟我讲讲,“算力自由”这个名字的由来?以及你为什么要做这件事情?

黄新平:

好的。是这样,在2022年底到2023年初,大模型刚刚兴起的时候,正好有几个朋友,都是清华的,大家就说,现在机会很好,大模型这么火热,因为当时我也一直在关注。然后呢,就提议说,咱们要不要一起创业?

我当时想了一下,感觉大模型可能是我这个年龄段能接触到的一个非常非常大的机遇,绝对值得为之努力。而且它会是一个持续很长时间的事情。当时的第一反应,大家在讨论的时候,第一反应就是,那我们要做什么呢?

然后就想到,中国版的 HuggingFace 是我们最初的想法。因为可能大家都有这种情怀吧,想做一个社区,来活跃中国的,或者说为中国大模型的发展、人工智能的发展,做一份贡献,并且能够从中获得应有的回报。这更多的是出于这样的考虑。但是开始做的时候,你也知道,HuggingFace 在国内访问是受限的。一个活跃的社区,实际上除了能让大家很容易获取到信息、模型数据、模型介绍、数据介绍、代码,甚至一些演示之类的东西,本身就很有价值。

此外,很重要的一个价值是让大家去交互。你会发现,HuggingFace 上,前段时间不是刚发布吗,它有上百万的模型,这些模型显然大部分都是衍生模型。衍生模型非常有价值,因为它是在基础模型之上,按照用户的需求,或者用特定的方法训练出来的,解决某个特定问题的。要么展现某种方法论,要么解决一个实际问题。这些问题都会启发大家去思考,这就是社区存在的价值。当时就开始准备做这个,但是很不幸,这个商业模式你也知道,你凭什么赚钱呢?

对吧?投资人肯定会问这个问题,你的商业模式是什么?然后发现很难回答这个问题。

城主:因为即使是 HuggingFace,它也还在不断摸索。我想起来了,它也是依靠算力。

黄新平:

对,它最后才做算力的。因为它最初的发展是源于 Transformer 那个库,从而聚集了很多人。这其实也很偶然,它原来好像是做语音识别的,后来做了一个 Transformer 库,因为在 PyTorch 上,它是第一个开源的。然后大家都开始使用,使用的过程就使得它形成了一个很强的社区。因为它相当于一个 Hub,大家都从那里获取资源。然后它就想,为什么不在 Transformer 库里面加上一条语句叫 load data, load model 呢?

这样一来,就把代码和服务连接起来了,形成了一个社区。但后来它发现,很多人只是下载这些东西,根本没有条件去训练。他们需要一个 MySpace,来体验一下。有些用户做出来的模型,愿意花钱买一些算力,让大家来上面体验,这是双赢的,对双方都有利。所以它就做了这样一个平台,后来逐渐地转向了算力。

所以那时候,在刚开始做的时候就想到了,我们做到后面,第一步是平台,先让人聚集起来;第二步呢,再来做算力相关的服务。在算力方面,当时主要的算力使用场景包括预训练、后训练(Finetune),还有推理,这三种场景。预训练这个市场里面,其实只有头部的几个玩家,六小龙也好,四小龙也好,等等之类的,就这几个头部玩家,大厂除外。大厂他们自己可以搞定所有的一切。剩下的这些创业公司,一是用户少,二是他们对硬件的要求非常高,必须是互联要非常好,例如千卡一个大集群,甚至万卡一个集群,这样的规模。再加上因为中美在人工智能方面的博弈,国家会有大量的补贴。

然后这些补贴放上去,就导致了预训练的算力市场,实际上已经不是市场经济了。因为有那么多补贴在里面,他们可以拿到很便宜的价格来训练。所以,我觉得这块我不碰,因为这是国家的事情。然后就是后训练市场和推理市场。但推理市场那时候还没有起来,2022、2023年中的时候,还没有起来。因为大家基本上都是在训练基础大模型,至于用到哪里,落地应用,大家都在探索落地,所以那时候是没有推理市场的。那时候其实真正的是后训练市场,你会做大量的微调。那时你也会发现,工具层出不穷。

现在像 RAG 的工具、Llama Index 等,各种各样的工具,那个时间段就是这种工具,特别特别多。然后你会发现,算法人员和工程人员是完全两类人,算法人员碰到一个很小的工程问题,他是解决不了的。那时候真正的后训练市场都是算法人员在使用,而且很多是创业公司,这些创业公司很难找到合适的工程人员。当时就在想,如果我们原来也做过这些实践,原来在爱奇艺做过整个的深度学习平台的架构,当时我们服务内部的科学家,那其实解决的更多的是工程问题。

如果我能做一个开箱即用的环境,他(开发者)拿来就能用,比如像 Llama Index 这样的环境,Langchain 这样的环境,或者其他类似的环境,那么他拿来就能用,这肯定能吸引他来我的平台使用。吸引他的目标呢,是形成一个开发者社区,最终还是落在了社区上。他在我这上面使用很方便,自然就很容易拿来用了。用了以后呢,他会开发一些应用出来,后来又出现了智能体,智能体的开发也会放在上面。放上面呢,他有一部分是对外 demo,还有一部分呢,是直接对他的目标客户进行服务。

这部分就会逐渐地把最有创造力的开发者留在我的平台上,把他们的作品也留在这个平台上。然后就是最后一个阶段,推理阶段提供了一个很好的基础。不然的话,你说推理阶段为什么这个市场是你的?

城主:

所以我理解一下,就是说你认为这个算力平台不仅是提供算力,而是让这些开发者有一个一站式、开箱即用的环境,能够很快地把他们所想要用的大模型相关的内容用起来。

黄新平:对,是这样。

城主:

我想想看,其实从我自己的使用过程和认知来看,确实是有这种需求的。比如春节前我很懊恼一件事,不知道为什么主机电源烧了。还好终于又恢复了,在这个过程中我明显地发现,以前部署的代码,或者说还好在云上面,那么我换一个环境,需要迅速地把它全部跑起来,对吧?

这种感觉在经历过一次失而复得之后就更加明确。反正我在哪跑可能是一回事,最终是说我能够很快地在一个有算力的地方把事情跑起来,因为算力到最后,还是取决于你做事情的大小。做小的事情你可能在自己的机器上跑跑还可以,稍微大一点的恐怕就不行了。

黄新平:

对,是这样。而且你这是个人用户,如果假设我是一个小的创业公司,接到了一个 RAG 的项目,这个项目很小,大概几十万。如果我从头开始准备我的硬件,那么这会占用我的资金,也占用我的时间。如果有一个环境给我做开箱即用,我可能一周两周就能出一个 demo,然后再不断在这个基础上去迭代,这其实是助力的一种效果。

城主:

所以你说这个其实就很像当年云服务刚开始的概念一样。云服务之前就是每个公司自己布置机房,然后倒腾半天。有了云服务,其实就算某种开箱即用,直接申请服务器就可以用了。

黄新平:对。

城主:

感觉你的思路是说我要再往前进一步。因为现在 AI 算力就代表着 AI 大模型在做事情的时候,你的算力平台就给大家更方便了,不仅是给你一个机器,我还能够给你更多的关于开箱即用、一键使用等方面的支持,可能很多人就可以用了。

黄新平:

对,是这样。而且在这个层面上其实是这样,就是当你服务某一类客户的时候,你要比他更懂他的业务。

所以我服务的这一类客户,其实往往都是 AI 的开发者。我做过开发者,所以更懂他们的需求,在这个层面上可以帮助他们。

城主:

这一点上其实我是有体会的。比如说我也曾经试过一些平台的线上服务器,那时候可能要拿一个卡去用的时候,因为它是 Linux 嘛,有很多的安装包,你知道 Linux 有很多各种各样的包,配各种各样的东西,就是配了很久以后,你才有一个基本可用的环境。其实这些都不是我所需要的,我所需要的只是要把它跑一些东西而已。

黄新平:

对,没错。这些环境其实你本身并不希望去配置。而且其实你还是有工程能力的,还有完全不是学计算机的这一类人,我们会碰到比如学生物的、学其他的,然后他们会有这种算法的需求,那就更难了。一个 Python 包他可能就搞不定,然后比方说一个容器环境里面的某一个环境变量的配置,导致它不能 Work,他就完全懵掉了。甚至还会发现另外一个问题,比方说公有云上有很多很复杂很复杂的配置,比方说最简单的一个叫安全组协议,你在本地起来了一个端口的服务,结果发现在本地都跑得好好的,远程一访问,访问不了,然后你不知道出了什么问题,实际上中间有安全组协议给你挡住。

城主:这些其实就是,对于普通用户来说,我干嘛要关心这些东西呢?

黄新平:对,没错。我要的是结果,我要他能够为我工作。

城主:像 AI 或者是其他媒体兴起之后,所有需求就是我只需要知道我怎么把数据扔进来,怎么出结果。

黄新平:对,没错,是这样。

城主:然后其他的最好全部一键点击就好了。

黄新平:对,然后这是开发者这一部分。到现在你会发现,随着这些开发者渐渐成长起来,很多的应用其实是很蓬勃的发展,包括 AIGC 的应用,还有一些其他智能的应用。这些应用发展起来之后,当他们一旦跨越了产品开发的第一个阶段,他们就进入了第二个阶段,他要大规模对外服务。这个大规模对外服务其实是一个很难的问题,DeepSeek 天天服务器在忙,这除了一部分是他的服务器问题,就是他本身这个流量非常非常的大以外,然后你会发现,比方说豆包,就好像没有出现过这个问题,对吧?

然后像现在腾讯云也提供了 DeepSeek 的服务,这些互联网大厂在大规模对外的服务上面有着很丰富的经验。但对于这些小的公司、创业公司,他们去大厂的云上面去找这种服务,要么没有,要么很贵。就说这种包括了 AI 的一些适配的开箱式的服务,需要有人贴身为他们做一些东西。因为这些需求非常非常的特别,他不是说你给我一台机器,然后我做完了就拿来运行,他有可能会比方说开 WebSocket 的端口,然后 WebRTC 的这个服务,等等之类的各种东西。你想象一下你用大厂云的那种服务,你要让他给你开一个什么东西,你需要走很长的一个工单,甚至你都找不到人来服务。

城主:

明白,完全就是一个基于 AI 的算力和 AI 模型的一个算力服务,因为其实除了解决算力本身,你要解决一圈问题。

黄新平:

对,要解决一圈问题,要真正的为这些开发者解决他们的问题,在这个过程当中,我看到了是有机会的。

另外一个方面呢,就是因为我原来是做编译器的嘛,然后做了那么多年,然后刚才也说到国产化适配,那么我的一个原来也做过类似的一些工作,就是把有些模型,然后通过这样的技术手段,把适配这件事情变得自动化一些,适配加优化,都变成一个自动化的(流程),这是我的第二步梦想。

城主:

所以这也是我想问 Wesley 的,就是那么多年的一些非常资深的并行计算和编译优化的这些经验,你觉得在这个算力平台里面,可以成为你的核心优势吗?它体现在什么地方?

黄新平:这个的确是,因为实际上来说,优化这个能力,其实是一个非常稀缺和高端的一个能力。这个能力呢,如果 case by case 去做,其实没有太多的价值。

假设啊,咱们理解一下,比方说 DeepSeek 的优化,我搞定了某一件事情,当然现在有很多人也在做,然后最终使我的这个推理成本大幅度的降低,那这样的话,其实就是汇集了所有来使用的人,这个价值就大了,它是一个相承的关系。

城主:就是说,因为你能够直接去做这种最深层优化,甚至国产卡适配等等,所以在你的平台里面,有没有可能,到时候有各种不同的卡,在你这里就可以进行一些不同的调度,甚至互相共享?在推理层面上,这个是没有问题的。但如果是应用层面上,它是否有两种做法,一种是说面向所有对外的 API 的调用,一种是面向的是自己平台,即你平台内服务,这两者有什么区别吗?

黄新平:对,这个是可以的。API 的服务,其实用户跟你之间的接口,就是一个 RESTful 接口,然后呢,他其实并不关心背后跑的是什么,只关心跟他有关系的,比如用的成本,比方说 Token 是多少钱,甚至呢,我可以让用户可能有多种选择,要求质量更好的,要求更便宜的。比方说做数据处理,然后可能我就这个东西越便宜越好。

这样的话,会根据他任务的特征,会做不同的调度,这是一方面。然后如果平台上的服务的话,那就是包含了用户直接使用的这一部分,他对交互性,也就是实时性要求其实是比较高的。他在调度层面上除了考虑模型自己本身的能力之外,包括一些地域,在什么地方,这个延迟,然后以及他需求的这个比方说这个数据的复杂程度,然后数据的亲和性上面都会做一些调整。

城主:我想到,是不是有可能因为你能够去做调度优化,做底层的这个并行,就当有些算力就不再用户单独使用的时候,你就可以用来去计算 R1 这种大模型的这个推理式服务,对吧?它是可以做到不只这些算力就固定只为了推理,或者这些算力固定只是面向用户。

黄新平:这个不会,这个一定是混合部署的。

城主:对。听起来就是这不是一个…就是以前可能我们并没有这类问题,因为以前可能就是用公有云,部署些软件服务就够了。但是因为有 AI 过来之后可能就碰到这新的问题。包括说,OK我的大模型用 R1 级别,我怎么样去更好的推理,怎样能够各种混合算力能够用起来。用户进来的时候,希望基于这个方案做一些事情,有太多的额外的事情我不想搭理,给我一个这样的打包服务。

黄新平:

对,是这样。然后因为天生的大模型推理其实就是一个异构计算,它一定需要加速卡的。比起公有云的那部分,其实技术复杂度是有一些的。

城主:模型推理它需要一个异构计算,这个怎么理解呢?

黄新平:

是这样,就是因为你现在的模型推理,纯用 CPU 能够做到的模型推理还是比较少的。一定需要一个加速卡,无论是英伟达的加速卡还是国产的加速卡。那我能不能说只用 GPU 加速卡呀?不完全是,因为你可能会有不同的模型,然后将来比方说国产的它会在某一个特定领域有它的长项,然后它有可能在这上面性价比或者是它的功能上面会有很突出的……你只是有不同的卡,不同的硬件,不同的加速卡混在一起。

城主:那这里面的优化就水就更深了。

黄新平:对,是。

城主:因为如果大家都只用 NVIDIA,那没什么好说,可能就是在CUDA上面搞来搞去,

黄新平:那时候可能你更多的是去写一个更高效的那种推理引擎。

城主:

或者是像 DeepSeek 做到使用底层汇编已经很了不起了,但如果是。。当然这也是国情了。。国产卡里有不同的硬件,那么多的加速卡你怎么用好?

黄新平:对,是这样。

城主:实际上在我们所说的所谓公有云之前,其实大家都是在讲的是 CPU 算力。

黄新平:

没错,更多的是虚拟化,然后是在这个基础之上的,比方说网站的架构的构成,数据库的后端、前端这些服务,然后消息队列这些概念。到了算力这个层次,其实万一它要服务的内容变了。

城主:而且就是 GPU 的云,这个事情本身都没有很久,因为长期以来公有云它只有 CPU 云,GPU 云的时候它曾经很贵,现在可能也不算便宜。

黄新平:对,也不便宜。跟 CPU 比起来还是贵很多。

城主:

对,所以才有很多空间在做这个事情,就怎么能提供一个大家能够承受得起的。尤其是大规模推理的需求产生之后,其实它要服务的目标客户群就太多,像 DeepSeek 一样,然后几千万活跃用户。那它在这个程度上,就是实际上要用英伟达的,现在用英伟达的卡来做推理,那这个推理的过程就跟公有云原有的服务其实是有着很大的一个技术差别。那是完全不一样。

还有很有趣的一点是说,算力云你是怎么做才能让用户感觉到你真的是可以用,上手能够用。对于用户来说,大家真的也不关心底层用的是什么卡,我只关心我跑了多少算力,比如说跑图也好,跑 Token 也好,输出的效率是什么。最好是底层你给我屏蔽掉。我也不关心这个问题,关心反而是很痛苦的事情,如果还要关心这个是 CUDA 哪个版本,要去装哪个 CUDA 的软件,那个 CUDA 软件要匹配哪个 Python 的版本。这个事情本身就会让人晕头转向,我们还算是这个领域的人,稍微不是这个领域的人,那就更……

黄新平:

本身硬件,然后上面的驱动,然后在上面的那个 CUDA 版本,在上面如果你有那个 Docker 的话,就是那个容器的那个 Driver,这个之间其实是有个很隐性的链接。然后你错了一个版本,可能它不 Work。不 Work 之后,这个就很痛苦。所以其实所谓一般用户他也不应该接触这些东西。这应该是交给。。就是在 CPU 领域里面其实有一个就是后来叫 Faas 或者叫 Serverless,就是我其实不关心服务器的细节,我只需要我的功能。那么未来,然后包括像现在 GPU 创业的一个很新的点,就是 GPU Faas,GPU Serverless,但是能够做好的也寥寥无几,就那么几家,但是我觉得这个似乎会成为未来的一个方向。

城主:就现在大家调用一些比如说 OpenAI 或者 R1 的 API 不就也就是这个概念吗?其实相当于是 Serverless。

黄新平:

对,我不管你背后我怎么部署了,我就 API。但是很多时候你并不是只是这么调用就完成了,我还是希望有自己部署服务器的时候。对,那这个责任原来是 API 提供的,现在变成自己要搞定这件事情。

城主:如果能够有地方能够提供相应程度的这种服务,那这就是你算力自由平台做的事情。

黄新平:对,所以我的“算力自由”,回到算力自由四个字上,就是让算力像水电一样使用方便自由。

城主:实话实说,有实际体会的人知道这样是不太容易的,在真正的工作流程里面要跑通这些,因为有时候你一环断了,很可能就掉链条。

黄新平:对,没错,表面...


来源:网易

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-2-21 21:02 , Processed in 0.902561 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部