那确实很早了。因为大家普遍认为 AI 时代是从 GPT 开始的,也就是 2022 年 10 月。再往前追溯,我个人关注到 AI 是在 AI 绘画模型出现的时候,那时候还不是 Transformer 模型,而是 Stable Diffusion,属于生成式模型的第一代。
生成式模型的出现,可能让大众开始关注 AI,因为像 AI 绘画这样的模型已经直接影响到了普通人,更不用说后来的 GPT 了。你认为 AI 给我们这些技术从业者带来了哪些影响呢?
黄新平:
有一个比方,可以将 AI 的发展与人类历史上的工业革命相提并论。工业革命将机械化带入了人类发展史,随后是电气化革命,自动流水线等电气化技术融入了人们的生活。再后来是软件,而现在,更进一步的就是人工智能。人工智能是人类在地球历史上第一次,无论是发明创造还是偶然发现,遇到了一个在智力上能与自己匹敌的对象。
城主:
有个有趣的说法是,无论是科幻电影还是小说,都曾幻想 AI 出现后会首先帮助人类解决体力劳动。结果却发现,AI 首先解决了脑力劳动,取代了人类的智力活动,而且首先受到冲击的是脑力劳动者。这是所有人都没有预料到的。
黄新平:
是的,大家都以为 AI 会帮我们洗衣做饭,而我们则可以去写诗作画。结果现在是 AI 在写诗作画,而我们在洗衣做饭。
城主:
这些事情正在真实发生,让人觉得有些不可思议。几年前,我们还认为这是不可能发生的。最初,像 AI 模型,它直接导致了很多美术人员失业,一些美术同学甚至转行去开了烧烤店。客观上来说,这并没有什么善恶之分,只是 AI 将效率提高了几百、几千甚至上万倍之后,人类确实难以在产出效率上与之匹敌。现在,我们可能更关注像 Cursor、Windsurf 这些 AI 编程工具在过去一年里的成熟。我自己也已经用 Windsurf 编写了上万行代码,它确实极大地提高了生产力。有时候想想,这些事情真的令人难以置信,AI 竟然能生成真正可用的生产级代码。
黄新平:
类似的事情在人类历史上也曾发生过。我还在摩托罗拉工作的时候,当时的全球 CTO 原本是学自动化的。他告诉我们,最早的时候,自动化工程师设计自动化流水线,后来自动化工程师又设计了自动化流水线的设计工具,结果自动化流水线的设计工程师就失业了,这和现在的 AI 发展是同样的道理。用刚才的比方来说,电气化带来了流水线作业,实现了体力劳动的自动化。而这次 AI,尤其是生成式 AI 的出现,将会实现智力劳动的自动化过程。这样一来,失业的显然是那些从事相对不需要太多创造性、高度重复的智力劳动的人。
城主:“高度重复”这个词,以前程序员可能从来没想过会出现在自己身上,对吧?
黄新平:是的。
城主:这是一个真实的新现象。你身边有没有看到一些程序员朋友,无论是年长的还是年轻的,因为 AI 或者 AI 编程而被裁员或者失去工作的?
黄新平:
我这边还没有看到太多这样的例子,更多的是一些资深的程序员在转型。他们正在使用 AI 编程来提高自己的效率。从另一个层面上来说,可能是公司整体需要雇佣的人数减少了,因为效率提高了。我曾经明显看到过这样的例子,原来需要几个月的工程,现在可能只需要一个月左右就能完成,而且质量还不错。在这种情况下,其实从整个就业市场来看是萎缩了,不再需要雇佣那么多人。你会发现,更有创造力的小公司反而变得更容易生存了,因为人与人之间的沟通和协作成本是很高的。当一个“小而美”的公司能够发挥巨大作用的时候,它的效率会非常高。
城主:
我非常认同。我认为 AI,特别是具备智能化编程能力的 AI 成熟之后,确实会导致一些以前需要 10 人或者 100 人的公司,现在只需要十分之一甚至更少的人员,几个人就能完成以前上百人公司的工作。
我一直在思考,这对资深程序员来说可能反而是件好事。因为他们经验丰富、知识面广,可能以前只是没有时间去实际操作那么多东西。以前,一个总监,甚至一个 CTO,他可能不是不想干活,而是没有时间干活,光是 review 代码、看文档都忙不过来。现在,他不需要管理那么多人,也不需要去批评那些代码写得不好的人,他可以直接告诉 AI 他要做什么。甚至对于一些他以前没有做过的事情,他也能大致了解,然后交给 AI 去完成。AI 会给他反馈,他看一眼就能知道是什么情况。
黄新平:
这正是 AI 特别有用的地方。在我实际的实践中也发现,程序员是一个熟练工种,只要长期使用,就会对某种编程语言或框架非常熟悉。但如果隔一段时间不用,很快就会忘记很多细节。而回忆这些细节是非常耗时的。实际上,一个资深程序员是知道应该怎么做的,只是在细节上需要去回忆。而现在有了 AI,他可以将这部分工作完全交给 AI 去完成,反而觉得更轻松。
举个例子,我是一个长期从事后端开发的人,如果让我去写前端代码,我虽然写过一些,也知道前端框架是怎么回事,但我不像专业的前端人员那么熟悉,写起来会非常非常慢。但如果有了 AI 的辅助,一切都会变得非常简单。
城主:
的确如此。有时候会觉得,这真的是一个新时代的到来。你看,就在今天我们出来之前,我看到 Unity 引擎宣布了大裁员。前两天 Meta 也进行了新一轮裁员。之前很少见到美国的大厂裁员,但在这两年 AI 快速发展的情况下,包括 Google、微软在内的很多公司都进行了明确的裁员。我认为这很可能,或者说确实是因为 AI 完成了大部分人的工作,那么对公司来说,就只有从效率上进行优化。这可能是这个时代美国需要经历的。
我觉得围绕 DeepSeek 可以谈论的内容有很多。我们看到网上有很多相关的文章,每天都有。我觉得我们今天可以深入地探讨一下。我们都知道,这次 AI 浪潮,也就是生成式 AI,最早是源于 Google 的一篇论文《Attention is all you need》。大家可能都知道,它其实在当时只是为了做搜索引擎而写的。没有人想到它会产生如此深远的影响。
但是从那时到现在,我们是不是可以说,像美国这些 AI 大厂也好,包括这些创新公司 OpenAI、Claude,他们没有对 Transformer 的整体结构做出很重大的改变?
黄新平:
Transformer 的结构其实变化很小,更多的是在它之上的优化。其中一个很重要的就是 Scaling Law。Scaling Law 实际上应该是 2022 年 OpenAI 的一篇论文提出来的。它指出,模型的表现与数据量、计算量和参数量这三个因素之间存在着某种指数关系,呈现出一种线性关系。随着这三个因素的增加,模型的智能也会随之增加。
我觉得有个事情比较有趣。因为 DeepSeek R Zero 其实完全就是致敬 AlphaZero。AlphaZero 是两个机器自我学习,然后训练出了比人类更强大的围棋 AI所以它肯定是致敬。这个思路其实就是机器自己跟自己对弈,自己学习。这个强化学习实验室的思路不是新的,已经被上一代(AlphaGo)验证过了。但我觉得有趣的是,你看,美国没有做出来。
那个逻辑,其实本质上也是作家基于整个小说的情节推进,进行的一种推演。所以这很有趣,很有可能我们已经越来越像 AI,或者 AI 越来越像我们,或者说越来越接近人类的智力表现。因为我们作为人,其实很多时候想事情也是一样的,你只能有一个有限的上下文。就像我们,不说别的,就说做技术、写代码,上下文也是有限的。
我们的大脑中,你确实只能关注到一小部分内容。没错。然后我们发现,不管做 AI 也好,或者做什么样的大模型也好,最终,它确实会和人脑一样,你有一个有限容量的内存,有限的上下文。然后有什么方式让它能够保持逻辑性呢?其实“逻辑”这个词本身也值得探讨,“逻辑”到底是什么?在 AI 这个层面来说,“逻辑”是不是就是指“符合某种规则”?这样说起来就涉及的内容太多了,因为我们说“推理”,“推理”就是指能够形成一个逻辑上的上下文。所以“有因果”,是不是指有因果关系,前后不矛盾,等等。
黄新平:是这样。
城主:
但最终我们发现,可能确实就像我们发明的 AI 一样,最终当你把足够多的单元组合到一起,达到几千亿个参数,它可能自然而然就会出现这种所谓的“智能”现象。
所以说,这些年轻人并不仅仅是在学校里训练,而是在公司里有机会进行实践。还记得当年做编译器的时候,招的人不可能有编译器的经验,招的都是 C 语言基础比较好、计算机基础非常好的人,然后经过半年一年的时间,他们逐渐就把这条路打通了,就能掌握很底层的东西。我认为(中国)人是很聪明的,这一点毋庸置疑。你的学术基础和理论基础都在,只是你没有机会接触。如果给你一个机会,你就能学到。所以这是根本的原因。
城主:
所以,能不能说也是因为,有一点在于 AI 的理论,包括深度学习、AI,其实是近两年飞速发展,把以前所有的,比如上一代的 AI 理论都推翻了。现在只是用深度学习的 Transformer 去训练。所以,可能就给了年轻人机会,在 NLP(自然语言处理)路径上的积累恐怕没有那么重要了。所以这几年最新的内容,才决定一切。
有时候想想这个事情也比较有意思。我记得在我刚开始在大公司的时候,会去讲机器学习、支持向量机的概念,很多都是以前的概念。就像过往的前辈积累的所有东西……但有些残酷的是,在深度学习 AI 这个分界或者说分水岭,这些东西其实是用不上的。
是啊,所以你看,就是这几年,由于大家都知道的原因,我们就必须要在芯片上面国产化,然后再追赶。那你怎么看这个事情呢?就是说这个事情对整个(行业)……我们可以大胆地说,这整个行业可能迫使中国的行业能够有芯片行业自主化。这一方面它其实真的限制了很多,比如说,远的不说,就说一些大家确实就是最新的 5090D,就直接限制了 AI 算力,是做得非常极致。所以你怎么看这些事情?
经济学上有马太效应,“赢家通吃”。英伟达又便宜又好,生态又好,这种情况下,你怎么可能有生存空间?所以中美在 AI 领域的竞争,恰恰给中国的半导体厂商提供了一个生存的“庇护”。本来你要做生态,最难的一件事情是要有人用你。有人用你的时候,会发现问题,让你有改进的机会。这个生态其实就是因为我用不了英伟达的,被迫要用国内的,那就给了他一个迭代的机会。再痛苦几年,光刻机我也觉得不是一个不可攻克的任务。只要光刻机解决了,我觉得中国这最后一道坎就过去了。
我觉得国产卡分两类:一类是本来就兼容 CUDA 指令的。这种适配相对容易一些,因为你可能用的推理引擎,它们都是 CUDA 兼容的。可能会遇到个别算子不兼容,或者有一些精度的问题,但调整起来相对容易得多。这部分可能很快就能完成,比如小的蒸馏模型的部分适配,这个太容易了。至于大的、全尺寸的……
那真的就是像刚才那几个指标,你完全达到实用地步,那你还是需要做一些功课的。但总体来说,我觉得难度会变低,没有那么大。然后,反正我就把自己的性能发挥出来就行了。我也不会强求更多。另外一部分是 CUDA 不兼容的,那这部分其实难度就会比较大。而恰好中国几个比较头部的公司都是不兼容的。华为啊,这两个都是不兼容的。但他们做的事情也是在兼容(适配),在底层方面去做这个事。
现在像 RAG 的工具、Llama Index 等,各种各样的工具,那个时间段就是这种工具,特别特别多。然后你会发现,算法人员和工程人员是完全两类人,算法人员碰到一个很小的工程问题,他是解决不了的。那时候真正的后训练市场都是算法人员在使用,而且很多是创业公司,这些创业公司很难找到合适的工程人员。当时就在想,如果我们原来也做过这些实践,原来在爱奇艺做过整个的深度学习平台的架构,当时我们服务内部的科学家,那其实解决的更多的是工程问题。
如果我能做一个开箱即用的环境,他(开发者)拿来就能用,比如像 Llama Index 这样的环境,Langchain 这样的环境,或者其他类似的环境,那么他拿来就能用,这肯定能吸引他来我的平台使用。吸引他的目标呢,是形成一个开发者社区,最终还是落在了社区上。他在我这上面使用很方便,自然就很容易拿来用了。用了以后呢,他会开发一些应用出来,后来又出现了智能体,智能体的开发也会放在上面。放上面呢,他有一部分是对外 demo,还有一部分呢,是直接对他的目标客户进行服务。
感觉你的思路是说我要再往前进一步。因为现在 AI 算力就代表着 AI 大模型在做事情的时候,你的算力平台就给大家更方便了,不仅是给你一个机器,我还能够给你更多的关于开箱即用、一键使用等方面的支持,可能很多人就可以用了。
黄新平:
对,是这样。而且在这个层面上其实是这样,就是当你服务某一类客户的时候,你要比他更懂他的业务。
所以我服务的这一类客户,其实往往都是 AI 的开发者。我做过开发者,所以更懂他们的需求,在这个层面上可以帮助他们。
城主:
这一点上其实我是有体会的。比如说我也曾经试过一些平台的线上服务器,那时候可能要拿一个卡去用的时候,因为它是 Linux 嘛,有很多的安装包,你知道 Linux 有很多各种各样的包,配各种各样的东西,就是配了很久以后,你才有一个基本可用的环境。其实这些都不是我所需要的,我所需要的只是要把它跑一些东西而已。
城主:就是说,因为你能够直接去做这种最深层优化,甚至国产卡适配等等,所以在你的平台里面,有没有可能,到时候有各种不同的卡,在你这里就可以进行一些不同的调度,甚至互相共享?在推理层面上,这个是没有问题的。但如果是应用层面上,它是否有两种做法,一种是说面向所有对外的 API 的调用,一种是面向的是自己平台,即你平台内服务,这两者有什么区别吗?
城主:对。听起来就是这不是一个…就是以前可能我们并没有这类问题,因为以前可能就是用公有云,部署些软件服务就够了。但是因为有 AI 过来之后可能就碰到这新的问题。包括说,OK我的大模型用 R1 级别,我怎么样去更好的推理,怎样能够各种混合算力能够用起来。用户进来的时候,希望基于这个方案做一些事情,有太多的额外的事情我不想搭理,给我一个这样的打包服务。
是这样,就是因为你现在的模型推理,纯用 CPU 能够做到的模型推理还是比较少的。一定需要一个加速卡,无论是英伟达的加速卡还是国产的加速卡。那我能不能说只用 GPU 加速卡呀?不完全是,因为你可能会有不同的模型,然后将来比方说国产的它会在某一个特定领域有它的长项,然后它有可能在这上面性价比或者是它的功能上面会有很突出的……你只是有不同的卡,不同的硬件,不同的加速卡混在一起。
还有很有趣的一点是说,算力云你是怎么做才能让用户感觉到你真的是可以用,上手能够用。对于用户来说,大家真的也不关心底层用的是什么卡,我只关心我跑了多少算力,比如说跑图也好,跑 Token 也好,输出的效率是什么。最好是底层你给我屏蔽掉。我也不关心这个问题,关心反而是很痛苦的事情,如果还要关心这个是 CUDA 哪个版本,要去装哪个 CUDA 的软件,那个 CUDA 软件要匹配哪个 Python 的版本。这个事情本身就会让人晕头转向,我们还算是这个领域的人,稍微不是这个领域的人,那就更……
黄新平:
本身硬件,然后上面的驱动,然后在上面的那个 CUDA 版本,在上面如果你有那个 Docker 的话,就是那个容器的那个 Driver,这个之间其实是有个很隐性的链接。然后你错了一个版本,可能它不 Work。不 Work 之后,这个就很痛苦。所以其实所谓一般用户他也不应该接触这些东西。这应该是交给。。就是在 CPU 领域里面其实有一个就是后来叫 Faas 或者叫 Serverless,就是我其实不关心服务器的细节,我只需要我的功能。那么未来,然后包括像现在 GPU 创业的一个很新的点,就是 GPU Faas,GPU Serverless,但是能够做好的也寥寥无几,就那么几家,但是我觉得这个似乎会成为未来的一个方向。
城主:就现在大家调用一些比如说 OpenAI 或者 R1 的 API 不就也就是这个概念吗?其实相当于是 Serverless。
黄新平:
对,我不管你背后我怎么部署了,我就 API。但是很多时候你并不是只是这么调用就完成了,我还是希望有自己部署服务器的时候。对,那这个责任原来是 API 提供的,现在变成自己要搞定这件事情。