由 DeepSeek R1 于 1 月 20 日发布引发了一些思考。这些思考以问题的形式提出,是因为我不知道答案,并且很可能其中的大部分答案我们只能随着时间推移才能找到。
首先,也许是最重要的问题是:DeepSeek 的成功是否意味着美国科技行业一直在以错误的方式解决问题?
美国在人工智能方面的投资是巨大的。高盛估计科技行业将投入 1 万亿美元。长期以来,许多评论员(包括我自己)一直在质疑美国科技行业在人工智能投资和发展方向上的选择。据我所知,所有领先的公司基本上都在遵循相同的路线图(唯一的区别是 Meta 部分采用开源模式)。这些公司不愿意考虑除了在大规模数据集上预训练的、作为下一个词预测器的基础模型之外的不同方法。并且在很大程度上,它们也只关注扩散模型和旨在执行人类任务的聊天机器人,而对其他任何东西都不感兴趣。
尽管 DeepSeek 并没有重新发明轮子,还是在相同的涉猎范围内,但它似乎对强化学习和专家混合方法上依赖得要多得多,并且非常有效地完善了推理链式思考。正如广泛报道的那样,它还是在领先公司模型成本的一小部分情况下做到了这一点,大约 550 万美元,相比之下,领先模型的成本高达数亿美元。
因此,一种解释是:美国行业对替代的、更便宜且更有前景的方法视而不见。顺便说一句,这种“群体思维”加上炒作,正是西蒙·约翰逊和我在《力量与进步》中预测的,这本书是在生成式人工智能故事开始之前写的。
所以,换一种说法,由这一事件引发的第一个关键问题是:美国行业是否还对其他更重要的事情视而不见?是否有一种更有“亲人类方向”的方式来开发这些模型,这是有前景的,但被行业完全且集体性忽视了?
其次,这一事件是否证明中国已经超越或即将超越美国? 如果是这样,这是否意味着威权的、自上而下的制度下(或者詹姆斯·罗宾逊和我所说的“掠夺性制度”)的创新可以与更自下而上的创新相媲美甚至超过它?
我个人认为,自上而下的控制会阻碍创新,正如詹姆斯·罗宾逊和我在《为什么国家会失败》中所论证的。我承认现在存在这种可能性,我们只能拭目以待。
尽管如此,我想指出的是,DeepSeek 是在美国(以及欧洲)的一些多年发展基础上建立起来的。更重要的是,DeepSeek 所使用的所有方法都是在美国开发的, 如专家混合模型和强化学习是在几十年前的学术研究中开发的;变换器模型和推理链式思考是由领先的科技公司中引入和使用的。然而,DeepSeek 以不同的方式将它们有效地结合在一起。中国的公司和学术界是否真的能够迈出下一步,提出改变游戏规则的技术、产品和方法?还有待观察。
此外,DeepSeek 与其他许多中国 AI 公司似乎相当不同,后者通常为政府生产产品或获得政府资金。在某种意义上,该公司可能一直处于“雷达之下”。现在它不再如此,它的创造力和活力是否会继续?我的理解是,我们现在看到的这些,远非表明中国模式能够超越更开放社会创新的决定性证据。
第三,这是否意味着美国通过出口管制和其他方法来遏制中国人工智能研究的方法已经失败?
我认为这个问题的答案仍然不清楚。DeepSeek 在旧版、性能较低的芯片上训练了他们的领先模型,包括 V3 和 R1。但他们可能需要最先进的芯片来实现下一步的突破和扩大规模。
我的理解是,对中国的完全零和博弈的方法是不可行的,也是一个错误。只有当你相信:我们正朝着 AGI 的方向发展;以及谁先达到 AGI,谁就会获得巨大的地缘政治优势时,这种做法才有意义。这两个假设可能都不成立(下面会更多地讨论 AGI)。如果这些假设不正确,那么美国和中国在许多领域都可以合作。例如,如果一个国家的创新模型能够提高人类生产力或帮助我们更好地管理能源,那么这些模型将对两国都有益,特别是当它们被广泛传播和使用的时候。
最后,DeepSeek 是否让我们更接近即将实现的 AGI?
该公司的理想也是 AGI。更便宜的训练模型和有效使用强化学习的模型可能改变游戏规则。但正如上面提到的,是已知的方法让这些模型的训练变得更便宜,并不会神奇地让我们在未来几年内实现 AGI。AGI 是否是一个可实现的目标?这仍然是一个开放性问题(而它是否是一个值得追求的目标则更加值得怀疑)。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |