查看: 555|回复: 1

Scaling Law要失效了？Ilya曝自家创企采用替代方法，称行业回归“发现”阶 [复制链接]

tayun

军衔等级：

三级军士长

注册：2015-11-14 点赞数

1

电梯直达

1^# 大中小

发表于 2024-11-12 23:43:43 |只看该作者 |倒序浏览

智东西
编译汪越
编辑 Panken

智东西11月12日消息，据路透社今日报道，OpenAI前联合创始人、现Safe Superintelligence（SSI）实验室创始人Ilya Sutskever告诉路透社，随着预训练阶段的模型性能逐渐停滞，行业正重新进入一个“发现和探索”的新阶段。Sutskever透露，SSI正在研究一种替代方法来扩大预训练。

今年9月，OpenAI的推理模型o1采用了“推理时间计算”（test-time compute）技术，这一技术使模型在实际使用时能够进行更复杂的推理和决策。业界逐渐转向通过改进推理技术来提升AI性能，这一趋势变化将对未来AI芯片和基础设施需求带来变化。OpenAI拒绝就此事发表评论。

一、规模扩展阶段已过，SSI、OpenAI等探索新扩展方式

过去几年中，科技公司纷纷通过增加数据量和计算能力来“扩展”大语言模型（LLM），以期获得更优的AI性能。然而，这种“规模越大越好”的理念正遭遇实际应用中的瓶颈与挑战。Sutskever谈道，2010年代是AI“规模化”的时代，但随着预训练阶段的模型性能逐渐停滞，行业正重新进入一个“发现和探索”的新阶段。

Sutskever提到的“预训练”阶段是指使用大量未标注数据训练AI模型，使其能够理解语言模式与结构。他谈道，这一阶段的性能增长已经趋于平缓，这意味着单靠增加计算力和数据量已不再足以推动重大突破。SSI正探索一种新的扩展方式，以期跳脱传统的规模扩展限制。

OpenAI最近推出的o1模型采用了“推理时间计算”技术。与传统的预训练不同，推理时间计算是在模型实际使用时（即“推理”阶段）进行的改进。当模型面临复杂的任务，如数学运算或编程问题时，它能够实时生成和评估多种解答路径，从而选出最佳解决方案，这一过程更加接近人类的多步骤思维。

OpenAI研究员Noam Brown在TEDAI大会上说，o1模型的这种方式相当高效：仅需20秒的推理时间便能提升模型性能，效果相当于对模型进行10万倍的扩展和更长时间的训练。通过这种技术，o1模型在特定任务上表现出色，特别是在需要复杂决策的场景下。

o1模型还基于专家数据和反馈进行额外的训练。相比于仅依赖数据量的扩展，这种方法更注重模型的精细化训练，使其能够更接近人类推理。此外，OpenAI表示计划将此方法应用到更大规模的基础模型上。

二、“推理时间计算”技术应对高成本与资源限制

据知情人士透露，主要AI实验室的研究人员在竞相发布超越OpenAI的GPT-4模型的大语言模型时，遇到了延迟，并且结果令人失望。大型模型的“训练运行”成本高昂，往往需要数千万美元以及大量的计算芯片资源。另外，由于系统的复杂性，这些训练运行更容易出现硬件故障。此外，模型的最终性能表现往往要经过数月的训练才能评估完成，这一过程对硬件和能源需求极大。

另一个问题是，训练大语言模型消耗了大量的数据，AI模型已经耗尽了所有容易获取的数据资源。电力短缺也阻碍了训练运行，因为整个训练过程需要大量的能量。

为了克服这些挑战，研究人员正在探索推理时间计算技术，这种方法可以减少对昂贵数据和计算资源的需求，转而提升模型实际应用时的灵活性。

与此同时，据知情人士透露，来自谷歌DeepMind、美国AI大模型独角兽Anthropic以及马斯克旗下大模型独角兽xAI等其他主要AI实验室的研究人员也在开发类似技术，以应对训练过程中的延迟和不理想的结果。谷歌和xAI没有回应置评请求，Anthropic也没有立即置评。

三、硬件需求从训练芯片转向推理芯片

AI模型推理阶段的优化可能会改变AI硬件的竞争格局。从红杉资本到Andreessen Horowitz等著名的风险投资人投入了数十亿美元，为包括OpenAI和xAI在内的多个AI实验室昂贵的AI模型开发提供资金，他们正在注意到这一转变，并权衡其对他们昂贵赌注的影响。

红杉资本合伙人Sonya Huang谈道，由于推理时间计算技术的应用需求增加，未来AI行业可能更侧重于“推理云”而非传统的“训练集群”。

传统的训练过程对英伟达的高端AI芯片需求极大，这使得英伟达的公司估值快速增长，并在10月一度超越苹果。但是，与此前占据主导地位的训练芯片不同，芯片巨头英伟达在推理市场可能面临更多竞争。

当被问及对其产品需求可能产生的影响时，英伟达创始人兼CEO黄仁勋谈道，随着推理技术的需求增多，公司也在增加Blackwell等新一代芯片的推理应用能力，以应对这类需求的增长。

结语：行业向精细化、推理优化方向发展

OpenAI推出的o1模型，通过采用“推理时间计算”技术，使AI系统能够在“推理”阶段进行多步骤思维，从而更接近人类的决策方式。这标志着AI行业从单纯追求模型规模扩展向更为精细化、推理优化的方向发展。

对于行业而言，这一变化不仅影响模型的设计和开发，还将重塑AI硬件和基础设施的需求结构。未来，AI公司或将更加注重推理阶段的性能提升，转向“推理云”的分布式计算架构。这意味着，英伟达等芯片供应商也需要适应市场需求的变化，加强芯片推理应用能力的研发。

来源：路透社

来源：网易

本主题由版主或管理员于 2024-11-12 23:46 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-21 23:36 , Processed in 0.133229 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册