在这一背景下,我们看到,模型正在朝“更大”和“更小”两个方向并进。 一方面,大模型的规模不断扩大,持续拓展 AI 能力的边界,不仅表现出强大的通用性,还推动了复杂任务的创新解法;另一方面,通过高质量数据训练小尺寸基座模型,并结合微调与蒸馏等技术手段,可以在特定领域和任务上实现媲美大模型的表现,同时在性能和功耗上具备显著优势。这些进展大大扩展了语言模型的应用可能性。
其次,Scaling Law 被赋予了更多内涵。今年9月,OpenAI发布的o1模型以优异的推理能力和在数学编程领域的出色表现引发关注,同时推动了系统1 和系统2的讨论。合成数据正成为突破口。例如,初创公司Cosine 在8月推出的合成数据训练模型Genie,在SWE-Bench上以显著优势超越了现有系统。