R1在数学上也开始崭露头角。英国牛津大学的数学家、计算科学家Frieder Simon让这两个模型给出泛函分析这一抽象领域的一个证明,发现R1的证明比o1的更好。但考虑到这类模型通常会犯的错误,如果想要从这些模型中获益,研究人员本身就要具备鉴别证明水平的能力,他说。
能在本地系统下载并部署R1也是个加分项 ,Sun说,因为这样科研人员就能掌控他们的数据和研究结果。“对于涉及敏感和隐私数据的学科来说,比如医学研究,这一点尤其重要。”
推理跨越
DeepSeek通过将它的“推理”能力教授给其他大语言模型(LLM)——如Meta的Llama——创建了这个蒸馏模型。DeepSeek在1月22日在arXiv上发布的预印本论文[1]揭示了这背后的方法:用整理好的来自DeepSeek-R1的80万个逐步式“思维链”回答的样本训练这些大语言模型。
科研人员还在应用“强化学习”——用来创建DeepSeek-R1的试、错、赏技术——但打磨它在特定任务上的应用,Lu说。Lu去年联合创建了“AI Scientist”,这是一个能完成一整套机器学习科研任务的模型,从扫描文献到创建假说再到撰写论文。通过定义适当的“奖赏信号”,科学家能朝着任何目标训练这个模型,他说。
但DeepSeek-R1还远谈不上完美。对话机器人DeepThink在o1等大语言模型会“碰壁”的简单任务上也失败了,这类问题包括统计名字中含字母W的美国州的数量。Lu说:“也许有的人认为这个模型能把水变成酒,这只是炒作,但对于其实际能力来说,它确实是最棒的。”