用复杂技术对这些数据进行统计分析,了解训练新的高级 AI 模型所需的工作量趋势。用一段话以及一张有启发性的图表总结你所做的事情和重要结论。[我在 CSV 文件中粘贴了一个海量数据集,里面包括了数百个模型的训练细节]
GPT-4o。ChatGPT 以及 Microsoft Copilot 背后用的就是这个模型。在当前所有的前沿模型中,其花哨功能最多,而且一直领先。该模型为多模态,可以处理语音、图像和文件(包括 PDF 和电子表格)数据,并可以生成代码。它还能够输出语音、文件和图像(用集成图像生成器 DALL-E3)。它还可以搜索web并通过代码解释器运行代码。跟其他使用语音的模型不同,GPT-4o 具备高级语音模式,功能要强大得多,因为该模型本身也在听说 - 其他模型用的是文本转语音技术,需要将语音转换为文本然后提供给模型,再由单独的程序读取模型的答案。如果你刚开始用 AI 的话,GPT-4o 是个不错的选择,它可能是大多数认真用 AI 的人至少在某些时候想要用的模型。
Claude 3.5 Sonnet。Sonnet 是一个非常聪明的第二第模型,特别擅长处理大量文本。它部分可算多模态,可以处理图像或文件(包括 PDF),可以输出文本或所谓的工件小程序(可以直接在应用内运行)。它不能生成图像或声音,不能轻松跑数据分析代码,且不连网。它的移动app相当不错,我现在写作最常用的模型就是它。事实上,我一般会在写完博客文章后要求它提供反馈(这篇文章的 FLOP 它就帮我想了一个描述的好主意)。
Gemini 1.5 Pro。这是谷歌最先进的模型。它部分属于多模态,因此可以处理语音、文本、文件或图像数据,并且还能够输出语音和图像(语音模式用文本转语音,而不是现在的原生多模态)。它有一个庞大的上下文窗口,因此可以处理大量数据,也可以处理视频。该模型还可以搜索网络并运行代码(但何时可以运行代码、何时不能运行代码未必总是很清楚)。这有点令人困惑,因为 Gemini web界面跑了多种模型,但你可以直接通过谷歌的 AI 工作室访问最强大的版本, Gemini 1.5 Pro Experimental 0827。