在传统的 ML 工作流程中,开发诸如自然语言处理 (NLP) 分类器之类的解决方案涉及:获取训练数据(可能包括手动标记)、准备数据、训练和微调模型、评估性能、部署、监控和维护系统。此过程通常需要数月时间,并且需要大量资源进行开发和持续维护。
相比之下,使用 GenAI,工作流程简化:选择合适的大型语言模型 (LLM)、快速工程或快速迭代、离线评估,并使用 API 将模型集成到生产中。这缩短了从构思到部署的时间,通常只需几周而不是几个月。此外,大部分维护负担由 LLM 提供商管理,进一步降低了运营成本和复杂性。
因此,GenAI 可以快速测试想法并证明其价值,而无需收集标记数据或投资培训和部署内部模型。一旦价值得到证明,ML 团队可能会决定转向传统 ML 解决方案以降低成本或延迟,同时可能利用来自初始 GenAI 系统的标记数据。同样,许多公司现在在价值得到证明后转向小型语言模型 (SML),因为它们可以进行微调和更轻松地部署,同时实现与 LLM 相当或更优异的性能。
在其他情况下,最佳解决方案将 GenAI 和传统 ML 结合到混合系统中,充分利用两者的优势。一个很好的例子是 “使用大型语言模型构建 DoorDash 的产品知识图谱”,其中他们解释了如何将传统 ML 模型与 LLM 一起使用来改进分类任务,例如标记产品品牌。当传统 ML 模型无法更好地对某些事物进行分类时,就会使用 LLM,如果 LLM 能够做到这一点,那么就会使用新的注释重新训练传统 ML 模型。
无论哪种方式,ML 团队都将继续致力于传统的 ML 解决方案、微调和部署预测模型,同时承认 GenAI 如何帮助提高解决方案的速度和质量。
毋庸置疑,数据科学和人工智能领域正在快速变化,数据科学家和机器学习团队的角色也随之发生变化。虽然 GenAI API 确实可以让缺乏 ML 知识的团队实施 AI 解决方案,但 DS 和 ML 团队的专业知识对于稳健、可靠和合乎道德的解决方案仍然具有重要价值。在这种新背景下,数据科学家的角色重新定义包括: