本周,人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。
值得关注的是在此机制下,一直以来开源大模型的标杆 Llama 3 也不符合本规则。
长期以来,OSI 一直为开源软件的构成设定行业标准,但人工智能系统包含传统许可未涵盖的元素,例如模型训练数据。现在,要使 AI 系统被视为真正的开源系统,它必须提供:
可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建;
用于构建和运行 AI 的完整代码;
训练中的设置和权重,帮助 AI 产生相应的结果。
这一定义直接直击 Meta 推动的 Llama 大模型。虽然在生成式 AI 领域里,Llama 一直被广泛宣传为最大的开源 AI 模型,Llama 的使用条款中支持公众下载和使用,但其商业用途受到一定限制(对于拥有超过 7 亿用户的应用程序),且不提供对训练数据的访问,这导致其不符合 OSI 的无限制使用、修改和共享自由标准。
对此,Meta 发言人 Faith Eischen 对此表示,虽然「在很多事情上都同意合作伙伴 OSI 的观点」,但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义,人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。
不过,无论技术的定义如何,Meta 表示仍将继续与 OSI 和其他行业组织合作,以负责任的方式推动 AI 朝着可访问和免费的方向发展。
在「开源」这件事上,非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表,其定义的开源包括十余个关键条款,如自由再分发、源代码可获得、允许修改和衍生作品等。自 1998 年定义「开源」标签并成立以来,OSI 对开源软件的定义已被开发人员广泛接受。