一种基于机器的系统,出于明确或隐含的目标,而从收取的输入中推断如何生成输出,包括预测、内容、建议或者可能影响到物理或虚拟环境的决策。
经过长时间的审议和联合会议商讨,我们得出结论,最好是将训练数据定义为一种建议开放、而非强制开放的元素。
训练数据对于研究 AI 系统极具价值,包括理解模型已经习得的偏见,以及这些偏见可能对系统行为造成的影响。但训练并不是对现有 AI 系统进行修改的首选形式。这些数据中的见解和相关性已经被模型习得。
如果我们在开源 AI 定义中保留不公布数据这样一个缺口,无疑会损害“开源”这个定义的基本立场。虽然很多企业都希望能够收紧开源的约束范围,但我认为我们在这方面绝不能够妥协,哪怕这在起步阶段会影响到符合开源定义的 AI 系统数量。
某些非自由机器学习系统可能出于正当的道德理由而不发布训练数据,例如个人医疗数据。在这种情况下,我们仍会将整体应用程序称为非自由。但是,只要它能帮助用户完成对社会至关重要的专业工作,例如诊断疾病或者伤痛,那么在道德上就具备合理性。
直言不讳地讲:您在问题中提到了“源代码重新分发”,这也是令 Callway 等批评人士陷入思维陷阱的核心所在……
有些团队认为需要更多组件来保证开源 AI 的高透明度,也有一些人认为模型参数和架构就足以定义 AI。开源 AI 的定义由全球各利益相关方公开参与制定,他们在构建 AI 方面拥有深厚的专业知识,也意识到虽然各种方法各有合理性,但都达不到理想要求。OSAID 希望授权用户权利(以许可证的形式)和工具(以所需组件列表的形式),帮助他们以符合现实意义的方式参与 AI 系统的协作和创新(必要时亦可分叉)。我们并没有在原则上作出妥协,只是一路以来从真正的 AI 专家那里学到了很多新东西。
从本质上讲,目前围绕 AI 开源定义展开的讨论,就是在强行把一个二十多年前诞生的术语拖进 AI 时代,用以描述一种狭义资产,而不是真正涵盖一种全新的、更为复杂的未来工件集合。
应当涉及实质性的妥协,更重要的就是必须做出具体解释才能实践落地。但正如古老的政治谚语所说,“如果你的话需要解释,那你已经输了。”
通信人家园 (https://www.txrjy.com/) | Powered by C114 |