那我们来增强一些神经元试试。这里我们在 Monitor 中输入「Strawberry as a string made of several English letters(将 Strawberry 看作是一个由英语字母构成的字符串)」作为搜索条件,定位到了 50 个相关神经元,这里我们直接全部增强它们。
为了让描述不那么啰嗦,该团队还使用了少量样本作为提示词,让 GPT-4o-mini 对每个神经元生成更简洁的描述,并将其展示给用户和 AI linter(AI linter 对较短的输入会处理得更好)。
前端设计
Monitor 的界面主要这几个功能。首先可以点击模型回答中的 token,查看更多详细信息,比如每个输出 token 的概率。左侧的窗口中也显示了 AI linter 分析的模型出错的原因,用户可以通过调整参数(如 k 和 λ)来控制引导操作的影响范围和强度。
<p algn="center">
用户可以根据自己的需要,通过点击高级选项来调整 k 的数值(也就是他们想要影响的神经元数量)和 λ 的数值(也就是影响的程度)。他们还可以查看被选为引导集的神经元示例,并决定他们想要影响的特定的 token 子集。如果没有特别指定,系统默认会影响初始系统和用户提示中的所有 token。
当然,用户也可以点击单个神经元,了解每个神经元的具体详情。
用户还可以选择要引导的标记子集,并查看引导集中的示例神经元。
前端中最复杂的部分是右上角的 AI 助理显示。这个地方能为用户提供最相关的信息,包括有关界面状态和 AI linter 显示的信息。未来,这将成为一个通用接口,用户可以从 AI 后端请求和接收信息。
Transluce:创建世界一流的工具来理解 AI 系统
人类很难理解人工智能系统,因为它们庞大且不透明。Transluce 的目标是创建世界一流的工具来理解 AI 系统,并使用这些工具来推动可信赖 AI 的行业标准。2024 年 7 月,Transluce 成立;2024 年 10 月 24 日,也就是今天,该公司正式官宣。
公司的创始团队如下:
其中,联合创始人 Jacob Steinhardt 是加州大学伯克利分校助理教授,2018 年在斯坦福大学取得博士学位,师从斯坦福大学计算机科学副教授 Percy Liang。他的 Google Scholar 被引量高达 20000+。
另一位联合创始人 Sarah Schwettmann 是 MIT 计算机科学与人工智能实验室(CSAIL)的研究科学家,2021 年 8 月在 MIT 拿到大脑与认知科学博士学位。
公司的顾问团队非常豪华,集齐了 Yoshua Bengio、Percy Liang 在内的多位 AI 大牛。
总的来看,Transluce 现阶段是一个非营利性研究实验室,致力于构建开源、可扩展的技术,以理解 AI 系统并引导它们服务于公共利益。
为了建立对 AI 系统能力和风险分析的信任,这些工具必须是可扩展和开放的:
可扩展性:AI 系统涉及多个复杂数据流的交互,包括训练数据、内部表示、行为和用户交互。现有的理解 AI 的方法依赖于人类研究者的大量手动工作。Transluce 致力于开发可扩展的方法,利用 AI 来协助理解,通过训练 AI 智能体来理解这些复杂的数据源,向人类解释它们,并根据人类反馈修改数据。
开放性:构建 AI 系统的公司不能成为其安全性的主要仲裁者,因为这与商业优先级存在利益冲突。为了允许有意义的公众监督,审计 AI 系统的工具和流程应该是公开验证的,能够响应公众反馈,并且对第三方评估者开放。这样,全球最优秀的人才可以审查这项技术并提高其可靠性。
Transluce 致力于解决这些需求。他们将构建 AI 驱动的技术来理解和分析 AI 系统,并将其开源发布,以便社区能够理解并在此基础上进行构建。他们将首先把这项技术应用于公开分析前沿开放权重的 AI 系统,以便全世界可以审查他们的分析并提高其可靠性。一旦他们的技术经过公开审查,他们将与前沿 AI 实验室和政府合作,确保内部评估达到与公共最佳实践相同的标准。
Transluce 已经发布了第一个里程碑 —— 一套 AI 驱动的工具,用于自动理解大型语言模型的表示和行为。这些工具可以扩展到从 Llama-3.1 8B 到 GPT-4o 和 Claude 3.5 Sonnet 的模型范围,并将开源发布,供社区进一步开发。他们的方法包括创建 AI 驱动的工具,将巨大的计算能力用于解释这些复杂的系统。他们通过三种演示来展示这一愿景: