最终共得到 229 个真实场景下的任务,所有问题都隐含工具和步骤,并且包含多模态上下文输入。这些任务基于现实世界场景,目标明确且易于理解,完成任务对人类有帮助,但对于 AI 助手来说较为复杂。JSON 格式的数据示例可以在 Hugging Face 上找到。
模型评测
GTA 在两种模式下评估语言模型:
逐步模式 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下,ground truth 工具链的前 n 步作为 prompt,模型预测第 n + 1 步的操作。在逐步模式下,设计四个指标:InstAcc(指令遵循准确率)、ToolAcc(工具选择准确率)、ArgAcc(参数预测准确率)和 SummAcc(答案总结准确率)。