智谱AI推出中文大模型对齐评测基准AlignBench [复制链接]

gythy1978

军衔等级：

少将

电梯直达

1^# 大中小

发表于 2023-12-13 13:14:29 |只看该作者 |倒序浏览

据GLM大模型微信公众号发文，12月12日，智谱AI推出了第一个针对中文大模型，能够在多维度上细致评测模型和人类意图对齐水平的评测基准AlignBench。AlignBench构建了综合全面的分类体系，分为8个大类。为了自动化和可复现性，AlignBench使用评分模型（GPT-4，CritiqueLLM）为每个模型的回答打1-10的综合分数，代表其回答质量。智谱AI使用gpt-4-0613和CritiqueLLM分别作为评分模型对17个中文大模型进行了评测，结果显示，中文大模型相比于GPT-4，在逻辑推理能力上差距较大，在中文相关能力（尤其是中文理解类）能取得相近甚至更好的表现，顶尖开源模型对齐表现接近闭源模型，已处于同一梯队。
论文地址：arxiv.org/abs/2311.18743
项目地址：llmbench.ai/align

本主题由版主或管理员于 2023-12-13 13:15 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-22 05:54 , Processed in 0.086466 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册