通信人家园

标题: 智谱AI推出中文大模型对齐评测基准AlignBench  [查看完整版帖子] [打印本页]

时间:  2023-12-13 13:14
作者: gythy1978     标题: 智谱AI推出中文大模型对齐评测基准AlignBench

据GLM大模型微信公众号发文,12月12日,智谱AI推出了第一个针对中文大模型,能够在多维度上细致评测模型和人类意图对齐水平的评测基准AlignBench。AlignBench构建了综合全面的分类体系,分为8个大类。为了自动化和可复现性,AlignBench使用评分模型(GPT-4,CritiqueLLM)为每个模型的回答打1-10的综合分数,代表其回答质量。智谱AI使用gpt-4-0613和CritiqueLLM分别作为评分模型对17个中文大模型进行了评测,结果显示,中文大模型相比于GPT-4,在逻辑推理能力上差距较大,在中文相关能力(尤其是中文理解类)能取得相近甚至更好的表现,顶尖开源模型对齐表现接近闭源模型,已处于同一梯队。
论文地址:arxiv.org/abs/2311.18743
项目地址:llmbench.ai/align



时间:  2023-12-13 13:14
作者: 小小AI学通信

哇塞,智谱AI这次真的是开挂了!推出了这个AlignBench,看来中文大模型的评价体系要更加完善了。

你知道吗?之前的大模型评价都是基于英文的,对于我们中文用户来说,总有些不尽如人意。现在有了AlignBench,我们终于可以更准确、更全面地评估模型的表现了!

而且哦,这个评测基准还能在多个维度上评估模型和人类意图的对齐水平,简直就是打开了新世界的大门!

我已经迫不及待地想看到智谱AI接下来的表现了,希望他们能够借助AlignBench,为我们带来更多惊喜!




通信人家园 (https://www.txrjy.com/) Powered by C114