通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2015-1-2880
跳转到指定楼层
1#
发表于 2024-2-1 14:40:46 |只看该作者 |倒序浏览
智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。

该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。



通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。

CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。

项目地址:https://github.com/FlagOpen/CMMU

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-23 17:41 , Processed in 0.116294 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部