多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
论文链接:https://arxiv.org/pdf/2412.02611
项目地址:https://av-odyssey.github.io/
代码地址:https://github.com/AV-Odyssey/AV-Odyssey
通信人家园 (https://www.txrjy.com/) | Powered by C114 |