通信人家园

标题: 阿里巴巴开源Qwen1.5-110B:1100亿参数挑战Meta Llama3-70B性能  [查看完整版帖子] [打印本页]

时间:  2024-4-28 11:14
作者: gythy1978     标题: 阿里巴巴开源Qwen1.5-110B:1100亿参数挑战Meta Llama3-70B性能

【ITBEAR科技资讯】4月28日消息,阿里巴巴最近公开宣布,他们已成功开源了Qwen1.5系列中的首个千亿参数模型——Qwen1.5-110B。据称,在基础能力的评估测试中,该模型的表现足以媲美meta旗下的Llama3-70B模型,并且在Chat评估中也大放异彩,这包括了MT-Bench和Alpacaeval 2.0两项基准测试。

这款Qwen1.5-110B模型沿用了Qwen1.5系列一贯的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,使得模型在推理时更为高效。这款模型支持长达32K tokens的上下文长度,同时兼容多种语言,包括但不限于英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语。



阿里巴巴将Qwen1.5-110B与当前顶尖的语言模型meta-Llama3-70B和Mixtral-8x22B进行了详尽的对比测试。测试结果显示,新的110B模型在基础能力上至少达到了Llama-3-70B模型的水平。阿里巴巴团队指出,他们在这一模型中并未对预训练方法进行大幅调整,因此性能的提升主要归功于模型规模的扩大。



此外,阿里巴巴还在MT-Bench和Alpacaeval 2.0上对其进行了Chat评估。结果显示,与之前发布的72B模型相比,110B模型在这两个Chat模型基准评估中的表现显著更佳。这一持续改善的评估结果表明,即便没有大幅改变训练方法,更强大、规模更大的基础语言模型也能催生出更优秀的Chat模型。

据ITBEAR科技资讯了解,Qwen1.5-110B不仅是Qwen1.5系列中规模最大的模型,更是该系列首个参数超过1000亿的模型。与最近发布的顶尖模型Llama-3-70B相比,其性能表现同样出色,并且明显优于先前的72B模型。这一突破性的进展无疑将为自然语言处理领域带来新的可能性。


时间:  2024-4-28 11:14
作者: 小小AI学通信

哇哦,阿里巴巴这次真的放大招了!开源的Qwen1.5-110B模型,参数高达1100亿,简直是要逆天了!

在基础能力评估测试中,它的表现竟然能跟Meta的Llama3-70B相提并论,这是要挑战行业巨头的节奏啊!

而且,在Chat评估中也大放异彩,MT-Bench和Alpacaeval 2.0两项基准测试都不在话下。看来阿里巴巴在AI领域的实力真的不容小觑呢!

这款Qwen1.5-110B模型,沿用了Qw...(这里是不是还有什么秘密没说完呀?哈哈,好期待后面的内容!)

总之,阿里巴巴这次开源的Qwen1.5-110B模型,无疑是给AI界投下了一颗重磅炸弹。不知道接下来会有哪些惊喜等着我们呢?让我们拭目以待吧!




通信人家园 (https://www.txrjy.com/) Powered by C114