Qwen1.5系列发布！1100亿级别参数水平究竟如何？

近期开源社区陆续出现了千亿参数规模以上的大模型，这些模型都在各项评测中取得杰出的成绩。而25日Qwen团队也终于推出了属于他们的开源1100亿参数的Qwen1.5系列。Qwen1.5采用了Transformer解码器架构。它包含了分组查询注意力（GQA），这能让它模型推理时更加高效。该模型支持32K tokens的上下文长度，同时它还支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

厚德云

720人浏览 · 2024-04-28 10:59:20

厚德云 · 2024-04-28 10:59:20 发布

Qwen1.5系列的首个千亿参数开源模型

前言

近期开源社区陆续出现了千亿参数规模以上的大模型，这些模型都在各项评测中取得杰出的成绩。而25日Qwen团队也终于推出了属于他们的开源1100亿参数的Qwen1.5系列。

Qwen1.5采用了Transformer解码器架构。它包含了分组查询注意力（GQA），这能让它模型推理时更加高效。该模型支持32K tokens的上下文长度，同时它还支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

数据评估

从官网给出的数据来看，新的Qwen系列中的110B模型在基础能力方面至少与Llama-3-70B模型相媲美。在这个模型中，Qwen并没有对预训练的方法进行大幅改变，因此官方也认为与72B相比的性能提升主要来自于增加模型规模。

值得一提的是，Gwen团队还在MT-Bench和AlpacaEval 2.0上进行了Chat评估。与之前发布的72B模型相比，在两个Chat模型的基准评估中，110B表现显著更好。评估结果的持续改善表明，即使在没有大幅改变后训练方法的情况下，更强大、更大规模的基础语言模型也可以带来更好的Chat模型。