阿里发布通义千问2.5：一文带你读懂通义千问！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

一些结论

阿里云在AI智领者峰会上发布了通义千问2.5版本，并开源了1100亿参数模型Qwen1.5-110B。

通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上分别提升了9%、16%、19%、10%，官方号称“全面赶超 GPT-4”。

在目前最新的LMSYS Chatbot Arena Leaderboard排行榜中，Qwen-Max-0428目前位列第10名，Qwen1.5-110B-Chat则为第13名。第14名是GPT-4-0613。

小米的“小爱同学”宣布接入通义大模型，新东方、微博、众安保险和完美世界也与通义进行合作。

通义千问支持网页端、app，免费使用，地址见文末。

阿里一直是AI开源领域的“尖子生”。2024年5月9日，阿里云官方在AI智领者峰会中官宣了通义千问2.5版本，并开源了1100亿参数模型Qwen1.5-110B。

这不是阿里第一次升级通义千问。2023年4月，阿里正式发布通义千千问。当时国内AI大模型和AI工具均处于小荷才漏尖尖角的状态。国外的ChatGPT太耀眼了，尤其是GPT-4发布后，它的能力和表现更是令人震惊。于是，国内的AI玩家们开始发力中文大模型。2023年10月，阿里发布了通义千问2.0，当时号称“性能赶超GPT-3.5”。也是在这时，通义千问开始收获用户们的注意力。

有一说一，在国内一众AI对话工具里，通义千问的体验可以说是名列前茅的，奈何它太低调。我之前也写过一些测评文章，感兴趣的朋友可以翻回去看看。更加难能可贵的是，相比网红Kimi Chat，通义千问更加重视基础模型的能力，我一直认为，基础模型能力才是一款AI工具上限的决定性因素，而不是之前大家都在卷的上下文长度。毕竟当一个维度上涨到一定程度，它的作用是边际递减的，一般用户也用不到200万字的上下文。

关于通义千问2.5

对于这次的通义千问2.5版本，阿里官方的口号是“全面赶超 GPT-4”，并表示相比上一代2.1版本，2.5在理解能力、逻辑推理、指令遵循、代码能力上分别提升了9%、16%、19%、10%。注意，阿里官方的说法是，在中文语境下，文本理解、文本生成、知识问答、生活建议、闲聊、对话和安全风险等多项能力上赶超 GPT-4。但实际使用体验还需验证。

值得一提的是，阿里官方晒出了一张LLM排行榜的截图，图中GPT-4-Turbo-1106版本和Qwen-Max-0403并列第一名。排行榜来自于上海AI实验室推出的OpenCompass。

在最新的OpenCompass排行榜中，通义系列模型的排名有所回落，但依然处于第4和第5名。（来源：https://rank.opencompass.org.cn/home）

关于`Qwen1.5-110B`

这里有必要解释一下通义千问和Qwen模型之间的关系。首先，通义千问是阿里云推出的LLM模型的一个统称，模型分为闭源和开源两大类。闭源模型包括上面排行榜截图里的Qwen-Max-0403和Qwen-Max-0107等。开源模型则包括本次AI峰会提到的1100亿参数模型Qwen1.5-110B，以及小尺寸模型0.5B、1.8B、4B、7B、14B。而我们平时基于用户角度提到的“通义千问”则是指阿里官方基于通义闭源模型推出的免费的AI对话平台，类似于GPT系列模型和ChatGPT的关系。

阿里云CTO周靖人表示：“开发者的反馈和开源社区的生态支持，是通义大模型技术进步的重要助力。” 未来通义大模型还会持续开源。

通义大模型坚持开源战略，其开源的这些大模型也多次进入LLM模型排行榜前几名。我在《Claude 3 Opus超越GPT-4登顶LMSYS Leaderboard排行榜！通义大模型榜上有名！》一文中就提到过。在目前最新的LMSYS Chatbot Arena Leaderboard排行榜中，Qwen-Max-0428目前位列第10名，Qwen1.5-110B-Chat则为第13名，这在竞争极其激烈的AI大模型领域是非常不错的排名了。可以说，阿里把通义这个我国本土大模型做到了全球知名。