模型概述
- 开发者:阿里巴巴集团。
- 训练数据语言:包含英语、中文等 29 种语言。
模型参数规模
- 有 0.5B、1.5B、7B、72B 四种参数规模版本。
- 其中 0.5B 版本参数为 494M,量化后大小为 352MB,采用 Q4_0 量化方式,模型架构为 qwen2,其系统和提示模板有特定格式(如 <|im_start|>system {{.System }}<|im_end|> {{ if.Prompt }}<|im_start|>user 等),停止词为 ["<|im_start|>", "<|im_end|>"]。
模型特性
- 7B 和 72B 模型的上下文长度扩展到 128k tokens,0.5B 和 1.5B 模型上下文长度为 32K。
- 0.5B 和 1.5B 版本的一些参数特性如 GQA 为 True、Tie Embedding 为 True,7B 和 72B 版本在某些参数特性上有所不同(如 Tie Embedding 为 False)。
支持语言(除英语和中文外)
- 西欧:德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语。
- 东欧和中欧:俄语、捷克语、波兰语。
- 中东:阿拉伯语、波斯语、希伯来语、土耳其语。
- 东亚:日语、韩语。
- 东南亚:越南语、泰语、印度尼西亚语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语。
- 南亚:印地语、孟加拉语、乌尔都语。
性能表现(部分对比)
- 在 MMLU、MMLU-Pro、GPQA 等测试中与其他模型(如 Llama3-70B、Mixtral-8x22B、Qwen1.5-110B 等)有不同表现,例如 Qwen2-72B 在 MMLU 测试中达到 84.2,在 MMLU-Pro 测试中达到 55.6,在 GPQA 测试中达到 37.9 等(详细对比数据见网页表格)。
许可证
- 除 Qwen2 72B(包括 instruct 和 base 模型)外,其他模型均采用 Apache 2.0 许可证,Qwen2 72B 模型使用原始的 Qianwen 许可证。