Qwen2 系列大型语言模型

Qwen2 系列大型语言模型

news/2024/11/14 12:09:28/文章来源:https://blog.csdn.net/m0_53291740/article/details/143722074

模型概述

开发者：阿里巴巴集团。
训练数据语言：包含英语、中文等 29 种语言。

模型参数规模

有 0.5B、1.5B、7B、72B 四种参数规模版本。
其中 0.5B 版本参数为 494M，量化后大小为 352MB，采用 Q4_0 量化方式，模型架构为 qwen2，其系统和提示模板有特定格式（如 <|im_start|>system {{.System }}<|im_end|> {{ if.Prompt }}<|im_start|>user 等），停止词为 ["<|im_start|>", "<|im_end|>"]。

模型特性

7B 和 72B 模型的上下文长度扩展到 128k tokens，0.5B 和 1.5B 模型上下文长度为 32K。
0.5B 和 1.5B 版本的一些参数特性如 GQA 为 True、Tie Embedding 为 True，7B 和 72B 版本在某些参数特性上有所不同（如 Tie Embedding 为 False）。

支持语言（除英语和中文外）

西欧：德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语。
东欧和中欧：俄语、捷克语、波兰语。
中东：阿拉伯语、波斯语、希伯来语、土耳其语。
东亚：日语、韩语。
东南亚：越南语、泰语、印度尼西亚语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语。
南亚：印地语、孟加拉语、乌尔都语。

性能表现（部分对比）

在 MMLU、MMLU-Pro、GPQA 等测试中与其他模型（如 Llama3-70B、Mixtral-8x22B、Qwen1.5-110B 等）有不同表现，例如 Qwen2-72B 在 MMLU 测试中达到 84.2，在 MMLU-Pro 测试中达到 55.6，在 GPQA 测试中达到 37.9 等（详细对比数据见网页表格）。

许可证

除 Qwen2 72B（包括 instruct 和 base 模型）外，其他模型均采用 Apache 2.0 许可证，Qwen2 72B 模型使用原始的 Qianwen 许可证。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/469929.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

综合案例铁锅炖（CSS项目大杂烩）

综合案例铁锅炖（CSS项目大杂烩）

小工具：snipaste 全世界最好用的截图工具来了 Snipaste是一个强大简单的截图工具，方便的点就在于可以把截图贴回屏幕上常用快捷方式有这些： 1.F1截图，同时测量大小，设置箭头，文字书写 2.F3在桌面置顶显示…

阅读更多...

稀疏视角CBCT重建的几何感知衰减学习|文献速递-基于深度学习的病灶分割与数据超分辨率

稀疏视角CBCT重建的几何感知衰减学习|文献速递-基于深度学习的病灶分割与数据超分辨率

Title 题目 Geometry-Aware Attenuation Learning forSparse-View CBCT Reconstruction 稀疏视角CBCT重建的几何感知衰减学习 01 文献速递介绍稀疏视角锥形束计算机断层扫描（CBCT）重建的几何感知学习方法锥形束计算机断层扫描（CBCT&a…

阅读更多...

河南省的一级科技查新机构有哪些？

河南省的一级科技查新机构有哪些？

科技查新，简称查新，是指权威机构对查新项目的新颖性作出文献评价的情报咨询服务。这一服务在科研立项、成果鉴定、项目申报等方面发挥着至关重要的作用。河南省作为中国的重要科技和教育基地，拥有多个一级科技查新机构，为本省及全…

阅读更多...

https网站请求http图片报错：net::ERR_SSL_PROTOCOL_ERROR

https网站请求http图片报错：net::ERR_SSL_PROTOCOL_ERROR

问题描述场景： https网站，请求http图片资源报错：net::ERR_SSL_PROTOCOL_ERROR 原因： Chrome 81 中，对混合内容资源加载策略进行了改变，会自动升级到 https:// ，如果无法通过 https:// 加载&am…

阅读更多...

$【机器学习】机器学习中用到的高等数学知识-3.微积分 (Calculus)$

【机器学习】机器学习中用到的高等数学知识-3.微积分 (Calculus)

3. 微积分 (Calculus) 导数和梯度：用于优化算法（如梯度下降）中计算损失函数的最小值。偏导数：在多变量函数中优化目标函数。链式法则：在反向传播算法中用于计算神经网络的梯度。导数和梯度：用于优化算法…

阅读更多...

华为大咖说 | 浅谈智能运维技术

华为大咖说 | 浅谈智能运维技术

本文分享自华为云社区：华为大咖说 | 浅谈智能运维技术-云社区-华为云本文作者：李文轩 （ 华为智能运维专家 ） 全文约2695字，阅读约需8分钟在大数据、人工智能等新兴技术的加持下，智能运维（AI…

阅读更多...

WebStorm 如何调试 Vue 项目

WebStorm 如何调试 Vue 项目

前言在日常开发和各种教程中，最常见的 debug 方式就是在代码中插入 console.log 语句，然后在 Chrome 控制台中查看日志。显而易见，插入console.log 的效率不高，那是否有更高效的 debug 方式呢？断点调试允许开发者在代…

阅读更多...

【循环神经网络】

【循环神经网络】

循环神经网络（Recurrent Neural Network, RNN）是一类用于处理序列数据的神经网络，擅长处理具有时间依赖或顺序结构的数据。RNN通过循环连接的结构，使得当前时刻的输出可以受之前时刻信息的影响，因此被广泛应用于自然语…

阅读更多...

sqoop import将Oracle数据加载至hive，数据量变少，只能导入一个mapper的数据量

sqoop import将Oracle数据加载至hive，数据量变少，只能导入一个mapper的数据量

sqoop脚本如下： sqoop import -D mapred.job.queue.namehighway \ -D mapreduce.map.memory.mb4096 \ -D mapreduce.map.java.opts-Xmx3072m \ --connect "jdbc:oracle:thin://1.2.3.4.5:61521/LZY2" \ --username root \ --password 123456 \ --query &…

阅读更多...

低功耗WTK6900P语音ic方案助力电子烟技术革新打造个性化吸烟体验

低功耗WTK6900P语音ic方案助力电子烟技术革新打造个性化吸烟体验

在这个科技日新月异的时代，每一个细节的创新都是对传统的一次超越。今天，我们自豪地宣布一项革命性的融合——将先进的频谱技术与电子烟相结合，通过WTK6900P芯片的卓越性能，为您开启前所未有的个性化吸烟体验。这不仅是一次技术的…

阅读更多...

《基于深度学习的车辆行驶三维环境双目感知方法研究》

《基于深度学习的车辆行驶三维环境双目感知方法研究》

复原论文思路： 《基于深度学习的车辆行驶三维环境双目感知方法研究》 1、双目测距的原理按照上述公式算的话，求d的话，只和xl-xr有关系，这样一来，是不是只要两张图像上一个测试点的像素位置确定，对应的深…

阅读更多...

Chromium 中sqlite数据库操作演示c++

Chromium 中sqlite数据库操作演示c++

本文主要演示sqlite数据库增删改查创建数据库以及数据库表的基本操作，仅供学习参考。一、sqlite数据库操作类封装： sql\database.h sql\database.cc // Copyright 2012 The Chromium Authors // Use of this source code is governed by a BSD-sty…

阅读更多...

Qt初识简单使用Qt

Qt初识简单使用Qt

使用C代码实现hello world 之前介绍过用图形化界面的方式创建hello world，这里我们使用C代码的方式再来实现一次hello world。如上，首先要先包含一个头文件。在QT这里，每一个类都有一个对应的同名头文件。比如这里我就包含了 <QLabel&…

阅读更多...

高效运维：构建全面监控与自动化管理体系

高效运维：构建全面监控与自动化管理体系

在当今数字化时代，企业IT系统的稳定运行直接关系到业务的连续性和竞争力。运维团队作为保障系统稳定运行的中坚力量，面临着前所未有的挑战。随着云计算、大数据、物联网等技术的快速发展，系统架构日益复杂，运维工作也从传统的被动…

阅读更多...

Docker网络和overlay的基础讲解

Docker网络和overlay的基础讲解

本人发现了两篇写的不错的文章：Docker网络 - docker network详解-CSDN博客，Docker 容器跨主机通信 overlay_docker overlay 网络-CSDN博客因为这两篇文章中含有大量的例子，新手看起来毫不费力。于是我偷了个小懒，在本篇文章中没有…

阅读更多...

C++开发基础之使用librabbitmq库实现RabbitMQ消息队列通信

C++开发基础之使用librabbitmq库实现RabbitMQ消息队列通信

1. 前言 RabbitMQ是一个流行的开源消息队列系统，支持多种消息协议，广泛用于构建分布式系统和微服务架构。可以在不同应用程序之间实现异步消息传递。在本文中，我们将熟悉如何使用C与RabbitMQ进行消息通信。 2. 准备工作在 Windows 平台上…

阅读更多...

vue elementui el-dropdown-item设置@click无效的解决方案

vue elementui el-dropdown-item设置@click无效的解决方案

如图，直接在el-dropdown-item上面设置click，相应的method并没有被触发，查找资料发现需要在它的上级 el-dropdown 处使用 command 方法触发。【template】 <el-dropdown placement"bottom-end" command"handleCommand&quo…

阅读更多...

使用docker-compose单点搭建社区版seafile+onlyoffice在线word编辑平台

使用docker-compose单点搭建社区版seafile+onlyoffice在线word编辑平台

文章目录前言一、平台介绍1. seafile平台介绍2. onlyoffice平台介绍二、版本信息三、基础信息准备1.docker配置文件2.准备目录四、onlyoffice部署五、seafile平台部署1.准备seafile.yaml文件2.运行平台六、双平台对接总结前言记录使用docker-compose单点搭建社区版seafi…

阅读更多...

游戏引擎学习第七天

游戏引擎学习第七天

视频参考:https://www.bilibili.com/video/BV1QFmhYcE69 ERROR_DEVICE_NOT_CONNECTED 是一个错误代码，通常在调用 XInputGetState 或 XInputSetState 函数时返回，表示指定的设备未连接。通常会出现以下几种情况： 未连接控制器：如…

阅读更多...

计算机的错误计算（一百五十二）

计算机的错误计算（一百五十二）

摘要探讨 MATLAB 中双曲正弦函数 sinh(x)与双曲余弦函数 cosh(x)的计算精度问题。例1. 已知计算以及直接贴图吧： 另外，16或17位的正确值分别为 0.5168712762709208e1、0.52645599648397069e1、0.2140244217618104e247 与 0.2140244217…

阅读更多...

最新文章

推荐文章