AI技术快讯：清华开源ChatGLM2双语对话语言模型

AI技术快讯：清华开源ChatGLM2双语对话语言模型

news/2024/12/24 8:15:27/文章来源:https://blog.csdn.net/weixin_41194129/article/details/132031361

在这里插入图片描述

ChatGLM2-6B是一个开源项目，提供了ChatGLM2-6B模型的代码和资源。根据提供的搜索结果，以下是对该项目的介绍：

论文：https://arxiv.org/pdf/2103.10360.pdf
在这里插入图片描述

ChatGLM2-6B是一个开源的双语对话语言模型，是ChatGLM-6B模型的第二代版本。它保留了初代模型的对话流畅和部署门槛较低的特点，并引入了一些新的特性和改进。

ChatGLM2-6B具有以下特点和功能：

更强大的性能：ChatGLM2-6B使用了GLM的混合目标函数，并经过了大规模的预训练和人类偏好对齐训练。评测结果显示，在多个数据集上，ChatGLM2-6B相比初代模型在性能上有了显著的提升，具有较强的竞争力。

更长的上下文：通过引入FlashAttention技术，ChatGLM2-6B将基座模型的上下文长度从ChatGLM-6B的2K扩展到了32K，并在对话阶段使用8K的上下文长度进行训练。这使得ChatGLM2-6B能够处理更长的上下文信息。

更高效的推理：基于Multi-Query Attention技术，ChatGLM2-6B具有更高效的推理速度和更低的显存占用。在官方的模型实现下，ChatGLM2-6B相比初代模型的推理速度提升了42%，并且在INT4量化下，6G显存支持的对话长度从1K提升到了8K。

开放的协议：ChatGLM2-6B的权重对学术研究完全开放，并且在填写问卷进行登记后，也允许免费商业使用。

源码：https://github.com/THUDM/ChatGLM2-6B

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/76695.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ICCV 2023 | 半监督三维目标检测新SOTA：密集匹配和量化补偿

ICCV 2023 | 半监督三维目标检测新SOTA：密集匹配和量化补偿

论文链接：https://arxiv.org/abs/2304.13031 开源代码仓库地址：https://github.com/AIR-DISCOVER/DQS3D 方法效果对比图：有效在半监督情况下处理临近小物体 01. 简介本文旨在解决三维室内场景中高昂的标注成本问题，特别关注半监…

阅读更多...

设备管理系统与物联网的融合：实现智能化设备监控和维护

设备管理系统与物联网的融合：实现智能化设备监控和维护

在数字化时代，设备管理系统和物联网技术的融合为工业企业带来了巨大的变革和创新。本文将探讨设备管理系统与物联网的融合，重点介绍设备健康管理平台在实现智能化设备监控和维护方面的关键作用和优势。一、设备管理系统与物联网的融合随着物联网技术的…

阅读更多...

Linux笔记1（系统状态等）

Linux笔记1（系统状态等）

man命令： man name: man section name: man -k regexp: 在 Linux 中，man 命令用于查看命令、函数或配置文件等的手册页，提供了详细的帮助文档。man 是 "manual" 的缩写。man 命令的用法如下： man [选项] [命令名]例如&…

阅读更多...

html学习3(表格table、列表list)

html学习3(表格table、列表list)

1、html表格由<table>标签来定义。 <thead>用来定义表格的标题部分，其内部用 <th > 元素定义列的标题，可以使其在表格中以粗体显示，与普通单元格区分开来。<tbody>用来定义表格的主体部分，其内部用<t…

阅读更多...

【云原生】Kubernetes中deployment是什么？

【云原生】Kubernetes中deployment是什么？

目录 Deployments 更新 Deployment 回滚 Deployment 缩放 Deployment Deployment 状态清理策略金丝雀部署编写 Deployment 规约 Deployments 一个 Deployment 为 Pod 和 ReplicaSet 提供声明式的更新能力。你负责描述 Deployment 中的目标状态，而 De…

阅读更多...

STM32 DMA

STM32 DMA

DMA介绍 DMA，Direct Memory Access，即直接存储器访问。 DMA传输，将数据从一个地址空间复制到另一个地址空间。（内存（程序里定义的数组）->外设（串口、SPI等外设的数据寄存器）、外…

阅读更多...

【学习笔记】生成式AI（ChatGPT原理，大型语言模型）

【学习笔记】生成式AI（ChatGPT原理，大型语言模型）

ChatGPT原理剖析语言模型文字接龙 ChatGPT在测试阶段是不联网的。 ChatGPT背后的关键技术：预训练（Pre-train） 又叫自监督式学习（Self-supervised Learning），得到的模型叫做基石模型（Founda…

阅读更多...

【小沐学NLP】在线AI绘画网站（网易云课堂：AI绘画工坊）

【小沐学NLP】在线AI绘画网站（网易云课堂：AI绘画工坊）

文章目录 1、简介1.1 参与方式1.2 模型简介 2、使用费用3、操作步骤3.1 选择模型3.2 输入提示词3.3 调整参数3.4 图片生成 4、测试例子4.1 小狗4.2 蜘蛛侠4.3 人物4.4 龙猫结语 1、简介 Stable Diffusion是一种强大的图像生成AI，它可以根据输入的文字描述词&#…

阅读更多...

软件为什么要进行性能压力测试？

软件为什么要进行性能压力测试？

软件为什么要进行性能压力测试？随着软件应用的不断增多和复杂度的提高，软件的性能对用户体验和业务成功至关重要。性能问题可能导致软件运行缓慢、崩溃或无响应，给用户带来不便甚至损失。为了确保软件能够在高负载和压力下正常运行&#xff0…

阅读更多...

ElasticSearch学习之ElasticSearch快速入门实战

ElasticSearch学习之ElasticSearch快速入门实战

1.先“分词” 2.倒排索引（前提是分词） ElasticSearch官网地址：欢迎来到 Elastic — Elasticsearch 和 Kibana 的开发者 | Elastichttps://www.elastic.co/cn/ 一、下载下载地址：https://www.elastic.co/cn/downloads/past-re…

阅读更多...

安全基础 --- 编码（02）+ form表单实现交互

安全基础 --- 编码（02）+ form表单实现交互

浏览器解析机制和XSS向量编码 <!-- javascript伪协议不能被urlcode编码，但可以被html实体编码:也是js协议的一部分，不能被编码js协议被解码后，URL解析器继续解析链接剩下的部分unicode编码可识别实现解码但符号不能被编码，编码…

阅读更多...

zookeeper集群和kafka的相关概念就部署

zookeeper集群和kafka的相关概念就部署

目录一、Zookeeper概述 1、Zookeeper 定义 2、Zookeeper 工作机制 3、Zookeeper 特点 4、Zookeeper 数据结构 5、Zookeeper 应用场景 （1）统一命名服务 （2）统一配置管理 （3）统一集群管理 （4&a…

阅读更多...

Rust中的高吞吐量流处理

Rust中的高吞吐量流处理

本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库，还使用这些库实现了一个流处理程序。最后，作者介绍了如何通过测量空闲和阻塞时间来优化流处理程序的性能，并将这些内容同步至…

阅读更多...

锂电池充电/保护IC ：TP4056 1A线性锂离子电池充电器（DW01A /FS8205A）

锂电池充电/保护IC ：TP4056 1A线性锂离子电池充电器（DW01A /FS8205A）

1. TP4056 概述 TP4056是一款性能优异的单节锂离子电池恒流/恒压线性充电器。TP4056采用ESOP8封装配合较少的外围原件使其非常适用于便携式产品，并且适合给USB电源以及适配器电源供电。基于特殊的内部MOSFET架构以及防倒充电路，TP4056不需要外接检测电…

阅读更多...

git仓库与本地暂存区的同步问题

git仓库与本地暂存区的同步问题

向下同步对于远程仓库的项目，初始化一个配置文件，配置远程仓库及相关信息，赋值远程仓库的地址，使用git pull命令即可拉取仓库代码。 git pull [remote_addr] 该部分完成向下同步向上同步向上同步时会遇到很多的问题&#xf…

阅读更多...

Django使用用户列表的展示和添加

Django使用用户列表的展示和添加

接着上一篇：https://blog.csdn.net/javascript_good/article/details/132027702 来实现用户表的查询和添加 1、创建数据库表在models.py 中，增加UserInfo类，包括字段姓名、密码、年龄、账号余额、入职时间、所属部门、性别 verbose_name 就…

阅读更多...

Docker部署Springboot应用【mysql部署+jar部署+Nginx部署】

Docker部署Springboot应用【mysql部署+jar部署+Nginx部署】

【项目达到目标】 1.基本准备 2、mysql部署 3、jar部署 4、Nginx部署一、基本准备石工拿的就是之前放置在我们服务器上的应用进行部署，主要就是mysql和jar还有Vue的部署。目前已经有的是jar、已经打包好的vue 二、mysql部署 docker run -d --name mysql \ …

阅读更多...

Tensorrt 原生Activate 算子讲解

Tensorrt 原生Activate 算子讲解

Tensorrt operators docs： Activation Apply an activation function on an input tensor A and produce an output tensor B with the same dimensions. import numpy as np from cuda import cudart import tensorrt as trt # 输入张量 NCHW nIn, cIn, hIn, wI…

阅读更多...

嵌入式开发学习（STC51-12-I2C/IIC）

嵌入式开发学习（STC51-12-I2C/IIC）

内容在数码管右3位显示数字，从0开始，按K1键将数据写入到EEPROM内保存，按K2键读取EEPROM内保存的数据，按K3键显示数据加1，按K4键显示数据清零，最大能写入的数据是255； I2C介绍 I2C简介 I2C&…

阅读更多...

Android 9-- 源码角度： Home键的监听和拦截

Android 9-- 源码角度： Home键的监听和拦截

在做应用层APP需求的过程中，HOME键的监听，Back键的监听，这都是很常见的问题，那你有试过，去拦截HOME键的事件吗，有去了解过如何处理吗，流程如何首先大家应该先了解一种情况，就是Andr…

阅读更多...

最新文章

推荐文章