LLM：reward-model-deberta-v3-large-v2模型结构

LLM：reward-model-deberta-v3-large-v2模型结构

news/2025/1/12 10:54:05/文章来源:https://blog.csdn.net/qq_43814415/article/details/143119527

https://hf-mirror.com/OpenAssistant/reward-model-deberta-v3-large-v2是在做合成数据的质量打分时的奖励模型。

模型依托deberta-v3-large-v2编码模型，给定一个qa对，能够给出一个分数来衡量qa对的质量。没有公开训练细节，由于模型的输出层是一个线性层且没有激活函数，输出的原始分数（logits）可以是任何实数，范围从负无穷到正无穷。一般删掉小于0的样本。

模型结构如下：

DebertaV2ForSequenceClassification((deberta): DebertaV2Model((embeddings): DebertaV2Embeddings((word_embeddings): Embedding(128100, 1024, padding_idx=0)(LayerNorm): LayerNorm((1024,), eps=1e-07, elementwise_affine=True)(dropout): StableDropout())(encoder): DebertaV2Encoder((layer): ModuleList((0-23): 24 x DebertaV2Layer((attention): DebertaV2Attention((self): DisentangledSelfAttention((query_proj): Linear(in_features=1024, out_features=1024, bias=True)(key_proj): Linear(in_features=1024, out_features=1024, bias=True)(value_proj): Linear(in_features=1024, out_features=1024, bias=True)(pos_dropout): StableDropout()(dropout): StableDropout())(output): DebertaV2SelfOutput((dense): Linear(in_features=1024, out_features=1024, bias=True)(LayerNorm): LayerNorm((1024,), eps=1e-07, elementwise_affine=True)(dropout): StableDropout()))(intermediate): DebertaV2Intermediate((dense): Linear(in_features=1024, out_features=4096, bias=True)(intermediate_act_fn): GELUActivation())(output): DebertaV2Output((dense): Linear(in_features=4096, out_features=1024, bias=True)(LayerNorm): LayerNorm((1024,), eps=1e-07, elementwise_affine=True)(dropout): StableDropout())))(rel_embeddings): Embedding(512, 1024)(LayerNorm): LayerNorm((1024,), eps=1e-07, elementwise_affine=True)))(pooler): ContextPooler((dense): Linear(in_features=1024, out_features=1024, bias=True)(dropout): StableDropout())(classifier): Linear(in_features=1024, out_features=1, bias=True)(dropout): StableDropout()
)

可以看到是用DebertaV2为嵌入层和编码层（24个），然后加了池化层和分类层。
DebertaV2Model：核心的预训练语言模型部分，包括嵌入层和编码器。Embeddings（嵌入层）。Encoder（编码器）
Pooler（池化层）：用于提取句子的整体表示。
Classifier（分类器）：用于最终的分类任务。

DeBERTa系列模型的优化点

相比于BERT，提出了解耦注意力、RTD、增强的掩码解码器、梯度解耦嵌入共享、多语言。

解耦注意力机制（Disentangled Attention）

DeBERTa引入了解耦注意力机制，将每个输入词的内容和位置分别用两个独立的向量表示。这样，在计算注意力权重时，可以分别考虑内容和相对位置，而不需要同时考虑内容和绝对位置。
在这里插入图片描述

增强的掩码解码器（Enhanced Mask Decoder）

在掩码语言建模（MLM）的解码层中添加了上下文词的绝对位置信息，从而改进了MLM的效果。

替换令牌检测（Replaced Token Detection, RTD）

DeBERTaV3采用了ELECTRA中的RTD任务来替代传统的MLM任务。RTD任务使用一个生成器来生成模糊的替换词，并使用一个判别器来区分原始词和替换词。

梯度解耦嵌入共享（Gradient-Disentangled Embedding Sharing, GDES）

在这里插入图片描述

多语言

使用CC100多语言数据集进行预训练

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/453644.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

llama.cpp 去掉打印，只显示推理结果

llama.cpp 去掉打印，只显示推理结果

llama.cpp 去掉打印，只显示推理结果 1 llama.cpp/common/log.h #define LOG_INF(...) LOG_TMPL(GGML_LOG_LEVEL_INFO, 0, __VA_ARGS__) #define LOG_WRN(...) LOG_TMPL(GGML_LOG_LEVEL_WARN, 0, __VA_ARGS__) #define LOG_ERR(…

阅读更多...

基于微信小程序的电影交流平台

基于微信小程序的电影交流平台

作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：…

阅读更多...

毕业设计选题：基于Hadoop的热点新闻分析系统的设计与实现

毕业设计选题：基于Hadoop的热点新闻分析系统的设计与实现

开发语言：Python框架：djangoPython版本：python3.7.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm 系统展示管理员登录管理员功能界面用户管理新闻类型管理主题标签管理热点新闻管理新闻…

阅读更多...

回归预测|时序预测|基于灰狼优化时域卷积TCN结合Transformer的多特征输入单输出的回归预测和多维时序预测Matlab程序

回归预测|时序预测|基于灰狼优化时域卷积TCN结合Transformer的多特征输入单输出的回归预测和多维时序预测Matlab程序

回归预测|时序预测|基于灰狼优化时域卷积TCN结合Transformer的多特征输入单输出的回归预测和多维时序预测Matlab程序文章目录一、基本原理一、基本概念二、原理和流程三、优势与应用四、总结二、实验结果三、核心代码四、代码获取五、总结回归预测|时序预测|基于灰狼优化时…

阅读更多...

深度学习--CNN实现猫狗识别二分类(附带下载链接, 长期有效)

1. 代码实现(包含流程解释) 样本量: 8005 # # 1.导入数据集(加载图片)数据预处理# 进行图像增强, 通过对图像的旋转 ,缩放,剪切变换, 翻转, 平移等一系列操作来生成新样本, 进而增加样本容量, # 同时对图片数值进行归一化[0:1] from tensorflow.keras.preprocessing.image …

阅读更多...

ADC在STM32F1系列的使用详解

ADC在STM32F1系列的使用详解

目录 1. ADC简介 2. 逐次逼近型ADC（ADC0809） 3. ADC框图（STM32） 4. ADC基本结构 5. 输入通道 6. 转换模式 6.1 单次转换 6.1.1 非扫描模式 6.1.2 扫描模式 6.2 连续转换 6.2.1 非扫描模式 6.2.2 扫描模式…

阅读更多...

计算机网络—静态路由

计算机网络—静态路由

1.0 网络拓扑结构星型拓扑结构是一个中心，多个分节点。它结构简单，连接方便，管理和维护都相对容易，而且扩展性强。网络延迟时间较小，传输误差低。中心无故障，一般网络没问题。中心故障，网络就出…

阅读更多...

Android 内存优化——常见内存泄露及优化方案

Android 内存优化——常见内存泄露及优化方案

看到了一篇关于内存泄漏的文章后，就想着分享给大家，最后一起学习，一起进步： 如果一个无用对象（不需要再使用的对象）仍然被其他对象持有引用，造成该对象无法被系统回收，以致该对象在…

阅读更多...

汽车开发流程管理工具赋能安全与质量

汽车开发流程管理工具赋能安全与质量

随着数字化、人工智能、自动化系统及物联网技术的迅速发展，工程驱动型企业正面临重大转型挑战，亟需加速并深化其变革步伐。众多企业正试图通过采用基于模型的系统工程(MBSE)、产品线工程(PLE)、ASPICE、安全、网络安全、软件定义汽车、敏捷和精益开发实践…

阅读更多...

漏洞挖掘JS构造新手向

漏洞挖掘JS构造新手向

前置思路文章 JS逆向混淆前端对抗油猴JS逆向插件 JS加解密之mitmproxy工具联动Burp JS挖掘基础伪协议 JavaScript伪协议是一种在浏览器中模拟网络请求的方法。它使用window.XMLHttpRequest对象或fetch()方法来模拟发送HTTP请求，而不是通过实际的网络请求来获…

阅读更多...

最牛4G模组展示文件系统如何存储温湿度数据，有手就会还不牛？

最牛4G模组展示文件系统如何存储温湿度数据，有手就会还不牛？

有手就会的保姆级流程，展示大家常用的低功耗模组实用功能。 1.编写脚本 1.1 准备资料 780E开发板购买链接 780E开发板设计资料 LuatOS-Air780E-文件系统的使用-程序源码demo 合宙的TCP/UDP测试服务器 API使用介绍 780E开发板和DHT11 1.2 程序详解第一步&a…

阅读更多...

【C++ 算法进阶】算法提升五

【C++ 算法进阶】算法提升五

先序遍历改二叉搜索树 （二叉树的递归套路） 题目本题为LC原题目题目如下题目分析本题为一道经典的二叉树递归套路题目我们只需要想好一个递归函数之后让左右节点分别执行即可我们这里想到的递归函数为 TreeNode* process(vector<int>&a…

阅读更多...

asp.net core mvc发布时输出视图文件Views

asp.net core mvc发布时输出视图文件Views

var builder WebApplication.CreateBuilder(args); builder.Services.AddRazorPages();builder.Services.AddControllersWithViews(ops > {//全局异常过滤器，注册ops.Filters.Add<ExceptionFilter>(); })// Views视图文件输出到发布目录，视图文…

阅读更多...

【yolov8旋转框检测】微调yolov8-obb目标检测模型：数据集制作和训练

【yolov8旋转框检测】微调yolov8-obb目标检测模型：数据集制作和训练

一、开发环境的准备 1.1 安装roLabelImg 参考【目标检测—旋转框标注】roLabelImg安装与使用文章的介绍，完成roLabelImg的安装。 1.2 Yolov8开发环境的准备首先创建python虚拟环境，pip install ultralytics 来进行安装。二、数据集准备流程&…

阅读更多...

FairGuard游戏加固全面适配纯血鸿蒙NEXT

FairGuard游戏加固全面适配纯血鸿蒙NEXT

2024年10月8日，华为正式宣布其原生鸿蒙操作系统 HarmonyOS NEXT 进入公测阶段，标志着其自有生态构建的重要里程碑。作为游戏安全领域领先的第三方服务商，FairGuard游戏加固在早期就加入了鸿蒙生态的开发，基于多项独家技术与十余年…

阅读更多...

数据库权限提升GetShell

数据库权限提升GetShell

数据库提权总结 - 随风kali - 博客园 (cnblogs.com) MySQL 漏洞利用与提权 | 国光 (sqlsec.com) sql注入getshell的几种方式第99天：权限提升-数据库提权&口令获取&MYSQL&MSSQL&Oracle&MSF SQL注入拿shell的方式应该是通用的得到连接数据库…

阅读更多...

未来AI的学习能力会达到怎样的水平？

未来AI的学习能力会达到怎样的水平？

大家好，我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具，拥抱AI时代的到来。 AI工具集1：大厂AI工具【共2…

阅读更多...

微软运用欺骗性策略大规模打击网络钓鱼活动

微软运用欺骗性策略大规模打击网络钓鱼活动

微软正在利用欺骗性策略来打击网络钓鱼行为者，方法是通过访问 Azure 生成外形逼真的蜜罐租户，引诱网络犯罪分子进入以收集有关他们的情报。利用收集到的数据，微软可以绘制恶意基础设施地图，深入了解复杂的网络钓鱼操作&#xff…

阅读更多...

Verilog基础：层次化标识符的使用

Verilog基础：层次化标识符的使用

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 一、前言 Verilog HDL中的标识符(identifier)是一个为了引用而给一个Verilog对象起的名字，分为两大类：普通标识符大类和层次化标识符大类。…

阅读更多...

监控易监测对象及指标之：Kafka中间件JMX监控指标解读

监控易监测对象及指标之：Kafka中间件JMX监控指标解读

监控易作为一款功能强大的监控软件，旨在为企业提供全方位的IT系统监控服务。其中，针对Kafka中间件的JMX监控是监控易的重要功能之一。本文将详细解读监控易中Kafka的JMX监控指标，帮助企业更好地理解并运用这些数据进行系统性能调优和故障排查…

阅读更多...

最新文章

推荐文章