Rewar Model的输出（不包含训练）

Rewar Model的输出（不包含训练）

news/2025/1/4 17:16:00/文章来源:https://blog.csdn.net/weixin_43883448/article/details/143823760

这里写自定义目录标题

介绍
模型推理的输出过程方案
- 原始Token输出
- RM输出（回归任务）

介绍

奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法，模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练，但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出，以补充资料的缺乏。RM通常采用Llama-7B模型，本文也沿用这一模型，同时模型的推理计算过程作为已知的知识，只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程，再讲解RM的输出。以作为对比更好的学习。

模型推理的输出过程方案

原始Token输出

预训练语言模型（如LLaMA、GPT等）的默认任务是语言建模，它们的输出是针对每个token的概率分布（即词汇表中的每个词的概率）
在这里插入图片描述
注，W矩阵在llama-7b中是lm_head.weight

RM输出（回归任务）

写在前面：回归任务就不需要原始Token输出中的logits矩阵的计算（即图中H*W+B的部分）和softmax的计算。

处理每个token的隐藏状态以生成全局表示
隐藏状态的介绍：

1）平均池化（Mean Pooling）

2）最大池化（Max Pooling）
回归任务输出分数：

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/473240.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【操作系统实验课】Makefile与编译

【操作系统实验课】Makefile与编译

1. 创建项目结构 my_project 使用mkdir命令在根目录下创建项目my_project sudo mkdir /my_project 进入my_project目录 cd my_project src 在my_project目录下创建src子目录 sudo mkdir src 进入src目录 cd src root（根用户）切换用户身份为root（根用户） root用户…

阅读更多...

【H3C华三】VRRP与BFD、Track联动配置案例

【H3C华三】VRRP与BFD、Track联动配置案例

原创厦门微思网络组网需求如图1所示，区域A和区域B用户所在网络的出口处部署了两台汇聚层设备（Device A和Device B）。现要求使用VRRP与BFD、Track联动功能，实现以下需求： • 在Device A和Device B上分别配置两个…

阅读更多...

LeetCode --- 143周赛

LeetCode --- 143周赛

题目列表 3345. 最小可整除数位乘积 I 3346. 执行操作后元素的最高频率 I 3347. 执行操作后元素的最高频率 II 3348. 最小可整除数位乘积 II 一、最小可整除数位成绩I 由于本题的数据范围比较小，我们直接暴力枚举即可，代码如下 class Solution { p…

阅读更多...

从建立TRUST到实现FAIR：可持续海洋经济的数据管理

从建立TRUST到实现FAIR：可持续海洋经济的数据管理

1. 引言随着我们对信息管理方式的信任，我们的社会对数字化数据的以来呈指数级增长。为了跟上大数据的需求，通过不断的努力和持续实践，对“good”数据管理方式的共识也在不断发展和演变。加拿大正在建设国家基础设施和服务以及研究数据管理…

阅读更多...

微服务即时通讯系统的实现（客户端）----（2）

微服务即时通讯系统的实现（客户端）----（2）

目录 1. 将protobuf引入项目当中2. 前后端交互接口定义2.1 核心PB类2.2 HTTP接口定义2.3 websocket接口定义 3. 核心数据结构和PB之间的转换4. 设计数据中心DataCenter类5. 网络通信5.1 定义NetClient类5.2 引入HTTP5.3 引入websocket 6. 小结7. 搭建测试服务器7.1 创建项目7.2…

阅读更多...

SpringBoot集成itext导出PDF

SpringBoot集成itext导出PDF

添加依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.11</version></dependency><dependency><groupId>com.itextpdf</groupId>&l…

阅读更多...

[ACTF2020]Upload 1--详细解析

[ACTF2020]Upload 1--详细解析

信息收集题目告诉我们是一道upload，也就是文件上传漏洞题目。进入界面，是一个灯泡，将鼠标放在图标上就会出现文件上传的相应位置： 思路文件上传漏洞，先看看有没有前端校验。在js源码中找到了前端校验&#xff…

阅读更多...

针对股票评论的情感分类器

针对股票评论的情感分类器

🏡作者主页：点击！ 🤖编程探索专栏：点击！ ⏰️创作时间：2024年11月16日13点39分神秘男子影, 秘而不宣藏。泣意深不见, 男子自持重, 子夜独自沉。论文链接点击开启你的论文编程之旅…

阅读更多...

大数据-226 离线数仓 - Flume 优化配置自定义拦截器拦截原理了拦截器实现 Java

大数据-226 离线数仓 - Flume 优化配置自定义拦截器拦截原理了拦截器实现 Java

点一下关注吧！！！非常感谢！！持续更新！！！ Java篇开始了！ 目前开始更新 MyBatis，一起深入浅出！ 目前已经更新到了： Hadoop&#xff0…

阅读更多...

【工具插件类教学】在 Unity 中使用 iTextSharp 实现 PDF 文件生成与导出

【工具插件类教学】在 Unity 中使用 iTextSharp 实现 PDF 文件生成与导出

目录一、准备工作 1. 安装 iTextSharp 2. 准备资源文件二、创建 ExportPDFTool 脚本 1、初始化 PDF 文件，设置字体 2、添加标题、内容、表格和图片三、使用工具类生成 PDF 四、源码地址在 Unity 项目中，我们有时会需要生成带有文本、表格和图片的 PDF 文件，以便…

阅读更多...

【Node.js】使用 Node.js 需要了解多少 JavaScript？

【Node.js】使用 Node.js 需要了解多少 JavaScript？

在现代开发中，Node.js 已经成为了构建高性能、可扩展的服务器端应用的必备工具。作为一个基于 JavaScript 的运行时环境，Node.js 使得开发者能够使用同一种语言来编写前后端代码，这在全栈开发中尤为重要。那么，使用 Node.js 开发时…

阅读更多...

GRE做题笔记（零散的个人经验）

GRE做题笔记（零散的个人经验）

locomotive机车By 1813, the Luddite resistance had all but vanished. all but表示“几乎完全”的程度，或者表示排除piston活塞attributed to 归因于how a sportsperson accounted for their own experience of stress 运动员如何解释自己的压力经历 ，…

阅读更多...

Android OpenGL ES详解——实例化

Android OpenGL ES详解——实例化

目录一、实例化 1、背景 2、概念实例化、实例数量 gl_InstanceID 应用举例二、实例化数组 1、概念 2、应用举例三、应用举例——小行星带 1、不使用实例化 2、使用实例化四、总结一、实例化 1、背景假如你有一个有许多模型的场景，而这些模型的…

阅读更多...

Python3.11.9+selenium，选择证书用多线程+键盘enter解决

Python3.11.9+selenium，选择证书用多线程+键盘enter解决

Python3.11.9+selenium，选择证书用多线程+键盘enter解决 1、遇到问题：弹出证书选择，无法点击确定 import pyautogui pyautogui.press(enter) 键盘enter也无法点击 2、解决办法：用多线程解决同时执行click链接和Enter点击证书的确定 1、点击操作 # # 通过文本链接文本…

阅读更多...

[Android]相关属性功能的裁剪

[Android]相关属性功能的裁剪

1.将home界面的search bar 移除 /src/com/android/launcher3/graphics/LauncherPreviewRenderer.java // Add first page QSBif (FeatureFlags.QSB_ON_FIRST_SCREEN) {CellLayout firstScreen mWorkspaceScreens.get(FIRST_SCREEN_ID);View qsb mHomeElementInflater.infla…

阅读更多...

linux笔记（防火墙）

linux笔记（防火墙）

一、概述防火墙的作用在 Linux 系统中，防火墙用于控制进出系统的网络流量，基于预定义的安全规则允许或拒绝数据包，从而保护系统免受未经授权的访问、恶意攻击，并确保网络服务的安全运行。二、常见的 Linux 防火墙软件 iptabl…

阅读更多...

WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇

WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇

WebRTC视频 01 - 视频采集整体架构 WebRTC视频 02 - 视频采集类 VideoCaptureModule [WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇]（本文） WebRTC视频 04 - 视频采集类 VideoCaptureDS 中篇 WebRTC视频 05 - 视频采集类 VideoCaptureDS 下篇一、前…

阅读更多...

高光谱深度学习调研

高光谱深度学习调研

综述高光谱深度学习只有小综述，没有大综述。小综述里面场景分类、目标检测的综述比较多。 Wang C, Liu B, Liu L, et al. A review of deep learning used in the hyperspectral image analysis for agriculture[J]. Artificial Intelligence Review, 2021, 54(7)…

阅读更多...

计算机视觉 1-8章 (硕士)

计算机视觉 1-8章 (硕士)

文章目录零、前言1.先行课程：python、深度学习、数字图像处理2.查文献3.环境安装第一章：概论1.计算机视觉的概念2.机器学习第二章：图像处理相关基础1.图像的概念2.图像处理3.滤波器4.卷积神经网络CNN5.图像的多层表示：图像金字…

阅读更多...

24-Ingest Pipeline Painless Script

24-Ingest Pipeline Painless Script

将文档中的tags字段按照逗号（,）分隔符进行分割。同时为文档，增加一个字段。blog查看量 DELETE tech_blogs#Blog数据，包含3个字段，tags用逗号间隔 PUT tech_blogs/_doc/1 {"title":"Introducing big …

阅读更多...

最新文章

推荐文章