『大模型笔记』评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

『大模型笔记』评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

news/2024/12/28 2:45:59/文章来源:https://blog.csdn.net/abc13526222160/article/details/144733881

评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

文章目录

一. ELO Rating
- 大模型的elo得分如何理解
- - 1. Elo评分的基本原理
  - 2. 示例说明
  - 3. 大模型中的Elo得分
  - 总结
- 3个模型之间如何比较计算，给出示例进行解释
- - 1. 基本原理扩展到三方
  - 2. 示例计算
  - 第一场： $A$ 对战 $B$
  - 第二场： $A$ 对战 $C$
  - 第三场： $B$ 对战 $C$
  - 3. 最终 Elo 得分
  - 4. 总结
- ELO评分的局限性
二. BLEU (Bilingual Evaluation Understudy，双语评估替代)
- - **BLEU计算步骤概述**
  - **详细解释**
  - - **1. n-gram匹配**
    - **2. 计算精确度（Precision）**
    - **3. 平均精确度（Precision Average）**
    - **4. 长度惩罚（Brevity Penalty, BP）**
    - **5. BLEU得分计算**
  - **示例**
  - **总结**
三. 困惑度(Perplexity)
- - **困惑度（Perplexity）的详细解释**
  - **1. 困惑度的定义**
  - - **公式中的符号解释**：
  - **2. 困惑度的直观理解**
  - **3. 计算困惑度的步骤**
  - **4. 困惑度的意义**
  - **5. 总结**
四. 交叉熵(Cross Entropy)
- - **交叉熵（Cross Entropy）详细解释**
  - **1. 交叉熵的定义公式**
  - **2. 交叉熵的作用**
  - **3. 示例计算**
  - **4. 在语言模型中的应用**
  - **5. 优化目标：最小化交叉熵**
  - **6. 交叉熵与困惑度的关系**
  - **总结**
三. 参考文献

ELO Rating, BLEU, Perplexity and Cross Entropy
ELO评分提供了一种动态和相对的LLM性能衡量标准，允许在模型进行训练和微调时进行持续评估和排名。聊天机器人领域使用ELO评分来促进LLM对战，并维护最有效模型的排行榜。

在这里插入图片描述

一. ELO Rating

大模型的elo得分如何理解

Elo得分是一个用于评估棋手或参与者相对能力的评分系统，最初由匈牙利裔美国人阿尔帕德·厄尔&#x

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/496369.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

MySQL基础-常见的增删改查操作语句总结

MySQL基础-常见的增删改查操作语句总结

1.数据库操作查看所有数据库 show databases;创建数据库 create database db_stu; --如果数据库已经存在就不创建 create database if not exists db_stu; --添加默认字符集 create database db_stu default charset utf8mb4;删除数据库 drop database db_stu; --如果存在…

阅读更多...

模拟——郑益慧_笔记1_绪论

模拟——郑益慧_笔记1_绪论

B站视频链接模电是数电的基础；参考书： 模拟电子技术基础（第四版）华成英、童诗白主编，高等教育出版社；电子技术基础模拟部分康华光主编，高等教育出版社； 电子技术的发展史电子…

阅读更多...

【Ubuntu 20.4安装截图软件 flameshot 】

【Ubuntu 20.4安装截图软件 flameshot 】

步骤一： 安装命令： sudo apt-get install flameshot 步骤二： 设置快捷方式： Ubuntu20.4 设置菜单，点击号步骤三： 输入软件名称， 软件快捷命令（flameshot gui）&am…

阅读更多...

WordPress源码解析-数据库表结构

WordPress源码解析-数据库表结构

WordPress是一个功能强大的内容管理系统，它使用MySQL数据库来存储和管理网站的内容、用户和配置信息。作为WordPress开发者，了解WordPress数据库的结构和各表的作用至关重要，因为这将帮助您更好地开发插件和主题，以及执行高级数据…

阅读更多...

Java中使用四叶天动态代理IP构建ip代理池，实现httpClient和Jsoup代理ip爬虫

Java中使用四叶天动态代理IP构建ip代理池，实现httpClient和Jsoup代理ip爬虫

在本次爬虫项目中，关于应用IP代理池方面，具体完成以下功能： 从指定API地址提取IP到ip池中（一次提取的IP数量可以自定义更改） 每次开始爬虫前（多条爬虫线程并发执行），从ip池中获取一…

阅读更多...

Python机器学习笔记（十三、k均值聚类）

Python机器学习笔记（十三、k均值聚类）

聚类（clustering）是将数据集划分成组的任务，这些组叫作簇（cluster）。其目标是划分数据，使得一个簇内的数据点非常相似且不同簇内的数据点非常不同。与分类算法类似，聚类算法为每个数据点分配&am…

阅读更多...

KNN分类算法 HNUST【数据分析技术】(2025)

KNN分类算法 HNUST【数据分析技术】(2025)

1.理论知识 KNN（K-Nearest Neighbor）算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类，也能用于回归。KNN通过测量不同特征值之间的距离来进行分类。 KNN算法的思想： 对于任意n维输入向量，分别对应于特征…

阅读更多...

宝塔-firefox(Docker应用)-构建自己的Web浏览器

宝塔-firefox(Docker应用)-构建自己的Web浏览器

安装基础软件宝塔中安装firefox(Docker应用) 。宝塔中需要先安装docker及docker-composefirefox配置安装点击firefox应用，选择【安装配置】点击右边绿色按钮，进行安装，这一步等待docker-compose根据你的配置初始化docker应用等待安装 …

阅读更多...

如何从 0 到 1 ，打造全新一代分布式数据架构

如何从 0 到 1 ，打造全新一代分布式数据架构

导读：本文从 DIKW（数据、信息、知识、智慧） 模型视角出发，探讨数字世界中数据的重要性问题。接着站在业务视角，讨论了在不断满足业务诉求（特别是 AI 需求）的过程中，数据系统是如何一…

阅读更多...

Docker部署GitLab服务器

Docker部署GitLab服务器

一、GitLab介绍 1.1 GitLab简介 GitLab 是一款基于 Git 的开源代码托管平台，集成了版本控制、代码审查、问题跟踪、持续集成与持续交付（CI/CD）等多种功能，旨在为团队提供一站式的项目管理解决方案。借助 GitLab，开发…

阅读更多...

芯片Tapeout power signoff 之IR Drop Redhawk Ploc文件格式及其意义

芯片Tapeout power signoff 之IR Drop Redhawk Ploc文件格式及其意义

数字IC后端工程师在芯片流程最后阶段都会使用redhawk或voltus进行设计的IR Drop功耗signoff分析。必须确保静态，动态ir drop都符合signoff标准。在做redhawk ir drop分析前，我们需要提供一个redhawk ploc供电点坐标。数字IC设计后端实现前期预防IR D…

阅读更多...

HarmonyOS NEXT 实战之元服务：静态案例效果---查看国内航班服务

HarmonyOS NEXT 实战之元服务：静态案例效果---查看国内航班服务

背景： 前几篇学习了元服务，后面几期就让我们开发简单的元服务吧，里面丰富的内容大家自己加，本期案例仅供参考先上本期效果图 ，里面图片自行替换效果图1完整代码案例如下： Index代码 import { authen…

阅读更多...

python+requests接口自动化测试框架实例详解

python+requests接口自动化测试框架实例详解

前段时间由于公司测试方向的转型，由原来的web页面功能测试转变成接口测试，之前大多都是手工进行，利用postman和jmeter进行的接口测试，后来，组内有人讲原先web自动化的测试框架移驾成接口的自动化框架，使用的…

阅读更多...

前端：改变鼠标点击物体的颜色

前端：改变鼠标点击物体的颜色

需求： 需要改变图片中某一物体的颜色，该物体是纯色； 鼠标点击哪个物体，哪个物体的颜色变为指定的颜色，利用canvas实现。演示案例代码Demo <!DOCTYPE html> <html lang"en"><head>&l…

阅读更多...

聊一聊 C#前台线程如何阻塞程序退出

聊一聊 C#前台线程如何阻塞程序退出

一：背景 1. 讲故事这篇文章起源于我的 C#内功修炼训练营里的一位朋友提的问题：后台线程的内部是如何运转的 ? ，犹记得C# Via CLR这本书中 Jeffery 就聊到了他曾经给别人解决一个程序无法退出的bug，最后发现是有一个 Backgrond…

阅读更多...

Nmap基础入门及常用命令汇总

Nmap基础入门及常用命令汇总

Nmap基础入门免责声明：本文单纯分享技术，请大家使用过程中遵守法律法规~ 介绍及安装 nmap是网络扫描和主机检测的工具。作为一个渗透测试人员，必不可少的就是获取信息。那么nmap就是我们从互联网上获取信息的途径，我们可以扫描互…

阅读更多...

Excel中一次查询返回多列

Excel中一次查询返回多列

使用Excel或wps的时候，有时候需要一次查询返回多列内容，这种情况可以选择多次vlookup或者多次xlookup，但是这种做法费时费力不说，效率还有些低下，特别是要查询的列数过多时。我放了3种查询方法，效果图&…

阅读更多...

NodeMCU驱动28BYJ-48型步进电机（Arduino）

NodeMCU驱动28BYJ-48型步进电机（Arduino）

NodeMCU NodeMCU开发板此NodeMCU是在乐鑫公司（Espressif Systems）生产的ESP-12F模组的基础上封装好的具备WiFi功能的开源IoT开发板。本次选用安信可公司（Ai-Thinker）生产的CP2102版本的开发板。 28BYJ-48型步进电机 28BYJ-48型…

阅读更多...

qt QZipReader详解

qt QZipReader详解

1、概述 QZipReader 是 Qt 中用于从 .zip 文件中读取和提取文件内容的类。它提供了便捷的方法来访问压缩包中的文件和目录，并允许你解压缩单个或多个文件。通过 QZipReader，你可以以编程方式读取 .zip 文件中的内容，并提取它们到目标目录中。…

阅读更多...

html + css 淘宝网实战

html + css 淘宝网实战

之前有小伙伴说，淘宝那么牛逼你会写代码，能帮我做一个一样的淘宝网站吗，好呀，看我接下来如何给你做一个淘宝首页。hahh,开个玩笑。。。学习而已。在进行html css编写之前先了解下网页的组成和网页元素的尺寸吧 1.网页的组成 …

阅读更多...

最新文章

推荐文章