LLM之模型评估：情感评估/EQ评估/幻觉评估等

如果您想知道如何确保 LLM 在您的特定任务上表现出色，本指南适合您！它涵盖了评估模型的不同方法、设计您自己的评估的指南以及来自实践经验的技巧和窍门。

Human-like Affective Cognition in Foundation Models：情感认知评估

研究者们提出了一个评估框架，通过生成1280个多样化的场景来测试基础模型和人类在情感、评价、表情和结果之间的关系。实验结果显示，基础模型倾向于与人类直觉一致，有时甚至超过了人类参与者之间的一致性。

论文通过以下步骤解决这个问题：

定义一个抽象的因果图来描述情感推理，基于心理学理论，描述结果、评价和情绪之间的因果关系。
使用语言模型生成这些变量的值，例如情景、评价维度和结果。
根据评价因素和评价理论，定义故事中人物可能感受到的四种情绪，并使用面部动作单元（FACS）生成面部表情。
通过结合不同的变量值，灵活系统地查询同一情境下的不同推断。
通过这种方法，论文生成了1280个问题，涵盖了不同的推断任务，如基于两个评价和结果推断情绪、基于其他评价、结果和情绪推断第一个或第二个评价，或基于两个评价和情绪推断结果。

论文进行了以下实验：

通过567名人类参与者收集了1280个问题的答案，以建立人类直觉的基准。
比较了人类参与者之间的一致性，以及他们与程序生成管道在刺激生成期间分配的标签之间的一致性。
测试了三个基础模型（GPT-4、Gemini-1.5、Claude-3）在0-shot和0-shot链式思考（CoT）提示下的表现。
比较了模型响应与大多数参与者所做的选择之间的一致性。

scylla：LLM的泛化能力评估

Quantifying Generalization Complexity for Large Language Models

https://github.com/zhentingqi/scylla

Scylla是一个动态评估框架，可以定量衡量 LLM 的泛化能力

可扩展的固有复杂性：使用算法复杂性来量化任务复杂性，定义任务的难度。
动态问题生成：在评估期间生成所有数据，确保每个评估实例都是独特的，不受预先暴露的数据影响。
知识轻量级先决条件：任务设计为不需要背景知识，具有简单明了的描述和直接的指令。
记忆意识评估：通过区分ID和OOD数据来更清晰地区分泛化和推理能力。

论文的主要内容包括：

提出了LLMs泛化能力与记忆之间关系的问题，并介绍了SCYLLA评估框架。
通过实验揭示了任务复杂性与ID和OOD数据之间性能差距的非单调关系，即泛化谷现象。
发现随着模型大小的增加，泛化谷的峰值向右移动，表明更大的模型在更复杂的任务上有更好的泛化能力。
定义了泛化分数作为评估模型泛化能力的新的度量标准。
对28个LLMs进行了基准测试，比较了它们的泛化能力，并讨论了闭源和开源模型之间的差异。

RevisEval：通过响应偏差提高模型评估效果

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

响应适应的参考生成：给定（指令，响应）对，REVISEVAL使用LLM修订器根据指令和评估标准修订响应，生成响应适应的参考文。
参考基础的评估：使用生成的响应适应的参考文来指导最终评估，如评分或成对比较。
REVISEVAL支持LLM-as-a-Judge在参考基础设置中的使用，并与之前的指标兼容。
论文还详细讨论了如何通过修订原始响应来生成高质量的参考文，以及如何利用这些参考文来指导评估。

HelloBench：长文本评估

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

https://github.com/Quehry/HelloBench

分层长文本生成基准 (HelloBench)，这是一个全面、真实、开放的基准，用于评估 LLM 在生成长文本方面的表现。HelloBench 基于布鲁姆分类法，将长文本生成任务分为五个子任务：开放式问答、摘要、聊天、文本完成和启发式文本生成。

大多数 LLM 无法生成长度超过 4000 个单词的文本。其次，虽然一些 LLM 可以生成更长的文本，但存在许多问题（例如，严重重复和质量下降）。第三，为了证明 HelloEval 的有效性，将 HelloEval 与传统指标（例如 ROUGE、BLEU 等）和 LLM-as-a-Judge 方法进行了比较，结果表明 HelloEval 与人工评估的相关性最高。

Measuring Human and AI Values based on Generative Psychometrics with Large Language Models：AI价值观评估

论文介绍了GPV，这是一种基于LLM的价值观测量工具，理论上基于文本揭示的选择性感知。通过微调LLM进行感知级价值测量，并验证了LLM解析文本为感知的能力。将GPV应用于人类博客和LLMs，展示了其在测量人类和AI价值观方面的优越性。

论文通过以下步骤解决这个问题：

首先，对Llama 3模型进行微调，以进行准确的感知级价值观测量。
然后，验证LLMs将文本解析为感知的能力，这构成了GPV的核心流程。
应用GPV于人类撰写的博客，验证其稳定性和有效性，并展示其优于以往心理工具的性能。
将GPV扩展到LLM价值观测量，提出了一种基于LLMs可扩展和自由形式输出的心理学方法，实现了特定于上下文的测量。
进行了不同测量范式的比较分析，指出了以往方法的响应偏差，并尝试将LLM价值观与其安全性联系起来，揭示了不同价值体系的预测能力以及各种价值观对LLM安全性的影响。

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

https://huggingface.co/datasets/google/frames-benchmark

论文试图解决的问题是大型语言模型（LLMs）在增强检索增强型生成（Retrieval-Augmented Generation, RAG）能力时的全面评估。

FRAMES数据集，这是一个用于测试RAG系统在事实性、检索准确性和推理能力方面的综合评估数据集。通过单步和多步评估实验，论文展示了即使是最先进的LLMs在处理FRAMES中提出的复杂、多跳推理任务时也存在显著挑战。论文强调了进一步增强这些模型的检索机制和推理能力的重要性，以提高它们在现实世界应用中的总体性能。同时，论文也讨论了潜在的局限性和伦理考虑，并提出了未来研究的方向。

论文详细介绍了以下几个方法：

单步评估：通过直接提问并评估模型在单次推理调用后的回答来评估LLMs。这包括没有检索的情况（Naive Prompt）和结合BM25检索的情况（BM25-Retrieved Prompt）。
多步评估：设计了一个流程，模型需要生成搜索查询，然后使用这些查询来检索相关的Wikipedia文章，并将这些文章添加到上下文中。这个过程重复进行多次，然后模型根据上下文回答初始问题。这种方法旨在模拟真实世界中的多文档查询，并评估LLMs检索相关事实、准确推理和将信息综合成连贯回答的能力。

Eureka: Evaluating and Understanding Large Foundation Models

论文试图解决大型基础模型（Large Foundation Models，简称LFMs）的严格和可复现性评估问题。

EUREKA，一个可重用和开放的评估框架，用于标准化大型基础模型的评估，超越了单一分数报告和排名。EUREKA框架提供了一个库，用于灵活地自定义评估管道，这些管道结合了评估所需的一系列组件，包括数据预处理、提示模板、模型推理、数据后处理、度量计算和报告。此外，论文还介绍了EUREKA-BENCH，这是一个可扩展的基准测试集合，测试的能力包括（i）对最新技术基础模型仍然具有挑战性的能力，以及（ii）代表基本但被忽视的能力，用于完成语言和视觉模态中的各种任务。

论文使用EUREKA框架和EUREKA-BENCH对12个最新技术的模型进行了分析，通过在数据的重要子类别中分解测量结果，提供了深入的失败理解和模型比较的洞察。这些实验包括：

多模态评估：包括几何推理、多模态问答、图像理解等。
语言评估：包括指令遵循、长文本上下文问答、信息检索等。
非确定性评估：分析模型在相同运行中的输出确定性。
向后兼容性评估：在模型家族内测量模型更新时的进步和退步。

Self-Taught Evaluators

论文试图解决的问题是如何在不依赖人类标注数据的情况下，改进评估器（evaluators）的性能。在大型语言模型（LLMs）的开发过程中，评估器被用作训练时的奖励模型以符合人类偏好，或作为人类评估的替代品。传统的方法是收集大量的人类偏好判断，这既昂贵又容易过时，因为随着模型的改进，这些数据可能会变得不再准确。论文提出了一种迭代自训练方法，仅依赖于合成生成的数据来训练评估器。

论文提出了一种迭代训练方案，通过以下步骤解决这个问题：

初始化：假设可以访问大量人类编写的用户指令和一个初始种子LLM。
指令选择：从未经筛选的指令集中通过LLM分类选择具有挑战性的、平衡的指令分布。
响应对构建：对于每个用户指令，生成两个模型响应的偏好对，通过提示生成，使得一个响应明显优于另一个。
迭代训练：包括判断注释和模型微调两个步骤，使用当前模型生成推理链和判断，然后将正确的判断添加到训练集中，用于微调模型。

Generating Synthetic Response Pairs

SysBench：指令遵循能力

SysBench: Can Large Language Models Follow System Messages?

https://github.com/PKU-Baichuan-MLSystemLab/SysBench

SysBench是一个基准，它从三个具有挑战性的方面系统地分析系统消息遵循能力：约束复杂性、指令错位和多轮稳定性。为了实现有效的评估，SysBench 根据现实场景中系统消息的六种常见约束类型构建了涵盖各种交互关系的多轮用户对话。数据集包含来自不同领域的 500 条系统消息，每条消息都与 5 轮用户对话配对，这些对话都是手动制定和检查的，以确保高质量。

具体方法包括：

收集来自多个来源的系统消息，并手动选择500条系统消息，涵盖20多个不同领域。
为每个系统消息制定与系统约束相关的多轮用户对话，确保数据质量。
设计了详细的评估检查表，以指导基于模型的验证器评估模型响应是否准确遵循系统消息中的相关约束。
定义了三个层次的评估指标：约束满足率（CSR）、指令满足率（ISR）和会话稳定性率（SSR）。

EQ-Bench：情商评估

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

https://github.com/EQ-bench/EQ-Bench

Emotional Intelligence in LLMs: Evaluating the Nebula LLM on EQ-Bench and the Judgemark Task

EQ-Bench，这是一个评估大型语言模型情感智能的新基准测试。它通过让模型预测对话中角色的情感状态强度来评估模型的情感理解能力。论文提出了一种新的问题格式，使用GPT-4生成对话，并由作者确定问题和参考答案。

论文通过以下几个步骤解决这个问题：

问题格式：设计了一种问题格式，让模型对对话中角色的情感强度进行评分。
对话生成：使用GPT-4生成作为测试问题上下文的对话。
问题和参考答案：由论文作者决定问题和参考答案，选择能够揭示广泛EU的四种可能情感。
提示：给模型一个任务，预测对话中角色的可能情感反应，并给出评分。
分数计算：包括标准化评分和差异计算，以衡量模型评分与参考答案的接近程度。
测试协议和流程：开发了一个Python测试流程，允许批量标准化地测试OpenAI模型和开源模型。

论文进行了以下实验：

EQ-Bench分数比较：比较了不同模型在EQ-Bench上的得分。
重复性测试：测试了基准测试的重复性，发现模型间的方差较小。
批判与分数修正的效果：比较了模型在批判和修正答案后得分的提升。
SECEU EQ与EQ-Bench分数的比较：比较了SECEU EQ和EQ-Bench分数的分布和相关性。
与其他基准测试的相关性：计算了EQ-Bench分数与其他流行基准测试分数之间的皮尔逊相关系数。

Are Human Conversations Special? A Large Language Model Perspective

论文分析了LLMs在处理人类之间的自然对话（human-human）时注意力机制的变化，并探讨了这些模型在不同领域（如网络内容、代码和数学文本）中的表现，以突出对话数据的独特挑战。

论文主要内容包括：

分析了大型语言模型在处理人类对话时的注意力机制变化。
强调了对话数据在长期上下文关系处理上的独特挑战和复杂性。
通过注意力距离、分散和相互依赖性分析，揭示了对话数据与网络内容、代码和数学文本在处理上的差异。
进行了实验来比较不同领域的注意力模式，并使用t-SNE可视化来比较不同领域的语言模型表示。
强调了领域专业化在语言模型中的重要性，并指出了当前语言模型在处理自然人类对话方面的不足。

定义注意力差异距离函数

论文通过以下几个方面来解决这个问题：

注意力距离差异分析：通过比较不同领域的注意力距离，来了解语言模型如何在深层形成关系，尤其是在处理人类对话时。
注意力分散：通过计算注意力分布的熵来衡量注意力如何在不同领域中分散，以了解模型对不同领域的理解和处理策略。
相互依赖性分析：通过构建有向图来分析不同领域文本之间的相互依赖性，以量化数据方面的复杂性。

CodeMirage: Hallucinations in Code Generated by Large Language Models：评估代码生成的幻觉

本文首次尝试研究 LLM 生成的代码中的幻觉。首先介绍代码幻觉的定义和代码幻觉类型的综合分类。提出了第一个用于代码幻觉的基准 CodeMirage 数据集。

Layout of Code Hallucination Detection Prompt.

论文通过以下几个步骤来解决代码幻觉问题：

定义了代码幻觉，并提出了一个全面的代码幻觉类型分类。
提出了第一个基准数据集CodeMirage，包含1,137个由GPT-3.5生成的幻觉代码片段。
提出了检测代码幻觉的方法，并使用开源LLMs（如CodeLLaMA）和OpenAI的GPT-3.5及GPT-4模型进行实验。
论文还讨论了各种缓解代码幻觉的策略，并总结了工作。

Evaluating the Evaluator: Measuring LLMs’ Adherence to Task Evaluation Instructions

LLMs-as-a-judge 是一种最近流行的方法，它用 LLM 自动评估取代任务评估中的人类判断。但尚不清楚 LLM-as-a-judge 的评估是否仅基于提示中的指示进行评估，还是反映了其对类似于微调数据的高质量数据的偏好。为了研究提示 LLMs-as-a-judge 对 AI 判断与人类判断的一致性有多大影响，分析了几个 LLMs-as-a-judge 中关于评估目标质量的指示级别不断增加的提示。