深入浅出 Beam Search:自然语言处理中的高效搜索利器

Beam Search 技术详解


搜索系列相关文章(置顶)

1.原始信息再加工:一文读懂倒排索引
2.慧眼识词:解析TF-IDF工作原理
3.超越TF-IDF:信息检索之BM25
4.深入浅出 Beam Search:自然语言处理中的高效搜索利器

1. 引言

Beam Search 是一种广泛应用于自然语言处理(NLP)、机器翻译、语音识别等序列生成任务中的启发式搜索方法。本文将详细探讨 Beam Search 的原理、实现步骤、应用场景及其优缺点,并通过具体例子帮助读者更好地理解这一技术。

在这里插入图片描述

2. 算法由来

2.1 背景与起源

Beam Search 最初是为了克服标准广度优先搜索(BFS)在大规模搜索空间中计算成本过高的问题而提出的。传统的 BFS 需要遍历所有可能的状态,这对于许多实际应用来说是不现实的。例如,在自动语音识别(ASR)和机器翻译(MT)中,输入输出通常是连续的符号流,这导致了巨大的搜索空间。

2.2 发展历程

早期的 NLP 和 ASR 系统使用贪婪算法逐个选择最有可能的下一个符号,但这往往忽略了全局最优解的可能性。为了解决这个问题,研究者们提出了保留多个候选路径的方法,即所谓的“束”(beam)。随着技术的发展,Beam Search 成为了现代深度学习模型的标准组件之一,尤其是在基于神经网络的语言模型中。

3. Beam Search 的工作原理

3.1 初始化

假设我们有一个初始状态 (S_0) 和一个空的候选列表。Beam Search 会从这个初始状态开始,为每个时间步生成若干个候选状态,并从中挑选出最有可能的几个继续扩展。

3.2 扩展候选路径

  1. 设定束宽:首先设定一个固定的束宽 (k),即每次迭代时要保留的最佳候选路径数量。
  2. 生成新候选:对于当前保存的所有路径,在每个路径末端添加新的符号(例如单词或字符),形成新的候选路径。
  3. 评分与排序:根据某种评分函数(如对数概率)对所有新生成的候选路径进行打分,并按分数降序排列。
  4. 剪枝:只保留前 (k) 条得分最高的候选路径,其余路径被丢弃。
  5. 重复上述步骤,直到达到预设的最大长度或者所有候选路径都终止为止。

3.3 终止条件

当满足以下任一条件时,Beam Search 算法终止:

  • 达到预定义的最大序列长度;
  • 没有更多有效的候选路径可以扩展;
  • 所有路径均已到达终止符号(如句号或其他结束标记)。

3.4 输出结果

一旦算法终止,通常会选择得分最高的完整路径作为最终输出。如果需要多个输出,则可以选择前几名的完整路径。

3.5 举几个 🌰🌰🌰

3.5.1 简单的语言模型任务

假设我们正在进行一个简单的语言模型任务,要生成句子“I am a student”。我们的候选词在每个时间步都来自一个有限的词汇表。我们从“I”开始生成序列。

  • 第一步:从“I”出发,选择下一个单词。假设当前候选词和它们的概率(或得分)如下:

    • “am”(概率 = 0.6)
    • “is”(概率 = 0.2)
    • “was”(概率 = 0.1)
    • “I”(概率 = 0.1)

    假设我们选择Beam Width = 2,因此我们保留得分最高的2个候选单词:“am”(得分0.6)和“is”(得分0.2)。

  • 第二步:继续生成下一个单词。对于每个序列,我们根据模型的得分选择下一个词。假设得分如下:

    • 对于“I am”(从“am”继续):“a”(概率 = 0.5),“the”(概率 = 0.3),“an”(概率 = 0.2)
    • 对于“I is”(从“is”继续):“am”(概率 = 0.4),“was”(概率 = 0.3),“a”(概率 = 0.2)

    我们再次选择Beam Width = 2,所以保留概率最大的2个候选项:“I am a”(得分0.6 × 0.5 = 0.3)和“I am the”(得分0.6 × 0.3 = 0.18),以及“I is am”(得分0.2 × 0.4 = 0.08)和“I is was”(得分0.2 × 0.3 = 0.06)中的前两个较高者,即“I is am”。

  • 第三步:继续为每个候选序列添加下一个单词。假设得分如下:

    • 对于“I am a”(从“a”继续):“student”(概率 = 0.7),“teacher”(概率 = 0.2),“doctor”(概率 = 0.1)
    • 对于“I am the”(从“the”继续):“student”(概率 = 0.6),“man”(概率 = 0.3),“teacher”(概率 = 0.1)

    继续选择Beam Width = 2,保留得分最高的两个候选:“I am a student”(得分0.3 × 0.7 = 0.21)和“I am the student”(得分0.18 × 0.6 = 0.108)。

  • 最终选择:假设我们已经达到了序列的结束条件(比如长度或特殊的结束符),最后选择“I am a student”作为最优序列。

3.5.2 简单的语言模型任务机器翻译任务

假设我们有一个简单的英文到中文的机器翻译系统,输入句子为“I am happy”,候选翻译和它们的得分如下:

  • 第一步:从“I”出发,选择下一个中文词。假设得分如下:

    • “我”(概率 = 0.8)
    • “他”(概率 = 0.1)
    • 其他(概率 = 0.1)

    选择Beam Width = 2,保留“我”(得分0.8)和“他”(得分0.1)。

  • 第二步:继续生成下一个中文词。对于每个序列,我们根据模型的得分选择下一个词。假设得分如下:

    • 对于“我”(从“I”继续):“是”(概率 = 0.6),“很”(概率 = 0.3)
    • 对于“他”(从“I”继续):“是”(概率 = 0.5),“不”(概率 = 0.4)

    选择Beam Width = 2,保留“我是”(得分0.8 × 0.6 = 0.48)和“我很”(得分0.8 × 0.3 = 0.24),以及“他是”(得分0.1 × 0.5 = 0.05)和“他不”(得分0.1 × 0.4 = 0.04)中的前两个较高者,即“他是”被舍弃。

  • 第三步:继续为每个候选序列添加下一个中文词。假设得分如下:

    • 对于“我是”(从“是”继续):“快乐”(概率 = 0.7),“高兴”(概率 = 0.2)
    • 对于“我很”(从“很”继续):“高兴”(概率 = 0.6),“快乐”(概率 = 0.3)

    选择Beam Width = 2,保留得分最高的两个候选:“我是快乐”(得分0.48 × 0.7 = 0.336)和“我很高兴”(得分0.24 × 0.6 = 0.144)以及“我很快乐”(得分0.24 × 0.3 = 0.072)中的较高者,即“我很快乐”被舍弃。

  • 最终选择:假设我们已经达到了序列的结束条件(比如长度或特殊的结束符),最后选择“我是快乐”作为最优翻译,但考虑到中文习惯,“我很高兴”也是合理的翻译,只是在这个例子中,它的得分稍低。

4. 实现细节

4.1 评分函数

Beam Search 的核心在于如何有效地评估每个候选路径的质量。常用的评分函数包括:

4.1.1 负对数似然性 (Negative Log Likelihood, NLL)

对于给定的概率分布 P ( x ) P(x) P(x),计算负对数似然性(NLL):

NLL ( x ) = − log ⁡ P ( x ) \text{NLL}(x) = -\log P(x) NLL(x)=logP(x)

较低的 NLL 表示较高的概率。在序列生成任务中,我们通常考虑整个序列 x 1 , x 2 , … , x T x_1, x_2, \dots, x_T x1,x2,,xT 的联合概率,因此 NLL 可以表示为:

NLL ( x 1 , x 2 , … , x T ) = − ∑ t = 1 T log ⁡ P ( x t ∣ x < t ) \text{NLL}(x_1, x_2, \dots, x_T) = -\sum_{t=1}^{T} \log P(x_t | x_{<t}) NLL(x1,x2,,xT)=t=1TlogP(xtx<t)

其中, P ( x t ∣ x < t ) P(x_t | x_{<t}) P(xtx<t) 是在给定前 t − 1 t-1 t1 个符号条件下第 t t t 个符号的概率。

4.1.2 累积对数概率 (Cumulative Log Probability)

累积对数概率是直接累加各时间步的对数概率值。由于直接相乘小概率会导致数值下溢问题,因此实际应用中使用对数形式:

CumLogProb ( x 1 , x 2 , … , x T ) = ∑ t = 1 T log ⁡ P ( x t ∣ x < t ) \text{CumLogProb}(x_1, x_2, \dots, x_T) = \sum_{t=1}^{T} \log P(x_t | x_{<t}) CumLogProb(x1,x2,,xT)=t=1TlogP(xtx<t)

4.1.3 归一化后的对数似然性 (Normalized Log Likelihood)

为了公平比较不同长度的序列,可以采用归一化后的对数似然性,即将总对数似然除以序列长度 T T T

NormLogProb ( x 1 , x 2 , … , x T ) = 1 T ∑ t = 1 T log ⁡ P ( x t ∣ x < t ) \text{NormLogProb}(x_1, x_2, \dots, x_T) = \frac{1}{T} \sum_{t=1}^{T} \log P(x_t | x_{<t}) NormLogProb(x1,x2,,xT)=T1t=1TlogP(xtx<t)

4.1.4 加权评分函数

有时候,为了更好地平衡长度和质量,可以引入一个权重参数 α \alpha α 来调整归一化因子:

WeightedNormLogProb ( x 1 , x 2 , … , x T ) = 1 T α ∑ t = 1 T log ⁡ P ( x t ∣ x < t ) \text{WeightedNormLogProb}(x_1, x_2, \dots, x_T) = \frac{1}{T^\alpha} \sum_{t=1}^{T} \log P(x_t | x_{<t}) WeightedNormLogProb(x1,x2,,xT)=Tα1t=1TlogP(xtx<t)

这里的 α \alpha α 通常设置为一个小于1的常数(如0.6或0.7),以防止过短的序列获得不合理的高分。

具体例子

假设我们有一个句子 “I love natural language processing”,其对应的符号序列为 x 1 , x 2 , … , x T x_1, x_2, \dots, x_T x1,x2,,xT。我们可以用上述评分函数来评估这个句子的可能性:

  • NLL:计算每个单词条件概率的负对数之和。
  • CumLogProb:直接累加每个单词条件概率的对数。
  • NormLogProb:将累积对数概率除以句子长度 T T T
  • WeightedNormLogProb:引入权重参数 α \alpha α,进一步调整评分。

通过这些评分函数,Beam Search 可以有效地选择最有可能的候选路径,从而提高生成序列的质量和准确性。

4.2 处理重复路径

为了避免无限循环或重复探索相同的路径,可以在扩展候选路径时加入去重机制。例如,记录已经访问过的状态组合,防止再次选择相同的状态。

4.3 动态调整束宽

虽然固定束宽是一种简单的方法,但在实践中,动态调整束宽可以根据具体情况进行优化。比如,随着搜索深度增加逐渐减少束宽,或者根据当前候选路径的分散程度灵活调整。

5. 应用领域

5.1 机器翻译

在机器翻译中,Beam Search 被用来提高翻译质量和流畅度。传统方法往往依赖于贪婪策略,即每次都选择当前看起来最好的词,但这种方法容易陷入局部最优解。Beam Search 通过同时维护多个候选翻译路径,并根据整体评分选择最佳路径,能够显著提升翻译质量。例如,在翻译长句子时,Beam Search 可以确保即使某个部分的选择不是最优,也能通过后续调整找到更好的整体解决方案。

5.2 语音识别

结合声学模型和语言模型,Beam Search 在语音识别中的作用尤为突出。声学模型负责将音频信号转换为音素序列,而语言模型则用于评估这些序列在语法和语义上的合理性。Beam Search 将两者结合起来,确保识别结果不仅符合音频特征,而且也符合自然语言规则。此外,它还可以处理多音字和同音异义词等问题,提供更准确的转录结果。

5.3 文本摘要

文本摘要是另一个广泛应用 Beam Search 的领域。在这里,Beam Search 帮助模型逐步构建简洁且信息丰富的摘要文本。每一步都会考虑当前摘要的内容以及原文的相关部分,从而决定下一步应该添加哪些关键词或短语。通过这种方式,模型能够在保持关键信息的同时生成流畅自然的摘要,避免冗长或不必要的细节。

5.4 对话系统

对话系统中的 Beam Search 主要用于生成连贯且符合上下文逻辑的回复。在多轮对话中,模型需要根据之前的对话历史和当前用户输入来预测合适的回应。Beam Search 通过同时探索多个可能的回复路径,并根据上下文相关性和自然语言流畅度进行评分,确保最终输出的回复既合乎逻辑又易于理解。

5.5 代码生成

在辅助编程方面,Beam Search 可以自动生成合理的代码片段。例如,在智能IDE中,当程序员输入部分代码后,系统可以通过 Beam Search 推荐完成整个函数或模块的最佳实践。这种方法不仅提高了编码效率,还减少了潜在错误的发生几率。

6. 优点与局限

6.1 优点

  • 效率高:相比完全遍历所有可能性,Beam Search 显著降低了计算量。
  • 灵活性强:可以通过调整束宽来平衡搜索精度和速度。
  • 易于实现:相对简单的算法框架使得其实现较为容易。

6.2 局限

  • 局部最优解风险:由于每次迭代只保留有限数量的候选路径,可能会错过全局最优解。
  • 参数敏感性:束宽的选择对结果有很大影响,过大可能导致过拟合,过小则可能遗漏重要路径。
  • 长序列问题:对于非常长的序列,即使较小的束宽也可能导致巨大的计算负担。

7. 结论

Beam Search 是一种强大而高效的搜索算法,在许多序列生成任务中发挥着重要作用。尽管存在一些局限性,但通过合理的参数设置和改进策略,它可以显著提升模型的表现。未来的研究方向可能包括进一步优化评分函数、探索自适应束宽策略以及与其他先进算法相结合,以期获得更好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/501609.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二、CSS基础

一、选择器(1) 大白话&#xff1a;我们人为认为的解析方式是&#xff0c;从左往右查找&#xff0c;对于浏览器来说&#xff0c;是从右往左查找&#xff0c;解析速度更高。 注&#xff1a; 伪类选择器 - 作用于实际存在的元素&#xff0c;用于描述元素的某种特定状态或关系&…

从摩托罗拉手机打印短信的简单方法

昨天我试图从摩托罗拉智能手机上打印短信&#xff0c;但当我通过USB将手机连接到电脑时&#xff0c;我在电脑上找不到它们。由于我的手机内存已达到限制&#xff0c;并且我想保留短信的纸质版本&#xff0c;您能帮我将短信从摩托罗拉手机导出到计算机吗&#xff1f; 如您所知&…

Linux终端输入删除键backspace显示^H,输入上下左右键显示^A^B^C^D原理以及详细解决办法!

当我们装完Linux系统之后,我们可能会碰到按下删除键后出现^H这种情况。 同样,输入上下左右键显示^A^B^C^D这种情况。 这是为什么呢? 别急,后面我会说具体解决办法,先来看看这是为什么? 一、终端程序架构 首先,我们需要了解终端程序架构。 终端程序架构分为三层,分别…

ESP32 I2S音频总线学习笔记(一):初识I2S通信与配置基础

文章目录 简介为什么需要I2S&#xff1f;关于音频信号采样率分辨率音频声道 怎样使用I2S传输音频&#xff1f;位时钟BCLK字时钟WS串行数据SD I2S传输模型I2S通信格式I2S格式左对齐格式右对齐格式 i2s基本配置i2s 底层API加载I2S驱动设置I2S使用的引脚I2S读取数据I2S发送数据卸载…

JAVA:利用 Redis 实现每周热评的技术指南

1、简述 在现代应用中&#xff0c;尤其是社交媒体和内容平台&#xff0c;展示热门评论是常见的功能。我们可以通过 Redis 的高性能和丰富的数据结构&#xff0c;轻松实现每周热评功能。本文将详细介绍如何利用 Redis 实现每周热评&#xff0c;并列出完整的实现代码。 2、需求分…

vscode代码AI插件Continue 安装与使用

“Continue” 是一款强大的插件&#xff0c;它主要用于在开发过程中提供智能的代码延续功能。例如&#xff0c;当你在编写代码并且需要进行下一步操作或者完成一个代码块时&#xff0c;它能够根据代码的上下文、语法规则以及相关的库和框架知识&#xff0c;为你提供可能的代码续…

kafka开机自启失败问题处理

前言&#xff1a;在当今大数据处理领域&#xff0c;Kafka 作为一款高性能、分布式的消息队列系统&#xff0c;发挥着举足轻重的作用。无论是海量数据的实时传输&#xff0c;还是复杂系统间的解耦通信&#xff0c;Kafka 都能轻松应对。然而&#xff0c;在实际部署和运维 Kafka 的…

Linux Red Hat 7.9 Server安装GitLab

1、关闭防火墙 执行 systemctl disable firewalld 查看服务器状态 systemctl status firewalld 2、禁用selinux vi /etc/selinux/config 将SELINUX 的值改为 disabled 3、安装policycoreutils-python 执行 yum install policycoreutils-python 4、下载gitlab wget --co…

PostgreSQL对称between比较运算

本文介绍PostgreSQL对称between比较功能&#xff1a;between symmetric&#xff0c;在动态拼接SQL时利用它可以简化判断。PostgreSQL 9.4 及以上版本支持BETWEEN SYMMETRIC操作符&#xff0c;MySQL、Oracle、MsSQL没有对应功能。 between 比较 PostgreSQL的between结构允许你对…

[CTF/网络安全] 攻防世界 simple_php 解题详析

题目描述&#xff1a;小宁听说php是最好的语言,于是她简单学习之后写了几行php代码。 代码解读 $a$_GET[a]; 从HTTP GET请求参数中获取一个名为a的变量&#xff0c;并将其赋值给变量a。符号用于禁止错误输出&#xff0c;如果不存在参数a则会将变量a设置为NULL。 $b$_GET[b];…

日志聚类算法 Drain 的实践与改良

在现实场景中&#xff0c;业务程序输出的日志往往规模庞大并且类型纷繁复杂。我们在查询和查看这些日志时&#xff0c;平铺的日志列表会让我们目不暇接&#xff0c;难以快速聚焦找到重要的日志条目。 在观测云中&#xff0c;我们在日志页面提供了聚类分析功能&#xff0c;可以…

RabbitMQ基础篇之Java客户端快速入门

文章目录 需求 项目设置与依赖管理 配置RabbitMQ的连接信息创建队列与消息发送创建消费者&#xff08;消息接收&#xff09;环境准备与操作 需求 利用控制台创建队列 simple.queue在 publisher 服务中&#xff0c;利用 SpringAMQP 直接向 simple.queue 发送消息在 consumer 服…

在虚幻引擎4(UE4)中使用蓝图的详细教程

在虚幻引擎4&#xff08;UE4&#xff09;中使用蓝图的详细教程 虚幻引擎4&#xff08;Unreal Engine 4&#xff0c;简称UE4&#xff09;是一款功能强大的游戏引擎&#xff0c;广泛应用于游戏开发、虚拟现实、建筑可视化等领域。UE4 提供了一个强大的可视化脚本工具——蓝图&am…

初学STM32 ---高级定时器互补输出带死区控制

互补输出&#xff0c;还带死区控制&#xff0c;什么意思&#xff1f; 带死区控制的互补输出应用之H桥 捕获/比较通道的输出部分&#xff08;通道1至3&#xff09; 死区时间计算 举个栗子&#xff08;F1为例&#xff09;&#xff1a;DTG[7:0]250&#xff0c;250即二进制&#x…

MarkDown怎么转pdf;Mark Text怎么使用;

MarkDown怎么转pdf 目录 MarkDown怎么转pdf先用CSDN进行编辑,能双向看版式;标题最后直接导出pdfMark Text怎么使用一、界面介绍二、基本操作三、视图模式四、其他功能先用CSDN进行编辑,能双向看版式; 标题最后直接导出pdf Mark Text怎么使用 Mark Text是一款简洁的开源Mar…

华为ensp-BGP路由过滤

学习新思想&#xff0c;争做新青年&#xff0c;今天学习的是BGP路由过滤 实验目的&#xff1a; 掌握利用BGP路由属性AS_Path进行路由过滤的方法 掌握利用BGP路由属性Community进行路由过滤的方法 掌握利用BGP路由属性Next_Hop进行路由过滤的方法 实验内容&#xff1a; 本实…

HackMyVM-Airbind靶机的测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、信息搜集 2、Getshell 3、提权 使用ipv6绕过iptables 四、结论 一、测试环境 1、系统环境 渗透机&#xff1a;kali2021.1(192.168.101.127) 靶 机&#xff1a;debian(192.168.101.11…

springcloud篇3-docker需熟练掌握的知识点

docker的原理请参考博文《Docker与Kubernetes》。 一、安装docker的指令 1.1 安装yum工具 yum install -y yum-utils \device-mapper-persistent-data \lvm2 --skip-broken补充&#xff1a;配置镜像源 注意&#xff1a; yum安装是在线联网下载安装&#xff0c;而很多的资源…

ES IK分词器插件

前言 ES中默认了许多分词器&#xff0c;但是对中文的支持并不友好,IK分词器是一个专门为中文文本设计的分词工具&#xff0c;它不是ES的内置组件&#xff0c;而是一个需要单独安装和配置的插件。 Ik分词器的下载安装&#xff08;Winows 版本&#xff09; 下载地址&#xff1a;…

BP神经网络的反向传播算法

BP神经网络&#xff08;Backpropagation Neural Network&#xff09;是一种常用的多层前馈神经网络&#xff0c;通过反向传播算法进行训练。反向传播算法的核心思想是通过计算损失函数对每个权重的偏导数&#xff0c;从而调整权重&#xff0c;使得网络的预测输出与真实输出之间…