探索数据结构:BF与KMP的灵活应用

✨✨ 欢迎大家来到贝蒂大讲堂✨✨

🎈🎈养成好习惯,先赞后看哦~🎈🎈

所属专栏:数据结构与算法
贝蒂的主页:Betty’s blog

1. 什么是字符串匹配算法

字符串匹配是计算机科学中的一个基础概念,广泛应用于文本处理、数据挖掘、搜索引擎等领域。它的目的是在一个给定的文本串寻找指定子串是否存在。由此,衍生了一系列的算法(如BF,BM,RK,KMP)就是我们的字符串匹配算法。

下面我们将选取两个最经典的BFKMP算法为大家演示。

2. BF算法

2.1. 算法原理

BF算法,即暴力(Brute Force)算法,是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力算法

​ -------以上摘自百度百科

2.2. 图例演示

上面的文字可能过于抽象,我们可以通过图示来为大家演示一下算法流程。

假设我们有两个字符串,分别记为s1s2。其中s1是主串,s2为子串,即从s1中匹配s2

img

  1. 第一步都从字符串的起始位置开始匹配。

img

  1. 相等则继续匹配,否则从s1的下一个位置重新开始匹配。然后一直重复上述过程。

img

  • 这里我们就需要思考一个问题,匹配失败如何返回s1的下一个位置重新匹配。其实特别简单,我们要知道j下标如果从零开始就代表成功匹配的个数。我们只需让i下标减去j下标就会回到原来的起始位置,这是再加1就是我们下一次匹配的开始位置。

img

  • 起始位置1与i下标之间的元素个数就是j下标与起始位置2之间的个数。所以i-起始位置1=j-起始位置2=>起始位置1=i-j。
  1. 最后当j移动至末尾证明匹配成功,返回s1成功的匹配成功的起始下标。当i移动到末尾时,匹配失败返回-1。

2.3. 代码实现

下面是具体的代码实现,其中串是以顺序串的形式实现。

int BF(Sstring* s1, Sstring* s2)
{assert(s1 && s2);int len1 = StrLength(s1);int len2 = StrLength(s2);if (len1 == 0 || len2 == 0){return -1;}int i = 0;//主串下标int j = 0;//子串下标while (i < len1 && j < len2){if (s1->data[i] == s2->data[j])//匹配成功{i++;j++;}else{j = 0;i = i - j + 1;}}if (j >= len2)//匹配失败{return i - j;}return -1;
}

2.4. 复杂度分析

我们用M表示主串的长度,N表示子串的长度。

  • **时间复杂度:**BF算法最理想的时间复杂度是O(N),即在主串的最开始位置就找到。最坏的时间复杂度为O(NM),即找不到或者在最后才找到。这里我们以最坏的情况作为参考,所以时间复杂度为O(NM)。
  • 空间复杂度:BF算法并不需要格外的空间消耗,所以空间复杂度为O(1)。

3. KMP算法

KMP算法是三位学者(Knuth-Morris-Pratt )在 Brute-Force算法的基础上同时提出的模式匹配的改进算法。Brute- Force算法在模式串中有多个字符和主串中的若干个连续字符比较都相等,但最后一个字符比较不相等时,主串的比较位置需要回退。

3.1. 算法原理

在介绍算法原理之前,我们要先了解几个新概念。

  • 后缀:是指从串某个位置i开始到整个串末尾结束的一个特殊子串。记为s[i,s.length-1],例如"adb"就是字符串"abcadb"的一个后缀。
  • 真后缀:除了字符串s本身之外的后缀。
  • 前缀:指从串首开始到某个位置i结束的一个特殊子串。记为s[0,i],例如"abc"就是字符串"abcadb"的一个前缀。
  • 真前缀:除了字符串s本身之外的前缀。
  • 最长公共真前后缀:最长相等的真后缀与真前缀,例如"abcdab"的最长公共前后缀就是"ab"。

而KMP 方法算法就利用之前判断过的信息,通过一个 next 数组,保存模式串中前后最长公共子序列的长度(最长公共真前后缀),每次回溯时,通过 next 数组找到,前面匹配过的位置,省去了大量的计算时间。

KMP算法在上述情况下,主串位置不需要回退,从而可以大大提高效率

​ -------以上摘自百度百科

3.2. 图例演示

KMP算法一个非常重要的思想就是指向主串s1的下标i不回退,以此来解决BF算法i不断回退造成大量时间消耗的问题。

那么既然s1的下标不回退,自然是**回退模式串s2的下标j。**那么j下标该回退到哪一个位置呢?我们可以来看一下下图:

img

从上述观察我们不难发现,如果匹配失败,i如果不回退,j就要回退到e的下标继续匹配。其实我们想我们的模式串s2每一个位置都有可能匹配失败,那么每个位置都应该有一个与之对应的回退下标。这个我们就之存入一个数组中方便取用,这就是我们的next数组

3.3. 求next数组

KMP算法的精髓就在于next数组,记作next[j]=k,j使我们的移动下标,k就是我们的回退下标,也是最长公共真前后缀的长度。求next数组我们分为以下几步:

  1. 首先第一步求匹配串的最长公共真前后缀(前缀以下标0开始,后缀以j-1结束),记作s2[0,p1]=s2[p2,j-1],其中p1-0=j-1-p2=>p2=j-1-p1所以又可以记作s2[0,p1]=s2[j-1-p1,j-1]。

img

  1. 第二步求回退下标k,k的值就是匹配串前缀的下一个位置p1+1,所以k=p1+1。这只是我们通过观察得出的结论,如果每次都要重新找最长公共真前后缀,又会浪费大量时间。所以我们可以采取另一种方式:

首先我们先规定next[0]=-1,next[1]=0。并且设next[j]=k,那么问题就是求next[j+1]=?

并且我们得知道 next[j]=k<=>s2[0,k-1]=s2[j-k,j-1]+公共真前后缀最长为k ,这时我们又可以分为两种情况讨论:

  • 情况一:当s2[k]==s2[j]时,因为next[j]=k,所以s2[0,k-1]=s2[j-k,j-1],最长公共真前后缀为k。所以s2[0,k]=s2[j-k,j],k+1显然也是最长公共真前后缀=>next[j+1]=k+1。匹配成功将i下标与j下标往后移,继续匹配,并且k也需要递增。

img

  • 情况二:当s2[k]!=s2[j]时,这时我们需要重新匹配最长公共真前后缀。这时我们不妨设k1=next[k],因为s2[0,k-1]=s2[j-k,j-1],所以推出**s2[0,k1-1]** =s2[k-k1,k-1]=s2[j-k,j-k+k1-1]=**s2[j-k1,j-1]****,**因为我们要求的是next[j+1],所以这时若s2[k1] = s2[j],则此时s2[0,k1]=s2[j-k1,j],参考情况一next[j]=k1+1,否则设k2=next[k1]重复上述过程,若存在kn=-1,循环结束让next[j]=0即kn+1。
  1. 问题一:如何推出s2[0,k1-1]=s2[k-k1,k-1]=s2[j-k,j-k+k1-1]

首先由条件得s2[0,k-1]=s2[j-k,j-1],并且s2[0,k-1],s2[j-k,j-1]都能继续分出最长公共真前后缀(不能划分时,kn=-1)。

img

然后因为k1=next[k],我们可以将s2[0,k-1]分解成两个相同的真前后缀s2[0,k1-1**]**=s2[k-k1,k-1]。s2[j-k,j-1]同理也可以分解出两个相同真前后缀s2[j-k,j-k+k1-1]=s2[j-k1,j-1]。又因为两个原串相等,所以这这四个子串相等,s2[0,k1-1]=s2[k-k1,k-1]=s2[j-k,j-k+k1-1]=s2[j-k1,j-1]

img

  1. 问题二:如何保证当s2[0,k1]=s2[j-k1,j]时是最长公共真前后缀,我们可以先假设s2[0,k1]=s2[j-k1,j]不是最长。即存在当s2[0,k1+1]=s2[j-k1-1,j]时最长公共真前后缀>=k1+2。由问题一可以推出s2[0,k1+1]=s2[k-k1-1,k]=>s2[0,k1]=s2[k-k1-1,k-1],又因为s2[0,k1+1]=s2[j-k1-1,j]时最长公共真前后缀>=k1+2,所以当s2[0,k1]=s2[k-k1-1,k-1]时最长公共真前后缀至少为k1+1即next[k]>=k1+1与题意next[k]=k1相矛盾,所以当s2[0,k1]=s2[j-k1,j]时是最长公共真前后缀。

  2. 问题三:为什么这两步求出的回退下标就能让主串的下标不回退呢?

我们可以看看这幅图

img

我们继续以上面的图举例,当主串s1与匹配串s2出现不匹配的情况时前面的字符是匹配成功的。也就是说s1[0,i-1]=s2[0,j-1]。s2[0,p1]与s2[j-1-p1,j-1]又是最长公共真前后缀。

所以就可以推出一定存在x使得s1[x,i-1]=s2[0,p1]=s2[j-1-p1,j-1]**。所以说x~i-1就是能在模式串s2中从起始位置匹配的最长长度。**自然主串的i下标就不用回退了。

3.4. 算法优化

虽然上述的算法在绝大数情况下运算速率都比较优秀,但是也许考虑一些特殊情景,比如说下面这种情况。

img

如果出现上述情况,模式串s2的下标会依次从4->3->2->1->0。这就导致一个问题,如果模式串过长出现这种情况,也会造成大量的时间销毁。

通过上述列子,我们不难发现出现这种情况是因为当k=next[j]时,s2[k]=s[j],又因为s[j]!=s[i],自然s[k]!=s[i]。所以就会出现一直回退的现象,因此引出了我们的优化nextval数组。

nextval数组是在原来next数组的基础上增加一个判断条件,即若s2[k]=s[j]就让nextval[j]更新成nextval[k]实现一步到位的结果,从而节约效率。

3.5. 代码实现

代码仍是以数组串的形式实现。

3.5.1. 未优化之前
  1. 创建一个next数组,按照next的实现方式填充。

    • 首先开辟s2.length的空间,并将next[0]=1。
    • 然后循环遍历更新,如果k==-1或者str2[i - 1] == str2[k],则nextval[i] = k + 1,并且让i++,k++。否则将k=next[k]
  2. 然后分别用两个下标i,j指向主串与匹配串,开始遍历。

  3. 如果匹配相同,或者j=-1将让两个下标右移匹配下一个字符。匹配失败将让j下标回到next数组对应位置。

  4. 重复上述步骤,成功则返回主串匹配成功开始的下标。反之找不到,则返回-1.

int* GetNext(Sstring* s2)
{char* str2 = s2->data;int len = StrLength(s2);int* next = (int*)malloc(sizeof(int) * len);//开辟空间if (next == NULL){perror("malloc fail:");return NULL;}next[0] = -1;int i = 1;//当前下标int k = -1;//前一项的kwhile(i<len){//kn=-1或者情况一if (k==-1||str2[i - 1] == str2[k]){next[i] = k + 1;i++;k++;}else{//情况二k = next[k];}}return next;
}
int KMP(Sstring* s1, Sstring* s2, int pos)
{//首先判断边界条件assert(s1 && s2);int len1 = StrLength(s1);int len2 = StrLength(s2);if (len1 == 0 || len2 == 0){return -1;}if (pos < 0 && pos >= len1){return -1;}int* next = GetNext(s2);int i = pos;int j = 0;while (i < len1 && j < len2){if (j == -1 || s1->data[i] == s2->data[j]){i++;j++;}else{j = next[j];//更新至next数组}}if (j >= len2)//参考BF实现逻辑{return i - j;}free(next);//释放内存return -1;
}
3.5.2. 优化之后

相较于优化之前,优化后更新nextval时需判断此时的s2[j]是否等于s2[k+1],等于nextval[i] = nextval[k+1],否则nextval[i] = k + 1

int* GetNext(Sstring* s2)
{char* str2 = s2->data;int len = StrLength(s2);int* nextval = (int*)malloc(sizeof(int) * len);//开辟空间if (nextval == NULL){perror("malloc fail:");return NULL;}nextval [0] = -1;int i = 1;//当前下标int k = -1;//前一项的kwhile(i<len){if (k==-1||str2[i - 1] == str2[k]){if (str2[k+1] == str2[i])//相等{nextval[i] = nextval[k+1];//更新}else{nextval[i] = k + 1;}k++;i++;}else{k = nextval[k];}}return nextval;
}
int KMP(Sstring* s1, Sstring* s2, int pos)
{assert(s1 && s2);int len1 = StrLength(s1);int len2 = StrLength(s2);if (len1 == 0 || len2 == 0){return -1;}if (pos < 0 && pos >= len1){return -1;}int* nextval = GetNext(s2);int i = pos;int j = 0;while (i < len1 && j < len2){if (j == -1 || s1->data[i] == s2->data[j]){i++;j++;}else{j = nextval[j];//更新至next数组}}if (j >= len2){return i - j;}free(nextval);//释放内存return -1;
}

3.6. 复杂度分析

我们用M表示主串的长度,N表示模式串的长度。

  • 时间复杂度:主串并不回退,时间复杂度为O(M),模式串时间复杂度也可以近似看做O(N),即使在最坏情况下,KMP 算法的时间复杂度为 O(mn),但这种情况很少发生,通常情况下,KMP 算法的时间复杂度是线性的,可以在很短的时间内完成字符串匹配。
  • 空间复杂度:开辟了一个nextval数组,空间复杂度为O(N)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/312175.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python创建word文档并向word中写数据

一、docx库的安装方法 python创建word文档需要用到docx库&#xff0c;安装命令如下&#xff1a; pip install python-docx 注意&#xff0c;安装的是python-docx。 二、使用方法 使用方法有很多&#xff0c;这里只介绍创建文档并向文档中写入数据。 import docxmydocdocx.Do…

SEO之搜索引擎的工作原理(三)

初创企业需要建站的朋友看这篇文章&#xff0c;谢谢支持&#xff1a;我给不会敲代码又想搭建网站的人建议 &#xff08;接上一篇。。。&#xff09; 排名 经过搜索引擎蜘蛛抓取页面&#xff0c;索引程序计算得到倒排索引后&#xff0c;搜索引擎就准备好可以随时处理用户搜索了…

C# 两种方法截取活动窗口屏幕,实现窗体截图

方法1&#xff0c;截屏内容仅包括活动窗口界面&#xff0c;而方法2是从屏幕范围取图&#xff0c;截屏内容会包括屏幕上所有内容。例如有一些程序在桌面顶层显示半透明的悬浮窗&#xff0c;用方法2截屏就会包括这些内容&#xff0c;并不是单纯的活动窗口内容。 方法1&#xff0c…

pyqt的人脸识别 基于face_recognition库

参考文献&#xff1a; 1、python face_recognition实现人脸识别系统_python facerecognition检测人脸-CSDN博客 2、cv2.VideoCapture()_cv2.videocapture(0)-CSDN博客 1、camera.py文件代码如下&#xff1b;目录如下 import sys from PyQt5.QtWidgets import QApplication, …

【机器学习】贝叶斯算法在机器学习中的应用与实例分析

贝叶斯算法在机器学习中的应用与实例分析 一、贝叶斯算法原理及重要性二、朴素贝叶斯分类器的实现三、贝叶斯网络在自然语言处理中的应用四、总结与展望 在人工智能的浪潮中&#xff0c;机器学习以其独特的魅力引领着科技领域的创新。其中&#xff0c;贝叶斯算法以其概率推理的…

Docker安装xxl-job分布式任务调度平台

文章目录 Docker安装xxl-job分布式任务调度平台1.xxl-job介绍2. 初始化“调度数据库”3、docker挂载运行xxl-job容器3.1、在linux的opt目录下创建xxl_job文件夹&#xff0c;并在里面创建logs文件夹和application.properties文件3.2、配置application.properties文件&#xff0c…

数据结构 -- 二分查找

本文主要梳理了二分查找算法的几种实现思路&#xff0c;基本概念参考 顺序、二分、哈希查找的区别及联系_生成一个大小为10万的有序数组,随机查找一个元素,分别采用顺序查找和二分查找方式-CSDN博客 1、基本概念 &#xff08;1&#xff09;前提条件&#xff1a;待查找数据必须…

GPT 浅析

GPT 浅析 文章目录 GPT 浅析GPT 1无监督预训练有监督微调任务相关的输入变换 GPT2GPT3 GPT 1 在模型架构上&#xff0c;GPT-1基于Transformer构造&#xff0c;这是因为与其他卷积神经网 络或者循环神经网络相比&#xff0c;Transformer提供了效率更高的方法来处理文本 中的长期…

leetcode hot100_day20

4/14/2024 128.最长连续序列 自己的 这是前两天做一半的题目了。这题给我的教训就是用哈希表的时候一定一定要考虑重复元素的问题&#xff01;&#xff01;&#xff01;&#xff01; 这题让我想到了最长递增子序列&#xff0c;只是名字有点像。子序列和子数组还不一样一个连续…

【HCIP学习】OSPF协议基础

一、OSPF基础 1、技术背景&#xff08;RIP中存在的问题&#xff09; RIP中存在最大跳数为15的限制&#xff0c;不能适应大规模组网 周期性发送全部路由信息&#xff0c;占用大量的带宽资源 路由收敛速度慢 以跳数作为度量值 存在路由环路可能性 每隔30秒更新 2、OSPF协议…

错误分析 (Machine Learning研习十九)

错误分析 您将探索数据准备选项&#xff0c;尝试多个模型&#xff0c;筛选出最佳模型&#xff0c;使用 Grid SearchCV微调其超参数&#xff0c;并尽可能实现自动化。在此&#xff0c;我们假设您已经找到了一个有前途的模型&#xff0c;并希望找到改进它的方法。其中一种方法就…

第九届少儿模特明星盛典 全球赛推广大使『武家翔』精彩回顾

2024年1月30日-2月1日&#xff0c;魔都上海迎来了龙年第一场“少儿形体行业美育春晚”&#xff01;由IPA模特委员会主办的第九届少儿模特明星盛典全球总决赛圆满收官&#xff01;近2000名少儿模特选手从五湖四海而来&#xff0c;决战寒假这场高水准&#xff0c;高人气&#xff…

uni-app学习

目录 一、安装HBuilderX 二、创第一个uni-app 三、项目目录和文件作用 四、全局配置文件&#xff08;pages.json&#xff09; 4.1 globalStyle&#xff08;全局样式&#xff09; 导航栏&#xff1a;背景颜色、标题颜色、标题文本 导航栏&#xff1a;开启下拉刷新、下拉背…

Axure实现导航栏的展开与收缩

Axure实现导航栏的展开与收缩 一、概要介绍二、设计思路三、Axure制作导航栏四、技术细节五、小结 一、概要介绍 使用场景一般是B端后台系统需要以导航栏的展开与收缩实现原型的动态交互&#xff0c;主要使用区域是左边或者顶部的导航栏展开与收缩&#xff0c;同一级导航下的小…

ActiveMQ 01 消息中间件jmsMQ

消息中间件之ActiveMQ 01 什么是JMS MQ 全称&#xff1a;Java MessageService 中文&#xff1a;Java 消息服务。 JMS 是 Java 的一套 API 标准&#xff0c;最初的目的是为了使应用程序能够访问现有的 MOM 系 统&#xff08;MOM 是 MessageOriented Middleware 的英文缩写&am…

Servlet测试1

通过按钮提交get,post请求&#xff0c;并且后端响应数据&#xff0c;显示到前端 当点击get按钮时 是发起Get请求 后端接收到Get请求后&#xff0c;把数据写入到body内 当点击pst按钮时 是发起Post请求 后端接收到Post请求后&#xff0c;把数据写入到body内 之后前端就从bod…

Python 物联网入门指南(七)

原文&#xff1a;zh.annas-archive.org/md5/4fe4273add75ed738e70f3d05e428b06 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 第二十四章&#xff1a;基本开关 到目前为止一定是一段史诗般的旅程&#xff01;回想一下你开始阅读这本书的时候&#xff0c;你是否曾想象…

HarmonyOS开发实战:【亲子拼图游戏】

概述 本篇Codelab是基于TS扩展的声明式开发范式编程语言编写的一个分布式益智拼图游戏&#xff0c;可以两台设备同时开启一局拼图游戏&#xff0c;每次点击九宫格内的图片&#xff0c;都会同步更新两台设备的图片位置。效果图如下&#xff1a; 说明&#xff1a; 本示例涉及使…

项目管理利器 Git

一、序言 今天聊聊 Git。 二、开发的问题 在开发项目时&#xff0c;我们的代码都是直接放在本地的机器上的。如果本地机器出现了问题&#xff0c;怎么办&#xff1f;在企业中&#xff0c;开发项目都是团队协作&#xff0c;一个团队共同维护一个项目该如何处理&#xff1f;团…

C++11(下篇)

文章目录 C111. 模版的可变参数1.1 模版参数包的使用 2. lambda表达式2.1 Lambda表达式语法捕获列表说明 2.2 lambda的底层 3. 包装器3.1 function包装器3.2 bind 4. 线程库4.1 thread类4.2 mutex类4.3 atomic类4.4 condition_variable类 C11 1. 模版的可变参数 C11支持模版的…