数据结构与算法C语言版学习笔记(5)-串,匹配算法、KMP算法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、串的定义
  • 二、串的存储结构
    • 1.顺序结构
    • 2.链式结构
  • 三、串的朴素的模式匹配算法(暴力匹配算法)
    • 1.背景
    • 2.假设我们要从下面的主串 S="goodgoogle" 中,找到 T="google”这个子串的位置。
  • 四、升级版的匹配算法:KMP模式匹配算法
    • 1.背景:如果主串 S="aabaabaaf" ,要匹配的子串为 T=“aabaaf” 。
    • 2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)
    • 3.浅显的KMP匹配过程:
    • 4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀
      • ①一个串的前缀和后缀是什么?
      • ②子串为 T=“aabaaf” 的前缀和后缀是什么?
      • ③什么叫最长相等前后缀?
      • ④根据前缀表求匹配
      • ⑤next数组是什么?
      • ⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。
  • 五、 KMP算法再举一个例子
    • 主串:ababbaabbaababaaacb
    • 子串:ababaa
    • (1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度
    • (2)KMP过程:
  • 六、KMP算法的代码实现
    • 1.求next数组
    • 2.KMP算法


前言

关于串,首先想到的就是字符串。为什么会有字符串这个东西产生呢?
比如外国人说英语,都是字母,但是我们中国人说的话不是字母,只能是汉字,所以汉字这种特殊的、无法被计算机直接阅读的字符,在组成一个短语或者句子时,就形成了字符串。
字符串的产生是为了能够表示和处理文本信息。在计算机科学中,文本是一种非常常见的数据类型,例如输入的命令、输出的结果、存储的文件内容等等。为了能够对文本进行操作和处理,就需要一种能够表示和存储文本的数据类型,于是字符串应运而生

字符串可以看作是由字符组成的序列,每个字符都有自己的编码表示,例如ASCII码或Unicode码。通过将字符依次排列组合,就可以构成一个完整的字符串。字符串可以进行各种操作,例如连接、截取、替换、查找等等,使得对文本的处理变得更加灵活和方便。

另外,字符串还可以用来表示和处理其他类型的数据,例如将数字转换为字符串进行输出、从用户输入的字符串中解析出数字等等。字符串的产生也是为了满足对不同类型数据的统一处理需求。

一、串的定义

在C语言中,字符和字符串是两个不同的概念,但它们之间存在一些联系和关联。

字符:字符是C语言中最基本的数据类型之一,用于表示单个字符。它使用单引号括起来,例如 ‘A’、‘9’、'!'等。每个字符在内存中占用一个字节的空间

字符串:字符串是由一系列字符组成的序列,以空字符 ‘\0’ 结尾。在C语言中,字符串实际上是以字符数组的形式存在的。例如,“Hello” 可以表示为一个包含6个字符的字符数组:{‘H’, ‘e’, ‘l’, ‘l’, ‘o’, ‘\0’}。字符串可以使用双引号括起来,例如 “Hello”

数据结构中,串(String)是由零个或多个字符组成的有限序列。它是一种线性数据结构,可以用来表示和处理文本、符号序列等信息。

串的定义可以表示为:一个串S是一个字符的有限序列,记作S = “a1a2…an”,其中每个字符ai属于一个字符集,n表示串的长度。串的长度可以是零,称为空串。

串在存储上通常使用字符数组来表示,其中每个字符占用一个存储位置。通常,字符串的最后一个位置用特殊字符 ‘\0’ 表示串的结束。

二、串的存储结构

1.顺序结构

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区。一般是用定长数组来定义。
既然是定长数组,就存在一个预定义的最大串长度,一般可以将实际的串长度值保存在数组的0下标位置,有的书中也会定义存储在数组的最后一个下标位置。但也有些编程语言不想这么干,觉得存个数字占个空间麻烦。它规定在串值后面加一个不计入串长度的结束标记字符,比如“\0”来表示串值的终结。
在这里插入图片描述
对于串数组的长度MaxSize,由于串数组长度是提前给定的,所以也很可能发生超出上限的情况。
在这里插入图片描述

2.链式结构

在这里插入图片描述

三、串的朴素的模式匹配算法(暴力匹配算法)

1.背景

字符串一般是一个有很多字符的组合,比如“Ilikeappleandyou"或者古诗“床前明月光,疑是地上霜”,这个时候我想在一个很大的字符串里面找到指定的子串“and”或者“明月”,应该怎么做呢?
这种子串的定位操作通常称做串的模式匹配, 应该算是串中最重要的操作之一

2.假设我们要从下面的主串 S=“goodgoogle” 中,找到 T="google”这个子串的位置。

在这里插入图片描述
在这里插入图片描述
代码思路:设主串str,子串substr。先计算出两个字符串的长度为10和6,大循环从0开始,循环
str_len - substr_len=4次,表示子串最多后移四次就无法匹配成功了。每一次大循环里面,让子串的每一位和主串对应位比较,如果不相等就跳出小循环,大循环让子串后移一位。

int findSubstring(char *str, char *substr) {int str_len = strlen(str);int substr_len = strlen(substr);for (int i = 0; i <= str_len - substr_len; i++) {int j;for (j = 0; j < substr_len; j++) {if (str[i + j] != substr[j]) {break;}}if (j == substr_len) {return i;  // 子串在主串中的起始位置}}return -1;  // 子串未找到
}

朴素匹配算法是一种简单直观的字符串匹配算法,但它也存在一些缺点:

效率较低:朴素匹配算法的时间复杂度为O(n*m),其中n为主串的长度,m为子串的长度。在最坏的情况下,需要进行大量的字符比较和回溯操作,导致算法效率较低。
回溯次数较多:当主串中的某个字符与子串的第一个字符匹配,但后续字符不匹配时,朴素匹配算法需要回溯到主串中的下一个位置,继续进行匹配。这可能导致大量的回溯操作,影响算法的性能。
没有利用已有信息:朴素匹配算法没有利用已经匹配过的字符信息,每次都从头开始比较。这使得算法的效率较低,尤其是在处理大规模文本时。

所以需要改进算法。

四、升级版的匹配算法:KMP模式匹配算法

1.背景:如果主串 S=“aabaabaaf” ,要匹配的子串为 T=“aabaaf” 。

朴素匹配算法时,主串从第一位开始逐次与子串比较,比较一圈不匹配后又从第二位开始逐次与子串比较,如此往复。那么主串需要不断的回溯,之前比较时得到的信息没有充分利用。

2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)

3.浅显的KMP匹配过程:

(1)第一次匹配时,a-a、a-a、b-b、a-a、a-a、b-f,这时不一致了。
在这里插入图片描述
(2)我不想回溯重新匹配,所以第二次匹配,让子串跳到从b之后开始匹配,这样的话,刚好一个循环就能完成匹配。所以KMP算法重要的思想就是:省略了普通算法中逐次比较的第2、3、4、5、、、步,只进行了第1步和可以成功匹配的最后一步。
在这里插入图片描述

4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀

①一个串的前缀和后缀是什么?

一个字符串的前缀是指从开头到某个位置的子串,后缀是指从结尾到某个位置的子串。换句话说,给定一个字符串S,它的前缀是S的任意一个以开头的子串,而后缀是S的任意一个以结尾的子串

例如,对于字符串"ABCD",它的前缀包括:“” (空串),“A”,“AB”,“ABC”,而后缀包括:“BCD”,“CD”,“D”,“” (空串)。

②子串为 T=“aabaaf” 的前缀和后缀是什么?

前缀:a、aa、aab、aaba、aabaa
后缀:f、bf、abf、aabf、baabf、abaaf
记忆技巧:前缀:有头无尾 后缀:有尾无头

③什么叫最长相等前后缀?

子串都有自己的前缀和后缀,对每个前缀进行分析,看看他们的前后缀有没有相同的,有几项,就记录为几。

根据子串的前缀来分析子串前缀的前后缀:
在这里插入图片描述
比如aaba,前缀a和后缀a相同,长度为1;前缀aa和后缀ba不同,前缀aab和后缀aba不同。
比如aabaa,前缀aa和后缀aa相同,长度为2,是最长的。
在这里插入图片描述

这个东西叫做前缀表。

④根据前缀表求匹配

第一次匹配后,b≠f,那么要找f前面的子串的最长相等前后缀,即为2。
数字2意味着什么呢?f之前的前缀是aabaa,意味着后缀aa和前缀aa刚好形成了一个相同且对称的形式。而我们要让第二次匹配时子串跳到b的位置去,因为b在子串的这个数组里刚好下标就是2。

所以第二次匹配时,子串就从主串的b位置开始逐一比较。省略了前面的一些繁琐的步骤,简化了时间复杂度。
在这里插入图片描述

⑤next数组是什么?

就是求出最长的相等的前后缀,把长度记录到next数组中。
next数组:当主串与子串的某一位字符不匹配时,子串要回退的位置。

⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。

五、 KMP算法再举一个例子

主串:ababbaabbaababaaacb

子串:ababaa

(1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度

①a:前面没有,就是0
②ab:前缀a,后缀a,长度为1;
③aba:前缀a,后缀a;前缀ab,后缀ba;长度为1
④abab:前缀ab,后缀ab,长度为2
⑤ababa:前缀aba,后缀aba,长度3
⑥ababaa:前缀a,后缀a,长度1
所以前缀表:
a b a b a a
0 1 1 2 3 1
所以next数组:
a b a b a a
-1 0 0 1 2 0

(2)KMP过程:

在这里插入图片描述
在这里插入图片描述
这样不断让子串往后面对齐移动,其中省略掉的就是不用让子串每次重新回到主串头位置了,根据已有的信息巧妙地省略掉了公共的、无意义的比较过程。

六、KMP算法的代码实现

1.求next数组

void calculateNext(char *pattern, int *next) {int len = strlen(pattern);int i = 0, j = -1;next[0] = -1;while (i < len) {if (j == -1 || pattern[i] == pattern[j]) {i++;j++;next[i] = j;} else {j = next[j];}}
}

函数 calculateNext 用于计算模式串的 Next 数组。

首先,获取模式串的长度 len,并初始化两个指针 i 和 j,其中** i 表示当前遍历到的位置,j 表示前缀的末尾位置**。

然后,将** Next 数组的第一个元素 next[0] 设置为 -1,表示不存在前缀**。

接下来,使用一个循环,从索引 1 开始遍历子串的字符

如果 j 等于 -1 或者当前字符 pattern[i] 等于前缀的末尾字符 pattern[j],则说明可以扩展当前位置的前缀长度,即 i++ 和 j++,然后将 j 的值赋给 next[i]。
如果当前字符不匹配,则需要回溯到更短的相等前后缀。将 j 更新为 next[j],即回溯到前缀的前缀。
最后,循环结束后,Next 数组中存储了每个位置的最长相等前后缀的长度。

这个函数的目的是为了通过利用已匹配的部分,避免无谓的字符比较,从而提高字符串匹配的效率。

2.KMP算法

思路:先获取next数组,然后

int kmpSearch(char *text, char *pattern) {int textLen = strlen(text);int patternLen = strlen(pattern);int i = 0, j = 0;int next[patternLen];calculateNext(pattern, next);while (i < textLen && j < patternLen) {//条件为 i 小于文本串的长度且 j 小于模式串的长度if (j == -1 || text[i] == pattern[j]) {//如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j]i++;//说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++j++;} else {j = next[j];//如果当前字符不匹配,则需要根据 Next 数组来进行回溯//将模式串向右移动到最大匹配的位置}}if (j == patternLen) { //j 等于模式串的长度return i - j; // 已完全匹配成功,返回匹配的起始位置} else {return -1; // 没有找到匹配的子串}
}

函数 kmpSearch 是使用 KMP 算法在文本串中查找匹配的子串。

首先,获取文本串和模式串的长度,并初始化两个指针 i 和 j,分别指向文本串和模式串的起始位置。
然后,创建一个长度为模式串长度的 Next 数组,并调用 calculateNext 函数来计算模式串的 Next 数组。

接下来,使用一个循环,条件为 i 小于文本串的长度且 j 小于模式串的长度:
如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j],则说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++。
如果当前字符不匹配,则需要根据 Next 数组来进行回溯。将 j 更新为 next[j],即将模式串向右移动到最大匹配的位置。

循环结束后,有两种情况:
如果 j 等于模式串的长度,表示模式串已完全匹配成功,返回匹配的起始位置 i - j。
如果 j 不等于模式串的长度,表示没有找到匹配的子串,返回 -1。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/186426.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring boot 整合grpc 运用

文章目录 GRPC基础概念&#xff1a;Protocol Buffers&#xff1a;proto 基础语法&#xff1a;调用类型&#xff1a; Spring boot 整合 grpc项目结构&#xff1a;整合代码&#xff1a;父 pomproto 模块服务端&#xff1a;客户端&#xff1a;实际调用&#xff1a; 原生集成 GRPC基…

leetcode链表

这几天手的骨裂稍微好一点了&#xff0c;但是还是很疼&#xff0c;最近学校的课是真多&#xff0c;我都没时间做自己的事&#xff0c;但是好在今天下午是没有课的&#xff0c;我也终于可以做自己的事情了。 今天分享几道题目 移除链表元素 这道题我们将以两种方法开解决&…

Project Office X for Mac项目管理工具

Project Office X是一款全能的项目管理软件&#xff0c;可帮助企业或个人有效地规划、协调和执行项目。它具有直观的用户界面和强大的功能&#xff0c;适用于各种规模的项目。 这个软件提供了多种实用工具&#xff0c;包括项目计划、资源管理、任务分配、进度跟踪、风险管理和团…

在Node.js中,什么是Promise?如何使用Promise处理异步操作?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

两台Linux服务器之间传送文件

两台Linux服务器之间传送文件 将U盘上的数据传送到服务器上 本地U盘 远程服务器地址&#xff1a; 192.168.30.125 传送到data文件夹的下面 scp -r coco2017 s192.168.30.125:/data传送 两台Linux服务器之间传送文件的4种方法

2024上海智博会,上海国际智慧城市,物联网,大数据展会(世亚智博会)

中国国际智慧城市,物联网,大数据博览会&#xff08;简称:世亚智博会&#xff09;自2010年创办以来&#xff0c;至今已成功举办十多届。世亚智博会是中国较高、规模较大、影响力较广的展会&#xff1b;是被国际业界公认的不可错过的名展之一。随着世亚智博会的国际地位和影响不断…

Linux 入门

Linux 入门 1&#xff1a;linux 用户 root 用户 &#xff1a;也叫超级用户&#xff0c;UID0&#xff0c;其权限最高。系统用户&#xff1a;也叫虚拟用户&#xff0c;UID 1-999普通用户: UID1000-60000, 可以登录系统,操作自己目录下的文件. 1.1:用户操作命令 切换用户: su …

PHP+MySQL人才招聘小程序系统源码 带完整前端+后端搭建教程

在当今竞争激烈的人才市场中&#xff0c;招聘平台的需求日益增长。传统的招聘平台往往需要投入大量的人力物力进行维护和管理&#xff0c;这对于许多中小企业来说是一个沉重的负担。因此&#xff0c;开发一个简单易用、高效便捷的招聘平台显得尤为重要。 PHP是一种流行的服务器…

配置Linux为无线路由器

配置Linux无线路由器 将Linux配置为无线路由器。使用hostapd&#xff0c;可以配置无线网卡为AP模式。 这里使用buildroot来生成这个工具。Wi-Fi模块使用的是 rt8188eus。 1. 内核配置 2. buildroot配置 开启 rt8188eus 驱动 3. 启动hostapd 系统启动后&#xff0c;会自动加…

实用技巧:嵌入式人员使用http服务模拟工具模拟http服务器测试客户端get和post请求

文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/134305752 红胖子(红模仿)的博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬结…

程序员35岁之后如何规划?建议收藏!

文章目录 一、年纪大能不能进大厂&#xff1f;二、为什么说35是危机&#xff1f; 1.精力衰退2.脑力衰退3.知识/技术迭代 三、年龄大的程序员有哪些出路&#xff1f; 1.技术管理2.创业3.技术外包4.做老师5.做自媒体6.写书 四、结语 我自己今年已有44了&#xff0c;从2021年开始…

【Linux语音控制 安卓设备刷短视频 orangePi zero2 H616 (已开源) 】.md uptada:23/11/07

文章目录 H616_实现Ubuntu语音控制安卓设备刷短视频小美效果展示H616 ubuntu系统 安装adb智能公元 SU-03T 离线语音模组 固件制作配合串口实现 小美_控制安卓刷抖音 H616_实现Ubuntu语音控制安卓设备刷短视频 注意&#xff1a;orangePi zero2 H616 安装系统为ubuntu 小美效果…

django建站过程(4)创建文档显示页面

django建站过程&#xff08;4&#xff09;创建文档显示页面 创建文档显示页面项目主文件夹schoolapps中的文件urls.py在APP“baseapps”中创建url.py文件编写视图模板继承bootstrap创建head.html创建doclist.html创建docdetail.html 使用 markdown 编辑器安装模块Model 模型的d…

C#医学检验室(LIS)信息管理系统源码

LIS:实验室信息管理系统 (Laboratory Information Management System简称:LIS)。 LIS 是面向医院检验科、检验中心、动物实验所、生物医疗研究所等科研单位研发的集数据采集、传输、存储、分析、处理、发布等功能于一体的信息管理系统。 一、完善的质控&#xff1a; 从样本管理…

Vue知识点总结

路由 使用 参数传递的两种方式 路由的params传参 路由的query传参 组件 概念 局部功能代码&#xff08;html、css js&#xff09;和资源(mp3 mp4 ttf .zip)的集合 非单文件组件 一个文件对应多个组件&#xff0c;以html结尾 使用 <xuexiao>即可使用 注意&#xf…

哪款手机便签软件支持存储录音文件并支持转文字?

手机便签类软件带有存储录音转文字功能是比较实用的&#xff0c;很多人通常会整理很多录音类型的文件&#xff0c;录音文件整合在一起后&#xff0c;后续有需要可以逐条点开播放收听。尤其是在工作中&#xff0c;当领导说一些重点时&#xff0c;大家无法借助灵活的大脑来成功的…

计算机毕业设计:基于python机器学习的全国气象数据采集预测可视化系统 预测模型+爬虫(包含文档+源码+部署教程)

[毕业设计]2023-2024年最新最全计算机专业毕设选题推荐汇总 感兴趣的可以先收藏起来&#xff0c;还有大家在毕设选题&#xff0c;项目以及论文编写等相关问题都可以给我留言咨询&#xff0c;希望帮助更多的人 。 1、摘 要 随着气候变化的不断加剧&#xff0c;气象数据的准确性…

towr code阅读

1. Introduction towr是非常优美的足式机器人规划代码&#xff0c;通过阅读towr重要的几个迭代版本的代码深入了解。 2 v0.1 第一代的版本&#xff0c;foot的位置是提前给定的&#xff0c;只对COG的trajectory进行优化。 2.1 cost 公式 仅仅只考虑加速度&#xff0c; ∫ …

使用EvoMap/Three.js模拟无人机灯光秀

一、创建地图对象 首先我们需要创建一个EM.Map对象&#xff0c;该对象代表了一个地图实例&#xff0c;并设置id为"map"的文档元素作为地图的容器。 let map new EM.Map("map",{zoom:22.14,center:[8.02528, -29.27638, 0],pitch:71.507,roll:2.01,maxPit…

Python 3D建模指南【numpy-stl | pymesh | pytorch3d | solidpython | pyvista】

想象一下&#xff0c;我们需要用 python 编程语言构建某个对象的三维模型&#xff0c;然后将其可视化&#xff0c;或者准备一个文件以便在 3D 打印机上打印。 有几个库可以解决这些问题。 让我们看一下如何在 python 中从点、边和图元构建 3D 模型。 如何执行基本 3D 建模技术&…