【大数据算法】时间亚线性算法之:串相等判定算法。

串相等判定算法

  • 1、引言
  • 2、串相等判定算法
    • 2.1 定义
    • 2.2 核心原理
    • 2.3 应用场景
    • 2.4 算法公式
      • 2.4.1 Rabin-Karp算法
      • 2.4.2 哈希函数
    • 2.5 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 啥是串相等判定算法啊
小鱼:这个… en…en…
小屌丝:咋了,这个问题难住你了? 不能吧
小鱼:难住了,难住了, 我现在饿的迷糊了。
小屌丝:我~ 这个真是的。 这时间赶的。
小鱼:要不,先去吃个饭?
小屌丝:行行行,
小鱼:你这是不高兴啊,不乐意啊
小屌丝:没没没, 我这不是笑着吗
在这里插入图片描述
小鱼:行,你笑就行,那咱就走?
小屌丝:行啊,走吧。
小鱼:吃得差不多了,泡个澡去?
小屌丝:鱼哥,你这又…
小鱼:泡泡澡,顺便说说串相等判定算法。
小屌丝:行啊~ ~

2、串相等判定算法

2.1 定义

  • 时间亚线性串相等判定算法:指那些执行时间复杂度低于O(n)的字符串相等性判定算法。
  • 这类算法通过预处理或者特定的数据结构,在一定条件下实现比线性时间更快的性能。

2.2 核心原理

常见的时间亚线性的字符串相等判定算法主要有基于哈希的算法和基于树的数据结构算法。这些算法的核心思路通常包括:

  • 哈希算法:利用字符串的哈希值进行比较。哈希值的计算复杂度通常是 O ( 1 ) O(1) O(1),因此利用哈希值进行比较可以显著减少整体比较时间。
  • Trie树:用Trie树来存储大规模字符串集合,通过树的结构加速查询和比较操作。
  • Rabin-Karp算法:这种算法使用滚动哈希技术,在滑动窗口的情况下计算哈希值,使得字符串比较的平均复杂度低于 O ( n ) O(n) O(n)

2.3 应用场景

串相等判定算法在多个领域有广泛应用,包括但不限于:

  • 网络安全:防止字典攻击和暴力破解,快速确认用户输入的口令是否在已知的口令集内。
  • 文本搜索:高效匹配大规模文本中的关键字,如搜索引擎中的匹配操作。
  • 基因序列匹配:在生物信息学中,快速比较和匹配DNA或RNA序列。
  • 数据去重:去除大规模数据集中的重复字符串。

2.4 算法公式

2.4.1 Rabin-Karp算法

以Rabin-Karp算法为例,公式如下:

计算模式字符串的哈希值: ( Hash ( P ) ) ( \text{Hash}(P) ) (Hash(P))
计算文本中每个滑动窗口的哈希值,并与模式字符串的哈希值进行比较:
[ Hash ( T [ i : i + m ] ) = ( d × ( Hash ( T [ i : i + m − 1 ] ) − T [ i ] × h ) + T [ i + m ] ) m o d q ] [ \text{Hash}(T[i:i+m]) = (d \times (\text{Hash}(T[i:i+m-1]) - T[i] \times h) + T[i+m]) \mod q ] [Hash(T[i:i+m])=(d×(Hash(T[i:i+m1])T[i]×h)+T[i+m])modq]
其中:

  • ( d ) ( d ) (d) 是基数(如256)
  • ( q ) ( q ) (q) 是一个大的质数
  • ( h ) ( h ) (h) ( d ) ( d ) (d) ( m − 1 ) ( m-1 ) (m1) 次幂

2.4.2 哈希函数

以哈希函数 ,假设哈希函数 H H H,字符串 s s s的哈希值 H ( s ) H(s) H(s)可以表示为:
[ H ( s ) = ∑ i = 0 ∣ s ∣ − 1 s [ i ] × p i m o d M ] [ H(s) = \sum_{i=0}^{|s|-1} s[i] \times p^i \mod M ] [H(s)=i=0s1s[i]×pimodM]
其中,

  • ( p ) ( p ) (p) 是一个质数,通常选择31或61,
  • ( M ) ( M ) (M) 是一个大的质数,通常选择 ( 1 0 9 + 7 ) ( 10^9+7 ) (109+7) 以减少哈希冲突。

2.5 代码示例

我们以 Rabin-Karp算法为例,使用Python实现:

# -*- coding:utf-8 -*-
# @Time   : 2024-08-12
# @Author : Carl_DJdef rabin_karp(text, pattern):"""Rabin-Karp算法实现字符串相等判定"""d = 256  # 基数q = 101  # 一个大质数n = len(text)m = len(pattern)h = 1p_hash = 0  # 模式字符串的哈希值t_hash = 0  # 当前文本窗口的哈希值# 计算 h = d^(m-1) % qfor i in range(m-1):h = (h * d) % q# 计算模式字符串的哈希值和文本前m个字符的哈希值for i in range(m):p_hash = (d * p_hash + ord(pattern[i])) % qt_hash = (d * t_hash + ord(text[i])) % q# 滑动窗口检验for i in range(n - m + 1):if p_hash == t_hash:if text[i:i+m] == pattern:return Trueif i < n - m:t_hash = (d * (t_hash - ord(text[i]) * h) + ord(text[i + m])) % q# 处理t_hash可能为负值的情况if t_hash < 0:t_hash += qreturn False# 示例数据
text = "abcdefg"
pattern = "cde"
result = rabin_karp(text, pattern)
print(f"模式字符串'{pattern}'是否出现在文本中: {result}")

在这里插入图片描述

3、总结

时间亚线性的串相等判定算法在大量涉及字符串比较和匹配的应用场景中表现出色。

通过引入哈希函数或树形数据结构,算法显著优化了时间复杂度,从而提高了处理效率。

然而,这些算法也有其适用的范围和前提条件,例如哈希冲突、预处理时间和额外的存储空间等。

因此,在实际应用中,需要根据具体的需求和数据特性来选择合适的算法,以达到最佳效果。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 企业认证金牌面试官
  • 多个名企认证&特邀讲师等
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)评测一等奖获得者

关注小鱼,学习【大数据算法】领域最新最全的领域知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413537.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust Linux开发人员自比道路建设者和寻路者的区别

红帽公司&#xff08;Red Hat&#xff09;的长期直接渲染管理器&#xff08;Direct Rendering Manager&#xff0c;DRM&#xff09;子系统维护者大卫-艾尔里&#xff08;David Airlie&#xff09;撰写了一篇有趣的博文&#xff0c;将开发人员的类型与筑路工人、寻路者与酒店进行…

swift自定义数据集微调Qwen-7B大模型,转换模型后使用ollama跑起来

前文&#xff1a;swift微调Qwen-7B大模型-CSDN博客 我详细介绍了swift如何进行微调&#xff0c;但数据集均来自魔搭社区&#xff0c;如何想训练自定义数据集&#xff0c;实际上也很简单。 一、自定义数据集微调 export MKL_THREADING_LAYERGNU \ CUDA_VISIBLE_DEVICES0,1,2…

本地编写Markdown格式文件,浏览器查看

编写准备 下载VsCode并安装&#xff0c;打开后在内部安装Markdown All in One、Markdown Preview Enhanced、Paste Image三个插件。新建一个文件夹用以后期保存你的笔记等文件在左侧新建文件&#xff0c;.md结尾&#xff0c;即完成创建右侧可实时的查看你的编写结果&#xff0…

大模型赋能风控运营:效率跃升的密码

一、大模型助力风控运营的背景与趋势 大模型兴起的背景 随着金融行业的迅速发展和数据量的爆炸式增长&#xff0c;传统的风控运营手段逐渐难以满足复杂多变的风险形势。大数据、人工智能等技术的不断进步&#xff0c;为大模型在风控运营领域的应用提供了技术支撑。金融机构面…

【算法】演员~评论家方法

一、引言 演员-评论家算法&#xff08;Actors-Critics Method&#xff09;是一种用于并发编程中的同步机制&#xff0c;用于解决多线程环境下的资源竞争问题。与传统的锁和信号量等同步工具不同&#xff0c;演员-评论家方法采用更加灵活的协作策略。算法结合了策略梯度&#xf…

PyQt5:pycharm设置及使用

前言 PyQt5 是一个用于创建图形用户界面的 Python 库&#xff0c;它是 Qt 应用程序框架的 Python 绑定。Qt 是一个广泛使用的跨平台 C 框架&#xff0c;PyQt5 允许开发者使用 Python 编写图形界面应用程序&#xff0c;而不必直接使用 C。 为了方便地使用它&#xff0c;我尝试在…

【MySQL进阶之路】数据库的操作

目录 创建数据库 字符集和校验规则 查看数据库支持的字符集 查看数据库支持的字符集校验规则 指定字符集和校验规则 在配置文件中配置 查看数据库 显示创建语句 修改数据库 删除数据库 数据库的备份和恢复 备份整个数据库 备份特定表 备份多个数据库 备份所有数据…

【大模型】LangChain基础学习

前言:LangChain是一个用于构建端到端语言模型应用的框架 目录 1. 基础知识2. 基本使用2.1 安装2.2 启动示例2.3 使用prompt2.4 输出解析器 3. 相关应用3.1 RAG 参考文献 1. 基础知识 六大组件 模型&#xff08;Models&#xff09;&#xff1a;包含各大语言模型的LangChain接口…

Redis从入门到入门(上)

1.Redis概述 文章目录 1.Redis概述1.1 什么是Redis1.2 Redis的应用场景 2.Linux下Redis的安装与使用2.1 Redis下载2.2 Redis的启动2.3 Redis配置2.4 连接Redis 1.1 什么是Redis Redis是用C语言开发的一个开源的高性能键值对&#xff08;key-value&#xff09;数据库&#xff0…

MATLAB生成COE文件

MATLAB代码 % 参数设置 N 4096; % 数据点数量 t linspace(0, 2*pi, N); % 时间向量 width 12; % 位宽% 正弦波&#xff0c;幅度在0到5之间 sine_wave 2.5 * sin(t) 2.5;% 三角波&#xff0c;幅度在0到5之间 tri_wave 5 * (1 - abs(mod(t/(2*pi)*4, 2) - 1));% 方波&…

springboot集成七牛云上传文件

大体思路 上传 前端上传MultipartFile file 文件 进行名字空值校验和格式校验&#xff0c;大概就是判断后缀是不是属于jpg.png 生成唯一uuid名称&#xff0c;然后拿着这个文件名和图片文件File调接口 接口参数为 输入流inputstream&#xff0c;将file化流传输文件名上传t…

多线程+连接池+代理 运行一段时间线程阻塞,如何解决??

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

<Rust>egui学习之小部件(四):如何在窗口中添加滚动条Scroll部件?

前言 本专栏是关于Rust的GUI库egui的部件讲解及应用实例分析&#xff0c;主要讲解egui的源代码、部件属性、如何应用。 环境配置 系统&#xff1a;windows 平台&#xff1a;visual studio code 语言&#xff1a;rust 库&#xff1a;egui、eframe 概述 本文是本专栏的第四篇博…

今日算法:蓝桥杯基础题之“切面条”

你好同学&#xff0c;我是沐爸&#xff0c;欢迎点赞、收藏、评论和关注&#xff01;个人知乎 从今天开始&#xff0c;一起了解算法&#xff0c;每日一题&#xff0c;从 JavScript 的技术角度进行解答&#xff0c;如果你对算法也感兴趣&#xff0c;请多多关注哦。 问题描述 一…

【深度学习与NLP】——深度卷积神经网络AlexNet

目录 一、卷积神经网络的发展历程 二、简要介绍 三、代码实现 四、缺点和过时的地方 一、卷积神经网络的发展历程 早期理论基础阶段&#xff08;20 世纪 60 年代 - 80 年代&#xff09;&#xff1a; 1968 年&#xff0c;Hubel 和 Wiesel 通过对猫视觉神经的研究&#xff0…

Hibernate 批量插入速度慢的原因和解决方法

由于业务需要一次性连续写入超过10k条以上的新数据&#xff0c;当对象超过10个成员变量以后&#xff0c;整个写入过程居然需要长达35秒&#xff0c;这个速度是不能接受的&#xff0c;故此研究了一下怎么开启Hibernate批量写入的功能。 我这边使用的是Hibernate 5.6.15 在网上…

Python 从入门到实战3(列表的简单操作)

我们的目标是&#xff1a;通过这一套资料学习下来&#xff0c;通过熟练掌握python基础&#xff0c;然后结合经典实例、实践相结合&#xff0c;使我们完全掌握python&#xff0c;并做到独立完成项目开发的能力。 上篇文章我们通过python小栗子来学习python基础知识语法&#xff…

C语言中的“#”和“##”

目录 开头1.什么是#?2.什么是##?3.#和##的实际应用输出变量的名字把两个符号连接成一个符号输出根据变量的表达式…… 下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。在今天&#xff0c;我们要学一下关于C语言中的#和##的一些知识。 1.什么是#? #&#xff0…

《黑神话:悟空》:30%抽成真相

《黑神话&#xff1a;悟空》自建服务器出售&#xff1f;揭秘游戏界的30%抽成真相&#xff01; 近年来&#xff0c;随着游戏行业的迅猛发展&#xff0c;游戏开发商与发行平台之间的利益分配问题逐渐成为业界关注的焦点。其中&#xff0c;《黑神话&#xff1a;悟空》作为一款备受…

JS基础之【基本数据类型与类型间的隐式显示转换】

&#x1f680; 个人简介&#xff1a;某大型国企高级前端开发工程师&#xff0c;7年研发经验&#xff0c;信息系统项目管理师、CSDN优质创作者、阿里云专家博主&#xff0c;华为云云享专家&#xff0c;分享前端后端相关技术与工作常见问题~ &#x1f49f; 作 者&#xff1a;码…