【NLP 21、实践 ③ 全切分函数切分句子】

当无数个自己离去,我便日益坦然

                                                —— 25.2.9

一、jieba分词器

Jieba 是一款优秀的 Python 中文分词库,它支持多种分词模式,其中全切分方式会将句子中所有可能的词语都扫描出来。

1.原理

全切分方式会找出句子中所有可能的词语组合。对于一个输入的句子,它会尝试将句子按照不同的方式进行切分,只要在词典中存在对应的词语,就会将其作为一个分词结果输出。这种方式会输出所有可能的分词组合,因此可能会产生较多的分词结果。


2.使用方法

在 Jieba 中,导入jieba分词库,使用 jieba.cut 函数并将 cut_all 参数设置为 True 即可实现全切分。

jieba.cut():是 Python 中文分词库 jieba 的核心函数,用于将中文文本切分成独立的词语。

参数名类型默认值是否必填说明
sentencestr需要分词的中文字符串。
cut_allboolFalse控制分词模式:
False精确模式(默认),返回最合理的分词结果。
True全模式,输出所有可能的词语组合。
HMMboolTrue是否使用隐马尔可夫模型(HMM)识别未登录词(新词)。
True:启用新词发现(推荐)。
False:关闭新词发现。
use_paddleboolFalse是否使用 PaddlePaddle 深度学习框架加速分词。
- 需先安装 PaddlePaddle 库(pip install paddlepaddle)。

join():join() 是 Python 字符串的内置方法,用于将一个可迭代对象(如列表、元组、生成器等)中的元素用指定的字符串连接成一个新字符串。在处理中文分词结果时,常用它来将分词后的词语列表转换为特定格式的字符串(例如用斜杠分隔)。

  • 参数:

    • 可迭代对象: 包含多个元素(必须为字符串类型)的列表、元组、生成器等。

    • 分隔符: 用于连接元素的字符串(可以是空字符串 "")。

  • 返回值: 返回一个由分隔符连接元素后的新字符串。

与其他方法的对比

方法特点示例
str.join()高效连接字符串,支持任意可迭代对象。"/".join(["A", "B", "C"])
+ 运算符拼接每次拼接生成新字符串,效率低(不推荐循环中使用)。"A" + "/" + "B" + "/" + "C"
f-string 格式化适合少量固定元素的拼接,可读性强但灵活性差。f"{a}/{b}/{c}"
import jieba# 待分词的句子
sentence = "我爱自然语言处理"# 使用全切分方式进行分词
words = jieba.cut(sentence, cut_all=True)# 输出分词结果
print("全切分结果:", "/ ".join(words))

3.Jieba内部分词实现细节

len():返回对象的长度或元素个数,适用于字符串、列表、元组、字典、集合等可迭代对象。

range():生成一个不可变的整数序列,常用于循环遍历。

append():向列表末尾添加一个元素(直接修改原列表)。

def calc_dag(sentence):DAG = {}    #DAG空字典,用来存储DAG有向无环图N = len(sentence)for k in range(N):tmplist = []i = kfrag = sentence[k]while i < N:if frag in Dict:tmplist.append(i)i += 1frag = sentence[k:i + 1]if not tmplist:tmplist.append(k)DAG[k] = tmplistreturn DAG


4.对Jieba分词结果序列进行解码

pop():移除列表中指定位置的元素并返回该元素的值。若不指定位置,默认移除并返回列表的最后一个元素

参数名类型默认值是否必填说明
indexint-1要移除元素的索引(支持负数索引)。

pop() 和 append() 可共同实现**栈(LIFO)**结构 

#将DAG中的信息解码(还原)出来,用文本展示出所有切分方式
class DAGDecode:#通过两个队列来实现def __init__(self, sentence):self.sentence = sentenceself.DAG = calc_dag(sentence)  #使用了上方的函数self.length = len(sentence)self.unfinish_path = [[]]   #保存待解码序列的队列self.finish_path = []  #保存解码完成的序列的队列#对于每一个序列,检查是否需要继续解码#不需要继续解码的,放入解码完成队列#需要继续解码的,将生成的新队列,放入待解码队列#path形如:["经常", "有", "意见"]def decode_next(self, path):path_length = len("".join(path))if path_length == self.length:  #已完成解码self.finish_path.append(path)returncandidates = self.DAG[path_length]new_paths = []for candidate in candidates:new_paths.append(path + [self.sentence[path_length:candidate+1]])self.unfinish_path += new_paths  #放入待解码对列return#递归调用序列解码过程def decode(self):while self.unfinish_path != []:path = self.unfinish_path.pop() #从待解码队列中取出一个序列self.decode_next(path)     #使用该序列进行解码

二、模仿jieba分词器对输入的句子进行全切分

递归迭代进行分词

def segmentation(sentence, word_dict):result = []if sentence == "":return [[]]for end in range(1, len(sentence) + 1):word = sentence[:end]if word in word_dict:# 递归获取剩余字符串的切分结果sub_results = segmentation(sentence[end:], word_dict)for sub_result in sub_results:result.append([word] + sub_result)return result

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16694.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

团结引擎 OpenHarmony 平台全面支持 UAAL,实现引擎能力嵌入原生应用

团结引擎1.4版本已于近日正式发布&#xff01;在这一版本中&#xff0c;OpenHarmony 平台迎来了一个具有里程碑意义的更新&#xff1a;全面支持 Used as a Library&#xff08;UAAL&#xff09;。UAAL 这一技术方案&#xff0c;具有将引擎嵌入原生应用的独特能力&#xff0c;其…

自己部署DeepSeek 助力 Vue 开发:打造丝滑的标签页(Tabs)

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 自己…

DeepSeek渣机部署编程用的模型,边缘设备部署模型

DeepSeek渣机部署编程用的模型&#xff0c;边缘设备部署模型 文章目录 DeepSeek渣机部署编程用的模型&#xff0c;边缘设备部署模型前言一、python代码二、构建一个简单的前端来接入接口2.读入数据 总结 前言 也许大家伙都想完成一些部署DeepSeek的东西&#xff0c;不过部署并…

VS2019打开《喜缺全书算法册》附带代码的方法兼述单元测试

下载地址(大量的题目和测试用例) 下载:地址一&#xff0c;几乎实时更新 GitCode下载。 下载地址二&#xff0c;不定期更新csdn打包下载 如果这两个链接打不开&#xff0c;可能是这两个资源处于审核状态&#xff0c;快则几分钟&#xff0c;慢则2天。 可以加本文末的&#xff31…

急停信号的含义

前言&#xff1a; 大家好&#xff0c;我是上位机马工&#xff0c;硕士毕业4年年入40万&#xff0c;目前在一家自动化公司担任软件经理&#xff0c;从事C#上位机软件开发8年以上&#xff01;我们在开发C#的运动控制程序的时候&#xff0c;一个必要的步骤就是确认设备按钮的急停…

小白学网络安全难吗?需要具备哪些条件?

作为一名零基础小白&#xff0c;想要转行IT学习一门新技术&#xff0c;且上手难度低、就业前景好、薪资待遇高、入行门槛低&#xff0c;网络安全是最值得的选择&#xff0c;掌握它之后你可以获得一份收入不错的工作。那么零基础学网络安全好学吗?以下是具体内容介绍。 首先&am…

IEEE期刊Word导出PDF注意事项

在系统上提交论文时候一般要求PDF文档&#xff0c;但是word直接转PDF可能存在一些问题&#xff1a; 部分图片不清晰。字体未嵌入PDF。间距发生了变化。字体发生了变化。一张图片显示不完全。 下面介绍word转PDF最稳妥的技巧以及如何实现全部字体的嵌入。 1. 操作流程 ① 另…

CEF132 编译指南 MacOS 篇 - depot_tools 安装与配置 (四)

1. 引言 在 CEF132&#xff08;Chromium Embedded Framework&#xff09;的编译过程中&#xff0c;depot_tools 扮演着举足轻重的角色。这套由 Chromium 项目精心打造的脚本和工具集&#xff0c;专门用于获取、管理和更新 Chromium 及其相关项目&#xff08;包括 CEF&#xff…

【C++高并发服务器WebServer】-16:UDP简单实现

本文目录 一、UDP通信流程二、UDP API2.1 sendto()2.2 recvfrom() 一、UDP通信流程 UDP通信的流程比较简单&#xff0c;下面这张图可以总结。 二、UDP API 2.1 sendto() UDP相关头文件如下。 #include <sys/types.h> #include <sys/socket.h>ssize_t sendto(…

k8s管理工具之lens

什么是lens Lens 是当前市场上最强大的K8S IDE。它是一个独立的单机应用&#xff0c;可以同时运行在macOS、Windows和Linux上。 作为K8S IDE&#xff0c;该有的它基本都有了&#xff01; 集群管理 导入已有集群 首先&#xff0c;你需要在 Lens 中添加你的 Kubernetes 集群。点…

SynthDetoxM - 现代LLM是少样本的并行去毒化数据标注器

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators https://arxiv.org/html/2502.06394v1 1. 主要内容 这篇论文提出了一个 用于生成多语言平行去毒化数据的管道&#xff0c;并介绍了SynthDetoxM&#xff0c;一个包含16,000个高质量去毒化句子对…

云服务器流量包用尽(中病毒)

1. 情况 腾讯云提示我账号欠费了&#xff0c;服务器存在恶意文件。。。 一看&#xff0c;流量包用尽超额了&#xff0c;CPU直接爆了。 用iftop监测一下网络流量。可以看到向多个IP发送了大量的流量。 看来是中病毒了&#xff0c;被当成 “肉鸡”&#xff0c;纳入“僵尸网络”…

RK3588视觉控制器与AI 算法:开启工业视觉检测新境界

在实际应用中&#xff0c;工业相机拍摄产品的图像&#xff0c;RK3588 迅速接收并进行预处理。AI 算法随即对图像进行深入分析&#xff0c;提取特征并与预设的标准进行对比&#xff0c;从而准确判断是否存在缺陷。 例如&#xff0c;在电子元件生产线上&#xff0c;RK3588 和 AI…

android的ViewModel这个类就是业务逻辑层吗

android的ViewModel这个类就是业务逻辑层吗&#xff1f; 相似&#xff1a;业务逻辑代码应该放在ViewModel这个类吗&#xff1f; 嗯&#xff0c;我现在在学习Android架构组件&#xff0c;特别是ViewModel。用户问ViewModel是否就是业务逻辑层&#xff0c;我需要仔细思考这个问题…

Gui-Guider1.8.1 数字时钟控件找不到定义,无法编译

我们在Gui-Guider中使用的一些控件&#xff0c;生成后会发现在LVGL源码中找不到该控件的定义&#xff0c;这时因为Gui-Guider中的一些控件是其自己编写的而不是LVGL提供的&#xff0c;那么我们该如何应用呢&#xff1f;这里拿Digital Clock数字时钟控件举例&#xff1a; 这里我…

使用 SDKMAN! 在 Mac(包括 ARM 架构的 M1/M2 芯片)安装适配 Java 8 的 Maven

好的&#xff0c;这是使用 SDKMAN! 安装适配 Java 8 的 Maven 的步骤&#xff1a; 前提条件: 安装 SDKMAN!: 如果你的系统上没有安装 SDKMAN!&#xff0c;请按照以下说明进行安装: curl -s "https://get.sdkman.io" | bash source "$HOME/.sdkman/bin/sdkman-i…

【Stable Diffusion模型测试】测试ControlNet,没有线稿图?

相信很多小伙伴跟我一样&#xff0c;在测试Stable Diffusion的Lora模型时&#xff0c;ControlNet没有可输入的线稿图&#xff0c;大家的第一反应就是百度搜&#xff0c;但是能从互联网上搜到的高质量线稿图&#xff0c;要么收费&#xff0c;要么质量很差。 现在都什么年代了&a…

oracle表分区--范围分区

文章目录 oracle表分区分区的原因分区的优势oracle表分区的作用oracle表分区类型一、范围分区二、 创建分区表和使用&#xff1a;1、按照数值范围划分2、按照时间范围3、MAXVALUE2. 向现有表添加新的分区3、 分区维护和重新组织&#xff08;合并/删除&#xff09; oracle表分区…

InspurServer服务器监控指标详解

在现代信息化环境中&#xff0c;服务器的稳定运行对于业务连续性至关重要。InspurServer作为高性能服务器解决方案&#xff0c;其性能监控与优化更是不可或缺。本文将基于监控易一体化运维软件&#xff0c;深入探讨InspurServer服务器的关键监控指标&#xff0c;包括响应时间、…

基于opencv的 24色卡IQA评测算法源码-可完全替代Imatest

1.概要 利用24色卡可以很快的分析到曝光误差&#xff0c;白平衡误差&#xff0c;噪声&#xff0c;色差&#xff0c;饱和度&#xff0c;gamma值。IQA或tuning工程一般用Imatest来手动计算&#xff0c;不便于产测部署&#xff0c;现利用opencv实现了imatest的全部功能&#xff0c…