软件测试|如何使用Python取句中中英文内容

简介

提取句子中的中英文内容在自然语言处理中是一个常见任务,通常用于文本处理、机器翻译和语言学研究。本文将详细介绍如何使用 Python 提取句子中的中英文内容,包括准备工作、选择合适的库、编写代码示例和演示示例。

准备工作

我们可以使用Python自带的re模块或者借助jiebanltk库来实现该功能,jieba以及nltk是第三方库,所以我们需要通过命令来安装这两个库,命令如下:

pip install jieba nltk

下面是对我们用到的模块的介绍:

  • re:用于正则表达式操作,我们将使用它来匹配中英文内容
  • jieba:用于中文分词,将中文句子分成词语
  • nltk:自然语言工具包,用于英文文本处理

使用正则表达式提取中英文

正则表达式是一种强大的文本匹配工具,可以用来提取句中的中英文内容。下面是使用正则表达式提取中英文的示例代码:

import redef extract_chinese_and_english(sentence):chinese_pattern = re.compile('[\u4e00-\u9fa5]+')english_pattern = re.compile('[a-zA-Z]+')result = {'chinese': chinese_pattern.findall(sentence),'english': english_pattern.findall(sentence)}return resultsentence = '这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English.'
result = extract_chinese_and_english(sentence)
print(result['chinese'])
print(result['english'])------------------------
运行脚本,输出结果如下:
['这是一个示例句子', '包含了一些中文和英文']
['This', 'is', 'an', 'example', 'sentence', 'with', 'both', 'Chinese', 'and', 'English']

使用第三方库进行中英文提取

除了正则表达式,还可以使用一些第三方库来提取句中的中英文内容。下面是使用Jieba和nltk库进行中英文提取的示例代码:

import re
import jieba
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize# 初始化nltk
nltk.download("punkt")# 示例句子
sentence = "这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English."# 提取中文内容
def extract_chinese(text):chinese_pattern = re.compile(r'[\u4e00-\u9fa5]+')chinese_matches = chinese_pattern.findall(text)return " ".join(chinese_matches)# 提取英文内容
def extract_english(text):english_pattern = re.compile(r'[a-zA-Z]+')english_matches = english_pattern.findall(text)return " ".join(english_matches)# 分词中文内容
chinese_text = extract_chinese(sentence)
chinese_words = jieba.cut(chinese_text)# 分词英文内容
english_text = extract_english(sentence)
english_words = word_tokenize(english_text)# 输出结果
print("原句子:", sentence)
print("中文内容:", chinese_text)
print("中文分词:", " ".join(chinese_words))
print("英文内容:", english_text)
print("英文分词:", " ".join(english_words))-----------------------------
输出结果如下:
原句子: 这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English.
中文内容: 这是一个示例句子 包含了一些中文和英文
中文分词: 这 是 一个 示例 句子   包含 了 一些 中文 和 英文
英文内容: This is an example sentence with both Chinese and English
英文分词: This is an example sentence with both Chinese and English
  1. 我们首先使用正则表达式来提取中文和英文内容。中文内容的正则表达式 [\u4e00-\u9fa5]+ 用于匹配中文字符,英文内容的正则表达式 [a-zA-Z]+ 用于匹配英文字符。

  2. 对中文内容使用 jieba 进行分词,将中文句子分成词语。

  3. 对英文内容使用 nltkword_tokenize 函数进行分词,将英文句子分成单词。

  4. 最后,我们输出原句子、中文内容、中文分词、英文内容和英文分词。

总结

本文主要介绍了使用Python来对文本中的中文英文内容进行提取,我们只使用了简单的示例,如果我们需要处理更复杂的文本,需要使用更高级的框架以及更复杂的正则表达式。

最后感谢每一个认真阅读我文章的人,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/237836.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统SSH远程管理服务概述

目录 一.SSH协议 1.定义 2.优点 (1)加密 (2)压缩 3.SSH的客户端与服务端 (1)客户端 (2)服务端 4.原理 5.实验:使用ssh远程登录 二.OpenSSH服务器 1.概念 2.…

【Linux】之搭建 PostgreSQL 环境

前言 在 Linux 系统下安装 PostgreSQL,可以选择快捷方便的 Docker 安装,但正常的服务器都是直接原生安装的,所以,这里我将讲解如何正常安装 PostgreSQL 以及安装之后的一些配置。如果想了解 Docker 安装的话,可以查看我…

软件测试|Pydantic BaseModel使用详解

简介 当我们在Python中编写应用程序时,通常需要处理和验证数据。Pydantic 是一个流行的库,它可以帮助我们定义数据模型并自动进行数据验证。在Pydantic中,BaseModel是一个核心概念,它用于定义数据模型和验证输入数据。在这篇文章…

【管理篇 / 升级】❀ 13. FortiOS 7.4固件升级新规则 ❀ FortiGate 防火墙

【简介】飞塔防火墙的固件升级一直是所有厂家中最好的。只要有注册官方帐号,有注册设备,并且只要有一台设备在服务期内,即可下载所有型号的所有版本的固件。即使其它设备服务期已过,也可以通过固件文件手动升级,避免防…

VMware安装CentOS7虚拟机

VMware 安装 获取 VMware 安装包 下载地址:链接:https://pan.baidu.com/s/1ELR5NZa7rO6YVplZ1IUigw?pwdplz3 提取码:plz3 包括:当然,也可以自己去别的地方下载,WMware 版本都差不多,现在用的比…

Vulnhub-DC1

前言 一个比较简单的实战靶场,官方要求是找到/root下的flag,所以直接提权即可。但对于学习和训练来说还是太简略了,在打靶场的时候还是全面一些较好。 本次靶场实战涉及信息收集、漏洞查找与利用、getshell、数据库渗透、密码破解、linux提…

创建mysql普通用户

一、创建mysql普通用户的原因: 权限控制:MySQL的权限系统允许您为每个用户分配特定的权限。通过创建普通用户,您可以根据需要为每个用户分配特定的数据库和表权限,而不是将所有权限授予一个全局管理员用户。这有助于提高数据库的…

[Docker] Docker为什么出现

Docker为什么出现 一款产品: 开发–上线 -->两套环境 | 应用配置 开发即运维! 环境配置十分麻烦,每一个机器都要部署环境(Redis, ES, Hadoop) 费时费力 项目带上配置环境安装打包。 传统: 开发jar&…

Python自动化测试框架【生成测试报告】

如何才能让用例自动运行完之后,生成一张直观可看易懂的测试报告呢? 小编使用的是unittest的一个扩展HTMLTestRunner 环境准备 使用之前,我们需要下载HTMLTestRunner.py文件 点击HTMLTestRunner后进入的是一个写满代码的网页,小…

三、GCC编译:链接

代码准备 main.c extern int shared; extern void func(int *a, int *b); int main(){int a 100;func(&a, &shared);return 0; }func.c int shared 1; int tmp 0; void func(int *a, int *b){tmp *a;*a *b;*b tmp; }静态链接 编译 gcc -static -fno-stack-p…

SpringBoot懒加载

什么是懒加载 懒加载是一种优化技术,它延迟加载或按需加载资源,以减少初始加载时间或提高性能。在不同的上下文中,懒加载有不同的应用和含义。在web开发中,懒加载通常指的是延迟加载图片数据。在长网页或应用中,如果图…

ruoyi后台管理系统部署-4-安装nginx

yum 安装 ngix 1.24 yum 官方源安装: # 1. 需要预先安装 yum-utils sudo yum install yum-utils # 2. 配置yum repo touch /etc/yum.repos.d/nginx.repongix.repo: [nginx-stable] namenginx stable repo baseurlhttp://nginx.org/packages/centos/$releasever/$…

Mac安装nvm以及使用nvm安装node

1. 安装nvm命令 git clone https://gitee.com/mirrors/nvm.git ~/.nvm && cd ~/.nvm && git checkout git describe --abbrev0 --tags2. 配置环境变量 vi ~/.bash_profileexport NVM_DIR"$HOME/.nvm" [ -s "$NVM_DIR/nvm.sh" ] &&…

【书生·浦语】大模型实战营——第五课作业

教程文档:https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md#tritonserver-%E6%9C%8D%E5%8A%A1%E4%BD%9C%E4%B8%BA%E5%90%8E%E7%AB%AF 视频链接: 作业: 基础作业 使用如下命令创建conda环境 conda create…

SpringBoot+thymeleaf实战遇到的问题

目录 一、控制台: 二、数据库查询异常: 三、前后端错误校验 四、在serviceImp中需要添加一个eq条件,表示和数据库中的哪个字段进行比较,否则会查出所有数据,导致500 五、使用流转换数据更简洁 六、重复报错&…

AI软件开发:探索原理、挑战与未来趋势

AI软件开发已经成为当前最热门和具有前景的技术领域之一。随着人工智能技术的快速发展,AI软件的应用范围也在不断扩大。本文将主要探讨AI软件开发的原理、挑战以及未来的趋势。 首先,AI软件开发的原理是基于机器学习和深度学习算法。机器学习是一种通过…

ssm基于web的电影购票系统+vue论文

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统电影购票信息管理难度大,容错率低&#xff0c…

C#无标题栏窗体拖动代码

文章目录 一、概念二、案例三、常见问题四、链接 一、概念 C#(C Sharp)是由微软公司开发的一种面向对象的编程语言。它是从C和C语言演化而来的,并结合了Java和其他编程语言的特性。C#是微软.NET平台的一部分,允许开发人员创建各种…

GAMES101:作业7记录

1. 总览 在之前的练习中,我们实现了 Whitted-Style Ray Tracing 算法,并且用 BVH等加速结构对于求交过程进行了加速。在本次实验中,我们将在上一次实验的基础上实现完整的 Path Tracing 算法。至此,我们已经来到了光线追踪版块的最后一节内容。 请认真阅读本文档,按照本文档指…

使用swift创建第一个ios程序

一、安装xcode 先到app store中下载一个Xcode app 二、创建项目 1、项目设定 创建ios app 2、工程结构 三、修改代码实现按键联动 四、运行测试