Python处理包含不可打印/显示字符的中文字符串

Python处理包含不可打印/显示字符的中文字符串

news/2024/12/24 1:57:11/文章来源:https://blog.csdn.net/leonardohaig/article/details/137168288

Python处理包含不可打印/显示字符的中文字符串

在利用Python分析一个日志文件时，发现python读取文件总是报错:

   (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 210: invalid continuation byte

转换编码格式也不能解决，然后利用NotePad++打开该文件，将“所有字符”显示出来，发现文件内容截图如下：
在这里插入图片描述
针对该类型文件，可以考虑在读取时利用二进制形式进行读取，然后对二进制数据进行判断，判断其是否为可打印字符（包含中文字符）/是否为不可打印字符，然后将不可打印字符去除即可。
代码如下：

import unicodedata# 读取包含不可打印字符和中文字符的文件
with open('your_binary_file.txt', 'rb') as file:binary_data = file.read()filtered_chars = []# 过滤掉不可打印字符并保留可打印字符
for char in binary_data.decode('utf-8', errors='replace'):if unicodedata.category(char) != 'Cc':  # 不可打印字符的分类为 'Cc'filtered_chars.append(char)# 将过滤后的字符列表连接成字符串
filtered_text = ''.join(filtered_chars)print(filtered_text)

首先将二进制数据按照 UTF-8 编码解码为字符串。然后，使用 unicodedata 模块中的 category 函数来判断字符是否为不可打印字符（分类为 ‘Cc’）。最后，将过滤后的字符列表连接成字符串以获得最终结果。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/291299.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

深入探索Yarn：安装与使用指南

深入探索Yarn：安装与使用指南

Yarn 是一个由 Facebook 开发的 JavaScript 包管理器，旨在提供更快、更可靠的包管理体验。它与 npm 类似，但在某些方面更加高效和可靠。本文将介绍如何安装 Yarn，并展示如何使用它来管理 JavaScript 项目的依赖。 1. 安装 Yarn Yarn 可以通…

阅读更多...

香港服务器与SEO的关系（香港服务器对SEO影响大吗?）

香港服务器与SEO的关系（香港服务器对SEO影响大吗?）

香港服务器与 SEO 的关系是一个备受关注的话题，不少站长在选择了香港服务器后，便会疑问：香港服务器对SEO的影响是否显著?那么，在这里就跟大家聊聊两者的关系以及影响大小。其实，不少站长对 SEO 的这种担忧和想法是片…

阅读更多...

k8s系列之十七 Istio中的服务治理

k8s系列之十七 Istio中的服务治理

删除前面配置的目的地规则 [rootk8s-master ~]# kubectl delete destinationrule details destinationrule.networking.istio.io "details" deleted [rootk8s-master ~]# kubectl delete destinationrule productpage destinationrule.networking.istio.io "pr…

阅读更多...

【目录整理】（五）

Git 基础 Git 详细安装教程文章浏览阅读10w次，点赞9.6k次，收藏1.7w次。Git 是个免费的开源分布式版本控制系统，下载地址为git-scm.com 或者 gitforwindows.org，本文介绍 Git-2.40.0-64-bit.exe 版本的安装方法&#x…

阅读更多...

什么是齐纳二极管？齐纳二极管1SMB5944BT3G参数详解+应用方案

什么是齐纳二极管？齐纳二极管1SMB5944BT3G参数详解+应用方案

关于齐纳二极管基本知识： 齐纳二极管，又称稳压二极管。利用PN结的反向击穿状态，电流变化范围大，电压基本不变。制作了具有稳压功能的二极管。这种二极管是一个高电阻半导体器件，直到临界反向击穿电压。在这个临界击穿…

阅读更多...

springcloud基本使用（搭建eureka服务端）

springcloud基本使用（搭建eureka服务端）

创建springbootmaven项目 next next finish创建成功删除项目下所有文件目录，只保留pox.xml文件父项目中的依赖： springboot依赖： <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-s…

阅读更多...

Spring 源码调试问题 ( List.of(“bin“, “build“, “out“)； )

Spring 源码调试问题 ( List.of(“bin“, “build“, “out“)； )

Spring 源码调试问题文章目录 Spring 源码调试问题一、问题描述二、解决方案一、问题描述错误：springframework\buildSrc\src\main\java\org\springframework\build\CheckstyleConventions.java:68: 错误: 找不到符号 List<String> buildFolders List.of…

阅读更多...

canal: 连接kafka (docker)

canal: 连接kafka (docker)

一、确保mysql binlog开启并使用ROW作为日志格式 docker 启动mysql 5.7配置文件 my.cnf [mysqld] log-binmysql-bin # 开启 binlog binlog-formatROW # 选择 ROW 模式 server-id1一定要确保上述两个值一个为ROW，一个为ON 二、下载canal的run.sh https://github.c…

阅读更多...

马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

本文原文来自DataLearnerAI官方网站：马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！ | 数据学习者官方网站(Datalearner) 继Grok-1开源之后，xAI宣布了Grok-1.5的内测消息&…

阅读更多...

头歌实验一关系数据库标准语言SQL湖北汽车工业学院）

头歌实验一关系数据库标准语言SQL湖北汽车工业学院）

头歌实验一关系数据库标准语言SQL 制作不易！点个关注呗！为大家创造更多的价值！ 目录头歌实验一关系数据库标准语言SQL**制作不易！点个关注呗！为大家创造更多的价值！** 第一关：创建数据库第…

阅读更多...

用Python实现办公自动化（自动化处理Excel工作簿）

用Python实现办公自动化（自动化处理Excel工作簿）

自动化处理Excel工作簿 （一）批量生产产品出货清单以“出货统计表”为例， 需求：将出货记录按照出货日期分类整理成多张出货清单 “出货统计表数据案例” “产品出货清单模板” 1.提取出货统计表的数据 “Python程序代码” # 使用…

阅读更多...

$NC269391 炸鸡块哥哥的粉丝题$

NC269391 炸鸡块哥哥的粉丝题

题目描述智乃作为炸鸡块哥哥的粉丝，做了一场炸鸡块哥哥的比赛后得出一个结论，那就是炸鸡块哥哥的话，最多只能信半句。现在给你一个长度为N的字符串S，请输出前个字符，表示只能相信半句话。例如当炸鸡块哥哥说&…

阅读更多...

【软考】设计模式之状态模式

【软考】设计模式之状态模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 优缺点5.1 优点5.2 缺点 6. java示例6.1 非状态模式6.1.1 问题分析6.1.2 接口类6.1.2 实现类6.1.3 客户端6.1.4 结果截图 6.2 状态模式6.2.1 抽象状态类6.2.2 状态类6.2.3 上下文类6.2.4 上下文类 1. 说明 1.允许一个对象在其内部状…

阅读更多...

2024-2028年中国二茂铁市场行情监测及未来发展前景研究报告

2024-2028年中国二茂铁市场行情监测及未来发展前景研究报告

二茂铁市场供不应求投资及产需规模均有增长二茂铁又称二环戊二烯合铁，是一种具有芳香族性质的有机过渡金属化合物，化学式为Fe(C5H5)2，常温下为橙黄色粉末固体，有类似樟脑的气味。二茂铁不溶于水，易溶于苯、乙醚、汽油…

阅读更多...

Jenkins实现CICD

Jenkins实现CICD

Jenkins实现CICD JenkinsCI简介环境安装新建任务源码管理构建配置发送邮件配置自动化项目定时构建 JenkinsCD简介配置ssh保证其可以免登录接下来配置github的webhook正式实现自动化打包master主分支的代码将前端三剑客代码文件发送到网站服务器对应的tomcat Jenkins面试题 Jenk…

阅读更多...

（分享）一个图片添加水印的小demo的页面，可自定义样式

（分享）一个图片添加水印的小demo的页面，可自定义样式

有时候想给某张图片添加一个自己的水印，但是又懒的下载相应软件，用js canvas制作一个静态页面，对于单张图片添加自定义文字水印，大小间距，角度可调。页面如下： 选择图片，设置相应参数&#x…

阅读更多...

KVM：尝试安装windows2008

KVM：尝试安装windows2008

最终目的是在lxd部署windows2008镜像 WindowsServer2008镜像： cn_windows_server_2008_r2_standard_enterprise_datacenter_and_web_with_sp1_x64_dvd_617598.iso 镜像参考链接： https://discussion.scottibyte.com/t/migrate-a-hyper-v-windows-vir…

阅读更多...

44 el-dialog 的 appendToBody 属性, 导致 vue 响应式失效

44 el-dialog 的 appendToBody 属性, 导致 vue 响应式失效

前言我们经常会碰到一些模型和视图不同步的问题通常意义上主要的问题为列表的某响应式数据更新着更新着后面就变成非响应式对象了, 然后就造成了数据一直在更新, 但是视图的渲染后面就未渲染了, 这是一个由于模型上的问题导致的数据的不在响应式更新又或者是…

阅读更多...

.NET CORE 分布式事务(三) DTM实现Saga及高并发下的解决方案

.NET CORE 分布式事务(三) DTM实现Saga及高并发下的解决方案

目录(结尾附加项目代码资源地址) 引言： 1. SAGA事务模式 2. 拆分为子事务 3. 失败回滚 4. 如何做补偿 4.1 失败的分支是否需要补偿 5. 异常 6. 异常与子事务屏障 6.1 NPC的挑战 6.2 现有方案的问题 6.3 子事务屏障 6.4 原理 7. 更多高级场景 7.1 部分…

阅读更多...

MySQL Explain 字段详解

MySQL Explain 字段详解

Explain 工具介绍 Explain 一般被称为解释器，通过 Explain 工具，我们能分析我们使用的查询语句或是结构的性能瓶颈，它提供 MySQL 如何执行语句的信息。使用语法： explain [extended|partition] select在 select 关键字前加 ex…

阅读更多...

最新文章

推荐文章