python3对文件编码的转换处理

前言:

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

公司同事邀我一起给SQLSERVER 2008导数, 数据来源有高斯和ORACLE, 数据文件保存格式有UTF-8和GBK。

当我在做测试导入的时候发现SQLSERVER 2008数据库的WITH选项不支持CODEPAGE=‘65001’, 即UTF-8文件编码格式导入。 所以需要把UTF-8编码的文件统一转换成GBK, 代码如下。

示例一:

import os, sys
import chardetsource_file = sys.argv[1]  # 源文件
dest_file = sys.argv[2] # 转后的目标文件# 确定源文件字符编码
for row in  open(source_file, 'rb'):tmp = chardet.detect(row)language = tmp.get("encoding")if language.upper == 'UTF-8':charset = "UTF-8"else:charset = "GB18030"break# 将文件转换成GBK编码
with open(dest_file, 'w', encoding="GB18030") as fp:for row in open(source_file,'r', encoding=charset):fp.write(row)

在转换生产数据的时候还算好用, 但有些字符还是无法很好的识别, 导致转换失败。
 
在网上又看到了一个专门用来编码转换的包:codecs, 用法大同小异

示例二:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import os, sys
import chardet
import codecssource_file = sys.argv[1]  # 源文件
dest_file = sys.argv[2] # 转后的目标文件# 确定源文件字符编码
for row in  open(source_file, 'rb'):tmp = chardet.detect(row)language = tmp.get("language")if language == 'Chinese':charset = "GB18030"else:charset = "UTF-8"break# 将文件转换成GBK编码
fp = codecs.open(dest_file, 'w', encoding="GB18030") # 中文编码写入
for row in codecs.open(source_file, 'r', encoding=charset): # 指定编码读fp.write(row)<br>fp.close()

通过 Unicode 编码来进行不同编码之间的相互转化

  1. 不同的编码之间不能互相识别,不能相互转化,会报错或出现乱码

  2. 国际通用标准:文字通过网络传输、或硬盘存储等不能使用 Unicode 编码方式,因为 Unicode 使用的是升级版 32 位的,太费流量和空间

  3. 在 Python3 版本中,唯独 string 在内存中的编码方式是 Unicode,所以字符串不能直接进行网络传输及进行文件的存储

  4. bytes:也是一种数据类型,不是字节,与 string 类型就像是孪生兄弟

  5. 为啥要有 bytes ?—— bytes 内部编码不是 Unicode 方式,因此可以进行网络传输和文件的存储

  6. 不同编码之间相互转化都需要先变成unicode编码, encode编码, decode解码

示例:

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
s1 = "中国"
b=s1.encode("gbk")
s2 = b.decode("gbk")
s3=u"中国"print(s1)
print(b)
print(s2)
print(s1==s2==s3)

结果 :

中国
b'\xd6\xd0\xb9\xfa'
中国
True

在python3版本中, 字符串的编码方式就是Unicode, 所以中国==u"中国"

各系统的默认编码方式

  • WINDOWS: GBK

  • LINUX: UTF-8

  • IOS: UTF-8

示例:

# windows下生成的文件打开方式
with open(r"d:\test.txt") as fp:print(fp.read())# linux下生成文件的打开方式
with open(r"d:\test.txt", encoding="utf-8") as fp:print(fp.read())

如果encoding不对, 打开内容是乱码

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/132119.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【再识C进阶2(下)】详细介绍指针的进阶——利用冒泡排序算法模拟实现qsort函数,以及一下习题和指针笔试题

前言 &#x1f493;作者简介&#xff1a; 加油&#xff0c;旭杏&#xff0c;目前大二&#xff0c;正在学习C&#xff0c;数据结构等&#x1f440; &#x1f493;作者主页&#xff1a;加油&#xff0c;旭杏的主页&#x1f440; ⏩本文收录在&#xff1a;再识C进阶的专栏&#x1…

2023备战秋招Java面试八股文合集

Java就业大环境仍然根基稳定&#xff0c;市场上有很多机会&#xff0c;技术好的人前景就好&#xff0c;就看你有多大本事了。小编得到了一份很不错的资源&#xff0c;建议大家可以认真地来看看以下的资料&#xff0c;来提升一下自己的核心竞争力&#xff0c;在面试中轻松应对面…

学习笔记|回顾(1-12节课)|应用模块化的编程|添加函数头|静态变量static|STC32G单片机视频开发教程(冲哥)|阶段小结:应用模块化的编程(上)

文章目录 1.回顾(1-12节课)2.应用模块化的编程(.c .h)Tips:添加函数头创建程序文件三步引脚定义都在.h文件函数定义三步bdata位寻址变量的使用 3.工程文件编写静态变量static的使用完整程序为&#xff1a;demo.c&#xff1a;seg_led.c:seg_led.h: 1.回顾(1-12节课) 一、认识单…

docker系列(3) - 常用软件安装

文章目录 3. docker安装常用软件3.1 安装nginx3.2 安装redis3.3 安装mysql3.4 部署springboot程序3.4.1 编写dockerfile3.4.2 构建镜像3.4.3 启动镜像 3. docker安装常用软件 3.1 安装nginx docker pull nginx#挂载启动 docker run -it -d \ --namenginx \ --networkpub_netw…

【计算机网络】什么是WebSocket?

目录 WebSocket简介协议优点使用场景 WebSocket WebSocket是一种网络传输协议,可在单个TCP连接上进行全双工通信&#xff0c;位于OSI模型的应用层。 WebSocket使得客户端和服务器之间的数据交换变得更加简单&#xff0c;允许服务器主动向客户端推送数据。在WebSocket API中&a…

Leecode1160: 拼写单词

直接使用一个哈希表存整体的结果&#xff0c;一个临时的哈希表每次算一遍&#xff0c;但是1是要设置标志位来判断最后是否正确并加上长度&#xff0c;2是千万要记得每次新建一个空间来存哈希表绝对不能不空间就等于&#xff0c;会出事&#xff01;&#xff01;

Copymonkey:AI生成营销广告文案

【产品介绍】 CopyMonkey.ai 是一家成立于2021年的创新型人工智能&#xff08;AI&#xff09;初创企业&#xff0c;专注于开发一款强大的AI写作助手。我们的产品旨在帮助用户以更高效且更自然的方式创作各种文本内容&#xff0c;无论是文章、博客、电子邮件、简历还是其他类型的…

Sketch for mac v98.2最新版 修复了打开某些文档时导致 Sketch 崩溃的错误

Sketch是一款专为Mac操作系统设计的矢量图形编辑软件&#xff0c;被广泛应用于UI/UX设计、网页设计、移动应用设计等领域。Sketch提供了各种工具和功能&#xff0c;包括绘图、图形设计、排版等&#xff0c;可以帮助设计师轻松地创建高质量的矢量图形和模型。 Sketch for mac更…

AIGC:【LLM(八)】——Baichuan2技术报告

文章目录 摘要1. 引言2. 预训练2.1 预训练数据&#xff08;Pre-training Data&#xff09;2.2 架构&#xff08;Architecture&#xff09;2.3 令牌化器&#xff08;Tokenizer&#xff09;2.3.1 Positional Embeddings 2.4 激活和规范化&#xff08;Activations and Normalizati…

巨人互动|Facebook海外户Facebook风控规则有什么

Facebook是全球最大的社交媒体平台之一&#xff0c;每天有数十亿的用户在其上发布、分享和交流各种内容。为了维护平台的安全性和用户体验&#xff0c;Facebook制定了严格的风控规则来监测和处理违规行为。下面小编讲讲Facebook风控规则。 巨人互动|Google海外户&Google Ad…

Ubuntu不能上网解决办法

问题及现象 Ubuntu的虚拟机&#xff08;18.04&#xff09;总是莫名就不能上网了。 使用ifconfig -a 查看&#xff0c;ensxx&#xff08;xx为虚拟机分配的id号&#xff09;对应的网卡有mac地址&#xff0c;但是没有分配ip地址。 Network中也没有Wired的选项。 临时解决方案 使…

一阶微分方程

目录 可分离变量的方程 齐次微分方程 一阶线性微分方程 伯努科方程 全微分方程 可分离变量的方程 可分离变量的方程是一种常见的一阶常微分方程类型&#xff0c;其特点是可以通过将变量分离到方程的两侧&#xff0c;从而可以分别对各自变量进行积分。一般形式的可分离变量…

ElasticSearch系列-简介与安装详解

全文检索 讲ElasticSearch之前, 需要先提一下全文检索.全文检索是计算机程序通过扫描文章中的每一个词&#xff0c;对每一个词建立一个索引&#xff0c;指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找&#xff0c;类似于通过字典的检索字表查字的过程。 …

文本直接生成20多种背景音乐,免费版Stable Audio来了!

9月14日&#xff0c;著名开源平台Stability AI在官网发布了&#xff0c;音频生成式AI产品Stable Audio。&#xff08;免费使用地址&#xff1a;https://www.stableaudio.com/generate&#xff09; 用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋…

天线原理【1】 天线辐射的物理过程

1 前言 前面讲以振子方程入手分析电磁场问题的解的时候&#xff0c;有网友发信息说这和天线有什么关系&#xff0c;怎么从振子入手分析天线&#xff1b; 那我就开始写几次关于天线的。 有一种说法是&#xff0c;能给任何人讲懂的理论&#xff0c;才说明你真的懂了。 对天线部…

地理地形sdk:Tatuk GIS Developer Kernel for .NET Crack

Tatuk GIS Developer Kernel for .NET 是一个变体&#xff0c;它是受控代码和 .NET GIS SDK&#xff0c;用于为用户 Windows 操作系统创建专业 GIS 软件的过程。它被认为是一个完全针对Win Forms 的.NET CIL&#xff0c;WPF 框架是针对C# 以及VB.NET、VC、Oxy 以及最终与.NET 的…

分布式文件系统对比与选型参考

目录 一、分布式文件系统 1、 数据的存储方式&#xff1a; 2、 数据的读取速率 3、 数据的安全机制 二、主流分布式文件系统介绍 1. GFS&#xff08;Google File System&#xff09; 2. HDFS&#xff08;Hadoop Distributed File System&#xff09; 3. Ceph …

流程模型相关的数据库表-流程模型相关的数据迁移

1、流程定义数据表&#xff08;act_re_procdef&#xff09; 业务流程定义数据表。此表和 ACT_RE_DEPLOYMENT 是多对一的关系&#xff0c;即&#xff0c;一个部署的bar包里可能包含多个流程定义文件&#xff0c;每个流程定义文件都会有一条记录在 ACT_REPROCDEF 表内&#xff0…

TypeScript类型兼容:结构化类型

&#x1f3ac; 岸边的风&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 1. 鸭子类型&#xff1a;定义和示例 2. 鸭子类型的优点 2.1 代码的灵活性 2.2 代码的复用 2.3 与 JavaScript 的…

PostgreSQL 入门

文章目录 PostgreSQL介绍PostgreSQL和MySQL的区别PostgreSQL的安装PostgreSQL的配置远程连接配置配置数据库的日志 PostgreSQL基本操作用户操作权限操作 图形化界面安装总结 PostgreSQL介绍 PostgreSQL是一个功能强大的 开源 的关系型数据库&#xff0c;底层基于C实现。其开源…