C++20 中的std::c8rtomb和 std::mbrtoc8

文章目录

      • 1. 引言
      • 2. `std::c8rtomb` 函数详解
      • 3. `std::mbrtoc8` 函数详解
      • 4. 使用示例
      • 5. 注意事项
      • 6. 总结

1. 引言

C++20 标准引入了对 UTF-8 编码的更好支持,其中包括两个重要的函数:std::c8rtombstd::mbrtoc8。这两个函数分别用于将 UTF-8 编码的字符转换为窄多字节字符表示,以及将窄多字节字符转换为 UTF-8 编码。这些功能对于处理多语言文本和国际化应用非常关键。

2. std::c8rtomb 函数详解

std::c8rtomb 函数用于将单个 UTF-8 编码点转换为窄多字节字符表示。其定义如下:

std::size_t c8rtomb(char* s, char8_t c8, std::mbstate_t* ps);
  • 参数

    • s:指向窄字符数组的指针,用于存储转换后的多字节字符。
    • c8:要转换的 UTF-8 编码单元。
    • ps:指向转换状态对象的指针,用于在解释多字节字符串时使用。
  • 行为

    • 如果 s 不是空指针且 c8 是有效 UTF-8 编码的最后一个编码单元,则函数会确定存储该编码点的多字节字符表示所需的字节数(包括任何移位序列),并将多字节字符表示存储在 s 指向的字符数组中,同时更新 *ps
    • 如果 c8 不是编码点表示中的最后一个编码单元,则函数不会写入 s 指向的数组,只更新 *ps
    • 如果 s 是空指针,则调用等效于 std::c8rtomb(buf, u8'\0', ps),其中 buf 是某个内部缓冲区。
    • 如果 c8 是空字符 u8'\0',则存储一个空字节,并在前面附加任何恢复初始移位状态所需的移位序列,同时更新 *ps 以表示初始移位状态。
  • 返回值

    • 返回存储在数组中的字节数(包括任何移位序列)。如果 c8 不是编码点的 UTF-8 表示中的最后一个编码单元,则返回值可以为零。
    • 如果 c8 无效(不贡献到对应合法多字节字符的 char8_t 序列),则将 EILSEQ 的值存储在 errno 中,返回 static_cast<std::size_t>(-1),且转换状态未指定。

3. std::mbrtoc8 函数详解

std::mbrtoc8 函数用于将窄多字节字符转换为 UTF-8 编码。其定义如下:

std::size_t mbrtoc8(char8_t* pc8, const char* s, std::size_t n, std::mbstate_t* ps);
  • 参数

    • pc8:指向 char8_t 类型的指针,用于存储转换后的 UTF-8 编码。
    • s:指向多字节字符的指针。
    • ns 指向的数组中的最大字节数。
    • ps:指向转换状态对象的指针。
  • 行为

    • 函数将 s 指向的多字节字符转换为 UTF-8 编码,并存储在 pc8 指向的位置。
    • 如果 s 指向的多字节字符无效,则函数的行为是未定义的。
  • 返回值

    • 返回转换后的 UTF-8 编码所需的字节数。

4. 使用示例

以下是一个简单的示例,展示如何使用 std::c8rtombstd::mbrtoc8

#include <iostream>
#include <cuchar>
#include <cstring>
#include <clocale>int main() {// 设置 C 本地环境为 UTF-8std::setlocale(LC_ALL, "en_US.UTF-8");// 示例 UTF-8 字符串const char* utf8_str = u8"你好,世界!";// 转换为多字节字符char mb_str[100];std::mbstate_t state = {};char* mb_ptr = mb_str;for (const char* p = utf8_str; *p; ) {char8_t c8 = *reinterpret_cast<const char8_t*>(p);std::size_t result = std::c8rtomb(mb_ptr, c8, &state);if (result == static_cast<std::size_t>(-1)) {std::cerr << "Invalid UTF-8 sequence encountered." << std::endl;return 1;}mb_ptr += result;p += std::char_traits<char>::length(reinterpret_cast<const char*>(&c8));}*mb_ptr = '\0';std::cout << "Multibyte string: " << mb_str << std::endl;// 转换回 UTF-8char8_t utf8_result[100];char8_t* utf8_ptr = utf8_result;std::mbstate_t state2 = {};for (const char* p = mb_str; *p; ) {std::size_t result = std::mbrtoc8(utf8_ptr, p, 100, &state2);if (result == static_cast<std::size_t>(-1)) {std::cerr << "Invalid multibyte sequence encountered." << std::endl;return 1;}utf8_ptr += result;p += result;}*utf8_ptr = u8'\0';std::cout << "UTF-8 string: " << reinterpret_cast<const char*>(utf8_result) << std::endl;return 0;
}

5. 注意事项

  • 线程安全:以空指针参数 s 调用 std::c8rtomb 可能会与其他以空指针参数 sstd::c8rtomb 的调用造成数据竞争。
  • 本地环境依赖:这两个函数的多字节编码由当前活跃的 C 本地环境指定。
  • 错误处理:在处理无效的 UTF-8 序列或多字节字符时,需要妥善处理错误,避免程序崩溃。

6. 总结

C++20 通过引入 std::c8rtombstd::mbrtoc8,为处理 UTF-8 编码和窄多字节字符提供了强大的支持。这些函数不仅增强了 C++ 标准库对多语言文本的处理能力,还为国际化应用提供了更灵活的解决方案。开发者在使用这些函数时需要注意线程安全、本地环境依赖以及错误处理等问题,以确保程序的健壮性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41688.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据可视化TensorboardX和tensorBoard安装及使用

tensorBoard 和TensorboardX 安装及使用指南 tensorBoard 和 TensorBoardX 是用于可视化机器学习实验和模型训练过程的工具。TensorBoard 是 TensorFlow 官方提供的可视化工具&#xff0c;而 TensorBoardX 是其社区驱动的替代品&#xff0c;支持 PyTorch 等其他框架。以下是它…

flutter-实现瀑布流布局及下拉刷新上拉加载更多

文章目录 1. 效果预览2. 结构分析3. 完整代码4. 总结 1. 效果预览 在 Flutter 应用开发中&#xff0c;瀑布流布局常用于展示图片、商品列表等需要以不规则但整齐排列的内容。同时&#xff0c;下拉刷新和上拉加载更多功能&#xff0c;能够极大提升用户体验&#xff0c;让用户方…

【day2】数据结构刷题 栈

一 有效的括号 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的…

YAML是什么?

YAML&#xff08;YAML Ain’t Markup Language&#xff09;是一种以数据为中心、高度可读的序列化语言&#xff0c;广泛应用于配置文件、数据交换和自动化工具中。以下从多个维度对其进行全面解析&#xff1a; 1. 定义与历史演变 全称与定位&#xff1a; YAML的全称最初为“Yet…

熔断降级(Sentinel解决)

问题概述 在微服务架构中一定要预防微服务雪崩问题&#xff0c;微服务雪崩问题就是指在微服务架构中&#xff0c;当一个服务出现故障时&#xff0c;由于服务之间的依赖关系&#xff0c;故障可能会传播到其他服务&#xff0c;从而导致了大规模的服务失败&#xff0c;系统无法正…

反序列化漏洞

前提概要 本文章主要用于分享反序列化漏洞基础学习&#xff0c;以下是对反序列化漏洞的一些个人解析&#xff0c;请大家结合参考其他文章中的相关信息进行归纳和补充。 反序列化漏洞描述 反序列化漏洞是指程序在对输入的字节流进行反序列化时&#xff0c;因缺乏充分的验证和过…

吐血整理:Air8201如何使用LuatOS进行电源管理功能!

在物联网应用场景中&#xff0c;设备续航能力直接影响其部署成本与运维效率。LuatOS操作系统通过软件层面的精细化控制&#xff0c;为Air8201提供了灵活且高效的电源管理策略。本文将从系统架构、API接口、实战配置三个维度&#xff0c;解析如何利用LuatOS实现Air8201的智能电源…

STM32学习笔记之存储器映射(原理篇)

&#x1f4e2;&#xff1a;如果你也对机器人、人工智能感兴趣&#xff0c;看来我们志同道合✨ &#x1f4e2;&#xff1a;不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 &#x1f4e2;&#xff1a;文章若有幸对你有帮助&#xff0c;可点赞 &#x1f44d;…

合宙780E开发学习-LUATOS-SOC云编译自定义固件

登录https://luatos.com 点击登录&#xff0c;使用合宙erp账号登录即可 点击右上角构建&#xff0c;点击右上角菜单新构建&#xff0c;自定义构建名称&#xff0c;可新建多个 勾选想要的组件 点击右上角保存修改&#xff0c;只有点击准备就绪&#xff08;注意&#xff1a;一定…

react 15-16-17-18各版本的核心区别、底层原理及演进逻辑的深度解析

一、React 15&#xff08;2016&#xff09; 核心架构&#xff1a;Stack Reconciler&#xff08;栈协调器&#xff09; 工作原理&#xff1a; 同步递归渲染&#xff1a;采用深度优先遍历方式递归处理 Virtual DOM&#xff0c;形成不可中断的调用栈渲染流程&#xff1a;1. 触发 …

【HarmonyOS NEXT】EventHub和Emitter的使用场景与区别

一、EventHub是什么&#xff1f; 移动应用开发的同学应该比较了解EventHub&#xff0c;类似于EventBus。标准的事件广播通知&#xff0c;订阅&#xff0c;取消订阅的处理。EventHub模块提供了事件中心&#xff0c;提供订阅、取消订阅、触发事件的能力。 类似的框架工具有很多…

QT记事本

记事本应用程序提供了基本的文本编辑功能&#xff0c;支持文件的新建、打开、保存和另存为操作&#xff0c;同时具备修改提示和关闭窗口时的保存确认功能。使用 UTF - 8 编码确保了对多语言文本的支持。 1. 项目整体结构 main.cpp&#xff1a;程序的入口点&#xff0c;负责初…

如何用 Postman 发送 POST 请求?

POST 请求是 HTTP 协议中用于提交数据的一种方法&#xff0c;Postman 提供了丰富的功能来支持用户发送包含各种信息的 POST 请求&#xff0c;如文本数据、JSON 或 XML 数据结构、文件等。 Postman 发送 post 请求教程

Ant Design Vue 中的table表格高度塌陷,造成行与行不齐的问题

前言&#xff1a; Ant Design Vue: 1.7.2 Vue2 less 问题描述&#xff1a; 在通过下拉框选择之后&#xff0c;在获取接口数据&#xff0c;第一列使用了fixed:left&#xff0c;就碰到了高度塌陷&#xff0c;查看元素的样式结果高度不一致&#xff0c;如&#x…

Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案

文章目录 一、 技术背景二、 关键技术1、 Oracle LogMiner2、 Chunjun 的 LogMiner 关键流程3、修复 Chunjun Oracle LogMiner 问题 一、 技术背景 在大数据实时同步场景中&#xff0c;需要将 Oracle 数据库的变更数据&#xff08;CDC&#xff09; 采集并写入 Apache Doris&am…

qt+opengl 加载三维obj文件

1前面我们已经熟悉了opengl自定义顶点生成一个立方体&#xff0c;并且我们实现了立方体的旋转&#xff0c;光照等功能。下面我们来用opengl来加载一个obj文件。准备我们首先准备一个简单的obj文件&#xff08;head.obj&#xff09;。资源在本页下载 2 在obj文件里面&#xff0c…

计算机组成原理的学习day01

一 计算机系统层次结构 1 计算机硬件的基本组成 好的&#xff0c;上个小节中我们了解了计算机系统的概念&#xff0c;还有计算机的一个发展历程&#xff0c;那这个小节中我们会着重的探讨计算机硬件的一个基本组成。我们需要掌握这样的两种结构&#xff0c;第一种是早期的冯诺…

ASP 应用HTTP.SYS短文件文件解析Access 注入数据库泄漏

#ASP- 默认安装 -MDB 数据库泄漏下载&#xff08;路径是知道的话可以直接下载&#xff09; 由于大部分 ASP 程序与 ACCESS 数据库搭建&#xff0c;但 ACCESS 无需连接&#xff0c;都在脚本文件中定 义配置好数据库路径即用&#xff0c;不需要额外配置安装数据库&#x…

Redis 版本演进及主要新特性

Redis 版本发布历史 稳定版本时间线 Redis 2.6 (2012年)Redis 2.8 (2013年11月)Redis 3.0 (2015年4月) - 首次支持集群Redis 3.2 (2016年5月)Redis 4.0 (2017年7月)Redis 5.0 (2018年10月)Redis 6.0 (2020年4月)Redis 6.2 (2021年2月)Redis 7.0 (2022年4月) - 最新稳定版(截至…

从 MySQL 到时序数据库 TDengine:Zendure 如何实现高效储能数据管理?

小T导读&#xff1a;TDengine 助力广州疆海科技有限公司高效完成储能业务的数据分析任务&#xff0c;轻松应对海量功率、电能及输入输出数据的实时统计与分析&#xff0c;并以接近 1 : 20 的数据文件压缩率大幅降低存储成本。此外&#xff0c;taosX 强大的 transform 功能帮助用…