基于深度学习的中文标点预测模型-中文标点重建(Transformer模型)【已开源】

基于深度学习的中文标点预测模型-中文标点重建(Transformer模型)提供模型代码和训练好的模型

前言

  目前关于使用深度学习对文本自动添加标点符号的研究并不多见,已知的开源项目也较少,而对该领域的详细介绍更是稀缺。然而,文本自动添加标点符号的技术在古文识别和语音识别等领域具有重要应用。鉴此,本文提出了一种基于Transformer的深度学习模型,用于对文本进行自动标点符号添加。

文末提供模型代码和训练好的模型文件可供下载

✨ 长文本测试:

下面是一段无标点的长中文文本(模型输入不限制文本长度)

1   在一个遥远的地方有一个美丽的小镇小镇上的人们过着宁静而幸福的生活他们每天日出而作日落而息生活虽然平凡却充满了温馨和乐趣在这个小镇上有一位名叫小明的少年小明是一个聪明好学的孩子他对所有的新事物都充满了好奇每天放学后他都会跑到图书馆去看书汲取各种知识有一天小明在图书馆里发现了一本非常古老的书书的封面已经破旧不堪但书里的内容却深深地吸引了他这本书讲述的是一个关于魔法的故事在故事里描述了一个神秘的魔法世界在那里有会飞的马会说话的树还有能够实现任何愿望的魔法师小明被这个神奇的世界深深地吸引了他开始幻想自己有一天也能进入这个魔法世界亲眼目睹那些神奇的景象小明每天都会拿出那本书仔细阅读书里的每一个字他希望自己能够通过学习书中的知识掌握一些魔法的技巧有一天他发现书的最后一页上写着一段奇怪的文字看上去像是某种咒语小明好奇地读出了那些文字突然之间一阵强烈的光芒包围了他当光芒消失后小明发现自己已经不在图书馆里而是来到了一个完全陌生的地方这个地方看起来就像书中描述的那个魔法世界小明感到既兴奋又紧张他不知道接下来会发生什么但他决定勇敢地探索这个神秘的世界在这个魔法世界里小明遇到了很多奇异的生物和神秘的现象他遇到了一只会说话的猫这只猫告诉他这里是魔法世界而他是被书中的咒语召唤到这里的猫还告诉他如果他想回到原来的世界必须找到一位名叫白胡子的老魔法师只有白胡子老魔法师才能帮助他回去于是小明开始了寻找白胡子老魔法师的旅程在旅途中他遇到了许多困难和挑战但他始终没有放弃他用自己的智慧和勇气克服了一个又一个的障碍终于有一天他在一片神秘的森林里找到了白胡子老魔法师白胡子老魔法师听了小明的故事后非常赞赏他的勇气和智慧他告诉小明要想回到原来的世界他必须完成一个特殊的任务这个任务就是找到三件宝物分别是勇气之剑智慧之石和真诚之心只有集齐这三件宝物才能打开通往原来世界的大门小明听了老魔法师的话后决定不顾一切去完成这个任务他开始了一段新的冒险旅程在旅途中他遇到了许多志同道合的朋友他们一起经历了许多困难和危险但最终他们成功地找到了那三件宝物当小明集齐了勇气之剑智慧之石和真诚之心后他回到了白胡子老魔法师那里老魔法师使用魔法将三件宝物融合在一起打开了通往原来世界的大门小明终于能够回到他熟悉的小镇回到他深爱的家人和朋友身边这段奇幻的冒险经历让小明成长了许多他学会了勇敢面对困难学会了珍惜朋友的帮助也懂得了真诚的重要性从那以后小明变得更加坚强和自信他知道无论遇到什么样的挑战只要勇敢面对就一定能找到解决的办法
  1. 环境配置(推荐使用conda安装环境)
# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310# 根据您的电脑情况安装pytorch,且满足torch >= 1.8
pytorch下载官网:https://pytorch.org/# cd到算法根目录下
cd punc# 在根目录下安装依赖
pip3 install -U funasr
pip3 install -U modelscope huggingface_hub
  1. 测试
# 进行标点预测(带预测文本放在example下的txt文件内)
python test.py

测试结果如下图👇
在这里插入图片描述


代码&模型下载

  • 基于深度学习的中文标点预测模型

  如果您需要中文音频翻译请访问这篇CSDN文章,文章内提供一个中文音频翻译的轻量级模型👇
基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)【已开源】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【vscode-快捷键 一键JSON格式化】

网上有很多JSON格式化工具,也有很多好用的在线json格式化工具。但是其实Vscode里面的可以直接格式化JSON,这里分享一个我常用的小插件 Prettify JSON 未格式化的JSON数据 召唤出命令行,输入prettify JSON 即可! ✿✿ヽ(▽)ノ✿

OpenAI模型规范概览

这是OpenAI对外分享的模型规范文档(Model Spec),它定义了OpenAI希望在API接口和ChatGPT(含GPT系列产品)中模型的行为方式,这也是OpenAI超级对齐团队奉行的行为准则,希望能对国内做RLHF的同学有帮…

力扣爆刷第148天之贪心算法五连刷(区间合并)

力扣爆刷第148天之贪心算法五连刷(区间合并) 文章目录 力扣爆刷第148天之贪心算法五连刷(区间合并)一、406. 根据身高重建队列二、452. 用最少数量的箭引爆气球三、435. 无重叠区间四、763. 划分字母区间五、56. 合并区间六、738.…

安卓约束性布局学习

据说这个布局是为了解决各种布局过度前套导致代码复杂的问题的。 我想按照自己想实现的各种效果来逐步学习,那么直接拿微信主页来练手,用约束性布局实现微信首页吧。 先上图 先实现顶部搜索框加号按钮 先实现 在布局中添加一个组件,然后摆放…

【java】速度搭建一个springboot项目

使用软件:IDEA,mysql 使用框架:springboot mybatis-plus druid 坑点 使用IDEA搭建一个springboot项目的时候,需要考虑一下IDEA版本支持的JDK版本以及maven版本。否则再构建项目,引入pom的时候就会报错。 需要检查…

PostgreSQL基础(十):PostgreSQL的并发问题

文章目录 PostgreSQL的并发问题 一、事务的隔离级别 二、MVCC PostgreSQL的并发问题 一、事务的隔离级别 在不考虑隔离性的前提下,事务的并发可能会出现的问题: 脏读:读到了其他事务未提交的数据。(必须避免这种情况&#xf…

docker命令 docker ps -l (latest)命令在 Docker 中用于列出最近一次创建的容器

文章目录 12345 1 docker ps -l 命令在 Docker 中用于列出最近一次创建的容器。具体来说: docker ps:这个命令用于列出当前正在运行的容器。-l 或 --latest:这个选项告诉 docker ps 命令只显示最近一次创建的容器,不论该容器当前…

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

ChatGPT 开发商 OpenAI 构建人工智能的方法本周遭到了前员工的抨击,他们指责该公司利用可能有害的技术冒不必要的风险。今天,OpenAI 发布了一篇新的研究论文,目的显然是为了表明它在通过提高模型的可解释性来应对人工智能风险方面的认真态度。…

计算机组成原理(一)

冯诺依曼机器的特征: 指令和数据以同等的地位存储在存储器当中指令和数据都是二进制指令和数据都是保存在存储器当中的 存储字 每个存储单元中的数据,称为存储字 存储字长 存储单元能够存储的二进制数据的长度 在一个8位系统中,字长是…

【C++进阶】深入STL之list:模拟实现深入理解List与迭代器

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:初步了解 list 🌹🌹期待您的关注 🌹🌹 ❀STL之list 📒1. list…

计算机的存储规则

计算机中的数据只有三类:Text 文本,Image 图片,Sound 声音。 文本包括数字、字母和汉字等。 视频是图片和声音的组合。 在计算机中,任何数据都是以二进制的形式来存储的。 数字的存储:转换为二进制进行存储。 字符…

[线程与网络] 网络编程与通信原理(六):深入理解应用层http与https协议(网络编程与通信原理完结)

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏:🍕 Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 🧀Java …

【Java面试】九、微服务篇-SpringCloud(上)

文章目录 1、SpringCloud五大组件2、服务注册和发现2.1 Eurake2.2 Eurake和Nacos的区别 3、Ribbon负载均衡3.1 策略3.2 自定义负载均衡策略 4、服务雪崩与熔断降级4.1 服务雪崩4.2 服务降级4.3 服务熔断 5、服务限流5.1 Nginx限流5.2 网关限流 6、微服务监控7、面试 1、SpringC…

qq号码采集软件

寅甲QQ号码采集软件, 一款采集QQ号、QQ邮件地址,采集QQ群成员、QQ好友的软件。可以按关键词采集,如可以按地区、年龄、血型、生日、职业等采集。采集速度非常快且操作很简单。

【TIPs】 Visual Stadio 2019 中本地误使用“git的重置 - 删除更改 -- hard”后,如何恢复?

环境: VS 2019Windows10本地版本管理(非远程) 前言: git 在Visual Stadio 2019中集成了git的版本管理,在本地用来做版本管理,本来比较好用。 不过有一次,由于拿最初始的版本的时候&#xf…

C++教程(003):运算符

3 运算符 作用:用于执行代码的运算 我们主要讲解以下运算符: 运算符类型作用算术运算符用于处理四则运算赋值运算符用于将表达式的值赋给变量比较运算符用于表达式的比较,并返回一个真值或假值逻辑运算符用于根据表达式的值返回真值或假值 …

swaggerHole:针对swaggerHub的公共API安全扫描工具

关于swaggerHole swaggerHole是一款针对swaggerHub的API安全扫描工具,该工具基于纯Python 3开发,可以帮助广大研究人员检索swaggerHub上公共API的相关敏感信息,整个任务过程均以自动化形式实现,且具备多线程特性和管道模式。 工具…

TCP攻击是怎么实现的,如何防御?

TCP(Transmission Control Protocol)是互联网协议族中的重要组成部分,用于在不可靠的网络上提供可靠的数据传输服务。然而,TCP协议的一些特性也使其成为攻击者的目标,尤其是DDoS(Distributed Denial of Ser…

解决方案:昇腾aarch64服务器安装CUDA+GCC+CMake,编译安装Pytorch,华为昇腾HPC服务器深度学习环境安装全流程

目录 一、安装CUDA和cudnn1.1、下载CUDA驱动1.2、安装CUDA驱动1.3、配置环境变量1.4、安装cudnn1.5、安装magma-cuda 二、安装gcc编译器三、安装CMake四、安装NCCL五、编译安装Pytorch5.1、前提准备5.2、下载pytorch源码5.3、配置环境变量5.4、Pytorch编译安装5.5、测试Pytorch…