基于深度学习的中文标点预测模型-中文标点重建(Transformer模型)提供模型代码和训练好的模型
前言
目前关于使用深度学习对文本自动添加标点符号的研究并不多见,已知的开源项目也较少,而对该领域的详细介绍更是稀缺。然而,文本自动添加标点符号的技术在古文识别和语音识别等领域具有重要应用。鉴此,本文提出了一种基于Transformer的深度学习模型,用于对文本进行自动标点符号添加。
文末提供模型代码和训练好的模型文件可供下载
✨ 长文本测试:
下面是一段无标点的长中文文本(模型输入不限制文本长度)
1 在一个遥远的地方有一个美丽的小镇小镇上的人们过着宁静而幸福的生活他们每天日出而作日落而息生活虽然平凡却充满了温馨和乐趣在这个小镇上有一位名叫小明的少年小明是一个聪明好学的孩子他对所有的新事物都充满了好奇每天放学后他都会跑到图书馆去看书汲取各种知识有一天小明在图书馆里发现了一本非常古老的书书的封面已经破旧不堪但书里的内容却深深地吸引了他这本书讲述的是一个关于魔法的故事在故事里描述了一个神秘的魔法世界在那里有会飞的马会说话的树还有能够实现任何愿望的魔法师小明被这个神奇的世界深深地吸引了他开始幻想自己有一天也能进入这个魔法世界亲眼目睹那些神奇的景象小明每天都会拿出那本书仔细阅读书里的每一个字他希望自己能够通过学习书中的知识掌握一些魔法的技巧有一天他发现书的最后一页上写着一段奇怪的文字看上去像是某种咒语小明好奇地读出了那些文字突然之间一阵强烈的光芒包围了他当光芒消失后小明发现自己已经不在图书馆里而是来到了一个完全陌生的地方这个地方看起来就像书中描述的那个魔法世界小明感到既兴奋又紧张他不知道接下来会发生什么但他决定勇敢地探索这个神秘的世界在这个魔法世界里小明遇到了很多奇异的生物和神秘的现象他遇到了一只会说话的猫这只猫告诉他这里是魔法世界而他是被书中的咒语召唤到这里的猫还告诉他如果他想回到原来的世界必须找到一位名叫白胡子的老魔法师只有白胡子老魔法师才能帮助他回去于是小明开始了寻找白胡子老魔法师的旅程在旅途中他遇到了许多困难和挑战但他始终没有放弃他用自己的智慧和勇气克服了一个又一个的障碍终于有一天他在一片神秘的森林里找到了白胡子老魔法师白胡子老魔法师听了小明的故事后非常赞赏他的勇气和智慧他告诉小明要想回到原来的世界他必须完成一个特殊的任务这个任务就是找到三件宝物分别是勇气之剑智慧之石和真诚之心只有集齐这三件宝物才能打开通往原来世界的大门小明听了老魔法师的话后决定不顾一切去完成这个任务他开始了一段新的冒险旅程在旅途中他遇到了许多志同道合的朋友他们一起经历了许多困难和危险但最终他们成功地找到了那三件宝物当小明集齐了勇气之剑智慧之石和真诚之心后他回到了白胡子老魔法师那里老魔法师使用魔法将三件宝物融合在一起打开了通往原来世界的大门小明终于能够回到他熟悉的小镇回到他深爱的家人和朋友身边这段奇幻的冒险经历让小明成长了许多他学会了勇敢面对困难学会了珍惜朋友的帮助也懂得了真诚的重要性从那以后小明变得更加坚强和自信他知道无论遇到什么样的挑战只要勇敢面对就一定能找到解决的办法
- 环境配置(推荐使用conda安装环境)
# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310# 根据您的电脑情况安装pytorch,且满足torch >= 1.8
pytorch下载官网:https://pytorch.org/# cd到算法根目录下
cd punc# 在根目录下安装依赖
pip3 install -U funasr
pip3 install -U modelscope huggingface_hub
- 测试
# 进行标点预测(带预测文本放在example下的txt文件内)
python test.py
测试结果如下图👇
代码&模型下载
- 基于深度学习的中文标点预测模型
附
如果您需要中文音频翻译请访问这篇CSDN文章,文章内提供一个中文音频翻译的轻量级模型👇
基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)【已开源】