NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述

拼写纠正系列

NLP 中文拼写检测实现思路

NLP 中文拼写检测纠正算法整理

NLP 英文拼写算法,如果提升 100W 倍的性能?

NLP 中文拼写检测纠正 Paper

java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

一个提升英文单词拼写检测性能 1000 倍的算法?

单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离

NLP 开源项目

nlp-hanzi-similar 汉字相似度

word-checker 中英文拼写检测

pinyin 汉字转拼音

opencc4j 繁简体转换

sensitive-word 敏感词

前言

大家好,我是老马。

下面学习整理一些其他优秀小伙伴的设计、论文和开源实现。

摘要

本文介绍了NLPTEA 2020中文语法错误诊断(CGED)共享任务,该任务旨在识别学习中文作为外语的学生在书写中出现的语法错误类型、错误发生的范围以及推荐的纠正措施。

我们描述了任务定义、数据准备、性能评估指标以及评估结果。在注册参加该共享任务的30支队伍中,17支队伍开发了系统并提交了总共43个实验结果。

系统的表现取得了显著进展,检测层面的F1得分达到了91%,位置层面的得分为40%,纠正层面的得分为28%。

所有带有标准答案的数据集和评分脚本都已公开,供研究人员使用。

1 引言

自动化语法检查在英语作为外语的学习者中已取得显著进展。

帮助我们的学习者(HOO)是一系列纠正文本错误的共享任务(Dale 和 Kilgarriff,2011;Dale 等,2012)。

2013年和2014年的CoNLL共享任务集中于语法错误修正,增加了教育应用研究在自然语言处理(NLP)社区中的可见度(Ng 等,2013;2014)。

这些学习技术大多集中在英语作为外语(EFL)学习者上,而相对较少有语法检查应用程序是为了支持中文作为外语(CFL)学习者开发的。

现有的一些应用程序使用了多种技术,例如统计学习(Chang 等,2012;Wu 等,2010;Yu 和 Chen,2012)、基于规则的分析(Lee 等,2013)、神经网络建模(Zheng 等,2016;Fu 等,2018)和混合方法(Lee 等,2014;Zhou 等,2017)。

为了应对CFL学习者数据在机器学习和语言学分析中的有限可用性,ICCE-2014关于教育应用的自然语言处理技术(NLP-TEA)研讨会组织了一个针对CFL语法错误诊断的共享任务(Yu 等,2014)。

该共享任务的第二版本在NLP-TEA与ACL-IJCNLP-2015(Lee 等,2015)和COLING-2016(Lee 等,2016)同时举办。

从那时起,它的名称被确定为中文语法错误诊断(CGED)。

作为IJCNLP 2017的一部分,该共享任务再次组织(Rao 等,2017)。

在与ACL 2018的NLP-TEA研讨会联合举办时,CGED再次被组织(Rao 等,2018)。

这些共享任务的主要目的是提供一个共同的设置,使得使用不同语言因素和计算技术的方法研究者能够比较他们的结果。这种技术评估使得研究人员能够交换经验,推动该领域的发展,最终为这一共享任务开发出最优的解决方案。

本文其余部分组织如下:第2节详细描述任务,第3节介绍构建的数据集,第4节提出评估指标,第5节报告参与者方法的结果,最后在第6节得出结论。

2 任务描述

本共享任务的目标是开发自然语言处理(NLP)技术,自动诊断(并进一步修正)中文语法错误,这些错误出现在中文作为外语(CFL)学习者写作的句子中。

此类错误定义为PADS:冗余词(用大写字母“R”表示)、缺失词(“M”)、词语选择错误(“S”)和词语顺序错误(“W”)。

输入句子可能包含一个或多个此类错误。

开发的系统应指示给定单元(包含1至5个句子)中嵌入了哪些错误类型以及错误出现的位置。

每个输入单元都有一个唯一的编号“sid”。如果输入没有语法错误,系统应返回:“sid, correct”。如果输入单元包含语法错误,则输出格式应包括四个项目:“sid, start_off, end_off, error_type”,其中start_off和end_off分别表示语法错误发生的起始和结束字符的位置,error_type应为定义的错误之一:“R”、“M”、“S”或“W”。每个字符或标点符号占用一个位置进行计数。

示例句子及相应注释如表1所示。今年,我们只有一个HSK的评测任务轨道。

表1:示例句子及相应注释

汉语水平考试(HSK)

示例 1
输入: (sid=00038800481) 我根本不能了解这妇女辞职回家的现象。在这个时代,为什么放弃自己的工作,就回家当家庭主妇?
输出:
00038800481, 6, 7, S
00038800481, 8, 8, R
(注释:“了解”应改为“理解”。另外,“这”是冗余词。)

示例 2
输入: (sid=00038800464) 我真不明白。她们可能是追求一些前代的浪漫。
输出:
00038800464, correct

示例 3
输入: (sid=00038801261) 人战胜了饥饿,才努力为了下一代作更好的、更健康的东西。
输出:
00038801261, 9, 9, M
00038801261, 16, 16, S
(注释:“能”缺失,单词“作”应改为“做”。正确句子应为“才能努力为了下一代做更好的”)

示例 4
输入: (sid=00038801320) 饥饿的问题也是应该解决的。世界上每天由于饥饿很多人死亡。
输出:
00038801320, 19, 25, W
(注释:“由于饥饿很多人”应改为“很多人由于饥饿”)

3 数据集

我们共享任务中使用的学习者语料来自汉语水平考试(HSK,Hanyu Shuiping Kaoshi,中文水平测试)的写作部分(Cui 等,2011;Zhang 等,2013)。母语为中文的讲者被训练为手动标注语法错误,并提供与每个错误相应的修正。

然后,数据被分成两个互斥的子集,如下所示:

  1. 训练集:该集合中的所有单元用于训练语法错误诊断系统。每个单元包含1到5个句子,标注了语法错误及其相应的修正。所有单元以SGML格式表示,如表2所示。我们提供了1129个训练单元,总共有2909个语法错误,错误类型包括冗余(678个实例)、缺失(801个)、词语选择(1228个)和词语顺序(201个)。除了提供的数据集,参与的研究团队还被允许使用其他公共数据进行系统开发和实施。使用其他数据的情况应在最终的系统报告中说明。
  • Table 3: The statistics of correct sentences in testing set.
#Units #Correct #Erroneous
1,457 (100%) 307 (21.07%) 1,150 (78.93%)

测试集:该集合由用于评估系统性能的测试单元组成。

表3展示了今年测试集的统计数据。根据HSK写作部分的抽样,超过40%的句子没有错误。

这一情况在测试集中进行了模拟,以测试系统在识别假阳性(false positive)时的表现。错误类型的分布(见表4)与训练集相似。正确句子的比例来自HSK在线动态语料库的样本数据。

表4:测试集中错误类型的分布

错误类型

  • 冗余(#R):769(21.05%)
  • 缺失(#M):864(23.65%)
  • 词语选择错误(#S):1694(46.36%)
  • 词语顺序错误(#W):327(8.95%)
  • 总错误数(#Error):3654(100%)

评估结果

表6总结了17个参与团队的提交统计数据。

在官方测试阶段,每个参与团队最多可以提交三次运行结果。

在17个团队中,11个团队在修正层次(Correction-level)提交了测试结果,共计43次提交。

表6:所有参与者的提交统计

参与者(按名称排序)提交统计

参与者提交次数(#Runs)修正层次(Correction-level)
Boli2
CYUT2-
DumbCat1
Flying3
LDU3-
NJU-NLP3-
OrangePlus3
PCJG3
SDU_MLA1-
SPPD3-
TextCC-CloudPoineer3
TMU-NLP1
UNIPUS-Flaubert3
XHJZ3
YD_NLP3
ZZUNLP-HAN3
ZZUNLP-YAN3-

结论

本研究描述了2020年NLP-TEA共享任务,用于中文语法错误诊断,包括任务设计、数据准备、性能指标和评估结果。

无论实际表现如何,所有提交都为开发中文语法错误诊断系统做出了共同努力,会议记录中的个别报告为计算机辅助语言学习(CFL)提供了有价值的见解。

我们希望为此次共享任务收集和标注的数据集能够促进并加速该研究领域的未来发展。

因此,所有带有金标准的数据集和评分脚本都可以在以下网站上公开获取:http://www.cged.science。

致谢

我们感谢所有参与者参加我们的共享任务。

Lung-Hao Lee在咨询和投标方面提供了大量帮助。

Xiangyu Chi、Mengyao Suo、Yuhan Wang和Shufan Zhou在数据审查方面做出了重要贡献。

本研究得到了国家语言委员会项目(YB135-90)的支持。

参考资料

https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/README.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/501367.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 macOS 上,你可以使用系统自带的 终端(Terminal) 工具,通过 SSH 协议远程连接服务器

文章目录 1. 打开终端2. 使用 SSH 命令连接服务器3. 输入密码4. 连接成功5. 使用密钥登录(可选)6. 退出 SSH 连接7. 其他常用 SSH 选项8. 常见问题排查问题 1:连接超时问题 2:权限被拒绝(Permission denied&#xff09…

Scrum中敏捷项目经理(Scrum Master)扮演什么角色?

敏捷开发模式已经逐渐被主流的软件研发团队所接受,其中Scrum是最具代表性的敏捷方法之一。Scrum框架中有三个核心角色:Product Owner(PO)、Scrum Master(SM)和Development Team(DT)。…

沙箱模拟支付宝支付3--支付的实现

1 支付流程实现 演示案例 主要参考程序员青戈的视频【支付宝沙箱支付快速集成版】支付宝沙箱支付快速集成版_哔哩哔哩_bilibili 对应的源码在 alipay-demo: 使用支付宝沙箱实现支付功能 - Gitee.com 以下是完整的实现步骤 1.首先导入相关的依赖 <?xml version"1…

Yocto项目 - 详解PACKAGECONFIG机制

引言 Yocto项目是一个强大的嵌入式Linux开发工具&#xff0c;广泛应用于创建定制的嵌入式Linux发行版。在Yocto中&#xff0c;配置和定制化构建系统、软件包、以及生成适用于特定硬件的平台镜像是非常重要的。PACKAGECONFIG是Yocto项目中用于灵活启用或禁用软件包特性的强大工…

【STM32】项目实战——OV7725/OV2604摄像头颜色识别检测(开源)

本篇文章分享关于如何使用STM32单片机对彩色摄像头&#xff08;OV7725/OV2604&#xff09;采集的图像数据进行分析处理&#xff0c;最后实现颜色的识别和检测。 目录 一、什么是颜色识别 1、图像采集识别的一些基本概念 1. 像素&#xff08;Pixel&#xff09; 2. 分辨率&am…

安装PyQt5-tools卡在Preparing metadata (pyproject.toml)解决办法

为了在VS code中使用PyQt&#xff0c;在安装PyQt5-tools时总卡在如下这一步 pyqt5 Preparing metadata (pyproject.toml)经过各种尝试&#xff0c;最终问题解决&#xff0c;在此记录方法。 首先进入PyQt5-tools官网查看其适配的Python版本&#xff0c;网址如下&#xff1a; h…

RAG实战:本地部署ragflow+ollama(linux)

1.部署ragflow 1.1安装配置docker 因为ragflow需要诸如elasticsearch、mysql、redis等一系列三方依赖&#xff0c;所以用docker是最简便的方法。 docker安装可参考Linux安装Docker完整教程&#xff0c;安装后修改docker配置如下&#xff1a; vim /etc/docker/daemon.json {…

56.在 Vue 3 中使用 OpenLayers 通过 moveend 事件获取地图左上和右下的坐标信息

前言 在现代 Web 开发中&#xff0c;地图应用越来越成为重要的组成部分。OpenLayers 是一个功能强大的 JavaScript 地图库&#xff0c;它提供了丰富的地图交互和操作功能&#xff0c;而 Vue 3 是当前流行的前端框架之一。在本篇文章中&#xff0c;我们将介绍如何在 Vue 3 中集…

Codigger集成Copilot:智能编程助手

在信息技术的快速发展中&#xff0c;编程效率和创新能力的提升成为了开发者们追求的目标。Codigger平台通过集成Copilot智能编程助手&#xff0c;为开发者提供了一个强大的工具&#xff0c;以增强其生产力、创新力和技能水平。本文将深入探讨Codigger与Copilot的集成如何为IT专…

用uniapp写一个播放视频首页页面代码

效果如下图所示 首页有导航栏&#xff0c;搜索框&#xff0c;和视频列表&#xff0c; 导航栏如下图 搜索框如下图 视频列表如下图 文件目录 视频首页页面代码如下 <template> <view class"video-home"> <!-- 搜索栏 --> <view class…

Java高频面试之SE-08

hello啊&#xff0c;各位观众姥爷们&#xff01;&#xff01;&#xff01;本牛马baby今天又来了&#xff01;哈哈哈哈哈嗝&#x1f436; 成员变量和局部变量的区别有哪些&#xff1f; 在 Java 中&#xff0c;成员变量和局部变量是两种不同类型的变量&#xff0c;它们在作用域…

在Typora中实现自动编号

文章目录 在Typora中实现自动编号1. 引言2. 准备工作3. 自动编号的实现3.1 文章大纲自动编号3.2 主题目录&#xff08;TOC&#xff09;自动编号3.3 文章内容自动编号3.4 完整代码 4. 应用自定义CSS5. 结论 在Typora中实现自动编号 1. 引言 Typora是一款非常流行的Markdown编辑…

Oracle exp和imp命令导出导入dmp文件

目录 一. 安装 instantclient-tools 工具包二. exp 命令导出数据三. imp 命令导入数据四. expdp 和 impdp 命令 一. 安装 instantclient-tools 工具包 ⏹官方网站 https://www.oracle.com/cn/database/technologies/instant-client/linux-x86-64-downloads.html ⏹因为我们在…

小程序发版后,强制更新为最新版本

为什么要强制更新为最新版本&#xff1f; 在小程序的开发和运营过程中&#xff0c;强制用户更新到最新版本是一项重要的策略&#xff0c;能够有效提升用户体验并保障系统的稳定性与安全性。以下是一些主要原因&#xff1a; 1. 功能兼容 新功能或服务通常需要最新版本的支持&…

设计模式 创建型 原型模式(Prototype Pattern)与 常见技术框架应用 解析

原型模式&#xff08;Prototype Pattern&#xff09;是一种创建型设计模式&#xff0c;其核心思想在于通过复制现有的对象&#xff08;原型&#xff09;来创建新的对象&#xff0c;而非通过传统的构造函数或类实例化方式。这种方式在需要快速创建大量相似对象时尤为高效&#x…

办公 三之 Excel 数据限定录入与格式变换

开始-----条件格式------管理规则 IF($A4"永久",1,0) //如果A4包含永久&#xff0c;条件格式如下&#xff1a; OR($D5<60,$E5<60,$F5<60) 求取任意科目不及格数据 AND($D5<60,$E5<60,$F5<60) 若所有科目都不及格 显示为红色 IF($H4<EDATE…

黑马JavaWeb开发跟学(十四).SpringBootWeb原理

黑马JavaWeb开发跟学 十四.SpringBootWeb原理 SpingBoot原理1. 配置优先级2. Bean管理2.1 获取Bean2.2 Bean作用域2.3 第三方Bean 3. SpringBoot原理3.1 起步依赖3.2 自动配置3.2.1 概述3.2.2 常见方案3.2.2.1 概述3.2.2.2 方案一3.2.2.3 方案二 3.2.3 原理分析3.2.3.1 源码跟踪…

linux-26 文件管理(四)install

说一个命令&#xff0c;叫install&#xff0c;man install&#xff0c;install是什么意思&#xff1f;安装&#xff0c;install表示安装的意思&#xff0c;那你猜install是用来干什么的&#xff1f;猜一猜干什么的&#xff1f;安装软件&#xff0c;安装第三方软件&#xff0c;错…

Win11+WLS Ubuntu 鸿蒙开发环境搭建(二)

参考文章 penHarmony南向开发笔记&#xff08;一&#xff09;开发环境搭建 OpenHarmony&#xff08;鸿蒙南向开发&#xff09;——标准系统移植指南&#xff08;一&#xff09; OpenHarmony&#xff08;鸿蒙南向开发&#xff09;——小型系统芯片移植指南&#xff08;二&…

多文件比对

要比对多个存储目录下的文件是否存在重复文件&#xff0c;可以通过以下步骤实现 MD5 值的比对&#xff1a; 1. 提取文件路径 首先从你的目录结构中获取所有文件的路径&#xff0c;可以使用 find 命令递归列出所有文件路径&#xff1a;find /traixxxnent/zpxxxxx -type f >…