文本标注技术方案(NLP标注工具)

Doccano

doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。

支持命名实体识别,情感分类,机器翻译任务,界面比较友好。

  • 当前公司私有化部署的地址:(当前挂掉了,后端处理中)
  • git:https://github.com/doccano/doccano

技术方案

前端:vue2 + nuxt

后端:python

技术难点

  1. 标注工具编辑器部分组件

功能:

  • 支持标注 Label
  • 支持关系 Relation

开源组件:

  • vue 组件:
    • https://www.npmjs.com/package/v-annotator
    • https://github.com/doccano/v-annotator/blob/master/package.json
    • demo:https://github.com/doccano/doccano/blob/93cfd52924378bd2c8e109fff2b072199ff2e8bc/frontend/pages/demo/named-entity-recognition/index.vue
<v-annotator:dark="$vuetify.theme.dark":rtl="rtl":text="text" //文本内容:entities="entities" // 注解内容:entity-labels="entityLabels" // 注解标签:relations="relations"// 关系内容:relation-labels="relationLabels" // 关系标签:allow-overlapping="allowOverlapping":grapheme-mode="graphemeMode":selected-entities="selectedEntities"@add:entity="handleAddEvent" // 添加注解内容@click:entity="onEntityClicked"  // 点击注解@click:relation="onRelationClicked" // 点击关系@addRelation="addRelation" // 添加 关系@contextmenu:entity="deleteEntity" // 右键菜单点击@contextmenu:relation="deleteRelation" // 右键菜单点击/><entity-editor:dark="$vuetify.theme.dark":rtl="rtl":text="currentDoc.text":entities="currentDoc.annotations":entity-labels="entityLabels":relations="relations":relation-labels="relationLabels":allow-overlapping="allowOverlapping"@addEntity="addEntity"@click:entity="updateEntity"@contextmenu:entity="deleteEntity"@contextmenu:relation="deleteRelation"/>
  • react 组件

https://github.com/microsoft/react-text-annotator

当前看 v-annotator 是 doccanno 封装的一个组件,react 这个组件要分析一下是不是支持当前的特性

代码如下:

import {AnnotationData, Labeler} from 'react-text-annotator'const HomePage: React.FC = () => {const annotations: AnnotationData[] = [{id: 'id1',color: 'red',endToken: 5,startToken: 0,name: 'label111111',kind: 'label',onClick:(e) => {console.log(e);},level: 1,// 设置层级onRenderTooltip: (e) =><>label111111</>},{id: 'id1',color: 'green',endToken: 5,startToken: 1,name: 'label222222',kind: 'label',onRenderTooltip: (e) =><>label222222</>},{id: 'id2',color: 'blue',endToken: 25,startToken: 10,name: 'relation',kind: 'relation',}
];const labelerText = 'This is sample text to test the labeler functionality.';return <><Labeler text={labelerText} annotations={annotations} labelerConfigs={{ isAnnotationResizingEnabled: true,isRtl: false, tokenizationType: 'character' }} labelerOverflow={'scroll'}labelerHeight={"100px"}/>
</>;
};export default HomePage;

下面的了解即可

YEDDA:(2016)(python)

优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。

YEDDA(以前的 SUTDAnnotator)是为在文本(几乎所有语言,包括英语、中文)、符号甚至表情符号上注释块/实体/事件而开发的。它支持快捷注释,对于手动注释文本非常有效。用户只需选择文本范围并按快捷键,该范围就会自动注释。它还支持命令注释模型,可以批量注释多个实体,并支持将注释文本导出为序列文本。此外,更新版本还增加了智能推荐和管理员分析。它兼容所有主流操作系统,包括Windows、Linux和MacOS。

https://github.com/jiesutd/YEDDA

python

Prodigy(2017):

Prodigy 是一种现代注释工具, 用于为机器学习模型创建训练和评估数据。您还可以使用 Prodigy 来帮助您检查和清理数据、进行错误分析以及开发基于规则的系统以与统计模型结合使用。

https://prodi.gy/docs/

Python library

Chinese-Annotator:(2017)

基于prodigy的中文标注工具

https://github.com/deepwel/Chinese-Annotator

demo:https://demo.prodi.gy/?=null&view_id=textcat

技术方案:

  • vue2 element
  • Python

Brat:(2010)

支持实体、关系、事件抽取的标注。可以标注情感。

优点在标注实体的同时可以进行关系标注,还可以实现二级标注。

brat rapid annotation tool

GitHub - nlplab/brat: brat rapid annotation tool (brat) - for all your textual annotation needs

技术方案

  • jq
  • Python

IEPY

主要用来信息抽取和关系抽取任务

https://github.com/machinalis/iepy

DeepDive

主要用来关系抽取任务,17就停止更新了

http://deepdive.stanford.edu/#documentation

个人小结

大致可以选用Brat,Doccano,YEDDA,Prodigy试一下,选用Brat是因为有现成的中文情感标注,还有Brat有关系标注,选用Doccano是它的页面很友好,而且可添加的标签数也比较多,选用YEDDA是它完全用Python桌面开发且支持中文,选用Prodigy是因为支持标注的功能最全。

中文分词工具(分词工具有的也可以做命名实体识别和词性标注,可以去看看)

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/118637.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode19 删除链表指定节点

思路&#xff1a;用列表保存链表&#xff0c;然后分情况讨论。 class Solution:def removeNthFromEnd(self, head, n: int):node_list[head]while head.next:headhead.nextnode_list.append(head)remove_loclen(node_list)-n#要移除的位置if len(node_list)1:return Noneif re…

Unity中Transform移动相关

路程 方向 * 速度 * 时间 参数一&#xff1a;表示位移多少 路程 方向 * 速度 * 时间 参数二&#xff1a;表示 相对坐标系 默认 该参数 是相对于自己坐标系的 相对于世界坐标系的 Z轴 动 始终是朝 世界坐标系 的 Z轴正方向移动 this.transform.Translate(Vector3.forwar…

matlab绘制局部放大图

ZoomPlot是一个交互式的matlab局部绘图库&#xff0c;其github仓库地址为 https://github.com/iqiukp/ZoomPlot-MATLAB。在使用库之前需要先将库下载到本地&#xff0c;可以直接添加到matlab的库中&#xff0c;也可以放在项目文件中直接使用。 简单使用 其实使用这个库只需要…

iOS开发Swift-2-图片视图、App图标-赏月App

1.创建新项目 点击File - New - Project。 选择Single View App&#xff0c;点击Next。 填写文件信息&#xff0c;点击Next。 选择文件位置&#xff0c;点击Create。 修改App显示名称为 “赏月”。 2.设置背景色 选择Main&#xff0c;点击View界面&#xff0c;选择右边属性&…

【数学建模竞赛】Matlab逻辑规则,结构基础及函数

逻辑基础 逻辑变量 在Matlab中&#xff0c;逻辑变量是一种特殊类型的变量&#xff0c;用于表示逻辑值。逻辑变量只有两个可能的值&#xff1a;true&#xff08;真&#xff09;和false&#xff08;假&#xff09;。在Matlab中&#xff0c;我们可以使用0和1来表示逻辑变量的值。…

go语言-协程

mOS结构体 每一种操作系统不同的线程信息 g给g0栈给g0协程内存中分配的地址&#xff0c;记录函数跳转信息&#xff0c; 单线程循环 0.x版本 1.0版本 多线程循环 操作系统并不知道Goroutine的存在 操作系统线程执行一个调度循环&#xff0c;顺序执行Goroutine 调度循环非常…

linux 下安装配置nexus

一、安装包获取方式 方式一 1、直接把下载好的安装包上传到服务器中 方式二 2、通过wget安装Nexus压缩包 ①、可以使用以下命令进行安装Nexus的最新版本 wget https://download.sonatype.com/nexus/3/latest-unix.tar.gz②、也可以点击官网复制想要下载的Nexus压缩包进行安装…

读word模板批量生成制式文件

文章目录 1、Maven依赖2、.docx或.doc格式的word模板准备3、读word模板&#xff0c;批量替换代码域&#xff0c;生成文件&#xff0c;demo4、结果展示 1、Maven依赖 <dependency><groupId>fr.opensagres.xdocreport</groupId><artifactId>fr.opensagre…

qt creater11 翻译国际化教程教程:

先出效果图。 闲聊几句&#xff1a;qt这个翻译很方便&#xff0c;能直接导出项目里所有文字。 具体步骤如下&#xff1a; 在Qt中&#xff0c;我们可以使用QTranslator类来实现多语言切换。以下是一般步骤&#xff1a; 1. 在你的源代码中&#xff0c;所有需要翻译的字符串都…

OpenGL-入门-BMP像素图glReadPixels(1)实现读取屏幕中间的颜色和获取屏幕上鼠标点击位置的颜色

glReadPixels函数用于从帧缓冲区中读取像素数据。它可以用来获取屏幕上特定位置的像素颜色值或者获取一块区域内的像素数据。下面是该函数的基本语法&#xff1a; void glReadPixels(GLint x, GLint y, GLsizei width, GLsizei height, GLenum format, GLenum type, GLvoid *da…

Go实现LogCollect:海量日志收集系统【下篇——开发LogTransfer】

Go实现LogAgent&#xff1a;海量日志收集系统【下篇】 0 前置文章 Go实现LogAgent&#xff1a;海量日志收集系统【上篇——LogAgent实现】 前面的章节我们已经完成了日志收集&#xff08;LogAgent&#xff09;&#xff0c;接下来我们需要将日志写入到kafka中&#xff0c;然后…

【SpringSecurity】十二、集成JWT搭配Redis实现退出登录

文章目录 1、登出的实现思路2、集成Redis3、认证成功处理器4、退出成功处理器5、修改token校验过滤器6、调试 1、登出的实现思路 这是目前的token实现图&#xff1a; 因为JWT的无状态&#xff0c;服务端无法在使用过程中主动废止某个 token&#xff0c;或者更改 token 的权限…

【算法刷题-双指针篇】

目录 1.leetcode-27. 移除元素2.leetcode-344. 反转字符串3.leetcode-剑指 Offer 05. 替换空格4.leetcode-206. 反转链表5.leetcode-19. 删除链表的倒数第 N 个结点6.leetcode-面试题 02.07. 链表相交7.leetcode-142. 环形链表 II8.leetcode-15. 三数之和9.leetcode-18. 四数之…

python unitest自动化框架

以下举一个最简单的unitest实例&#xff0c;包含备注&#xff0c;自己拉取代码运行一次就知道原理了 import unittest import osclass TestSample(unittest.TestCase):classmethoddef setUpClass(cls) -> None:print(整个测试类只执行一次)def setUp(self) -> None:prin…

【python零基础入门学习】python基础篇之判断与for循环(二)

本站以分享各种运维经验和运维所需要的技能为主 《python》&#xff1a;python零基础入门学习 《shell》&#xff1a;shell学习 《terraform》持续更新中&#xff1a;terraform_Aws学习零基础入门到最佳实战 《k8》暂未更新 《docker学习》暂未更新 《ceph学习》ceph日常问题解…

flutter plugins插件【二】【FlutterAssetsGenerator】

2、FlutterAssetsGenerator 介绍地址&#xff1a;https://juejin.cn/post/6898542896274735117 配置assets目录 ​ 插件会从pubspec.yaml文件下读取assets目录&#xff0c;因此要使用本插件&#xff0c;你需要在pubspec.yaml下配置资源目录 flutter:# The following line ens…

Navicat连接数据库报2003错误解决办法

是防火墙还没有开启 查看防火墙管理的端口 设置3306防火墙开启&#xff0c;重载防火墙 连接成功

2024年java面试--多线程(2)

系列文章目录 2024年java面试&#xff08;一&#xff09;–spring篇2024年java面试&#xff08;二&#xff09;–spring篇2024年java面试&#xff08;三&#xff09;–spring篇2024年java面试&#xff08;四&#xff09;–spring篇2024年java面试–集合篇2024年java面试–redi…

CSS中如何实现弹性盒子布局(Flexbox)的换行和排序功能?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 换行&#xff08;Flexbox Wrapping&#xff09;⭐ 示例&#xff1a;实现换行⭐ 排序&#xff08;Flexbox Ordering&#xff09;⭐ 示例&#xff1a;实现排序⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得…

【uniapp 配置启动页面隐私弹窗】

为什么需要配置 原因 根据工业和信息化部关于开展APP侵害用户权益专项整治要求&#xff0c;App提交到应用市场必须满足以下条件&#xff1a; 1.应用启动运行时需弹出隐私政策协议&#xff0c;说明应用采集用户数据 2.应用不能强制要求用户授予权限&#xff0c;即不能“不给权…