NER实战:(命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)

精读这篇文章你就能知道什么是NER,并且可以学会在开发任务中使用NER

目录

1、chatGPT对NER的解释

2、NER任务

3、NER标注工具Doccano


1、chatGPT对NER的解释

命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一项关键任务,旨在从文本中识别和分类特定的命名实体,如人名、地名、组织机构名等。NER的目标是标记文本中的实体,并将其归类到预定义的实体类型中。

NER通常使用机器学习和深度学习技术来完成任务。以下是一种常见的NER流程:

  1. 数据收集和标注:收集包含命名实体的文本数据,并为每个实体标注相应的标签(实体类型)。

  2. 特征提取:从文本数据中提取有用的特征,如词性、词形、上下文等。这些特征将作为输入提供给模型。

  3. 模型训练:使用标注好的数据和提取的特征来训练NER模型。常用的模型包括条件随机场(CRF)、循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)和注意力机制(Attention)等。

  4. 模型评估和调优:使用评估数据集来评估训练得到的模型性能,并进行调优以提高准确性和召回率。

  5. 实体识别:使用训练好的NER模型对新的文本进行实体识别。模型将识别并标记文本中的命名实体,使其易于提取和理解。

NER在许多应用中起着重要作用,例如信息抽取、问答系统、文本摘要、机器翻译等。它可以帮助自动化处理大量文本数据,并提供有关实体的结构化信息,为后续的分析和应用提供基础。

2、NER任务

对这句话进行一个词的抽取:今天晚上我吃了一只鸭

  • 今天 是一个时间
  • 我 是一个人
  • 鸭 是一个动物

我想对一个文本数据中抽取出一个关键知识

我现在将(时间,人,动物)构建一个三元组行分类,最终定为几类是你在任务中自己定义的,这里的三分类只是举例而已。

分别表示(什么时间,谁,对谁),进行关键信息抽取,那我们解决这个任务的模型就需要知道哪些词是关键信息。那今天这个词是一个时间还是人还是动物就是一个三分类,然后后面的每个词晚上吃了一只都需要进行三分类。所以虽然是叫NER,但是实际上就是一个对Token的分类任务。

Token可以这么理解,在NLP中,拿到一句话无论做什么预处理的工作,第一件事都需要做分词。

那前面那句话举例:

今天晚上我吃了一只鸭

1今天    2晚上    3我    4吃了    5一只    6鸭

这句话进行分词处理就应该是这个结果。对Token进行分类就是把每个词对应的类别是什么做一个映射。Token分类就是对每一个词都进行类别标注,这个过程就叫做一个命名体识别。

所以文本的分类需要人工进行标注。

3、NER标注工具Doccano

3.1安装

Doccano是一个非常好用的开源工具,用起来很方便,安装也不麻烦。

首先不要着急去查百度,在github就有安装说明。

安装说明:

  • pip (Python 3.8+)
  • Docker
  • Docker Compose

pip (Python 3.8+),要求Python环境是3.8以上,但是如果你深度学习环境一套都是3.8以下的,你新建一个python环境就行了,这个工具就只需要标注文本,标注的时候切换到Doccano环境就行了。

在prompt中先进入你安装的python环境的scripts文件夹(每个conda的python环境都有一个script文件夹)中,在prompt界面进行操作:

 安装指令:

pip install doccano

先进行初始化操作:

# Initialize database.
doccano init

设置用户名和密码:

# Create a super user.
doccano createuser --username admin --password pass

接着设置服务器端口:

# Start a web server.
doccano webserver --port 8000

这步做完后,再打开一个prompt命令窗口,启动服务:

# Start the task queue to handle file upload/download.
doccano task

服务启动成功后,进入服务器 

 

(这个界面有些内容介绍你也可以自己去看看)点击右上角进行登陆,登陆的账号密码就是刚刚设置的。

可以看到自己的标注项目了:

 可以切换语言,创建项目,我们创建序列的项目就好了:

 

(更新中,可以先收藏)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55948.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu 18.04 LTS 更换国内源(镜像)

中科大源官方帮助 官方还有其它发行版的帮助,在 Ubuntu 18.04 LTS 上打开软件列表可以看到“软件和更新”。

Ubuntu22.04更换国内镜像源(阿里、网易163、清华、中科大)

更换方法 Ubuntu采用apt作为软件安装工具,其镜像源列表记录在/etc/apt/source.list文件中。 首先将source.list复制为source.list.bak备份,然后将source.list内容改为需要的镜像源列表即可。 修改完成后保存source.list文件,执行&#xff…

比较两幅图像的相似度

现在以图搜图的功能比较火热,很好奇其原理。 简单的搜索学习得知,实现相似图片搜索的关键技术是“感知哈希算法”,作用是对每一张图片按照某种规律生成一个对应的指纹字符串。比较不同图片之间的指纹字符串,结果越接近&#xff0…

比较两个模拟信号的相似度

转载自微信公众号 原创 逸珺 嵌入式客栈 #include <stdio.h> #include <math.h>/* 返回值在区间&#xff1a; [-1,1] */ /* 如返回-10&#xff0c;则证明输入参数无效 */ #define delta 0.0001f double calculate_corss_correlation(double *s1, doub…

图像相似度对比分析软件,图像相似度算法有哪些

有没有一款软件能比对两张照片是否一样? 可以用AI软件来对比。AI人脸比对已经变成非常常用的AI场景之一。步骤如下&#xff1a;1、浏览器输入网址百度AI应用&#xff0c;AI人脸比对。2、进入人脸比对的功能演示模块。 3、点击左侧的‘本地上传’按钮&#xff0c;上传本地照片…

图像相似度对比分析软件,图像相似度计算方法

怎么对比两张图片的相似度 1、首先打开微信&#xff0c;选择底部“发现”。如图所示。2、然后在点击进入“小程序”。如图所示。3、然后输入“腾讯AI体验中心”搜索&#xff0c;点击进入。4、选择“人脸对比”。如图所示。 5、上传两张图片上去&#xff0c;点击“人脸比对”。…

使用Faiss进行海量特征的相似度匹配

点击上方“机器学习与生成对抗网络”&#xff0c;关注"星标" 获取有趣、好玩的前沿干货&#xff01; 作者丨Gemfield知乎 编辑 | 极市平台 来源丨https://zhuanlan.zhihu.com/p/210736523 导读 Faiss为稠密向量提供高效相似度搜索和聚类&#xff0c;支持十亿级别向量…

分析图片相似度的软件,图片相似度比对算法

计算图像相似度的算法有哪些 SIMStructuralSIMilarity&#xff08;结构相似性&#xff09;&#xff0c;这是一种用来评测图像质量的一种方法。 由于人类视觉很容易从图像中抽取出结构信息,因此计算两幅图像结构信息的相似性就可以用来作为一种检测图像质量的好坏.首先结构信息…

比较两幅图像的相似度的各种相似度量结果对比

对于人眼来说&#xff0c;很容易看出两个给定图像的质量有多相似。例如下图将各种空间噪声添加到图片中&#xff0c;我们很容易将它们与原始图像进行比较&#xff0c;并指出其中的扰动和不规则性。但是在机器学习中我们需要数学表达式来量化这种差异。 在本文中&#xff0c;我们…

语音相似度评价

语音相似度评价是用于测量语音之间的相似程度&#xff0c;常使用的算法是动态时间规整&#xff08;Dynamic time warping&#xff0c;DTW&#xff09;&#xff0c;其原理是通过对齐时间序列来评估它们之间相似性。DTW是一种基于对齐的度量&#xff08;alignment-based metric&a…

图像相似度对比分析软件,图像相似度对比分析法

有什么可以对比两张图片得出相似度的软件。 谷歌人工智能写作项目&#xff1a;神经网络伪原创 图像怎么进行比对 有什么软件可以把两张照片进行对比 查看相似度 1、Mix滤镜大师。IX滤镜大师免费提供将近200款默认滤镜&#xff0c;包括景深滤镜&#xff0c;散景滤镜&#xff…

如何写好工作日报,周报,月报?

管理大师德鲁克曾经在《21世纪的管理挑战》中说过&#xff0c;“21世纪&#xff0c;‘管理’需要提供的最重要的贡献&#xff0c;就是提高知识工作和知识工作者的生产率。” 而这也是公司推行周报日报制度最核心的诉求&#xff0c;对于知识工作者生产率的管理&#xff0c;用白…

测试部门工作周报模板

转载于:https://blog.51cto.com/zdytesting/2148921

日报周报月报工作总结生成器「智能文案生成器」

在职场上&#xff0c;尤其是互联网公司里&#xff0c;“写周报”是一件麻烦的事情。理想的工作环境下&#xff0c;写周报能让工作内容透明化&#xff0c;并有助于总结工作经验和办事方法。但现实情况往往没那么理想。有些公司学习“先进经验”&#xff0c;突然增加周报制度&…

日报周报月报工作总结生成器【智能文案生成器】

日报周报月报工作总结生成器【智能文案生成器】 天天写日报&#xff0c;我真的快奔溃了&#xff01; 摸了一天鱼&#xff0c;下班还要写日报&#xff1b; 划了一周的水&#xff0c;周末还要写周报&#xff1b; 啊啊啊啊… 在职场上&#xff0c;尤其是互联网公司里&#xff0c…

【工作周报】

内容&#xff1a; 了解CV领域常用评价标准BLEU、CIDEr、METEOR、ROUGE对HMN项目中涉及评分的代码进行分析将测试视频的predictions和groundtruth作为输入计算分数保存结果到excel文件中 时间&#xff1a; 12.14 ~ 12.20 笔记&#xff1a; 了解CV领域常用评价标准BLEU、CIDEr…

日报周报自动生成工具,一句简要描述,自动写出一篇工作日志总结

有了这个工具&#xff0c;再也不用担心每日每周每月的工作日志了&#xff0c;你只需要输入一段简要描述&#xff0c;就可以快速生成完整的工作日志内容&#xff0c;下面我们一起看看效果吧 微信小程序搜索【静静工具箱】免费使用 此工具打开也不需要太多复杂的操作&#xff0…

IT人员的周报应该怎么写

周报对于职场人员一定不陌生&#xff0c;周报既是对自己工作的总结&#xff0c;找到自己工作的问题&#xff0c;也是让老板知道你干了什么&#xff0c;是自己和老板之间进行沟通的桥梁。因为工种的不同&#xff0c;周报的样式也各不相同&#xff0c;作为IT人员&#xff0c;最看…

《花雕学AI》28:革命性的 ChatGPT for SEO——让您的排名飙升 50%!

引言&#xff1a; 如果您想写篇有吸引力的文章&#xff0c;或者您是一个博客和网站的拥有者&#xff0c;那么您一定知道 SEO&#xff08;搜索引擎优化&#xff09;的重要性。SEO 可以帮助您提高相应的流量、转化率和收入&#xff0c;但是 SEO 也是一个复杂和耗时的过程&#x…

chatgpt赋能python:Python文字输入的介绍

Python 文字输入的介绍 Python 是一种高级编程语言&#xff0c;具有易学易用、开发效率高等优点。在 Python 中&#xff0c;文字输入是一种非常重要的功能&#xff0c;可以用于很多场景&#xff0c;比如输入用户信息、采集网络数据等。本文将着重介绍 Python 中的文字输入功能…