【人工智能】Transformers之Pipeline(二十):令牌分类(token-classification)

目录

一、引言 

二、令牌分类(token-classification)

2.1 概述

2.2 Facebook AI/XLM-RoBERTa

2.3 pipeline参数

2.3.1 pipeline对象实例化参数

2.3.2 pipeline对象使用参数 

2.3.3 pipeline返回参数 ​​​​​​​​​​​​​​

2.4 pipeline实战

2.5 模型排名

三、总结


一、引言 

 pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型

今天介绍NLP自然语言处理的第八篇:令牌分类(token-classification),在huggingface库内有2万个文本生成(text-generation)模型。

二、令牌分类(token-classification)

2.1 概述

标记分类是一种自然语言理解任务,其中为文本中的某些标记分配标签。一些流行的标记分类子任务是命名实体识别 (NER) 和词性 (PoS) 标记。可以训练 NER 模型来识别文本中的特定实体,例如日期、个人和地点;而 PoS 标记可以识别文本中的哪些词是动词、名词和标点符号。

2.2 Facebook AI/XLM-RoBERTa

XLM-RoBERTa 是 RoBERTa 的多语言版本。它已在包含 100 种语言的 2.5TB 经过筛选的 CommonCrawl 数据上进行了预训练。

RoBERTa 是一个以自监督方式在大型语料库上进行预训练的 transformers 模型。这意味着它只在原始文本上进行预训练,没有任何人工标记(这就是它可以使用大量公开数据的原因),并有一个自动流程从这些文本中生成输入和标签。

更准确地说,它是使用掩码语言建模 (MLM) 目标进行预训练的。以一个句子为例,该模型随机屏蔽输入中的 15% 的单词,然后通过模型运行整个被屏蔽的句子,并必须预测被屏蔽的单词。这与通常一个接一个地看到单词的传统循环神经网络 (RNN) 或内部屏蔽未来标记的 GPT 等自回归模型不同。它允许模型学习句子的双向表示。

通过这种方式,模型可以学习 100 种语言的内部表征,然后可以使用这些表征提取对下游任务有用的特征:例如,如果您有一个带标签的句子数据集,则可以使用 XLM-RoBERTa 模型生成的特征作为输入来训练标准分类器。

2.3 pipeline参数

2.3.1 pipeline对象实例化参数

  • model(PreTrainedModel或TFPreTrainedModel)— 管道将使用其进行预测的模型。 对于 PyTorch,这需要从PreTrainedModel继承;对于 TensorFlow,这需要从TFPreTrainedModel继承。
  • tokenizer ( PreTrainedTokenizer ) — 管道将使用其对模型的数据进行编码的 tokenizer。此对象继承自 PreTrainedTokenizer。
  • modelcardstrModelCard可选) — 属于此管道模型的模型卡。
  • frameworkstr可选)— 要使用的框架,"pt"适用于 PyTorch 或"tf"TensorFlow。必须安装指定的框架。

    如果未指定框架,则默认为当前安装的框架。如果未指定框架且安装了两个框架,则默认为 的框架model,如果未提供模型,则默认为 PyTorch。

  • taskstr,默认为"")— 管道的任务标识符。
  • num_workersint可选,默认为 8)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的工作者数量。
  • batch_sizeint可选,默认为 1)— 当管道将使用DataLoader(传递数据集时,在 Pytorch 模型的 GPU 上)时,要使用的批次的大小,对于推理来说,这并不总是有益的,请阅读使用管道进行批处理。
  • args_parser(ArgumentHandler,可选) - 引用负责解析提供的管道参数的对象。
  • deviceint可选,默认为 -1)— CPU/GPU 支持的设备序号。将其设置为 -1 将利用 CPU,设置为正数将在关联的 CUDA 设备 ID 上运行模型。您可以传递本机torch.devicestr
  • torch_dtypestrtorch.dtype可选) - 直接发送model_kwargs(只是一种更简单的快捷方式)以使用此模型的可用精度(torch.float16,,torch.bfloat16...或"auto"
  • binary_outputbool可选,默认为False)——标志指示管道的输出是否应以序列化格式(即 pickle)或原始输出数据(例如文本)进行。
  • ignore_labelsList[str],默认为["O"])— 要忽略的标签列表。
  • grouped_entities ( bool可选,默认为False) — 已弃用,请使用aggregation_strategy。是否在预测中将与同一实体相对应的标记分组在一起。
  • strideint可选)— 如果提供了 stride,则管道将应用于所有文本。文本被拆分为大小为 model_max_length 的块。仅适用于快速标记器,与aggregation_strategy不同NONE。此参数的值定义块之间重叠标记的数量。换句话说,模型将tokenizer.model_max_length - stride每一步向前移动标记。
  • aggregation_strategystr可选,默认为"none")—根据模型预测融合(或不融合)标记的策略。
    • “none” :不会进行任何聚合,仅返回模型的原始结果
    • “simple” :将尝试按照默认模式对实体进行分组。 (A, B-TAG), (B, I​​-TAG), (C, I-TAG), (D, B-TAG2) (E, B-TAG2) 最终将变为 [{“word”: ABC, “entity”: “TAG”}, {“word”: “D”, “entity”: “TAG2”}, {“word”: “E”, “entity”: “TAG2”}] 请注意,两个连续的 B 标签最终将成为不同的实体。 在基于单词的语言中,我们可能会不合需要地拆分单词:想象一下 Microsoft 被标记为 [{“word”: “Micro”, “entity”: “ENTERPRISE”}, {“word”: “soft”, “entity”: “NAME”}]。 寻找 FIRST、MAX、AVERAGE 来缓解这种情况并消除单词歧义(在支持该含义的语言上,基本上是用空格分隔的标记)。这些缓解措施只对真实的词语起作用,“纽约”可能仍然被标记为两个不同的实体。
    • “first” :(仅适用于基于单词的模型)将使用SIMPLE除了单词之外的策略,不能以不同的标签结尾。当存在歧义时,单词将简单地使用单词的第一个标记的标签。
    • “average” :(仅适用于基于单词的模型)将使用SIMPLE除单词之外的策略,不能以不同的标签结束。分数将首先在标记之间取平均值,然后应用最大标签。
    • “max” :(仅适用于基于单词的模型)将使用SIMPLE除单词之外的策略,不能以不同的标签结尾。单词实体将只是具有最高分数的标记。

2.3.2 pipeline对象使用参数 

  • text_inputsstrList[str],List[Dict[str, str]],或List[List[Dict[str, str]]])— 需要完成的一个或多个提示(或一个提示列表)。如果传递了字符串或字符串列表,则此管道将继续每个提示。或者,可以传递“聊天”(以带有“role”和“content”键的字典列表的形式),或传递此类聊天的列表。传递聊天时,将使用模型的聊天模板对其进行格式化,然后再将其传递给模型。
  • return_tensors ( bool可选,默认为False) — 是否在输出中返回预测的张量(作为标记索引)。如果设置为 True,则不返回解码后的文本。
  • return_textbool可选,默认为True)— 是否在输出中返回解码后的文本。
  • return_full_textbool可选,默认为True)— 如果设置为,False则仅返回添加的文本,否则返回全文。仅当 return_text设置为 True 时才有意义。
  • clean_up_tokenization_spacesbool可选,默认为True)—是否清理文本输出中可能出现的额外空格。
  • prefixstr可选)— 添加到提示的前缀。
  • handle_long_generationstr可选)— 默认情况下,此管道不处理长生成(以某种形式超出模型最大长度的生成)。
  • generate_kwargsdict可选)——传递给模型的生成方法的附加关键字参数(请参阅此处与您的框架相对应的生成方法)。

2.3.3 pipeline返回参数 ​​​​​​​​​​​​​​

  • word ( str) — 分类的标记/单词。这是通过解码选定的标记获得的。如果您想要获得原始句子中的精确字符串,请使用startend
  • scorefloat)—— 的对应概率entity
  • entity ( str) — 为该标记/单词预测的实体(当 aggregation_strategy不是时,它被命名为entity_group)"none"
  • indexint,仅当存在时aggregation_strategy="none")——句子中对应标记的索引。
  • startint可选)— 句子中相应实体的起始索引。仅当标记器中的偏移量可用时才存在
  • endint可选)— 句子中相应实体的结尾索引。仅当标记器中的偏移量可用时才存在

2.4 pipeline实战

基于pipeline的token-classification任务,使用FacebookAI/xlm-roberta模型:

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"from transformers import pipeline
classifier = pipeline("ner", model= "xlm-roberta-large-finetuned-conll03-english" )
output=classifier("Alya told Jasmine that Andrew could pay with cash..")
print(output)

执行后,自动下载模型文件并进行识别:

2.5 模型排名

在huggingface上,我们将令牌分类(token-classification)模型按下载量从高到低排序,总计2万个模型,文中FacebookAI的xlm-roberta排名第一。

三、总结

本文对transformers之pipeline的令牌分类(token-classification)从概述、技术原理、pipeline参数、pipeline实战、模型排名等方面进行介绍,读者可以基于pipeline使用文中的2行代码极简的使用NLP中的令牌分类(token-classification)模型。

期待您的3连+关注,如何还有时间,欢迎阅读我的其他文章:

《Transformers-Pipeline概述》

【人工智能】Transformers之Pipeline(概述):30w+大模型极简应用

《Transformers-Pipeline 第一章:音频(Audio)篇》

【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)

【人工智能】Transformers之Pipeline(二):自动语音识别(automatic-speech-recognition)

【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)

【人工智能】Transformers之Pipeline(四):零样本音频分类(zero-shot-audio-classification)

《Transformers-Pipeline 第二章:计算机视觉(CV)篇》

【人工智能】Transformers之Pipeline(五):深度估计(depth-estimation)

【人工智能】Transformers之Pipeline(六):图像分类(image-classification)

【人工智能】Transformers之Pipeline(七):图像分割(image-segmentation)

【人工智能】Transformers之Pipeline(八):图生图(image-to-image)

【人工智能】Transformers之Pipeline(九):物体检测(object-detection)

【人工智能】Transformers之Pipeline(十):视频分类(video-classification)

【人工智能】Transformers之Pipeline(十一):零样本图片分类(zero-shot-image-classification)

【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)​​​​​​​

《Transformers-Pipeline 第三章:自然语言处理(NLP)篇》

【人工智能】Transformers之Pipeline(十三):填充蒙版(fill-mask)​​​​​​​

【人工智能】Transformers之Pipeline(十四):问答(question-answering)

【人工智能】Transformers之Pipeline(十五):总结(summarization)

【人工智能】Transformers之Pipeline(十六):表格问答(table-question-answering)

【人工智能】Transformers之Pipeline(十七):文本分类(text-classification)

【人工智能】Transformers之Pipeline(十八):文本生成(text-generation)​​​​​​​

【人工智能】Transformers之Pipeline(十九):文生文(text2text-generation)

【人工智能】Transformers之Pipeline(二十):令牌分类(token-classification)

【人工智能】Transformers之Pipeline(二十一):翻译(translation)

【人工智能】Transformers之Pipeline(二十二):零样本文本分类(zero-shot-classification)

《Transformers-Pipeline 第四章:多模态(Multimodal)篇》

【人工智能】Transformers之Pipeline(二十三):文档问答(document-question-answering)

【人工智能】Transformers之Pipeline(二十四):特征抽取(feature-extraction)

【人工智能】Transformers之Pipeline(二十五):图片特征抽取(image-feature-extraction)

【人工智能】Transformers之Pipeline(二十六):图片转文本(image-to-text)

【人工智能】Transformers之Pipeline(二十七):掩码生成(mask-generation)

【人工智能】Transformers之Pipeline(二十八):视觉问答(visual-question-answering)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/454017.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 3.3 【八】整合实现高可用 Redis 集群

一、引言 在当今快速发展的软件开发领域,系统的性能和可靠性至关重要。Springboot 3 整合 Redis 7 集群具有多方面的重大意义。 首先,随着业务的不断发展,数据量呈爆炸式增长,单个 Redis 服务器往往难以满足存储和处理需求。Red…

docker-harbor

目录 一、registry 二、harbor 1.部署 harbor 1.1部署Docker-Compose 1.2部署 Harbor 服务 1.3在其他客户端上传镜像 三、维护管理Harbor 1. 创建 Harbor 用户 2.添加项目成员 3. 在客户端上使用普通账户操作镜像 4. 查看日志 5. 修改 Harbor.cfg 配置文件 6. 移除…

给定数组找出出现次数超过数组长度一半的数

🎁👉点击进入文心快码 Baidu Comate 官网,体验智能编码之旅,还有超多福利!🎁 【大厂面试真题】系列,带你攻克大厂面试真题,秒变offer收割机! ❓今日问题:给定…

低代码开发工具与传统开发工具的性能对比

随着信息技术的不断发展,软件开发工具也在不断演进。低代码开发工具近年来逐渐兴起,与传统开发工具相比,它们在性能方面有着不同的特点。 低代码开发工具的特点 易用性高:低代码开发工具通常提供可视化的开发界面,用户…

【Python数据库操作】使用SQLite和MySQL进行数据存储和查询!

【Python数据库操作】使用SQLite和MySQL进行数据存储和查询! 在现代应用程序中,数据存储与管理是至关重要的。Python为开发者提供了多种与数据库进行交互的方式,其中SQLite和MySQL是最常用的两种数据库。本文将深入探讨如何使用Python进行SQ…

ES6 Promise的用法

学习链接:ES6 Promise的用法,ES7 async/await异步处理同步化,异步处理进化史_哔哩哔哩_bilibili 一、同步与异步区别 1.JavaScript代码是单线程的程序,即通过一行一行代码顺序执行,即同步概念。 2.若处理一些简短、…

uploads-labs靶场刷题记录

Pass-01 尝试上传一句话木马 1.php: <?php eval($_POST[cmd]);?>发现设置了白名单且抓包没有记录&#xff0c;说明在前端进行的拦截&#xff08;可以禁用前端的JS从而绕过拦截&#xff0c;达到直接上传木马的目的&#xff09;。 将一句话木马文件加上.jpg后缀1.php.jp…

后端常用安全措施

一、限流 1.简介 限流就是限制流量&#xff0c;但这里的流量是一个比较笼统的概念。如果考虑各种不同的场景&#xff0c;限流是非常复杂的&#xff0c;而且和具体的业务规则密切相关 通过限流&#xff0c;可以控制服务请求的速率&#xff0c;从而提高系统应对突发大流量的能…

ElementPlus中时间选择器配置

看文档老是力不从心&#xff0c;感觉找不到自己想要的样式的选择器记录一下吧 <el-date-pickerv-model"group.timeLimit"type"datetimerange":default-time"DEFAULT_DATE_TIME"range-separator"-"start-placeholder"开始时间&…

计算机组成原理一句话

文章目录 计算机系统概述存储系统 计算机系统概述 指令和数据以同等地位存储在存储器中&#xff0c;形式上没有差别&#xff0c;但计算机应能区分他们。通过指令周期的不同阶段。 完整的计算机系统包括&#xff0c;1&#xff09;软件系统&#xff1a;程序、文档和数据&#xff…

字符串(3)_二进制求和_高精度加法

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 字符串(3)_二进制求和_高精度加法 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目…

2024 四川省大学生信息安全技术大赛 安恒杯 部分 WP

文章目录 一、前言二、MISCunzip-png拓展 第47张图片重要的文件 三、WEB四、CRYPTO五、REVERSE 一、前言 WP不完整&#xff0c;仅供参考&#xff01; 除WEB外&#xff0c;其余附件均已打包完毕&#xff0c;在这里也是非常感谢师傅的附件支持&#xff01; 123网盘下载&#x…

最佳简历--JAVA程序员的项目经验如何写

小熊学Java全能学习+面试指南:https://www.javaxiaobear.cn 首先你要明确,你能干什么,包括你自己编写的专业技能,到底会不会,怎么运用到技术上的? 1、你能干什么? 你能干什么,其实就展现你的能力,这是简历中最重要的部分,你需要证明前面说的你会的东东; 这就有点…

三周精通FastAPI:1 第一步入门

FastAPI是一个非常棒的python web和api框架&#xff0c;准备用三周的时间“精通它” 学习流程参考FastAPI官网的用户教程&#xff1a;教程 - 用户指南 - FastAPI 学前提示 运行代码 所有代码片段都可以复制后直接使用&#xff08;它们实际上是经过测试的 Python 文件&#x…

【前端】如何制作一个自己的网页(14)

当我们还需要对网页中的内容进行局部样式的修改。这时候&#xff0c;就需要用到HTML中的重要元素&#xff1a;span。 span是一个行内元素&#xff0c;可以对HTML文档中的内容进行局部布局。 如图&#xff0c;我们给标题和段落元素的部分内容设置了各种样式。 接下来&#xff0…

树上启发式合并(详解)

核心思想 借用了一个节点到根的路径上轻边个数不会超过logn条。 故重节点保留&#xff0c;轻节点删去&#xff0c;多重统计。 实际复杂度&#xff08;nlogn&#xff09; 例题 Lomsat gelral - 洛谷 AC 代码 #include<bits/stdc.h> #define int long long using na…

新型电力系统精细化时序模拟分析软件

一、背景意义 在“碳达峰碳中和”及“新型电力系统”战略引领下&#xff0c;新型电力系统电力电量平衡分析成为电力系统规划运行模拟仿真的必要环节。近年来&#xff0c;随着电网新能源渗透率逐渐提升&#xff0c;储能等灵活性调节资源大幅增加&#xff0c;传统的基于典型曲线…

qiankun 应用之间数据传递

qiankun 应用之间数据传递 全局共享 initGlobalState qiankun initGlobalState API 单击前往 qiankun 内部提供了 initGlobalState 方法用于注册 MicroAppStateActions 实例用于通信&#xff0c;该实例有三个方法&#xff0c;分别是onGlobalStateChange、setGlobalState、of…

小巧设计,强大功能:探索SoC模块的多样化功能

LoRa-STM32WLE5模块基于ST的STM32WLE5芯片&#xff0c;采用LoRa调制&#xff0c;适用于超远程和超低功耗无线电解决方案。搭载高性能Arm Cortex-M4核心&#xff0c;频率高达48 MHz&#xff0c;支持256 KB闪存和64 KB运行内存&#xff0c;具备安全性增强功能。广泛应用于安防、智…

C++进阶之路:日期类的实现、const成员(类与对象_中篇)

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…