数据标注开源框架 Label Studio

数据标注开源框架 Label Studio

Label Studio 是一个开源的、灵活的数据标注平台,旨在帮助开发者和数据科学家轻松创建高质量的训练数据集。它支持多种类型的数据(如文本、图像、音频、视频等)以及复杂的标注任务(如分类、命名实体识别、边界框标注、语义分割等)。通过直观的用户界面和强大的 API 集成,Label Studio 为构建和训练机器学习模型提供了坚实的基础。

安装/启动

# 进入虚拟环境
conda activate label_studio# 安装
pip install label-studio# 启动,默认8080端口
label-studio start# 后台启动
nohup label-studio start &# 指定端口启动
label-studio start --port 9001

访问:http://localhost:8080

第一次访问,填写Email地址和登录密码创建登录账号,访问登录页

创建项目

点击右上角的Create按钮,弹出框上有三个Tab页面,代表创建项目的三个步骤。

  • 第一步,填写项目名称;

  • 第二步,数据导入。支持txt,csv等常见格式;

  • 第三步,设置标签。为了简化设置,你可以选择一个模板。Label Studio自带的模板支持的范围很广,常见的大类就有计算机视觉、自然语言处理、语音处理等,每个大类下面又分很多小类,例如自然语言处理大类下面有文本分类、关系抽取、机器翻译和文本摘要等。

选择了一个模板以后,可以根据自己的需求设置标签。两种方式设置标签:

  • Visual 可视化方式
  • Code 代码方式

可视化方式如下图,需要配置标注的文本字段的名称,如图中的 $reviewreview这个名称是步骤二中上传的文档里的其中一个字段的名称。

再看下图中的 Add choices 。此配置是数据标注的选项,默认有三个选项:正向、中性和负向。

以上两个配置好以后,就可以在右侧的 UI preview中看到标注人员的预览界面。给你一段文字和三个选项,你只需要用鼠标点击其中某一个或多个选项即可,也可以使用选项右上角的快捷键1、2、3。

代码方式采用 XML 格式,语法非常简单,本文不做重点介绍。

创建好以后的项目列表如下图

点击列表中某一项任务,如下图

集成机器学习后端

Label Studio ML 后端是一个SDK,可以包装您的机器学习代码并将其转换为Web服务器。Web服务器可以连接到正在运行的 Label Studio 实例以自动执行标签任务。Label Studio 提供了一个代码示例库,用户可以拿来使用或者自己扩展。

Label Studio 的机器学习( ML )后端,可以提供以下几个功能:

  • 预标注:在标注师人工标注之前,ML可提前预测标签作为参考;
  • 交互式标注:每标注完一个标签,就能更新完善ML模型,使模型更精准实时;
  • 模型评估和微调:标注师可以审查模型的准确性,对模型进行纠正。

MLLabel Studio 的交互流程是:

  • 用户打开任务
  • Label Studio发送请求给 ML后端
  • ML 后端对请求的数据进行预测
  • 预测结果返回给 Label Studio 并显示在 UI

启动后端

# 安装
git clone https://github.com/HumanSignal/label-studio-ml-backend.git
cd label-studio-ml-backend/
pip install -e .# 启动示例中的机器学习后端,sklearn_text_classifier 是利用线性回归算法对文本进行分类的示例
cd /opt/label_studio/label-studio-ml-backend/label_studio_ml/examples/sklearn_text_classifier
label-studio-ml start ../sklearn_text_classifier# 启动指定主机和端口
label-studio-ml start ../sklearn_text_classifier -p 9091 --host 0.0.0.0# 验证后端是否启动成功
curl http://localhost:9090/

label-studio-ml start 启动命令在哪个路径下执行,模型文件 model.pkl 就会在哪个路径下更新,所以一定要在算法的后端目录下执行启动命令。

例如,如果在 examples 目录下执行 label-studio-ml start sklearn_text_classifier ,则 model.pkl 会保存在 examples目录下。

添加到 Label Studio

点击项目列表右上角的 Settings按钮

选择 Model选项卡,点击 Connect Model按钮

将后端服务的地址填进去,点击 Validate and Save 按钮。其中, Interactivate preannotations配置如果打开,表示允许以交互方式向机器学习的后端服务发送请求。

打开了Interactivate preannotations开关,会在任务界面的下面出现一个 Auto-Annotation的开关。

Interactivate preannotations 开关的作用是使 Label Studio 在标注过程中实时与 ML 后端进行交互,系统会动态地请求模型生成标注建议,并立即将这些建议展示给标注人员

点击 Validate and Save 按钮后,如果验证通过,会出现如下界面, Connected状态表示 Label Studio 和机器学习后端服务连接成功。

Start model training on annotation submission ****这个开关的意思是它可以让你实现一个主动学习(Active Learning)循环,即每当有新的标注提交时,系统会自动触发模型训练。即在任务界面点了 SubmitUpdate 按钮之后, Label Studio 会调用 ML 接口请求对模型进行训练,以达到对模型微调的效果。

预标注

选择 Annotation 选项卡, 打开预标注( Prelabeling )开关,表示在项目创建伊始,就会预先调用后端服务进行预测,并将预测保存。当然这只是预测操作,最终的标注结果还是要标注师点击 Submit按钮保存标注结果。

编写自己的后端

Label Studio ML 后端是一个SDK,可用于包装机器学习模型代码并将其转换为Web服务器。

首先创建自己的空 ML 后端

label-studio-ml create my_ml_backend

创建后的目录结构如下

my_ml_backend/
├── Dockerfile
├── .dockerignore
├── docker-compose.yml
├── model.py
├── _wsgi.py
├── README.md
├── requirements-base.txt
├── requirements-test.txt
├── requirements.txt
└── test_api.py
  • Dockerfile、**docker-compose.yml.dockerignore**用于使用Docker运行ML后端
  • model.py 是主文件,可以在其中实现自己的训练和推理逻辑
  • **_wsgi.py**是一个帮助文件,用于使用Docker运行ML后端,不需要修改它
  • requirements.txt 是放置Python依赖的地方
  • **requirements_base.txtrequirements_test.txt**是基本的依赖项,不需要修改它
  • **test_API.py**是放置模型测试的地方

覆盖**model.py**文件中的 predict 方法,实现自己的预测推理逻辑

def predict(self, tasks, context, **kwargs):"""Make predictions for the tasks."""return predictions

覆盖**model.py文件中的fit**方法,实现自己的训练逻辑

def fit(self, event, data, **kwargs):"""Train the model on the labeled data."""old_model = self.get('old_model')# write your logic to update the modelself.set('new_model', new_model)

参考

  • Label Studio 官网

Label Studio Documentation — Quick start guide for Label Studio

  • 教程:使用 Label Studio 的 machine learning backend 进行辅助标注和训练

教程:使用 Label Studio 的 machine learning backend 进行辅助标注和训练 | OpenBayes 贝式计算

  • A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等_label studio关系抽取标注已有实体-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6722.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解:TCP/IP五层(四层)协议模型

一.五层(四层)模型 1.概念 TCP/IP协议模型分为五层:物理层、数据链路层、网络层、传输层和应用层。这五层每一层都依赖于其下一层给它提供的网络去实现需求。 1)物理层:这是最基本的一层,也是最接近硬件…

使用Python进行大模型的测试与部署

随着人工智能技术的飞速发展,大规模模型在各行各业的应用日益广泛。然而,如何有效测试这些模型以确保其稳定性和准确性,成为测试人员的们面临的一大挑战。本文将详细介绍在Python环境下,如何测试大模型,并探讨其部署策…

高并发处理 --- 超卖问题+一人一单解决方案

在高并发场景下,超卖和一人一单是两个典型的并发问题。为了解决这两个问题,我们可以使用乐观锁(CAS)和悲观锁,这两者分别有不同的实现方式和适用场景。下面我们详细介绍如何通过 乐观锁(CAS) 和…

【2024年华为OD机试】(C卷,100分)- 约瑟夫问题 (JavaScriptJava PythonC/C++)

一、问题描述 题目描述 输入一个由随机数组成的数列(数列中每个数均是大于 0 的整数,长度已知),和初始计数值 m。 从数列首位置开始计数,计数到 m 后,将数列该位置数值替换计数值 m,并将数列…

浅谈APP之历史股票通过echarts绘图

浅谈APP之历史股票通过echarts绘图 需求描述 今天我们需要做一个简单的历史股票收盘价格通过echarts进行绘图,效果如下: 业务实现 代码框架 代码框架如下: . 依赖包下载 我们通过网站下载自己需要的涉及的图标,勾选之后进…

【0x0012】HCI_Delete_Stored_Link_Key命令详解

目录 一、命令参数 二、命令格式及参数 2.1. HCI_Delete_Stored_Link_Key 命令格式 2.2. BD_ADDR 2.3. Delete_All 三、生成事件及参数 3.1. HCI_Command_Complete事件 3.2. Status 3.3. Num_Keys_Deleted 四、命令执行流程 4.1. 命令发送阶段 4.2. 控制器处理阶段…

提示词的艺术 ---- AI Prompt 进阶(提示词框架)

提示词的艺术 ---- AI Prompt 进阶(提示词框架) 写在前面 上周发布了一篇《提示词的艺术----AI Prompt撰写指南》,旨在帮助读者理解提示词的作用,以及简单的提示词撰写指南。本篇作为进阶内容,将给出常用的提示词框架…

javaSE.类的继承

在定义不同类的时候,为了方便使用可以将这些共同属性抽象成一个父类,在定义其他子类时可以继承自该父类,减少代码的重复定义,子类可以使用父类中非私有成员. extents 没有可用的无形参构造方法 被构造方法覆盖了 super 需要调用父类的构造方法 super必须是构造主体的第一条语…

统计文本文件中单词频率的 Swift 与 Bash 实现详解

网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…

qt QUrl详解

1、概述 QUrl是Qt框架中用于处理URL(统一资源定位符)的类,它提供了构建、解析、编码、解码和处理URL的功能。QUrl支持多种协议,如HTTP、HTTPS、FTP以及文件URL等,并能处理URL的各个组成部分,如协议、主机、…

c++----------------------多态

1.多态 1.1多态的概念 多态(polymorphism)的概念:通俗来说,就是多种形态。多态分为编译时多态(静态多态)和运⾏时多 态(动态多态),这⾥我们重点讲运⾏时多态,编译时多态(静态多态)和运⾏时多态(动态多态)。编译时 多态(静态多态)…

javaSE.类与对象

类与对象 人类,鸟类,鱼类... 例如人,具有不同性格,但根本上都是人。 对象是某一类事物实际存在的每个个体(实例)例如:雷军 A:谁拿走了我的手机? B:是个人(类&#xff0…

Windows cmd常用命令

文章目录 Windows cmd常用命令一、引言二、文件和目录操作1、查看和切换目录2、文件和目录的创建与删除 三、系统信息与网络配置1、系统信息2、网络配置 四、使用示例五、总结 Windows cmd常用命令 一、引言 Windows 命令提示符(cmd)是一个强大的工具&a…

保健食品注册数据库<一键查询保健食品信息>

在保健品市场竞争激烈的情况下,企业要如何保障产品合规、信息公开,并且能够迅速应对市场变化呢?查询保健食品注册信息是关键环节。 当下,查询保健食品注册信息主要有两种途径:一是利用国家保健食品注册数据库进行查询…

无所不搜,吾爱制造

吾爱论坛作为众多软件资源爱好者的宝藏之地,汇聚了许多优秀的软件作品,堪称软件界的“福地”。许多技术大佬在这里分享自己的创作。 而今天要介绍的,正是吾爱作者“buyaobushuo”自制的多功能娱乐软件——太极。这款软件基于flet开发&#x…

【C++】详细讲解继承(下)

本篇来继续说说继承。上篇可移步至【C】详细讲解继承(上) 1.继承与友元 友元关系不能继承 ,也就是说基类友元不能访问派⽣类私有和保护成员。 class Student;//前置声明class Same //基类 { public:friend void Fun(const Same& p, con…

【二叉树】4. 判断一颗二叉树是否是平衡二叉树。5. 对称二叉树。6. 二叉树的构建及遍历 7. 二叉树的分层遍历 。

判断一颗二叉树是否是平衡二叉树。OJ链接 可以在求树高度的过程中判断树是否平衡 对称二叉树。OJ链接 二叉树的构建及遍历。OJ链接 注意:public static int i最好把static去掉 否则当有多个测试用例时 i无法重新为0二叉树的分层遍历 。OJ链接 但此题要求返回List…

代码随想录刷题day14(2)|(链表篇)02.07. 链表相交(疑点)

目录 一、链表理论基础 二、链表相交求解思路 三、相关算法题目 四、疑点 一、链表理论基础 代码随想录 二、链表相交求解思路 链表相交时,是结点的位置,也就是指针相同,不是结点的数值相同; 思路:定义两个指针…

IDE提示:因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170

问题情况 不知道为什么我的IDE终端运行命令的时候总提示以下内容: Import-Module : 无法加载文件 D:\Anaconda3\shell\condabin\Conda.psm1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID1351…

Android中Service在新进程中的启动流程3

目录 1、AMS调用客户端onCreate前的准备工作 2、AMS调用客户端onCreate方法 3、AMS调用客户端的onBind方法 4、AMS调用客户端onStart前的准备 5、AMS调用客户端onStart方法 还是先放上Service启动流程概览图,如下: 上一篇文章, 我们分析…