【文档智能】包含段落的开源的中文版面分析模型

github:https://github.com/360AILAB-NLP/360LayoutAnalysis

权重下载地址:https://huggingface.co/qihoo360/360LayoutAnalysis

一、背景

在当今数字化时代,文档版式分析是信息提取和文档理解的关键步骤之一。文档版式分析,也称为文档图像分析或文档布局分析,是指从扫描的文档图像中识别和提取文本、图像、表格和其他元素的过程。这项技术在自动化文档处理、电子数据交换、历史文档数字化等领域有着广泛的应用。

传统的文档版式分析模型往往难以准确区分文档中的段落和其他布局元素,这限制了文档信息的进一步处理和利用,而深度学习和模式识别技术的发展为文档版式分析带来了新的机遇,通过训练数据集,可以提高模型对文档结构的理解能力,但高质量的标注数据集是训练有效模型的基础。

在文档版式分析中,精细化的标注非常有必要,其中:段落的标注尤其关键,因为它直接影响到文本的语义理解和信息提取。当前,在版式分析领域,据我们了解,在论文场景中,以往的开源数据集如:CDLA(A Chinese document layout analysis),缺乏对段落信息的标注;在研报场景中的版式分析模型还相对空缺。

因此,为了解决这一问题,我们通过人工标注的方式对论文文档进行细粒度标签改造以及数据优化,并构建起研报场景细粒度版式分析数据集,最好利用这些标注数据集,训练了多个全新的中文文档版式分析模型,在封闭测试集上表现优异

本次开源,我们优先开源了面向论文研报两个场景的版面分析轻量化模型权重及相应的标签体系,旨在能够识别文档中的段落边界等信息,并准确区分文本、图像、表格、公式等其他元素,最终推动产业发展。

二、使用

  • 权重下载地址:🤗LINK

  • 使用方式:

    开源权重使用yolov8进行训练,预测方式如下:

    from ultralytics import YOLOimage_path = ''  # 待预测图片路径
    model_path = ''  # 权重路径
    model = YOLO(model_path)result = model(image_path, save=True, conf=0.5, save_crop=False, line_width=2)
    print(result)print(result[0].names)         # 输出id2label map
    print(result[0].boxes)         # 输出所有的检测到的bounding box
    print(result[0].boxes.xyxy)    # 输出所有的检测到的bounding box的左上和右下坐标
    print(result[0].boxes.cls)     # 输出所有的检测到的bounding box类别对应的id
    print(result[0].boxes.conf)    # 输出所有的检测到的bounding box的置信度
    

三、版面分析

3.1 论文场景

  • 标签类别

    元素名称
    Text正文(段落)
    Title标题
    Figure图片
    Figure caption图片标题
    Table表格
    Table caption表格标题
    Header页眉
    Footer页脚
    Reference注释
    Equation公式
  • 示例

3.2 研报场景

  • 标签类别

    元素名称
    Text正文(段落)
    Title标题
    Figure图片
    Figure caption图片标题
    Table表格
    Table caption表格标题
    Header页眉
    Footer页脚
    Toc目录
  • 示例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/348110.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS--oc对象,类,和元类本质

iOS--oc对象,类,和元类本质 前言实例对象的具体结构自定义类对象的结构继承关系 类信息的存放对isa、superclass总结 前言 最近在学习runtime的过程中,发现其中消息发送-动态方法解析-消息转发中涉及到了大量的类与对象的底层知识&#xff0…

Comfyui容器化部署与简介

目前使用 Stable Diffusion 进行创作的工具主要有两个:Stable Diffusion WebUI 和 ComfyUI。本文重点介绍ComfyUI的部署使用。 ComfyUI 可定制性很强,可以让创作者搞出各种新奇的玩意,通过工作流的方式,也可以实现更高的自动化水平…

录屏快捷键在哪?3个快捷键,教会你快速录屏

在数字化时代,录屏功能已经变得日益重要,无论是工作汇报、教学演示还是游戏分享,我们都需要借助录屏工具来捕捉屏幕上的精彩瞬间。而录屏快捷键,作为一种高效的录屏操作方式,能够极大地提升我们的录屏效率。那么&#…

echarts地图添加外边框(散乱地图块添加区域边界线)

需求: 蓝色边是街道地图,也是实际有用的地图,可以点击拖动之类,由于太散乱,现在增加一个灰色边表示外面区县(不可点击),让他看起来是一个整体 下面这个图是我最后做出来的案例 难…

JavaWeb6 Tomcat+postman请求、响应

Web服务器 对HTTP协议操作进行封装,简化web程序开发 部署web项目,对外提供网上信息浏览服务 Tomcat 轻量级web服务器,支持servlet,jsp等少量javaEE规范 也被称为web容器,servlet容器 Springboot有内置Tomcat nginx…

阅文集团CEO侯晓楠:建立10亿生态扶持基金,为好内容搭建舞台

6月12日,由安徽省文化和旅游厅、安徽省文学艺术界联合会、黄山市人民政府指导,阅文集团、黄山旅游发展股份有限公司主办的2024阅文创作大会在黄山召开。 据「TMT星球」了解,大会总结了过去一年阅文在“AIIP”业务升级思路下创作生态和IP领域…

Linux部署项目

手动部署 1.在IDEA写一个有关springboot项目 在windows客户端可以通过localhost:8080/hello 访问 2.用packge 命令将该springboot项目打包 并在target目录下找到打包的jar包 3.上传到linux上 个人习惯在usr/local/app 下上传该项目 创建切换到app目录下 mkdir /usr/local/ap…

AOSP12隐藏首页搜索框----隐藏google 搜索栏

目录 第一步:修改文件 第二步:修改文件 第三步:重新编译源码,启动模拟器 第四步、运行效果 第一步:修改文件 源码文件路径: packages/apps/Launcher3/res/layout/search_container_workspace.xml,将…

跟着AI学AI_09 PyTorch 简介

PyTorch 简介 PyTorch 是一个开源的深度学习框架,由 Facebook 的人工智能研究团队(FAIR)开发。它提供了灵活且高效的张量计算功能,并支持动态计算图。PyTorch 的易用性和灵活性使其成为深度学习研究和生产应用中广泛使用的工具。…

C++开源软件:跨平台本地密码管理器KeePassXC/KeePassDX

KeePassXC、KeePass和KeePassDX在功能、平台和特点上有所区别,以下是对这三款密码管理器的清晰区分: KeePassXC: 平台:跨平台,支持Windows、macOS和Linux等主流操作系统。 安全性:使用AES加密算法&#x…

LeetCode | 66.加一

这道题有多个思路,可以依次取数组的每一位,乘10后加下一位,直到最后一位,就得到我们数组所表示的数字,然后加一,然后把新得到的数字再转化为对应的数组,我的做法是直接取数组的最后一位&#xf…

[CUDA 学习笔记] 稀疏矩阵向量乘法(SpMV) CUDA 实现与优化

稀疏矩阵向量乘法(SpMV) CUDA 实现与优化 本文主要围绕基于 CUDA 的 SpMV 实现进行介绍, 包括几种典型稀疏矩阵存储格式下 SpMV 的朴素实现, 以及 CSR 格式下的几种优化实现. 稀疏矩阵存储格式 稀疏矩阵即含有大量零元的矩阵. 对于稀疏矩阵, 像稠密矩阵一样使用二维数组来存…

组织创新|AI赋能敏捷实践,助力企业敏捷转型

在工业5.0时代,随着项目变得越来越复杂,对效率的需求也在增长,致力于敏捷转型的组织正在寻求创新的解决方案来应对常见的挑战:工作量不平衡、低效的任务分配和知识孤岛等等。对此,AI等尖端技术的潜力可以帮助实现更高效…

译译交友项目介绍

一、 项目背景 随着社会的进步,英语作为一种国际语言,很多人都在学习英语,然而现在很多人都会因为学习英语而烦恼,有时还会因为是一个人学习而感到枯燥。面对情绪的低落,往往会使学习更困难。因此,我打造了…

电视剧推荐

1、《春色寄情人》 2、《唐朝诡事录》 3、《南来北往》 4、《与凤行》 5、《利剑玫瑰》 6、《承欢记》

uniapp使用vue3语法构建自定义导航栏,适配小程序胶囊

具体代码 <view v-if"isCustom" class"nav-content-container" :style"height:navContentHeight px;"><slot name"left"></slot><slot name"middle"> </slot><view :style"width:…

网工内推 | 深信服、中软国际技术支持工程师,最高13k*13薪

01 深信服 &#x1f537;招聘岗位&#xff1a;远程技术支持工程师 &#x1f537;任职要求&#xff1a; 一、专业能力和行业经验&#xff1a; ①具备友商同岗位工作经验1.5年以上&#xff0c;具备良好的分析和判断能力&#xff0c;有独立问题处理思路&#xff0c;具备常见协…

SpringAI调用OpenAI Demo

Spring AI 在maven的setting.xml <mirror> <id>spring-milestones</id> <name>Spring Milestones</name> <mirrorOf>spring-milestones</mirrorOf> <url>https://repo.sprin…

C++ 12 之 指针引用

c12指针引用.cpp #include <iostream>using namespace std;struct students12 {int age; };int main() {students12 stu;students12* p &stu; // 结构体指针students12* &pp p; // 结构体指针起别名pp->age 20;// (*pp).age 22;cout << "…

sqli-labs 靶场 less-7 第七关详解:OUTFILE注入与配置

SQLi-Labs是一个用于学习和练习SQL注入漏洞的开源应用程序。通过它&#xff0c;我们可以学习如何识别和利用不同类型的SQL注入漏洞&#xff0c;并了解如何修复和防范这些漏洞。Less 7 SQLI DUMB SERIES-7判断注入点 进入页面中&#xff0c;并输入数据查看结果。 发现空数据提…