动手学深度学习73 课程总结和进阶学习

1. 课程总结和进阶学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https://c.d2l.ai/stanford-cs329p/
在这里插入图片描述

https://paperswithcode.com
https://www.bilibili.com/video/BV1nA41157y4/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8

怎么建立知识库
在这里插入图片描述
在这里插入图片描述

2. QA

在这里插入图片描述
20 算法提取的特征和人的不一样,互补
21 很难预测未来
22 可以不同步进行
23 打印device
24 都一样
25 不要有娱乐时间
26 不评价
在这里插入图片描述
27 不一定
28 tabula data
在这里插入图片描述

tabula data from GPT-4o

Tabula 是一个用于从 PDF 文件中提取表格数据的开源工具。其主要功能是将 PDF 中的表格数据提取成结构化格式(如 CSV、Excel、JSON 或 Pandas DataFrames),以便进行后续分析和处理。Tabula data 指的就是由 Tabula 工具从 PDF 文件中提取出来的数据,通常是以结构化的形式呈现的表格数据。


Tabula 的核心功能

Tabula 的设计理念是将 PDF 中的表格数据转化为可以直接读取和分析的数据格式。PDF 文件通常为固定的布局,不易直接解析,而 Tabula 通过检测表格的行列分隔,准确提取表格的内容。Tabula 的核心功能包括:

  1. 表格检测:Tabula 可以自动检测 PDF 中的表格结构,分离行列信息。
  2. 数据提取:通过列、行分隔,将表格内容解析成结构化数据。
  3. 导出格式:支持将数据保存为 CSV、Excel 等文件格式。
  4. 区域选择:可以手动选择 PDF 的某一区域,以便精确提取特定部分的数据。

Tabula 的技术原理

Tabula 使用光学字符识别(OCR)和 PDF 布局解析技术,以准确提取 PDF 中的表格内容。其原理包括:

  1. 文本区域检测:分析 PDF 文件中文本区域的位置,识别出可能包含表格的区域。
  2. 行列分隔分析:根据 PDF 中的分隔线或空白区域,将文本块划分成行和列。
  3. 字符识别与拼接:对 PDF 的字符内容进行识别,将各行各列中的内容拼接成完整的数据行。
  4. 导出数据:将解析出的表格数据以结构化格式输出。

Tabula 的优缺点

优点

  • 自动化程度高:自动检测表格行列,大部分情况下不需要手动调整。
  • 开源免费:作为开源工具,用户可以自由使用和二次开发。
  • 导出格式多样:支持 CSV、Excel、JSON 等多种格式的导出。

缺点

  • 复杂表格解析有限:Tabula 对于一些包含合并单元格或非标准格式的复杂表格解析较为困难。
  • 对图像内容有限:Tabula 主要基于文本识别,若 PDF 表格为扫描件图像,可能无法准确提取。
  • 手动调整需求:在一些格式不规整的表格中,可能需要手动选择表格区域。

Tabula 的典型应用场景

  1. 财务报表分析:快速提取财务报表中的表格内容,方便数据分析。
  2. 统计报告数据提取:将统计年报或政府报告中的数据提取成表格,便于处理。
  3. 自动化数据采集:将定期生成的 PDF 数据文件(如报告、清单)自动解析成 CSV,用于数据系统。
  4. 数据挖掘与整理:将大量 PDF 文件中的表格数据批量整理成结构化数据。

使用 Tabula 的方法

  1. 安装

    • Tabula 提供了桌面版和 Python 库。桌面版可以在 Tabula 网站下载;Python 库则可通过 pip install tabula-py 安装。
  2. 使用步骤

    • 桌面版:将 PDF 文件导入 Tabula,选择表格区域后导出所需格式。
    • Python 代码:导入 tabula-py 库,使用 read_pdf() 函数提取表格数据并转化为 Pandas DataFrame。
  3. 示例代码

    import tabula# 从 PDF 文件中提取数据
    df = tabula.read_pdf("file.pdf", pages="all", lattice=True)# 输出为 CSV 文件
    tabula.convert_into("file.pdf", "output.csv", output_format="csv", pages="all")
    

    其中,lattice=True 参数用于处理带有网格线的表格,提高提取准确性。


总结

Tabula data 即是通过 Tabula 工具从 PDF 中提取出来的结构化表格数据。Tabula 通过自动检测 PDF 中的表格结构,将内容转化为可直接分析的格式,适合在财务、统计等需要从 PDF 文件中提取数据的场景下使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473088.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WebRTC视频 04 - 视频采集类 VideoCaptureDS 中篇

WebRTC视频 01 - 视频采集整体架构 WebRTC视频 02 - 视频采集类 VideoCaptureModule WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇 WebRTC视频 04 - 视频采集类 VideoCaptureDS 中篇(本文) WebRTC视频 05 - 视频采集类 VideoCaptureDS 下篇 一、前言…

【弱监督视频异常检测】2024-ESWA-基于扩散的弱监督视频异常检测常态预训练

2024-ESWA-Diffusion-based normality pre-training for weakly supervised video anomaly detection 基于扩散的弱监督视频异常检测常态预训练摘要1. 引言2. 相关工作3. 方法论3.1. 使用扩散自动编码器进行常态学习3.2. 全局-局部特征编码器3.2.1 局部块3.2.2 全局块3.2.3 协同…

ONLYOFFICE8.2版本测评,团队协作的办公软件

文章目录 引言ONLYOFFICE产品简介功能与特点1. 实时协作2. 兼容性3. 模板库4. 评论和修订5. 安全性 体验与测评功能测试 邀请用户使用项目介绍结尾了解更多 引言 在数字化办公的浪潮中,效率和协作成为了工作的核心。ONLYOFFICE作为一个强大的办公套件,正…

Day18 Nim游戏

你和你的朋友,两个人一起玩 Nim 游戏: 桌子上有一堆石头。 你们轮流进行自己的回合, 你作为先手 。 每一回合,轮到的人拿掉 1 - 3 块石头。 拿掉最后一块石头的人就是获胜者。 假设你们每一步都是最优解。请编写一个函数&#xff…

【论文复现】STM32设计的物联网智能鱼缸

📝个人主页🌹:Eternity._ 🌹🌹期待您的关注 🌹🌹 ❀STM32设计的物联网智能鱼缸 【1】项目功能介绍【2】设计需求总结【3】项目硬件模块组成 1.2 设计思路【1】整体设计思路【2】ESP8266工作模式…

3D意识(3D Awareness)浅析

一、简介 3D意识(3D Awareness)主要是指视觉基础模型(visual foundation models)对于3D结构的意识或感知能力,即这些模型在处理2D图像时是否能够理解和表示出图像中物体或场景的3D结构,其具体体现在编码场景…

day-83 最少翻转次数使二进制矩阵回文 II

思路 关键在于1的个数要为4的倍数,首先镜像的四个位置肯定一定为4的倍数,如果行和列为奇数则需要单独考虑,如果行和列皆为奇数,那么中心的那个数一定为0 解题过程 再单独考虑如果行和列为奇数,具体参考灵神。如果diff…

算法沉淀一:双指针

目录 前言: 双指针介绍 对撞指针 快慢指针 题目练习 1.移动零 2.复写零 3.快乐数 4.盛水最多的容器 5.有效三角形的个数 6.和为s的两个数 7.三数之和 8.四数之和 前言: 此章节介绍一些算法,主要从leetcode上的题来讲解&#xff…

《InsCode AI IDE:编程新时代的引领者》

《InsCode AI IDE:编程新时代的引领者》 一、InsCode AI IDE 的诞生与亮相二、独特功能与优势(一)智能编程体验(二)多语言支持与功能迭代 三、实际应用与案例(一)游戏开发案例(二&am…

GitLab 如何降级?

本分分享 GitLab 降级的流程和注意事项。极狐GitLab 为 GitLab 的中文发行版,本文以私有化部署的极狐GitLab 为例来演示整个过程。 【极狐GitLab 推出 GitLab 老旧版本的专业升级服务【https://dl.gitlab.cn/cm33bsfv】,可以让 12.x、13.x、14.x、15.x …

【动手学电机驱动】 STM32-FOC(7)MCSDK Pilot 上位机控制与调试

STM32-FOC(1)STM32 电机控制的软件开发环境 STM32-FOC(2)STM32 导入和创建项目 STM32-FOC(3)STM32 三路互补 PWM 输出 STM32-FOC(4)IHM03 电机控制套件介绍 STM32-FOC(5&…

IDEA2024:右下角显示内存

使用场景: 实时知晓idea内存使用情况 解决方案: 开启内存显示 View -> Apperance -> Status Bar Widgets -> Memory Indicator 效果如下:

2024140读书笔记|《作家榜名著:生如夏花·泰戈尔经典诗选》——你从世界的生命的溪流浮泛而下,终于停泊在我的心头

2024140读书笔记|《作家榜名著:生如夏花泰戈尔经典诗选》——你从世界的生命的溪流浮泛而下,终于停泊在我的心头 《作家榜名著:生如夏花泰戈尔经典诗选》[印]泰戈尔,郑振铎译,泰戈尔的诗有的清丽,有的童真&…

c# 调用c++ 的dll 出现找不到函数入口点

今天在调用一个设备的dll文件时遇到了一点波折,因为多c 不熟悉,调用过程张出现了找不到函数入口点,一般我们使用c# 调用c 文件,还是比较简单。 [DllImport("AtnDll2.dll",CharSet CharSet.Ansi)]public static extern …

Python_爬虫3_Requests库网络爬虫实战(5个实例)

目录 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度360搜索关键词提交 实例4:网络图片的爬取和存储 实例5:IP地址归地的自动查询 实例1:京东商品页面的爬取 import requests url …

WebSocket协议在Java中的整合

1. 常见的消息推送方式 2.WebSocket API 3.基于WebSocket的实战(实时聊天室) 这里以解析后端代码为主,前端不作为重点,若想复现项目,请从作者的仓库中拉取代码 WebSocket-chatRoom: 基于WebSocket协议实现一个简单的…

蓝桥杯每日真题 - 第15天

题目:(钟表) 题目描述(13届 C&C B组B题) 解题思路: 理解钟表指针的运动: 秒针每分钟转一圈,即每秒转6度。 分针每小时转一圈,即每分钟转6度。 时针每12小时转一圈…

在 Node.js 中解决极验验证码:使用 Puppeteer 自动化

近年来,极验验证码在区分真实用户和自动化系统方面越来越先进,使其成为网页抓取和自动化的重大障碍。如果您正在使用 Node.js 并致力于在自动化流程中解决极验验证码,那么使用 Puppeteer 是一种有效的方法。Puppeteer 提供了一个高级 API 来控…

centos7 升级openssl 与升级openssh 安装卸载 telnet-server

前言: 服务器被安全扫描,扫出了漏洞需要修复,根据提示将openssh升级为9.8p1的版本,同时需要升级openssl,但是升级openssh可能会导致ssh连接失败,从而无法继续操作,特别是远程机房尤为危险&#…

PETR/PETRv2/StreamPETR论文阅读

1. PETR PETR网络结构如下,主要包括image-backbone,3D Coordinates Generator,3D Position Encoder,transformer Decoder四个模块。 把N 个视角的图像输入到骨干网络中以提取 2D 多视图特征。在 3D 坐标生成器中,首先…