【机器学习】【分子属性预测】——python读取.tar.gz文件(以OC22数据集为例)

1 Pre-knowledge

   .tar.gz 文件是一种常见的压缩文件格式,它实际上是两种压缩格式的组合:.tar 和 .gz。

  • .tar:这是“tape archive”的缩写,是一种打包(archiving)文件格式,用于将多个文件和目录合并成一个单一的文件,以便存储或传输。.tar 文件本身并不压缩数据,它只是将文件和目录打包在一起。
  • .gz:这是“gzip”的缩写,是一种压缩程序,使用LZ77算法对文件进行压缩。.gz 文件是gzip压缩程序压缩过的文件。

   当一个文件被压缩为 .tar.gz 或 .tgz 格式时,意味着该文件首先被打包成一个 .tar 文件,然后这个 .tar 文件被gzip程序进一步压缩。这样做的好处是可以先打包多个文件,再进行压缩,使得文件传输和存储更加高效。

2 OC22 Download

   我们使用到的数据集为OC22中的IS2RS/IS2RE。点击html中的蓝色链接即可下载原始数据。
html link:https://fair-chem.github.io/core/datasets/oc22.html
figure 1

3 Code

import tarfile# 指定解压缩的文件名
in_path = "data/is2res_total_train_val_test_lmdbs.tar.gz"# 打开.tar.gz文件
tar = tarfile.open(in_path, "r:gz")# 列出压缩包中的文件
for member in tar.getmembers():print(member.name)# 提取压缩包中的文件
tar.extractall()# 关闭tar文件
tar.close()

首先使用tarfile.open()函数打开.tar.gz文件,参数”r:gz”指定了以读取、gzip压缩的模式打开文件。然后使用tar.getmembers()函数列出压缩包中的文件,并逐个打印文件名。最后,使用tar.extractall()函数提取压缩包中的所有文件到当前目录,tar.close()函数关闭tar文件。

4 Result

  1. 输出压缩包中的文件名为:
    figure 2

  2. 在使用tar.extractall()函数后将数据解压缩到了文件名称所对应的目录。
    figure 3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/487884.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

游戏引擎学习第35天

开场介绍 今天的任务是继续改进一个虚拟的瓦片地图系统,使其适合处理更大的世界。我们希望这个系统能管理大范围的游戏世界,其中包含按需存储的小区域。昨天,我们介绍了“内存区域”的概念,用于管理持久性存储。我们计划今天继续…

如何在 Ubuntu 22.04 上安装和使用 Apache Kafka

简介 Apache Kafka是一个高性能、低延迟的分布式流处理平台,广泛用于构建实时数据管道和流式应用。本文将指导你如何在Ubuntu 22.04系统上快速部署Apache Kafka,让你体验到Kafka在处理大规模实时数据流方面的强大能力。通过本教程,你将学会如…

图像边缘检测原理和常用检测算子及MATLAB实现

一、边缘和边缘检测的概念 图像边缘是指图像中灰度值发生急剧变化的地方,这些变化通常对应于图像中物体的轮廓、边界或纹理的突变处。在数字图像处理中,边缘是图像的一个重要特征,它包含了关于物体形状、位置和大小等关键信息。 边缘检测是数…

html|本地实现浏览器m3u8播放器,告别网络视频卡顿

前言 网络上经常是以m3u8文件传输视频流的 ,但是有时网络慢往往导致视频播放卡顿。于是我在想能不能先下载然后再播放呢?于是尝试下载然后实现本地播放m3u8视频。 正文 1.找到网络视频流的m3u8连接 一般在浏览器按F12就可以看到有请求视频流的连接。 …

架构15-服务网格

零、文章目录 架构15-服务网格 1、透明通信的涅槃 (1)服务网格 概念 服务网格是一种处理程序间通信的基础设施,主要由数据平面和控制平面组成。它通过边车代理和控制程序管理程序间的通信,弥补了容器编排系统对分布式应用细粒…

算法日记 46 day 图论(并查集)

题目:冗余连接 108. 冗余连接 (kamacoder.com) 题目描述 有一个图,它是一棵树,他是拥有 n 个节点(节点编号1到n)和 n - 1 条边的连通无环无向图(其实就是一个线形图),如图&#xff…

如何在x86模拟器和鸿蒙API9如何使用MQTT模块ohos_mqtt

目录 引言 安装失败的原因 如何编译so文件的x86_64版本 下载源代码 安装NDK 代码编译 安装MQTT软件包 避免MQTT软件包自动升级 设置libs 客户端程序的编写 运行测试 结语 参考文献 引言 在上周的博客(如何在鸿蒙API9和x86模拟器中使用MQTT-CSDN博客&am…

Vant UI Axure移动端元件库:提升移动端原型设计效率

UI框架的选择对于提升开发效率和用户体验至关重要。Vant UI,作为一款基于Vue.js的轻量、可靠的移动端组件库,自2017年开源以来,凭借其丰富的组件库、良好的性能以及广泛的兼容性,在移动端开发领域崭露头角,赢得了众多开…

Spring——SpringBean初始接口

摘要 本文详细介绍了Spring框架中SpringBean的初始化接口和注解,包括BeanPostProcessor接口、InitializingBean接口和PostConstruct注解。文章解释了这些接口和注解的原理、作用、适用场景,并提供了示例代码。最后,对比了不同SpringBean初始…

ECharts柱状图-阶梯瀑布图,附视频讲解与代码下载

引言: 在数据可视化的世界里,ECharts凭借其丰富的图表类型和强大的配置能力,成为了众多开发者的首选。今天,我将带大家一起实现一个柱状图图表,通过该图表我们可以直观地展示和分析数据。此外,我还将提供…

ZZCMS2023存在跨站脚本漏洞(CNVD-2024-44822、CVE-2024-44818)

ZZCMS是一款用于搭建招商网站的CMS系统,由PHP语言开发,可快速搭建:医药招商、保健品招商、化妆品招商、农资招商、孕婴童招商、酒类副食类等招商网站。 国家信息安全漏洞共享平台于2024-11-14公布其存在跨站脚本漏洞。 漏洞编号&#xff1a…

【OpenCV】Canny边缘检测

理论 Canny 边缘检测是一种流行的边缘检测算法。它是由 John F. Canny 在 1986 年提出。 这是一个多阶段算法,我们将介绍算法的每一个步骤。 降噪 由于边缘检测易受图像中的噪声影响,因此第一步是使用 5x5 高斯滤波器去除图像中的噪声。我们在前面的章…

2024-2025关于华为ICT大赛考试平台常见问题

一、考生考试流程 第一步:收到正式考试链接后点击考试链接并登录; 第二步:请仔细阅读诚信考试公约,阅读完成后勾选“我已阅读”,并点击确定; 第三步:上传身份证人像面进行考前校验&#xff0…

QT配置boost库

1. 下载解压 boost官网 boost1.86 2. QT.pro添加路径: CONFIG c17 INCLUDEPATH “D:\boost_1_86_0” QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c17DEFINES QT_DEPRECATED_WARNINGS INCLUDEPATH "D:\boost_1_86_0"…

利用Java爬虫MinC根据ID获取商品详情的完整指南

在当今数字化时代,获取商品详情数据对于市场分析、价格监控和竞争对手分析至关重要。Java作为一种强大且广泛使用的编程语言,非常适合开发复杂的爬虫系统。本文将详细介绍如何利用Java编写爬虫程序来根据商品ID获取商品详情,并提供完整的代码…

智能租赁管理系统助力规范化住房租赁市场提升用户体验

内容概要 在当今的住房租赁市场中,智能租赁管理系统应运而生,为房东和租客带来了前所未有的便利。这套系统就像一位全能助手,将租赁信息、监管机制以及在线签约功能集成在一起,让整个过程变得流畅而高效。换句话说,您…

Java版-图论-最小生成树-Prim算法

实现描述 如图: Prim算法的基本思想是从一个顶点开始,逐步构建最小生成树。具体步骤如下: 随机选取一个顶点作为起始点,并将其加入最小生成树的集合中。从该顶点出发,选择一条边连接到其他未被访问的顶点中的最小权…

科技云报到:数智化转型风高浪急,天翼云如何助力产业踏浪而行?

科技云报到原创。 捷径消亡,破旧立新,是今年千行百业的共同底色。 穿越产业周期,用数字化的力量重塑企业经营与增长的逻辑,再次成为数字化技术应用的主旋律,也是下一阶段产业投资的重点。 随着数字化转型行至“深水区…

数据清洗代码:缺失值,异常值,离群值Matlab处理

目录 基本介绍程序设计参考资料基本介绍 一、过程概述 本过程适用于处理SCADA系统采集到的数据,以及具有类似需求的数据集。处理步骤包括缺失值处理、异常值处理和离群值处理,旨在提升数据质量,增强数据的相关性,同时保持数据的原始特征和随机性。 二、缺失值处理 对于SC…

idea连接SQL Server数据库_idea连接sqlserver数据库

4.设置密码(这一步可以在安装数据库时就可以完成),如果觉得用户名有问题,也可以修改用户名 5.查看SQL Server端口号(默认端口:1433),选择SQL Server2019配置管理器 6.打开SQL Server…