Golang:使用DuckDB查询Parquet文件数据

本文介绍DuckDB查询Parquet文件的典型应用场景,掌握DuckDB会让你的产品分析能力更强,相反系统运营成本相对较低。为了示例完整,我也提供了如何使用Python导出MongoDB数据。

Apache Parquet文件格式在存储和传输大型数据集方面变得非常流行。最近遇到一个典型应用场景,在MongoDB中存储大量结构化数据的成本过高。相反,我们将这些数据以Parquet格式存储在S3中。为了提供偶尔的查询,我们下载S3文件并使用DuckDB加载/查询。

在这里插入图片描述

导出MongoDB数据

将 MongoDB 中的数据导入为 Parquet 格式的步骤及相应的代码示例(使用 Python),主要包括三个步骤:

  1. 从 MongoDB 中读取数据。
  2. 将读取的数据存储为 DataFrame 格式(使用 pandas)。
  3. 使用 pyarrow 将 DataFrame 转换为 Parquet 格式。
import pymongo
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq# 连接 MongoDB
def connect_to_mongodb(host='localhost', port=27017, db_name='your_db_name', collection_name='your_collection_name'):client = pymongo.MongoClient(host, port)db = client[db_name]collection = db[collection_name]return collection# 从 MongoDB 读取数据
def read_from_mongodb(collection):data = list(collection.find())df = pd.DataFrame(data)return df# 将 DataFrame 转换为 Parquet 并保存
def convert_to_parquet(df, output_path='output.parquet'):table = pa.Table.from_pandas(df)pq.write_table(table, output_path)if __name__ == "__main__":# 连接 MongoDBcollection = connect_to_mongodb(db_name='test_db', collection_name='test_collection')# 从 MongoDB 读取数据df = read_from_mongodb(collection)# 将数据存储为 Parquet 格式convert_to_parquet(df, output_path='mongodb_data.parquet')

注意:

  1. 首先,确保已经安装所需的 Python 库:

    pip install pymongo pandas pyarrow
    
  2. 替换代码中的 db_namecollection_name 为你实际的 MongoDB 数据库和集合名称。

  3. 运行代码,将从 MongoDB 中读取数据,并将其存储为 Parquet 格式的文件,文件名为 mongodb_data.parquet

Go 查询parquet文件

Parquet 是一种列式存储格式,专为高效存储和处理大规模数据而设计。它支持多种数据类型,能对数据进行压缩和编码,以减少存储空间并提高读写性能。Parquet 具有良好的可扩展性和兼容性,可与 Hadoop、Spark 等大数据处理框架无缝集成,广泛应用于数据仓库、数据分析等领域,能有效提升数据处理的效率和灵活性。
在这里插入图片描述

下面是用Golang编写的代码。

package mainimport ("database/sql""fmt""log"_ "github.com/marcboeker/go-duckdb"
)func main() {db := OpenDuckDB()rows, err := db.Query("SELECT id, first_name, family_name from read_parquet('employee.parquet');")if err != nil {panic(fmt.Sprintf("failed to run select query against parquet file %v", err))}type Employee struct {Id         string `db:"id"`FirstName  string `db:"first_name"`FamilyName string `db:"family_name"`}var row Employeedefer rows.Close()for rows.Next() {err := rows.Scan(&row.Id, &row.FirstName, &row.FamilyName)if err != nil {log.Fatal(err)}log.Printf("%v", row)}err = rows.Err()if err != nil {log.Fatal(err)}
}func OpenDuckDB() (db *sql.DB) {db, err := sql.Open("duckdb", "")if err != nil {panic(fmt.Sprintf("failed to open parquet file using duckdb %v", err))}_, err = db.Exec("INSTALL parquet;")if err != nil {panic(fmt.Sprintf("failed to INSTALL parquet extension. %v", err))}_, err = db.Exec("LOAD parquet;")if err != nil {panic(fmt.Sprintf("failed to LOAD parquet extension. %v", err))}return
}

虽然Parquet文件主要用于将数据从事务性数据库传输到数据仓库,但它也可以用于直接在Parquet文件之上构建查询和分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5800.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP 配置与应用(局域网)

想做一个自己学习的有关的csdn账号,努力奋斗......会更新我计算机网络实验课程的所有内容,还有其他的学习知识^_^,为自己巩固一下所学知识,下次更新HTTP 配置与应用(不同网段)。 我是一个萌新小白&#xf…

免费!无水印下载!

软件介绍 这个工具可方便啦,不管是小红书上那些时尚的美照,还是特别搞笑的视频,只要你想下载,轻轻一点就能保存。真的是实现了一键下载,完全没有复杂的操作。下载下来的内容会智能分类呢。这样的话,你的资源…

第二届国赛铁三wp

第二届国赛 缺东西去我blog找👇 第二届长城杯/铁三 | DDLS BLOG web Safe_Proxy 源码题目 from flask import Flask, request, render_template_stringimport socketimport threadingimport htmlapp Flask(__name__)app.route(/, methods"GET"])de…

【深度学习】嘿马深度学习笔记第11篇:卷积神经网络,学习目标【附代码文档】

本教程的知识点为:深度学习介绍 1.1 深度学习与机器学习的区别 TensorFlow介绍 2.4 张量 2.4.1 张量(Tensor) 2.4.1.1 张量的类型 TensorFlow介绍 1.2 神经网络基础 1.2.1 Logistic回归 1.2.1.1 Logistic回归 TensorFlow介绍 总结 每日作业 神经网络与tf.keras 1.3 …

STranslate 中文绿色版即时翻译/ OCR 工具 v1.3.1.120

STranslate 是一款功能强大且用户友好的翻译工具,它支持多种语言的即时翻译,提供丰富的翻译功能和便捷的使用体验。STranslate 特别适合需要频繁进行多语言交流的个人用户、商务人士和翻译工作者。 软件功能 1. 即时翻译: 文本翻译&#xff…

缓存之美:万文详解 Caffeine 实现原理(下)

上篇文章:缓存之美:万文详解 Caffeine 实现原理(上) getIfPresent 现在我们对 put 方法有了基本了解,现在我们继续深入 getIfPresent 方法: public class TestReadSourceCode {Testpublic void doRead() …

GPT 结束语设计 以nanogpt为例

GPT 结束语设计 以nanogpt为例 目录 GPT 结束语设计 以nanogpt为例 1、简述 2、分词设计 3、结束语断点 1、简述 在手搓gpt的时候,可能会遇到一些性能问题,即关于是否需要全部输出或者怎么节约资源。 在输出语句被max_new_tokens 限制&#xff0c…

HackTheBox靶机:Sightless;NodeJS模板注入漏洞,盲XSS跨站脚本攻击漏洞实战

HackTheBox靶机:Sightless 渗透过程1. 信息收集常规探测深入分析 2. 漏洞利用(CVE-2022-0944)3. 从Docker中提权4. 信息收集(michael用户)5. 漏洞利用 Froxlor6. 解密Keepass文件 漏洞分析SQLPad CVE-2022-0944 靶机介…

XML外部实体注入--XML基础

一.XML基础 1.XML 基础概念 定义:XML 即可扩展标记语言(Extensible Markup Language),用于标记电子文件,使其具有结构性。它是一种允许用户对自己的标记语言进行定义的源语言,可用来标记数据、定义数据类型…

YOLOv8改进,YOLOv8检测头融合DSConv(动态蛇形卷积),并添加小目标检测层(四头检测),适合目标检测、分割等

精确分割拓扑管状结构例如血管和道路,对各个领域至关重要,可确保下游任务的准确性和效率。然而,许多因素使任务变得复杂,包括细小脆弱的局部结构和复杂多变的全局形态。在这项工作中,注意到管状结构的特殊特征,并利用这一知识来引导 DSCNet 在三个阶段同时增强感知:特征…

Flutter:自定义Tab切换,订单列表页tab,tab吸顶

1、自定义tab切换 view <Widget>[// 好评<Widget>[TDImage(assetUrl: assets/img/order4.png,width: 36.w,height: 36.w,),SizedBox(width: 10.w,),TextWidget.body(好评,size: 24.sp,color: controller.tabIndex 0 ? AppTheme.colorfff : AppTheme.color999,),]…

深度学习笔记——循环神经网络RNN

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。 文章目录 文本特征提取的方法1. 基础方法1.1 词袋模型&#xff08;Bag of Words, BOW&#xff09;工作原…

nvm版本安装

安装 使用切换 MySQL5.7新安装 熟人命令 8.0 mysql -P3306 -uroot -p5.7 mysql -P3307 -uroot -p 记得用完关闭

人工智能之深度学习_[4]-神经网络入门

文章目录 神经网络基础1 神经网络1.1 神经网络概念1.1.1 什么是神经网络1.1.2 如何构建神经网络1.1.3 神经网络内部状态值和激活值 1.2 激活函数1.2.1 网络非线性因素理解1.2.2 常见激活函数1.2.2.1 Sigmoid 激活函数1.2.2.2 Tanh 激活函数1.2.2.3 ReLU 激活函数1.2.2.4 SoftMa…

一文大白话讲清楚webpack基本使用——11——chunkIds和runtimeChunk

文章目录 一文大白话讲清楚webpack基本使用——11——chunkIds和runtimeChunk1. 建议按文章顺序从头看&#xff0c;一看到底&#xff0c;豁然开朗2. 啥是chunkIds3.怎么使用chunkIds4. 啥是runtimeChunk5. 怎么使用runtimeChunk 一文大白话讲清楚webpack基本使用——11——chun…

第11篇:vue3 中 props 的使用

第一步&#xff1a;App.vue 中发送数据&#xff1a; <template> <Person :list"persons"/> //注意多个的话 中间是没有 , // <Person a "哈哈中" :list persons /> </template> let persons reactive([ {id:e98219e12,n…

【Tool】沉浸式翻译 DeepLX

效果对比 对比一下四个常用的翻译工具的效果 不难看出只有Deepl算是在讲人话 如何配置 DeepLX 安装沉浸式翻译插件 获取APIKEY 从这获取: https://linux.do/t/topic/111737 配置 参考官方教程: https://linux.do/t/topic/111911

SSM开发(二) MyBatis简介

目录 一、MyBatis是什么 二、mybatis的优点 三、mybatis的缺点 四、mybatis与JDBC、jdbctemplate对比 1、JDBC 2、 MyBatis 3、 JdbcTemplate 五、mybatis工作原理 一、MyBatis是什么 mybatis是一个简化和实现了java数据持久层的开源框架&#xff0c;它抽象了大量的JDB…

LabVIEW 水电站厂内经济运行系统

基于 LabVIEW 的水电站经济运行系统&#xff0c;主要针对农村小水电站运行管理的不足进行改进&#xff0c;通过精确控制发电与用水量&#xff0c;最小化耗水量并优化负荷分配&#xff0c;提升水电站的运营效率和经济效益。 ​ LabVIEW 在系统中的功能特点 强大的图形化编程环…

重学SpringBoot3-WebClient配置与使用详解

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞??收藏评论 重学SpringBoot3-WebClient配置与使用详解 1. 简介2. 环境准备 2.1 依赖配置 3. WebClient配置 3.1 基础配置3.2 高级配置3.3 retrieve()和exchange()区别 4. 使用示例 4.1 基本请求操…