DuckDB:PRAGMA语句动态配置数据库行为

PRAGMA语句是DuckDB从SQLite中采用的SQL扩展。PRAGMA命令可能会改变数据库引擎的内部状态,并可能影响引擎的后续执行或行为。本文介绍PRAGMA命令及其典型应用场景。

DuckDB PRAGMA介绍

在 DuckDB 中,PRAGMA 是一种编译指示(compiler directive),它是一种特殊的指令,用于配置数据库的各种内部设置、行为和特性。这些指令可以影响数据库的性能、资源使用、输出显示等诸多方面,就像是为数据库引擎提供了一系列的控制开关和微调旋钮。

在这里插入图片描述

PRAGMA特点

  • 语法简单

    PRAGMA 的语法相对简洁明了。通常使用PRAGMA关键字加上具体的指令名称和相应的参数(如果需要)来使用。例如,PRAGMA memory_limit='1GB';用于设置内存限制,这种语法形式易于理解和使用,即使对于新手用户也能比较快速地掌握如何配置一些基本的数据库设置。

  • 动态配置性

    许多 PRAGMA 可以在数据库会话过程中动态设置和调整。这意味着用户可以根据具体的查询任务、数据规模和系统资源状况实时改变数据库的行为。与一些数据库中需要修改配置文件并重新启动数据库才能生效的设置相比,DuckDB 的 PRAGMA 提供了更高的灵活性。例如,在处理一个特别复杂且内存密集型的查询时,可以先增加内存限制,然后在查询完成后再将其恢复。

  • 针对性强

    PRAGMA 主要是针对 DuckDB 自身的运行特性进行配置。它聚焦于数据库引擎内部的关键要素,如内存管理、查询执行机制、输出控制等,不像一些数据库的配置选项可能涉及到更广泛的领域(如数据库的网络连接、安全认证等方面)。这使得用户可以更精准地对 DuckDB 的性能和行为进行优化和控制。

PRAGMA作用

  1. 资源管理作用

    • 内存管理

      通过PRAGMA memory_limit来控制数据库可使用的内存量。这对于防止内存过度占用至关重要,特别是在处理大型数据集或者复杂查询时。例如,在一个资源有限的服务器上运行 DuckDB,如果不限制内存使用,可能会导致系统内存耗尽,而通过合理设置PRAGMA memory_limit,可以确保数据库在给定的内存范围内高效运行。

    • 线程控制

      PRAGMA threads指令允许用户设置数据库在执行查询时所使用的线程数量。在多核处理器环境下,合理配置线程数可以充分利用 CPU 资源,加速查询的执行。例如,对于一个可以并行处理的数据分析任务,增加线程数可以使 DuckDB 同时处理多个数据子集,从而缩短整体的查询时间。

  2. 性能优化作用

    • 查询性能分析

      PRAGMA enable_profiling用于开启查询性能分析功能。当开启这个功能后,DuckDB 会收集查询执行过程中的详细性能数据,例如各个操作的执行时间、数据读取和写入的量等。这些数据存储在特定的表(如duckdb_profiles)中,通过查询这个表,用户可以深入了解查询的性能瓶颈,进而对查询进行优化。例如,如果发现某个连接操作(JOIN)在查询执行过程中占用了大量时间,就可以考虑优化表结构或者连接条件。

    • 优化执行策略(部分情况)

      虽然目前公开的直接用于控制查询执行策略的 PRAGMA 相对有限,但在未来或者通过一些间接方式,PRAGMA 可能会用于引导查询执行计划的生成。例如,影响优化器对于索引的使用策略、子查询的展开方式等,从而使查询能够以更高效的方式执行。

  3. 用户体验和输出控制作用

    • 进度条显示控制

      PRAGMA disable_progress_bar可以用于控制在执行长时间查询时是否显示进度条。在自动化脚本或者不需要可视化进度反馈的场景下,禁用进度条可以减少不必要的输出,使脚本的输出更加简洁。而在需要用户观察查询进度的情况下,又可以方便地重新启用进度条。

    • 潜在的输出格式控制

      虽然目前 DuckDB 在这方面的功能有限,但从发展的角度看,PRAGMA 可用于控制查询结果的输出格式。例如,有可能通过特定的 PRAGMA 来决定输出结果是按照传统的表格形式、JSON 格式还是其他自定义的格式,以满足不同用户场景和与其他系统交互需求。

PRAGMA 示例

设置内存限制

假设你正在处理一个可能占用大量内存的数据加载任务,并且你的系统内存有限。你可以使用PRAGMA memory_limit来限制 DuckDB 使用的内存量。例如,要将内存限制设置为 2GB(2 * 1024 * 1024 * 1024 字节),可以在 DuckDB 客户端或脚本中执行以下命令:

# 设置内存限制
PRAGMA memory_limit='2147483648';# 查询内存限制
PRAGMA memory_limit;

没有 PRAGMA 语句时,数据库的许多配置参数可能是固定的,或者需要修改配置文件并重新启动数据库才能生效。例如在一些传统数据库中,要调整内存使用参数,可能需要编辑配置文件(如 PostgreSQL 的postgresql.conf文件),然后重启数据库服务。而 DuckDB 的 PRAGMA 语句可以在数据库运行过程中动态地改变数据库的行为。例如,通过PRAGMA memory_limit,可以根据当前的查询任务即时调整内存限制。如果正在执行一个小型查询,可将内存限制设置得较低;当遇到大型数据处理任务时,再动态增加内存限制,这为用户提供了很大的灵活性。

设置线程数量

当你在一个多核处理器的系统上运行 DuckDB,并且希望利用多核优势来加速查询执行时,可以使用PRAGMA threads来设置线程数。例如,若你的系统有 4 个核心,并且你想让 DuckDB 使用 4 个线程来执行查询,可以执行以下命令:

# 设置线程限制
PRAGMA threads=4;# 查看线程限制
PRAGMA threads;

开启性能分析

当你遇到一个执行速度较慢的查询,并且想要找出性能瓶颈时,可以开启查询性能分析。使用以下命令开启性能分析功能:

PRAGMA enable_profiling = true;

开启后,DuckDB 会在执行查询时收集性能数据。等你执行查询后,可以通过查询duckdb_profiles表来查看性能分析数据,如:

SELECT * FROM duckdb_profiles;

这个表中会包含诸如查询计划执行时间、各个操作符(如扫描操作、连接操作)的时间消耗等详细信息。通过分析这些数据,你可以确定哪个部分的查询执行花费了最多的时间,例如,如果发现连接操作花费的时间最长,你可以考虑优化表结构或者连接条件来提高性能。

查询元数据

  • 列出Schema信息:
# 列出所有数据库
PRAGMA database_list;
# 列出所有数据表
PRAGMA show_tables;# 列出所有表,类似describe 
PRAGMA show_tables_expanded;
  • 表信息
# 返回所有表的字段信息
PRAGMA table_info('table_name');
CALL pragma_table_info('table_name');

示例输出如下:

cid INTEGER,        -- cid of the column
name VARCHAR,       -- name of the column
type VARCHAR,       -- type of the column
notnull BOOLEAN,    -- if the column is marked as NOT NULL
dflt_value VARCHAR, -- default value of the column, or NULL if not specified
pk BOOLEAN          -- part of the primary key or not
  • 数据库大小
# 获取每个数据库的文件和内存大小:
SET database_size;
CALL pragma_database_size();

返回信息示例如下:

database_name VARCHAR, -- database name
database_size VARCHAR, -- total block count times the block size
block_size BIGINT,     -- database block size
total_blocks BIGINT,   -- total blocks in the database
used_blocks BIGINT,    -- used blocks in the database
free_blocks BIGINT,    -- free blocks in the database
wal_size VARCHAR,      -- write ahead log size
memory_usage VARCHAR,  -- memory used by the database buffer manager
memory_limit VARCHAR   -- maximum memory allowed for the database
  • 存储信息
# 获取表存储信息
PRAGMA storage_info('table_name');
CALL pragma_storage_info('table_name');

返回下面表格信息:

NameTypeDescription
row_group_idBIGINT
column_nameVARCHAR
column_idBIGINT
column_pathVARCHAR
segment_idBIGINT
segment_typeVARCHAR
startBIGINTThe start row id of this chunk
countBIGINTThe amount of entries in this storage chunk
compressionVARCHARCompression type used for this column – see the “Lightweight Compression in DuckDB” blog post
statsVARCHAR
has_updatesBOOLEAN
persistentBOOLEANfalse if temporary table
block_idBIGINTempty unless persistent
block_offsetBIGINTempty unless persistent

总结

本文介绍DuckDB的PRAGMA特点和作用,并通过示例展示了如何资源管理、查询元数据等。有关DuckDB的更多内置配置选项,请参阅配置参考。DuckDB扩展可以注册额外的配置选项。这些都在各自的扩展文档页面中进行了记录。该页包含支持的PRAGMA设置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/504139.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【QT-QTableView实现鼠标悬浮(hover)行高亮显示+并设置表格样式】

1、自定义委托类 HoverDelegate hoverdelegate.h #ifndef HOVERDELEGATE_H #define HOVERDELEGATE_H#include <QObject> #include <QStyledItemDelegate>class hoverdelegate : public QStyledItemDelegate {Q_OBJECT // 添加 Q_OBJECT 宏public:explicit hoverde…

Improving Language Understanding by Generative Pre-Training GPT-1详细讲解

Improving Language Understanding by Generative Pre-Training 2018.06 GPT-1 0.有监督、半监督、无监督 CV&#xff1a;ImageNet pre-trained model NLP&#xff1a;pre-trained model? 在计算机视觉中任务包含分类、检测、分割&#xff0c;任务类别数少&#xff0c;对应…

大数据技术 指令笔记1

3.cd命令 cd命令用来切换工作目录至DirName。其中DirName表示法可为绝对路径或相对路径 例如&#xff1a; cd/ 切换到根目录 cd 切换到家目录 cd /etc/sysconfig/ 切换到/etc/sysconfig目录 cd .. 返回到父目录 4.Is命令 Is命令用来列出文件或…

创建Java项目,并添加MyBatis包和驱动包

一 : Mybatis和jsp使用上,只有Dao层有区别 Mybatis 使用方法: 测试类的7步骤 1.读取核心配置文件 2.构建sql会话工厂 3.开启sql会话 4.获取mapper接口 5.调用相对应的增删改查方法 6.打印 7.关闭回话 /*** 用户列表* throws IOException*/Testpublic void roleList() throws IO…

【实用技能】如何使用 .NET C# 中的 Azure Key Vault 中的 PFX 证书对 PDF 文档进行签名

TX Text Control 是一款功能类似于 MS Word 的文字处理控件&#xff0c;包括文档创建、编辑、打印、邮件合并、格式转换、拆分合并、导入导出、批量生成等功能。广泛应用于企业文档管理&#xff0c;网站内容发布&#xff0c;电子病历中病案模板创建、病历书写、修改历史、连续打…

结构化日志和集中日志服务

目录 结构化日志 Serilog使用 集中化日志 集中日志服务 Exceptionless 控制台项目 总结 结构化日志 结构化日志比普通文本更利于日志的分析&#xff0c;比如统计“邮件发送失败”错误发生了多少次。 NLog也可以配置结构化日志&#xff0c;不过配置麻烦&#xff0c;推荐…

OpenAI CEO 奥特曼发长文《反思》

OpenAI CEO 奥特曼发长文《反思》 --- 引言&#xff1a;从 ChatGPT 到 AGI 的探索 ChatGPT 诞生仅一个多月&#xff0c;如今我们已经过渡到可以进行复杂推理的下一代模型。新年让人们陷入反思&#xff0c;我想分享一些个人想法&#xff0c;谈谈它迄今为止的发展&#xff0c;…

Agentic RAG 解释

RAG&#xff08;检索增强生成&#xff09;通过提供来自外部知识源的相关背景来帮助提高 LLM 答案的准确性和可靠性。 Agentic RAG 是高级 RAG 版本&#xff0c;它使用 AI 代理来更加自主地行动。 Agentic RAG 执行以下操作 查询理解、分解和重写检索策略选择知识库管理结果综…

pg数据库运维经验2024

这篇文章主要是讲pg运维常见问题&#xff0c;两三年见一次的疑难杂症就不说了。 主要是技术性运维总结&#xff0c;主打通俗易懂和快速上手&#xff0c;尽量避免源码层面等深入分析。 SQL性能与执行计划 执行计划突变 pg官方不支持hint功能&#xff0c;并且计划永远不支持&…

每日一题-两个链表的第一个公共结点

文章目录 两个链表的第一个公共结点问题描述示例说明示例 1示例 2 方法及实现方法描述代码实现 复杂度分析示例运行过程示例 1示例 2 总结备注 两个链表的第一个公共结点 问题描述 给定两个无环的单向链表&#xff0c;找到它们的第一个公共节点。如果没有公共节点&#xff0c…

生成模型:变分自编码器-VAE

1.基本概念 1.1 概率 这里有&#xff1a; x为真实图像&#xff0c;开源为数据集, 编码器将其编码为分布参数 x ^ \hat{x} x^为生成图像, 通过解码器获得 p ( x ) ^ \hat{p(x)} p(x)^​: 观测数据的分布, 即数据集所构成的经验分布 p r e a l ( x ) p_{real}(x) preal​(x): …

攻防世界 wtf.sh-150

点进去&#xff0c;发现是一个类似于论坛的网站&#xff0c;并且对报错等做了处理 用御剑扫描一下 ​ 发现是php形式的文件&#xff0c;但点进去访问不了。看看wp&#xff0c;发现此题存在路径穿越漏洞&#xff0c;就是&#xff08;如果应用程序使用用户可控制的数据&#xff0…

Google Play开发者账号的高风险行为解析

在安卓应用开发行业里&#xff0c;Google Play 开发者账号是开发者们通向全球用户的重要桥梁。凭借它&#xff0c;开发者们能够将精心打造的应用推向市场&#xff0c;然而&#xff0c;开发者账号的使用也包含了诸多风险&#xff0c;一些不经意的操作可能会给开发者账号带来封禁…

网络安全-web应用程序发展历程(基础篇)

1.网站程序发展 web1.0 网站是别人的&#xff0c;只能是随便看看 web2.0网站是朋友的&#xff0c;可以进行交流了 web3.0网站是自己的&#xff0c;可以实现买卖交流。 静态内容阶段&#xff1a;web由大量的静态文档构成&#xff0c;web被看作成超文本共享文件服务器。别人只…

继承(6)

大家好&#xff0c;今天我们来继续学习继承的内容&#xff0c;了解一下this和super两者的一些特性和区别。话不多说&#xff0c;来看。 1.7 super 和 this super和 this都可以在成员方法中用来访问:成员变量和调用其他的成员函数,都可以作为构造方法的第一条语句,那他们之间有…

[离线数仓] 总结二、Hive数仓分层开发

接 [离线数仓] 总结一、数据采集 5.8 数仓开发之ODS层 ODS层的设计要点如下: (1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。 (2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比率,较高的,此处选择gzip。 CompressedStorage - Apache Hive - Apac…

3D机器视觉的类型、应用和未来趋势

3D相机正在推动机器视觉市场的增长。很多制造企业开始转向自动化3D料箱拣选&#xff0c;专注于使用3D视觉和人工智能等先进技术来简化操作并减少开支。 预计3D相机将在未来五年内推动全球机器视觉市场&#xff0c;这得益于移动机器人和机器人拣选的强劲增长。到 2028 年&#…

Mac-docker配置

1.配置的文件路径 cd ~/.docker (base) zhangyaweimacbookair .docker % ls buildx cli-plugins config.json contexts daemon.json desktop-build mutagen run (base) zhangyaweimacbookair .docker % cat daemon.json## 重启docker服务 sudo systemctl daemon-reload sudo…

SSM-SpringMVC-请求响应、REST、JSON

目录 “为什么要学 SpringMVC&#xff1f;它和 Servlet 是什么关系&#xff1f;” “什么是异步&#xff1f;为什么异步交互中常用 JSON 格式&#xff1f;异步请求和 JSON 如何配合&#xff1f;” 一、概述 SpringMVC主要负责 1 SpringMVC的常用组件 2 SpringMVC的工作流程…

【Arm】Arm 处理器的半主机(semihosting)机制

概览 通过 semihosting 机制&#xff0c;主机可以通过调试器使用目标计算机 IO 接口。 例如开发者的 PC 通过 J-Link 来使用 STM32 MCU 的输入输出。 这些功能的示例包括键盘输入、屏幕输出和硬盘 I/O。例如&#xff0c;可以使用此机制启用 C Library 中的函数&#xff0c;如…