南大通用数据库-Gbase-8a-学习-43-SQL长时间处于Writing to net状态排查

目录

一、问题截图

二、排查思路

1、Gbase8a SQL有几种状态

2、问题导致原因猜想

3、观察服务端(集群端)网络情况

4、观察客户端网络情况

5、排查客户端程序处理数据慢

5.1、send

(1)声明 

(2)作用

(3)参数

(4)返回值

(5)阻塞条件

5.2、recv

(1)声明 

(2)作用

(3)参数

(4)返回值

(5)阻塞条件

5.3、优化思路

6、查看计算节点

7、gccli执行SQL

8、调整参数max_allowed_packet


一、问题截图

今天我发现一个有趣的现象,用户执行一条长达17287秒(差不多5小时)的SQL,这个SQL并没有特别复杂,我用红箭头指出了特殊点:

1、SQL处于Writing to net状态。(这个状态持续了4个多小时)

2、查询的是INFORMATION_SCHEMA.COLUMNS系统表。

3、没有加过滤条件。

二、排查思路

1、Gbase8a SQL有几种状态

状态含义
init表示SQL进入准备执行阶段,开始执行计划。
deleting from main table/updating main table准备对主表进行删除或更新操作。
end/query endSQLSQL到达结束状态,准备清理资源。
Creating tmp table查询过程中,正在创建临时表。
Sending data读取数据向发起段发送查询结果。
closing tables关闭打开的表。
Evaluating执行计划评估。
Executing by step执行计划中的每一步。
Preparing metadata取得本查询所涉及表的可用节点信息。
Sending task to gnodes发送任务给数据节点。
Clear tmp tables查询完成,开始清理临时表。
Writing to Net向客户端发送数据包。
checking permissions检查权限。
commit提交数据。
killed被杀死。
logging slow query审计日志在保存慢SQL信息。
Rolling back数据回滚。

2、问题导致原因猜想

我们看到了Writing to Net的意思是向客户端发送数据包,会不会是网络的问题导致。我们可以提出一下几个猜想。

猜想是否为问题原因
服务端网络负载高未验证
客户端网络负载高未验证
客户端程序处理数据慢未验证

3、观察服务端(集群端)网络情况

Writing to Net的意思是向客户端发送数据包。会不会是网络负载较高,我这边是万兆网卡,理论可以达到10000Mbit/s,1Mbit(兆位) = 0.125Mb(兆字节),也就是1250Mb/s,nmon观察网络情况在33Mb/s上下浮动,排除是服务端网络问题。

猜想是否为问题原因
服务端网络负载高
客户端网络负载高未验证
客户端程序处理数据慢未验证

4、观察客户端网络情况

客户端服务器我这边没有权限,只能建议客户帮忙排查了,哈哈哈。

猜想是否为问题原因
服务端网络负载高
客户端网络负载高权限问题,建议客户帮忙验证。
客户端程序处理数据慢未验证

5、排查客户端程序处理数据慢

为什么我会有这样的想法呢,最近在学习网络编程相关的知识,会不会客户端程序处理逻辑有关,相关概念可以参考之前的博客《Unix环境高级编程-学习-05-TCP/IP协议与套接字》,服务端send数据,客户端recv数据,我们来简单介绍一下这两个函数,以及他们的阻塞条件。

5.1、send

(1)声明 
ssize_t send(int __fd, const void *__buf, size_t __n, int __flags)
(2)作用

向套接字__fd所指向的地址发送缓冲区__buf中长度为__n的数据。

(3)参数
参数名描述
__fd套接字文件描述符。
__buf缓冲区。
__n发送的数据长度。
__flags标志,这个在具体在其他篇幅讲。
(4)返回值
名称描述
成功返回发送的字节数。
失败-1
(5)阻塞条件

当要发送的消息长度大于套接字当前可用缓冲区时, send将阻塞。

5.2、recv

(1)声明 
ssize_t recv(int __fd, void *__buf, size_t __n, int __flags);
(2)作用

从套接字__fd接收长度为__n的数据放入缓冲区__buf中。

(3)参数
参数名描述
__fd套接字文件描述符。
__buf缓冲区。
__n接收的数据长度。
__flags标志,这个在具体在其他篇幅讲。
(4)返回值
名称描述
成功返回接收的字节数。
失败-1
(5)阻塞条件

recv函数会一直阻塞到接收缓冲区里有一个字节或一个完整的UDP数据报为止。

5.3、优化思路

我们平时一般的开发思路是单进程单线程从缓冲区中接收到数据,开始处理数据,处理完发送消息给服务端我收到消息,发送端再发数据,如果处理数据时间较长,是不是可能会出现类似状况呢。

如果需要改进,我的思路是开启两个线程,一个线程用于接收数据并将数据放入一个队列中,放入之后和客户端说我收到数据了,另一个线程从队列中拿数据进行处理,这样就不会一直等待。

6、查看计算节点

之前查看了一下计算节点,发现没有类似任务,刚开始还觉得这是都算完了,后来想了想,计算节点就不会有这个任务,因为管理节点和计算节点的DDL是同步的,只需要在拿到任务的管理节点计算即可。也不是个别计算节点慢导致的。

7、gccli执行SQL

我们可以用Gbase8a自带的客户端工具gccli放到本地来执行SQL,gccli具体使用方法可以参考之前的博客《南大通用数据库-Gbase-8a-学习-32-gccli客户端》,这样可以屏蔽网络的问题。

我手动执行了一下,差不多两分钟左右,gccli没有额外的数据处理过程,只是将数据fetch出来进行展示,上面程序处理慢的问题概率又大了几分。

猜想是否为问题原因
服务端网络负载高
客户端网络负载高权限问题,建议客户帮忙验证。
客户端程序处理数据慢有一定可能。

8、调整参数max_allowed_packet

参数适当调大后,效果不明显,已经调回原值。

说明通信时最大的包长度。即服务器和客户端通讯时,发送和接收的数据包或字符串的最大长度。
默认值64 * 1024 * 1024(单位:字节)
最小值1024(单位:字节)
最大值4L*1024L*1024L*1024L(单位:字节)
详细介绍1、设定单个报文或任何中间字符串(intermediate string)的最大长度,单位是字节。
2、报文消息缓冲由 net_buffer_length 参数进行设定,一般情况下,数据包的通讯缓冲区初始化为 8K字节 。 但其最终可以按需增长至max_allowed_packet 参数设定的大小。
3、这个参数值一般不需要设置的太大。较小的通讯缓冲区设置值可以捕获大的数据包,而那些大的数据包通常是由于异常引起的。
4、此参数的默认值较小,在使用了 BLOB 列或长字符串的场景中,应该增大其值至能容纳最大 BLOB 数据的长度。协议本身限定此值最大为 1G,参数只接受 1024 整数倍的数值,非 1024 的整数倍将会被自动圆整至离其最近的1024 整数倍的数值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/278286.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

部署高斯喷射项目gaussian-splatting

硬件要求 支持 CUDA 的 GPU,具有 7.0 的计算能力24 GB VRAM 软件要求 Conda用于 PyTorch 扩展的 C 编译器(Visual Studio 2019) CUDA SDK 11 for PyTorch 扩展,在 Visual Studio 之后安装C 编译器和 CUDA SDK 必须兼容 拉取源码 …

HCIP—OSPF虚链路实验

OSPF虚链路—Vlink 作用:专门解决OSPF不规则区域所诞生的技术,是一种虚拟的,逻辑的链路。实现非骨干区域和骨干区域在逻辑上直接连接。注意虚链路条件:只能穿越一个区域,通常对虚链路进行认证功能的配置。虚链路认证也…

部署一个本地的ChatGPT(Ollama)

一 下载Ollama Ollama下载地址:https://ollama.com/download 下载完后 二 安装运行 双击下载好的OllamaSetup.exe开发 安装Ollama: 安装完成后,多了一个Ollama的菜单如下图 : Ollama安装好默认是配置开机运行,如果没有运行可以在…

2684. 矩阵中移动的最大次数

说在前面 🎈不知道大家对于算法的学习是一个怎样的心态呢?为了面试还是因为兴趣?不管是出于什么原因,算法学习需要持续保持。 题目描述 给你一个下标从 0 开始、大小为 m x n 的矩阵 grid ,矩阵由若干 正 整数组成。 …

【More Effective C++】条款24:了解虚函数的成本

每个包含了虚函数的class会包含一个虚函数表,对于C1和C2的虚函数表的结构如下: 非虚函数不会加入到虚函数表中子类中如果对虚函数重写,虚函数表中会覆盖父类的虚函数 C1::~C1()C1::~f1()C1::~f2()C1::~f3() C2::~C2()C2::~f1()C1::~f2()C1:…

QT插件简单使用2

目录 1 总的目录结构 2 主程序 3 插件程序 4 运行结果 相比原来的QT插件简单使用-CSDN博客增加了 QObject *create(const QString &name, const QString &spec) override; 函数的使用和Plugin.json的使用 1 总的目录结构 编译器mingw-64 2 主程序 1 新建一个其他…

onnx 格式模型可视化工具

onnx 格式模型可视化工具 0. 引言1. 可视化工具2. 安装 Netron: Viewer for ONNX models 0. 引言 ONNX 是一种开放格式,用于表示机器学习模型。ONNX 定义了一组通用运算符(机器学习和深度学习模型的构建基块)和通用文件格式,使 A…

Selenium-webdriver_manager判断是否已经下载过驱动(复用缓存驱动)

1,谷歌浏览器默认位置 2,ChromeDriverManager 下载的驱动位置 其中admin为机器的用户名 def installDriver(self):"""判断是否需要下载driver""""""找到本机谷歌浏览器版本""""""C:\P…

Unity触发器的使用

1.首先建立两个静态精灵(并给其中一个物体添加"jj"标签) 2.添加触发器 3.给其中一个物体添加刚体组件(如果这里是静态的碰撞的时候将不会触发效果,如果另一个物体有刚体可以将它移除,或者将它的刚体属性设置…

做一个个人网站分几步?第一步,找个简单的模板借鉴(抄)一下

做一个个人博客第一步该怎么做? 好多零基础的同学们不知道怎么迈出第一步。 那么,就找一个现成的模板学一学呗,毕竟我们是高贵的Ctrl c v 工程师。 但是这样也有个问题,那就是,那些模板都,太!…

Css提高——flex布局及其相关属性

目录: 1、传统布局与flex布局的区别 2、flex的布局原理 3、flex常见的父项属性 3.1、flex-direction :设置主轴的方向 3.2、justify-content 设置主轴上的子元素排列方式 3.3、flex-wrap 设置子元素是否换行 3.4、align-items 设置侧轴上的子元素排…

【周总结】✈️✈️✈️

周总结 完成时区改造的开发 完成已提测功能的问题修改 2024/3/17 阴 不冷不热 Spring is coming soon. Its an uneasy weekend to enjoy by myself,because all things what i wanna do is made by self,(when getting up,what to eat,when to sleep...) There …

SpringBoot异常:类文件具有错误的版本 61.0, 应为 52.0的解决办法

问题: java: 无法访问org.mybatis.spring.annotation.MapperScan 错误的类文件: /D:/Program Files/apache-maven-3.6.0/repository/org/mybatis/mybatis-spring/3.0.3/mybatis-spring-3.0.3.jar!/org/mybatis/spring/annotation/MapperScan.class 类文件具有错误的…

AI预测福彩3D第12弹【2024年3月18日预测--新算法重新开始计算第9次测试】

今天继续对第一套算法进行测试。废话不多说了,直接上分析出的图表,再上结果。 最终,经过研判分析,2024年3月18日福彩3D的七码预测结果如下: 百位:3 2 4 0 1 5 8(6或9换8,重点考虑6) 十位&#x…

【C语言】linux内核软中断

一、什么是软中断? 内核中的软中断(Softirqs)和任务下半部(Tasklets)是Linux内核中用于在中断上下文之外处理中断服务的一种底层机制。这些机制解决了不能在中断服务例程(ISR)中执行耗时操作或…

服务器数据恢复—raid5热备盘上线同步数据失败的如何恢复数据

服务器数据恢复环境&故障&分析: 一台存储上有一组由多块硬盘组建的raid5阵列,该raid5阵列中的一块硬盘掉线,热备盘自动上线同步数据的过程中,raid阵列中又有一块硬盘掉线,热备盘的数据同步被中断,r…

JavaWeb06-MVC和三层架构

目录 一、MVC模式 1.概述 2.好处 二、三层架构 1.概述 三、MVC与三层架构 四、练习 一、MVC模式 1.概述 MVC是一种分层开发的模式,其中 M:Model,业务模型,处理业务 V: View,视图,界面展…

腾讯云优惠券领取的几种方法,助你降低云服务成本

随着云计算技术的广泛应用,越来越多的企业和个人选择使用云服务来降低运营成本、提高运营效率。腾讯云作为国内领先的云服务提供商,凭借其出色的性能、稳定性和安全性,赢得了广大用户的信赖。为了回馈用户,腾讯云经常推出各种优惠…

Python实现BOA蝴蝶优化算法优化循环神经网络分类模型(LSTM分类算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蝴蝶优化算法(butterfly optimization algorithm, BOA)是Arora 等人于2019年提出的一种元启发式智能算…

element el-cascader获取完整数据

<el-table-column prop"createTime" label"编辑店铺分类"><template slot-scope"scope"><el-cascaderref"cascader"v-model"scope.row.shoptypeone":options"commoditylist"placeholder"请选…