前言
我们曾介绍过观测云提供全面的基础设施监测方案(参见《全方位监控基础设施,坚实守护您的业务稳定!》),能够高效全面地帮助您实时观测所有的基础设施对象及云产品等,赋能您的业务稳定发展。今天我们将为您详细介绍基础设施观测中的重要一环:网络数据观测。并从实际场景出发,描述如何在海量网络数据中分析出流量瓶颈。
观测云网络支持查看主机、Pod、Deployment 和 Service 之间的网络流量。基于服务端、客户端查看源 IP 到目标 IP 之间的网络流量和数据连接情况。通过可视化的方式进行实时展示,帮助企业实时了解业务系统的网络运行状态,快速分析、发现流量瓶颈并及时解决,保障系统稳定运行。
开始网络数据观测之旅
观测云提供三大模块:总览、拓扑和网络流,多形式多维度为用户分析实时网络数据,快速追踪和定位问题故障,预防或避免因网络性能下降或中断而导致的业务问题。
数据采集前提:安装 DataKit,开启 eBPF 采集器。
总览
在总览中,支持通过列表和图表形式来查看分析网络运行情况。同时,您还可以利用时间控件和快速筛选功能,轻松按需查询网络数据。
以下图中主机网络情况为例,可以在列表中查看服务端、客户端之间的网络流量和数据连接情况,包括其TCP 重传次数、TCP 连接数、TCP 关闭次数、TCP 延时、发送字节数、接收字节数等。
当然,选择您所需的网络路径可点击进入其详情页。您可以查看该条网络信息的详细内容,具体的客户端和服务端、流量传输方向、直观的分析图表和网络连接分析。您也可以看到,在网络详情页中,支持绑定相关内置视图。您可以按照需求,绑定日志、进程、事件、指标等内置视图,帮助您快速联动相关数据,实现全面系统观测。(详情参见《内置视图联动查看器,实现数据关联分析》)值得一提的是,在网络连接分析中,您可以通过「查看网络流数据」进一步查看并分析网络流量情况,帮助您预测潜在流量问题,从而做出准备应对突发状况。
此外,您还可以通过图表将相关网络数据进行直观的呈现,帮助您快速抓住特殊或异常时刻的数据,从而进行进一步追踪和分析。
拓扑
观测云提供的拓扑图以发散式排列分布的形式,结合颜色、线的粗细、流向等可视化显示节点到节点之间的网络流量和数据连接情况,帮助您找出多域问题的根本原因。
以主机为例,您可以查询当前工作空间主机与其他 ip 之间的网络流量,快速分析不同主机的 TCP 延迟、TCP 波动、TCP 重传次数、TCP 建连次数以及 TCP 关闭次数。您不仅可以基于标签和关键词来进行搜索和筛选,展示主机节点及其关联关系。此外,如下图所示,该节点的TCP 关闭次数为 3.44k ,根据右下角区间配色,显示为绿色。节点的大小,线条的粗细和流向都能够为您精准地提供其流量情况,及时判断流量瓶颈。
以 Pod 为例,您还可以填充发送/接受字节数、每秒请求率、错误率、平均响应时间等数据。
值得关注的是,点击拓扑图中的主机/Pod/Deployment/Services 节点不仅支持查看当前节点的上下游节点关联,还可查看其详情、关联日志、关联链路以及关联事件,点击即可进行相应跳转。轻松联动多方数据,实现网络流量情况的追踪和深入分析,尽快发现并解决故障。
网络流
上文提到的在列表详情页查看网络流数据。除此之外,在总览或拓扑页面,点击右上角查看网络流数据,即可跳转至对应页面。您可以查看时间线上的 L4(netflow)、L7(httpflow)网络流数据,详细了解流量情况,快速抓住流量瓶颈并轻松突破。
观测云提供的网络数据观测还可以配置监控器,智能巡检等功能,及时报告网络流量情况或异常情况,实现预测问题,发现问题,分析问题,解决问题的完美闭环。
结论
通过网络数据分析来解决流量瓶颈问题是一项复杂而关键的任务。通过收集和分析与网络流量相关的数据,我们可以识别瓶颈点并采取相应的措施来优化网络性能。此外,网络环境是动态变化的,因此需要定期监测和评估网络性能,以及根据需要进行调整和优化。观测云提供网络数据观测方案不仅可以提高用户体验,还可以支持企业的数字化转型和业务增长。