网络端口占用问题的综合调研与解决方案

原创 Randy 拍码场

问题背景

去年底信息安全团队进行网络权限治理,要求所有应用实例使用静态IP,公网访问策略与静态IP绑定;之后实例重启时偶现端口被占用错误。通过分析总结应用日志,共有以下4种错误类型,实质都是端口被占用。

// Netty框架Caused by: java.net.BindException: Address already in use

// JettyFailed to start jetty server at port 8080, cause: Address already in use

// Embedded TomcatEmbedded servlet container failed to start. Port 8080 was already in use.

// TomcatThe Tomcat connector configured to listen on port 8080 failed to start. The port ay already be in use or the connector may be misconfigured.

原因分析

学过计算机网络的同学应该知道,网络连接的建立需要通过调用操作系统内核函数来实现;查询linux的官方文档,确定端口被占用的校验发生在系统调用bind()阶段。

端口被占用原因

TCP/IP连接断开后,进入TIME_WAIT状态,等待2MSL(Maximum Segment Lifetime)时间后才会释放网络资源,在此过程中重新打开相同端口会报:bind: address already in use错误。

为什么需要等待2MSL时间

1.可靠的实现TCP全双工连接终止,正确处理关闭连接的四次握手。

2.确保迷路的数据包在网络中消失,防止上一次连接中的包影响新连接(数据包及应答均被丢弃。

不同操作系统中MSL默认值

Windows: 120s

Linux(centos, ubuntu): 60s

Unix: 30s

为什么治理前未发生问题

在采用动态IP时,实例每次重启都会从IP池中选取一个未被使用的IP,新建socketIP与之前socketIP不同,属于不同的连接,因此不会报错。

linux源码分析

由于不能使用动态IP,为了寻找解决方案,在对端口被占用逻辑有了大致了解后,我们进一步研读源代码了解端口被占用的详细判断逻辑。

//  系统调用bind()对应的入口函数是__sys_bind()//  端口被占用判断逻辑是inet_bind_conflict函数

static bool inet_bind_conflict(const struct sock *sk, struct sock *sk2,                            kuid_t sk_uid, bool relax,                        bool reuseport_cb_ok, bool reuseport_ok){  int bound_dev_if2;

       if (sk == sk2)           return false;

       bound_dev_if2 = READ_ONCE(sk2->sk_bound_dev_if);

       if (!sk->sk_bound_dev_if || !bound_dev_if2 ||         sk->sk_bound_dev_if == bound_dev_if2) {              if (sk->sk_reuse && sk2->sk_reuse &&             sk2->sk_state != TCP_LISTEN) {                if (!relax || (!reuseport_ok && sk->sk_reuseport &&                                   sk2->sk_reuseport && reuseport_cb_ok &&                                 (sk2->sk_state == TCP_TIME_WAIT ||                            uid_eq(sk_uid, sock_i_uid(sk2)))))                       return true;         } else if (!reuseport_ok || !sk->sk_reuseport ||                      !sk2->sk_reuseport || !reuseport_cb_ok ||                        (sk2->sk_state != TCP_TIME_WAIT &&                       !uid_eq(sk_uid, sock_i_uid(sk2)))) {                  return true;         }     }     return false;}

可以看到判断端口占用逻辑用到如下字段:

// 端口被占用判断字段sk_bound_dev_if --> 网卡编号sk_reuse --> 套接字复用sk_reuseport --> 端口复用sk_state --> 当前状态listen还是time_waitsk_uid socket --> 所属用户IDreuseport_cb_ok --> 内核是否支持端口复用

这些字段中网卡编号、用户ID、内核是否支持端口复用均无法修改,能够调整的参数是端口复用和超时时间。

解决方案

鉴于公司所有应用都绑定了静态IP,应用重启时创建的socket与上一个socket必定是同一个应用,此时开启端口复用,不会出现超时报文被其他应用接收的情况,因此开启端口复用(sk_reuseport)是比较合理解决方式。

端口复用开启方式

开启端口复用主要有两种方式:

1. 应用级别:每个业务项目在启动时自行开启端口复用,由于需要修改业务代码,并且不同框架实现方式不同,推广难度大

2. 操作系统层次:直接修改系统内核的net.ipv4.tcp_tw_reuse=1

其中第2种方式对用户无感,便于集中处理,因此我们对第2种方式进行验证。

NodePod系统参数相互隔离

在我们研究如何修改tcp_tw_reuse时,发现Node节点的端口复用开关是开启状态,但是运行在上面的Pod中的端口复用开关却是关闭的,而应用容器使用的端口复用状态是Pod中的值,此时问题变成了如何开启pod中的端口复用开关。

Node上的端口复用开启

Pod中的端口复用关闭

开启Pod中的端口复用

默认情况Pod是无法修改内核相关配置的,经过调研得知Pod需要获取系统级权限(securityContext.privileged=true)才能修改内核参数,但是次权限太大存在安全风险,如果直接在应用容器开通此权限可能影响宿主机的稳定性;最终我们决定增加一个init容器,当系统参数修改成功后再退出,这样既能有足够权限修改内核参数,又不扩大业务容器的权限。测试实例如下:

# 增加一个busybox的init容器,修改完端口复用开关后退出

apiVersion: apps/v1kind: Deploymentmetadata:  name: my-deploymentspec:  replicas: 2  selector:   matchLabels:      app: my-app  template:    metadata:      labels:        app: my-app    spec:      containers:      - name: my-container        image: nginx      initContainers:      - name: sysctl-modifier        image: busybox        securityContext:          privileged: true        command: ["sysctl -w net.ipv4.tcp_tw_reuse=1 && exit"]

使用kubectl部署yaml文件之后,使用kubectl exec -it进入Pod,可以看到pod中的端口被占用功能已经开启。

参考文档

linux源码 https://github.com/torvalds/linux

linux man手册:https://www.man7.org/linux/man-pages/man2/bind.2.html

作者介绍

Randy,现任技术架构资深专家

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/325601.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1-02-02:虚拟化与容器化Docker环境搭建

1.02.02 虚拟化与容器化Docker环境搭建 一. 虚拟化与容器化技术简介1. 虚拟机环境2. docker环境 二. Docker 架构与隔离机制2.1 Docker 架构2.2 Docker 隔离机制2.3 资源限制2.4 Docker应用场景 三. 实战:Docker在Centos7安装与镜像加速 ❤❤❤3.1 docker安装3.2 设置镜像加速 …

AI回答总不满意?你的提问方式可能完全错误!

大家好,我是卷福同学,一个专注AI大模型整活的前阿里程序员,腾讯云社区2023新秀突破作者 向AI提问想写一篇论文,结果AI就生成2000字左右的文章后就完了。小伙伴们是不是也会遇到这类情况呢。今天来教大家AI提示词的技巧&#xff0c…

Kubernetes基础理论介绍

前言 随着企业数字化转型的深入,为云而生的云原生架构和思想已被大量企业所接受。容器云、微服务、DevOps、 Serverless 已成为企业落地云原生的关键技术,而 Kubernetes 作为容器云的核心基础和事实标准,已成为当今互联网企业和传统 IT 企业…

DHCP原理

什么是DHCP DHCP (Dynamic Host Configuration Protocol,动态主机配置协议)是由Internet工作任务小组设计开发的,专门用于为TCP/IP网络中的计算机自动分配TCP/IP参数的协议,是一个应用层协议,使用UDP的67和68端口。 DHCP的前身是B…

发布GPT-5的方式可能会与以往不同;开源vocode使用 AI 自动拨打电话;开源gpt智能对话客服工具;AI自动写提示词

✨ 1: vocode 用AI通过声音与用户进行实时交流 Vocode是一个旨在帮助开发者快速构建基于声音的大型语言模型(LLM)应用程序的开源库。简单来说,如果你想要开发一个能够通过声音与用户进行实时交流的应用,比如电话机器人、语音助手…

一套MySQL读写分离分库分表的架构,被秀到了!

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、My…

FFmpeg 音视频处理工具三剑客(ffmpeg、ffprobe、ffplay)

【导读】FFmpeg 是一个完整的跨平台音视频解决方案,它可以用于音频和视频的转码、转封装、转推流、录制、流化处理等应用场景。FFmpeg 在音视频领域享有盛誉,号称音视频界的瑞士军刀。同时,FFmpeg 有三大利器是我们应该清楚的,它们…

HNU-操作系统OS-2024期中考试

前言 该卷为22计科/智能OS期中考卷。 感谢智能22毕宿同学记忆了考卷考题。 同学评价:总体简单;第1,7概念题较难需要看书;第4,5题原题。 欢迎同学分享答案。 【1】共10分 操作系统的设计目标有哪些? 【…

设计模式之拦截过滤器模式

想象一下,在你的Java应用里,每个请求就像一场冒险旅程,途中需要经过层层安检和特殊处理。这时候,拦截过滤器模式就化身为你最可靠的特工团队,悄无声息地为每一个请求保驾护航,确保它们安全、高效地到达目的…

Garden Planner for Mac v3.8.62注册激活版:园林绿化设计软件

Garden Planner for Mac是一款专为苹果Mac OS平台设计的园林景观设计软件。这款软件的主要功能是帮助用户设计梦想中的花园,包括安排植物、树木、建筑物和其他物体。 Garden Planner for Mac提供了一个包含1200多种植物和物体符号的库,这些符号都可以进行…

贪吃蛇(c实现)

目录 游戏说明: 第一个是又是封面,第二个为提示信息,第三个是游戏运行界面 游戏效果展示: 游戏代码展示: snack.c test.c snack.h 控制台程序的准备: 控制台程序名字修改: 参考&#xff1a…

【Android】Kotlin学习之Kotlin方法的声明和传参

方法声明 普通类的方法 静态类的方法 不需要构建实例对象, 可以通过类名直接访问静态方法 : NumUtil.double(1) companion object 伴生类的方法 使用companion object 在普通类里定义静态方法 参数 括号内传入方法 : 当参数是方法时, 并且是最后一个参数 , 可以使用括号外…

《二十二》Qt 音频编程实战---做一个音频播放器

1.UI界面制作 作为一个音乐播放器,最基础的肯定就是播放、暂停、上一首以及下一首,为了使这个界面好看一点,还加入了音量控制、进度条、歌曲列表等内容,至于这种配色和效果好不好看,我也不知道,个人审美一如…

腾讯云服务器之ssh远程连接登录及转发映射端口实现内网穿透(实现服务器访问本地电脑端口)

目录 一、创建密钥绑定实例二、设置私钥权限三、ssh远程连接到服务器四、修改root密码五、端口转发(实现服务器访问本地电脑的端口) 一、创建密钥绑定实例 创建密钥会自动下载一个私钥,把这个私钥复制到c盘 二、设置私钥权限 1、删除所有用户…

电商核心技术揭秘55:社群与粉丝经济的结合

相关系列文章 电商技术揭秘相关系列文章合集(1) 电商技术揭秘相关系列文章合集(2) 电商技术揭秘相关系列文章合集(3) 电商技术揭秘四十一:电商平台的营销系统浅析 电商技术揭秘四十二&#…

Python轻量级Web框架Flask(13)—— Flask个人博客项目

0、前言: ★这部分内容是基于之前Flask学习内容的一个实战项目梳理内容,没有可以直接抄下来跑的代码,是学习了之前Flask基础知识之后,再来看这部分内容,就会对Flask项目开发流程有更清楚的认知,对一些开发细节可以进一步的学习。项目功能,通过Flask制作个人博客。项目架…

【WP】第一届 “帕鲁杯“ - CTF挑战赛 Web 全解

Web Web-签到 考点:审计py代码 from flask import Flask, request, jsonify import requests from flag import flag # 假设从 flag.py 文件中导入了 flag 函数 app Flask(__name__)app.route(/, methods[GET, POST]) def getinfo():url request.args.get(url)i…

NumPy库与PyTorch库的异同点

目录 1.单位的创建和操作 1.创建 2.形状变换 2.数学和统计操作 1.矩阵乘法 2.广播 3.统计计算 3.GPU支持 4.在深度学习中的作用 5.应用范围 NumPy库为数组服务,PyTorch库为张量服务,这是最本质的区别。 1.单位的创建和操作 1.创建 NumPy:使…

✨✨使用vue3打造一个el-form表单及高德地图的关联组件实例✨

✨1. 实现功能 🌟表单内显示省市县以及详细地址 点击省市县输入框时,打开对应地图弹窗,进行位置选择选择位置回显入对应输入框表单内的省市县以及地址输入框同外嵌表单走相同的校验方式触发校验后点击reset实现清除校验与清空数据 &#x1f…

深度学习中的注意力机制一(Pytorch 15)

一 简介 灵长类动物的视觉系统接受了大量的感官输入,这些感官输入远远超过了大脑能够完全处理的程度。然而, 并非所有刺激的影响都是相等的。意识的聚集和专注使灵长类动物能够在复杂的视觉环境中将注意力引向感 兴趣的物体,例如猎物和天敌。…