操作系统基础
1.cpu占⽤率太⾼了怎么办? 排查思路是什么,怎么定位这个问题,处理流程
其他程序:
1.通过top命令按照CPU使⽤率排序找出占⽤资源最⾼的进程
2.lsof查看这个进程在使⽤什么⽂件或者有哪些线程
3.询问开发或者⽼⼤,是什么业务在使⽤这个进程
4.是否可以将这台机器隔离,不影响其他业务
5.然后经过同意后可以杀死或重启进程,然后再观察
2.top⻚⾯中怎么排序能快速看到进程使⽤cpu最⾼
top
-P
3.HTTP常⻅状态码有哪些?
200 正常
301 永久跳转
302 临时跳转
403 拒绝访问 ⽬录没权限 没有⾸⻚
404 ⻚⾯没找到
500 反向代理后端没有可以响应的服务器
502 反向代理后端没有可以响应的服务器
503 反向代理后端没有可以响应的服务器
4.服务的常⽤端⼝有哪些?
SSH 22
HTTP 80
Nginx 80 1.16.0
HTTPS 443
MySQL 3306 5.7
Redis 6379 5.0
Mongo 27017 4.0
Elasticsearch 9200 9300 7.9
Kibana 5601 7.9
Tomcat 8080 8
5.cpu、内存、流量、⽂件连接数等查询命令
CPU: top uptime
内存: free -h
流量: iftop
磁盘: df -h fdisk -l iotop
⽹络: netstat -lnatup
6.查看进程打开⽂件
ps
-ef #查看进程信息
lsof
-c #显示指定程序名所打开的⽂件
-i #显示符合条件的进程,IPv[46][proto][@host|addr
[:svc_list|port_list]
-p #显示指定进程pid所打开的⽂件
-u #显示指定⽤户UID的进程
+d #列出⽬录下被打开的⽂件
+D #递归累出⽬录下被打开的⽂件
7.实时显示⽹络流量
iftop
-i
-n
-t
8.删除⽂件后磁盘空间不释放
⽂件删了,但是还有进程在使⽤这个⽂件,所以需要终⽌被占⽤的进程.
9./proc⽬录都有什么内容
/proc/cpuinfo #当前CPU信息
/proc/meminfo #当前内存信息
/proc/loadavg #当前系统平均负载信息
/proc/mounts #当前设备挂载表信息
10.raid0 raid1 raid5 raid10 的区别
RAID0
最少1块
容量是所有磁盘加起来的容量
速度最快
安全性最低
RAID1
最少2块
容量是所有磁盘的⼀半
速度⼀般
安全性⾼
RAID5
最少3块
容量是所有磁盘减1块
速度⼀般
安全性较⾼
RAID10
最少4块
容量是所有磁盘⼀半
速度较快
安全性最⾼
11.shell写过什么脚本
思路:
1.先想好功能
2.有能⼒的直接写函数,先写函数名,但是不要写内容
3.最后在填充函数⾥的内容
参考:
#1.拉取代码
git_pull(){
git pull xxxxx
}
#2.构建镜像
docker_build(){
docker build -t
}
#3.上传harbor
docker_push(){
docker push xxxxx
}
#4.远程替换镜像
docker_deploy(){
for i in ip
do
ssh $i docker pull xxxx &&
docker stop app &&
docker rm app &&
docker run --name app -it xx -d xxxxx
done
}
#5.主函数
main(){
git_pull
docker_build
docker_push
docker_deploy
}
main
12.如何查看⼀个进程的端⼝?
netstat -lnatup|grep nginx
13.如何查看当前系统磁盘使⽤量?
df -h
14.给你200台服务器如何规划?
物理服务器:
1.使⽤kickstart+cobbler⾃动化批量装机安装操作系统
2.明确并规划好服务器运⾏的服务
3.编写shell脚本批量⾃动分发SSH密钥
4.使⽤ansible⻆⾊批量安装服务
5.使⽤ansible批量安装监控组件
云服务器:
1.因为云服务器不需要装系统
2.编写shell脚本批量⾃动分发SSH密钥
3.使⽤ansible⻆⾊批量安装服务
15.你们公司服务器的配置是什么?
node节点:
16C 32G
系统盘RAID1 1T SATA
数据盘SSD 500G
不做RAID
数据库:
16C 64G
系统盘RAID1 1T SATA
数据盘RAID10 2T SSD 4块
代码上线:
8C 16G
系统盘RAID1 1T SATA
数据盘RAID10 1T SATA 4块
prometheus:
8C 16G
系统盘RAID1 1T SATA
数据盘RAID10 1T SATA 4块
16.AWK提取⽇志信息,最⾼的IP,排名前10的IP
awk '{nums[$1]+=1;} END{for(i in nums){print nums[i],i}}' access_log | sort | tail
17.编写脚本停⽌正在运⾏的程序
问开发这个程序的停⽌命令是什么?或者是否有停⽌的接⼝地址
停⽌之前确定还是否有其他的服务在使⽤这个程序
我的思路是⾸先⽤ps加grep查出这个进程号,然后使⽤kill 进程号命令结束进程
最后脚本检查程序是否安全退出,然后给出⼀个状态码
kill $(ps -ef|grep nginx|awk ‘{print $2}’)
web服务
1.HTTP常⽤状态码有哪些?分别代表什么意思?
200 正常
301 永久跳转
302 临时跳转
403 拒绝访问 ⽬录没权限 没有⾸⻚
404 ⻚⾯没找到
499 数据库没有响应超时
500 反向代理后端没有可以响应的服务器
502 反向代理后端没有可以响应的服务器
503 反向代理后端没有可以响应的服务器
2.如何保证反向代理服务器的⾼可⽤?
使⽤keepalived的VIP保证⾼可⽤
3.常⽤服务的端⼝ http https ssh mysql redis mongo elasticsearch
http 80
https 443
ssh 22
mysql 3306
redis 6379
mongo 27017
elasticsearch 9200
4.⽤过哪些web服务组件?
nginx
haproxy
tomcat
5.Nginx⽤过哪些模块?作⽤是什么?
ngx_http_core_module 核⼼模块 localtion
ngx_http_rewrite_module 重写模块
ngx_http_proxy_module 反向代理
ngx_http_upstream_module 负载均衡
ngx_http_autoindex_module 索引模块
ngx_http_stub_status_module 状态监控
ngx_http_access_module ⽩名单⿊名单
ngx_http_auth_basic_module 简单认证
ngx_http_limit_req_module 请求限速
6.Nginx如何实现反向代理?反向代理和负载均衡什么关系?
⾸先使⽤反向代理模块将请求发送到后端服务器地址池
然后使⽤负载均衡模块将流量平均负载到后端服务器
通过反向代理实现了流量平均负载到后端服务器
7.web⽹⻚访问慢如何排查?经典问题
现象:
⽤户反映打开⽹⻚速度慢
思路:
1.是某些⽤户慢,还是所有的⽤户都反映慢
2.打开监控,查看服务器内存/CPU/磁盘负载情况
3.打开ELK,查看关键连接的响应时间,是否能查看出规律,⽐如突然某个时间段升⾼,或者间歇性的
4.如果发现某个服务器负载变⾼,导致流量转发到这台服务器的时候慢,那么先把这台服务器从反向代理⾥摘掉,
然后在具体的分析排查问题.
5.如果web服务器负载正常,但是访问慢,那么⼜可能是数据库响应不了或者负载变⾼.
6.通过分析⽇志发现,昨天正常,今天变慢,有可能是因为发布了新版本的代码,数据库语句有变化,可能导致索引
失效
7.查看数据库是否存在慢语句,是否有语句执⾏卡死被锁
8.通过分析慢语句的执⾏计划查看语句是否⾛索引,如果没做索引,可能是因为开发发版了新代码,数据库语句有
变化,可能导致索引失效
9.将执⾏分析结果汇报给⽼⼤,决定是否建⽴合适的索引或者回滚⽼版本,然后再分析问题
10.CDN缓存失效导致请求转发了服务器上
11.DNS解析是否有问题
8.Nginx⽇志怎么处理?多久切割⼀次?
使⽤logrotate定期滚动切割⽇志,每天切割⼀次
我们使⽤了ELK⽇志收集分析平台
9.你们公司并发量有多⼤?PV多少?
PV ⻚⾯访问量 30万-50万 – 150万/天 100M 公⽹带宽 CDN分布式缓存
UV 独⽴访问量 运营那边才能看
10.nginx七层和四层代理的区别
四层代理解析的是端⼝号
七层代理解析的是http的报⽂
四层代理应⽤场景是⾼速转发,不解析http
七层代理的应⽤场景根据解析的域名匹配转发到后端合适的服务器
11.Nginx怎么限流
根据每个IP的请求数基于请求限速模块进⾏限制
12.Nginx有哪些负载均衡算法?
RR 平均轮询
权重轮询
URL
IP_HASH
⽹络
1.TCP和UDP区别?
TCP是可靠传输,有错误重传机制,可以保证数据包有序完整的发送和接受,虽然安全,但是⽹络开销⼤
UDP是不可靠传世,没有确认机制,虽然不安全,但是速度快
2.三次握⼿与四次挥⼿过程
3.如果ping不通⼀个IP有什么排查思路?
公⽹IP: 按照TCP/IP四层协议从底层往上排查
1.⾸先排查⽹线和交换机是否正常⼯作
2.检查IP和⼦⽹掩码是否写错
3.ping⽹关看看是否正常
4.检查DNS是否配置正确
5.联系IDC⼈员协助排查,看看是不是机房⽹络抖动
内⽹IP:
1.⾸先排查⽹线和交换机是否正常⼯作
2.检查IP和⼦⽹掩码是否写错
3.ping⽹关看看是否正常
4.检查是否IP冲突
5.什么是⽹关和⼦⽹掩码
⽹关:
数据包发给谁,⽹关就是路由器的地址
⼦⽹掩码:
定义⽹络分类的,区分开⽹络位和主机位 8/16/24/32
255.0.0.0/8
255.255.0.0/16
255.255.255.0/24
255.255.255.255/32
10.0.0.100/24
255.255.255.0
6.IP地址如何分类?应⽤场景
A 10.0.0.0/8 ⽹络位少,主机位最多
B 172.16.0.0/16
C 192.168.1.0/24 ⽹络位最多,主机位最少,每个⽹络能容纳253台主机
7.⽹站打不开,有什么排查思路?
传统架构
K8s架构
数据库
MySQL
1.说⼀下主从复制原理
主库的更新SQL(update、insert、delete)被写到binlog
从库发起连接,连接到主库。
此时主库创建一个 binlog dump thread,把 bin log 的内容发送到从库。
从库启动之后,创建一个 I/O 线程,读取主库传过来的 bin log 内容并写到 relay log
从库还会创建一个SQL线程,从 relay log 里面读取内容,从 ExecMasterLog_Pos 位置开始执行读取到的更新事件,将更新内容写入到 slave 的db
2.主从复制有延迟是什么原因?
1.主库操作语句本来就慢,从库当然也很慢
2.主库系统负载繁忙或⽹络拥塞
3.从库机器性能低不如主库,导致回放语句速度慢
4.未开启GTID,导致dump传送数据是串⾏的
5.7 版本中GTID模式下,可以开启多个SQL线程,真正实现了并性回放
3.主从复制需要监控什么?
show slave status \G
线程状态、报错信息、主从延时情况
4.你们公司数据库数据量有多⼤?每天有多少增⻓
100G 备份半⼩时
10-20m 增⻓
5.数据库如何备份?有哪些备份策略?多久备⼀次?
100G 30分钟
mysql --master-data --single-transaction
6.mysql主从复制有⼏种模式?
binlog
GTID
延迟复制
过滤复制
7.数据库语句慢如何监控?如何排查?如何解决?思路是什么?
开启慢语句记录⽇志
ELK收集慢⽇志
使⽤执⾏计划查看慢语句是否⾛索引
将执⾏结果汇报给⽼⼤,或者询问开发决定是否增加索引
8.数据库都需要监控哪些内容?
#主从复制状态
show slave status \G
#监控锁状态
show status like ‘innodb_rows_lock%’
select * from information_schema.innodb_trx;
select * from sys.innodb_lock_waits;
select * from performance_schema.threads;
select * from performance_schema.events_statements_current;
select * from performance_schema.events_statements_history;
#参数指标
内存、事务、线程、QPS、TPS、锁、等待、参数的评估指标。
9.数据库遇到过什么故障?如何解决的?
连接信息有误
⽹络故障
防⽕墙
最⼤连接数上线
10.MySQL MHA了解吗?说说原理,故障后如何切换,如何恢复?
搭建流程:
1.主2从独⽴节点、GTID
2. 互信
3.软连接
4.建⽤户5. 软件安装(perl\mananger\node)6. 启动检查: ssh repl7. 配置⽂件8. 启动9. vip\binlogserver\sendreport
Manager⼯具包主要包括以下⼏个⼯具:
masterha_manger 启动MHA
masterha_check_ssh 检查MHA的SSH配置状况
masterha_check_repl 检查MySQL复制状况
masterha_master_monitor 检测master是否宕机
masterha_check_status 检测当前MHA运⾏状态
masterha_master_switch 控制故障转移(⾃动或者⼿动)
masterha_conf_host 添加或删除配置的server信息
Node⼯具包主要包括以下⼏个⼯具:
这些⼯具通常由MHA Manager的脚本触发,⽆需⼈为操作
save_binary_logs 保存和复制master的⼆进制⽇志
apply_diff_relay_logs 识别差异的中继⽇志事件并将其差异的事件应⽤于其他的
purge_relay_logs 清除中继⽇志(不会阻塞SQL线程)
11.MySQL数据误删除如何恢复?流程是什么?如何防⽌此类事情发⽣?
全备+binlog
0.前端⻚⾯挂上维护信息
1.全备数据库时指定参数记录POST位置点
2.查看全备数据库的位置点,在测试环境恢复全备数据
3.截取binlog数据,提取出上⼀次全备到误删除命令之间的所有数据并导出
4.将binlog数据发送到测试恢复库并导⼊
5.验证恢复的数据是否完整,然后从测试库上将恢复数据导出并发送给主库
6.主库导出恢复数据
7.验证数据是否完整
12.你对MySQL做过哪些优化
1、主机、存储、⽹络、OS
2、实例: 参数
3、应⽤: SQL、索引、锁
4、架构: ⾼可⽤、读写分离、分布式
公司/业务/沟通
1.在公司遇到问题解决不了怎么办?
2.你在上架公司是如何展开⼯作的?
3.你们公司新项⽬从讨论到上线经历过哪些流程?
项⽬⽴项 --> 项⽬技术选型 --> 分配任务 --> 开发本地开发代码 --> 运维部署测试环境 --> 代码上线到
测试环境测试 --> 代码上线到预发布环境压测 --> 代码上线到⽣产环境 --> 持续监控
4.你们公司技术部有多少⼈?职位分别是什么?
5.刚进⼊⼀家公司你是如何展开⼯作的?
6.你的薪资都有哪些组成
1.基础⼯资
2.绩效⼯资
3.年终奖 1薪
4.五险⼀⾦
7.你为什么会离职?
离职的内⼼想法:
1.提升⾃⼰/学不到东⻄
2.钱不到位/加班严重
3.上家公司不正规,⽐如五险⼀⾦,谋求更好的机遇与发展,展现⾃⼰的平台
4.公司是旅游⾏业 疫情影响开不了⻔
5.疫情影响 停岗降薪
6.内⼼受到委屈/不喜欢领导/同事
7.⽗⺟身体不好离家近⼀点站在⾯试官⻆度,为什么会问这个问题?
1.看这个⼈稳不稳定,以后会不会以同样理由离职
2.公司不想要⼀个频繁跳槽的⼈
3.看你情商在不在线,会不会说上家公司或领导的坏话
如何体现稳不稳定?看简历上的⼯作经历
1.与其1年 2家公司,不如写1年1家公司
2.最好每家公司⾄少⼲满1年
3.毕业不到⼀年的,直接说整个⼤三都在实习。
回答的思路:
原则:不要抱怨,不要发牢骚,不要说上家公司坏话
1.公司战略转移,总部要搬到xx去了,但是我还想留在北京发展
2.想去⼤城市发展,⼩地⽅太安逸,趁着年轻,想出来闯⼀闯
3.你陪着公司从0发展,⼀步⼀步⻅证了公司的架构从⼏台服务器发展到⼏⼗台,经历多次调整,架构已经稳定
了,运维流程也已经固定,短期内不会有⼤的变动
我想挑战更⾼难度的架构和复杂的应⽤场景,趁着年轻,想多经历⼀些不同⾏业的架构。
4.我在上⼀家公司积累了丰富的经验,我从⼩就有⼀个梦想,希望能进⼊xx⾏业,最近⼏年xx⾏业发展很好
5.因为疫情影响,公司决定放弃xx项⽬,战略性裁员,我们部⻔整体被裁/资产重组/投资⼈换⾎