安装
1. 企业版,客户现场无网络环境时,安装app_mgr,会出现无法安装requirments.txt中的依赖
1.这是蓝鲸打包问题,在中控机器/data/src/paas_agent/paas_agent中创建SELF_CONTAINED_PIP_PKG即可
cd /data/src/paas_agent/paas_agent
touch SELF_CONTAINED_PIP_PKG
2.同步文件
cd /data/install
./bkeec sync all
蓝鲸监控
1. 蓝鲸监控中,主机数据收集不到
分步启动bkdata组件,且每个组件启动时要间隔20s,因为bkdata组件较重,1个组件启动后,可能没完全启动,需要等待启动完成,才能启动下一个组件
./bkcec start bkdata dataapi
./bkcec start bkdata monitor
./bkcec start bkdata databus
2. 蓝鲸监控,采集中心,脚本采集,接入数据源后,添加实列,会一直测试连通性
最好下架蓝鲸监控,重新部署
3. oracle组件监控,采集时正常,curl成功,但监控视图却不显示数据
解决:
su - oracle
sqlplus / as sysdba
grant Connect, Resource to 用户名;
grant sysdba to 用户名;
https://bk.tencent.com/s-mart/community/question/571
配置平台
1. 配置平台默认业务蓝鲸不要随意操作
配置平台初始化以后,默认会创建名为 "蓝鲸" 的业务,需要注意的是,蓝鲸业务并非是示例业务,在部署都会依赖此配置,在配置平台中已经限制了对此业务的拓扑修改,用户在修改此业务下主机、进程等配置时候,需要充分理解蓝鲸的部署逻辑。否则可能会导致整体平台出现异常。
2. 打开显示无权限操作,系统出现异常, 请记录下错误场景并与开发人员联系, 谢谢!
重启蓝鲸服务,不行的话,重启蓝鲸机器
故障自愈
1. zabbix接入故障自愈时,初始化脚本报错
可能是版本不对照,创建用户、报警媒介和动作会失败,这时只需要手动创建即可
2. zabbix接入故障自愈后,在zabbix界面查看脚本触发动作执行成功,但没有自愈,故障自愈平台自愈信息也不显示
1.查看自愈脚本日志
tail -f zabbix_fta_alarm.log
{"message": "【127.0.0.1】未在CMDB注册", "code": 1400, "data": {}, "result": false, "request_id": "c805ef4748d34e50a85bc14200b07f5a"}
2.zabbix机器在CMDB注册时用的是第一IP,不是127,需要修改zabbix_agentd.conf,将server修改为第一IP,然后重启zabbix-agent
页面问题
1. 各saas服务(作业平台、蓝鲸监控)打不开,界面访问出现502
现象:
解决方法:
社区版:
1.到appo机器
2.执行下边命令
for saas_name in `ls /data/bkce/paas_agent/apps/Envs`;dosource /data/bkce/paas_agent/apps/Envs/${saas_name}/bin/activatesupervisord -c /data/bkce/paas_agent/apps/projects/${saas_name}/conf/supervisord.conf supervisorctl -c /data/bkce/paas_agent/apps/projects/${saas_name}/conf/supervisord.conf status deactivate
done企业版:
cd /data/install
./bkeec start saas-o
./bkeec start saas-t
蓝鲸监控运行状态问题
1. saas_celery异常
解决方法:
下架蓝鲸监控,重新部署
2. ETL异常
第一种方法:
到bkdata(databus)机器,重启databus_etl
supervisorctl -c /data/bkce/etc/supervisor-bkdata-databus.conf restart databus_etl
第二种方法:
重启以下3个服务./bkcec stop bkdata./bkcec stop kafka./bkcec start kafka#bkdata分开启动,每启动一个,等待几十秒
./bkcec start bkdata dataapi
./bkcec start bkdata monitor
./bkcec start bkdata databus
服务问题
1. 查看服务状态,发现cmdb-nginx启动失败,再次启动时,出现目标机器上端口已占用的信息
此时需要到cmdb所在的机器,杀掉对应的进程
ps -ef | grep nginx
2. log_agent、log_parser、log_alert EXIT
这三个是paas_plugins,托管到supervisor,需要通过supervisor再启动
现象:
[192.168.10.111] log_agent: EXIT
[192.168.10.112] log_agent: EXIT
[192.168.10.115] log_agent: EXIT
[192.168.10.112] log_parser: EXIT
[192.168.10.115] log_parser: EXIT
[192.168.10.112] log_alert: EXIT
解决方法:
登录到各个机器,对各个服务进行启动,如果该进程已经启动,可以kill掉,重新启动
log_agent:
source /data/bkee/.envs/log_agent/bin/activate
supervisord -c /data/bkee/etc/supervisor-paas_plugins-log_agent_paas.conflog_parser:
source /data/bkee/.envs/log_parser/bin/activate
supervisord -c /data/bkee/etc/supervisor-paas_plugins-log_parser.conflog_alert:
source /data/bkee/.envs/log_alert/bin/activate
supervisord -c /data/bkee/etc/supervisor-paas_plugins-log_alert.conf