[关闭]
@tony-yin 2018-04-25T02:27:34.000000Z 字数 860 阅读 519

Issue Solution:集群节点和托管IP节点显示集群状态不一致

故障修复


集群环境

  1. 记录集群中所有节点的IP信息;
  2. 记录托管IP信息;
  3. 记录托管IP所在的节点IP信息;
  4. 记录Poweroff的节点IP信息;
  5. 记录上一步Poweroff操作后,托管IP所在的节点是否发生变化

重现问题

  1. Poweroff集群中某一节点;
  2. 选择集群中任意节点IP,在浏览器中登录系统,查看集群信息页面;(假设此节点为A
  3. 选择托管IP,在浏览器中登录系统,查看集群信息页面;
  4. 比对“监控面板”的信息是否一致,不一致则重现成功(下面内容都建立在重现场景的基础上)
  5. 选择托管IP所在的节点IP,在浏览器中登录系统,查看集群信息页面;(假设此节点为B
  6. 比对托管IP和节点B的集群健康信息,查看是否一致?(下面会根据是否一致给出具体步骤)

一致的情况

  1. CLI分别ssh到节点A和节点B,进入指定目录:cd /usr/lib/cgi-bin/mcs3,上传脚本get_health_data.py;(脚本地址在下方)
  2. 调用脚本,执行命令python get_health_data.py脚本,之后会在本目录生成名为output.log的文件;
  3. 需要帮忙重命名一下output.log文件,加上节点信息,比如改成A_output.log,方便之后的比对分析

脚本文件:get_health_data.py未知大小

不一致的情况

  1. 分别在节点B和托管IP的节点上,进行抓包,抓包命令规范为tcpdump -i <IF> -w <host>_<iface>_output.pcap,比如:tcpdump -i eth0 -w 192.168.1.192_eth0_output.pcap
  2. 以刷新浏览器UI集群的监控面板动作为开始;
  3. 以页面上显示出具体的信息为结束(这里指的是安全预警面板中出现具体的数字了,而不是0/0这种,有时候需要等一会才会出现)
  4. 分别在节点B和托管IP的节点上,执行一遍上面(一致的情况)的操作,收集输出文件;

收集数据

最后麻烦将收集到的output.log文件或抓取的网络包信息反馈给我们,谢谢!

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注