[关闭]
@wuzhimang 2018-01-05T08:10:30.000000Z 字数 2158 阅读 1137

拍牌现场运维注意事项

国拍


Wenfeng Shi @ 20180105

重要注意事项

请大家务必先在实验室内部网络环境下,完成“国拍代码”的部署,并体验整个部署和操作流程,以方便应对拍牌现场出现的意外突发情况!

  1. 不要中途停止抓包,不要中途停止抓包,不要中途停止抓包
    • 拍牌现场最最重要的任务是全流量抓包(中间不能间断,不能有数据包丢失)
    • 底层抓包是通过netsniff-ng完成的,整个拍牌过程中,需要确保抓包功能正常
      • watch "ps aux | grep netsniff-ng | grep -v grep" 可查看后台抓包情况
    • 若抓包过程中,前端页面出现“实时流量曲线”刷新不出来的问题,请不要 随意 重新启动抓包!
      • 重启抓包操作会造成中间数据包的丢失,会影响后期分析结果的准确性!
      • 如果是启动抓包后,8分钟 内发现web流量曲线刷新不出来,则可以尝试重新抓包来 规避 该问题(事后需要删除这段时间的pcap文件)
      • 后期,务必尝试解决前端Web出现的流量曲线刷新不出来的Bug!
        • 最近两个月的单位拍牌均出现了中途重新抓包的问题,这个需要注意
  2. 个人拍牌和单位拍牌前一天晚上可以尝试远程重启国拍服务器
    • 个人拍牌之前,国拍工作人员可能会自行重启服务器并进行测试,所以一般情况下,个人拍牌现场不会出现前端页面的问题
    • 单位拍牌之前,在没有修复上述Bug时,建议拍牌前重启服务器,防止现场出现流量曲线刷新不出来的问题!
    • 重启服务器之前,请确保后台分析程序已停止!
    • Agent程序和Web程序均设置了开机自启动,服务器重启之后,原则上便能进行抓包或分析操作
      • 若重启之后,程序运行不正常,请尝试手动启动各服务, 参考 cat /etc/crontab
      • 或者依次手动启动agent服务python agent.py和 web服务node server.js
  3. 若出现Web页面不响应(下发不了抓包或者分析命令)的情况,需要通过命令手动触发抓包或分析
    • 具体用法可参考Post_Manual.xlsx文档
    • curl -d "type=pcap&key=start" http://10.10.88.173:1234 启动173服务器上的抓包程序
    • curl -d "type=pcap&key=status" http://10.10.88.173:1234 查看173服务器上的抓包程序的状态
    • curl -d "type=pcap&key=stop" http://10.10.88.173:1234 停止173服务器上的抓包程序
    • curl -d "type=parse&key=start" http://10.10.88.173:1234 启动分析173服务器上的抓包文件
    • 注意 各服务器的抓包命令需要同时下发(保证时间同步),手动输入命令时,多个命令需要写在同一行,例如 curl -d "XXXX"; curl -d "YYYY"
    • 手动触发命令的参数可参考程序运行日志 agent.log,比如分析命令的参数可能是 curl -d "type=parse&key=start&value=20161212&unfilter=p2p3" 具体含义请查看 Post_Manual.xlsx 文档
  4. 需确保各服务器之间的时间同步,最好能统一和北京时间保持同步
    • 同时需要保证硬件时间和软件时间的一致, 即 ntpdate完成时间同步之后,hwclock -w完成硬件时间的设置
    • 建议后期把时间同步配置成crontab定时任务
  5. 确保磁盘容量充足
    • 通过web页面可查看磁盘剩余容量(页面仅显示/backup/下的使用情况)
    • 磁盘的挂在和总量情况,请参考cat /etc/fstab
    • 抓包文件的存放目录/backup/和分析(日志、临时、过滤等)文件存放目录/home/不是同一个磁盘,请确保在拍牌前两者都有充足的容量,前者是普通磁盘,后者则是SSD!
    • Agent和Web程序是放置在/root/目录下,这个一般不会出现容量不够的情况
  6. 查看日志信息,还原、分析和定位现场的问题
    • 后台Agent程序收到和发送的所有命令都会记录在agent.log等日志文件中
    • 现场可通过 tail -f /home/log/agent.log实时查看前端下发的命令以及Agent发出的命令
    • 通过解析agent.log文件,事后也能还原出现场的流量曲线图
  7. 个人拍牌过程中,最好不要随意切换页面,仅停留在实时流量曲线页面
  8. Agent和Web程序都配置了“守护进程”(程序挂了会自动重启),所以在进行测试,需要先关掉该“守护进程”
    • 参考 /etc/crontab中的定时任务配置
  9. 在服务器上改代码之前,一定要先备份,先备份,先备份!
    • 后期需建一个内部的项目代码和文档管理服务器, svn/git

现场应该这么做

可按照以下步骤依次进行检查,最好前天晚上就检查一遍

  1. 时间是否同步?
  2. 磁盘容量是否充足?
  3. 抓包功能是否正常?
  4. 页面展示是否正常?
  5. 还可以......
    • watch命令实时查看各服务器上的netsniff-ng抓包情况
      • watch "ps aux | grep netsniff-ng | grep -v grep"
    • watch命令实时查看各服务器上的生成pcap转包文件的情况
      • watch "ls -lh *20180108*.pcap*
    • tail命令实时查看Web命令下发和信息获取日志
      • tail -f /home/log/agent.log
    • ifpps或者vnstat命令实时查看网卡的流量情况
      • ifpps em3

待补充

  1. XXX
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注