@myyzs
2020-12-09T06:01:47.000000Z
字数 485
阅读 35
事故报告
12-06上午一线反馈早上很多领导收不到钉钉上的提醒
12-04 19:00至12-06 13:00 产生的部分明源待办在钉钉中无法收到,总影响流程大概100+
1、通过消息日志发现调用钉钉接口时,出现了钉钉接口报域名解析错误
1、12-06 上午
提工单给阿里云,阿里云回复钉钉的服务没有问题,需要明源运维继续自查
2、12-06 13:00
迁移云助手服务到新的物理机,消息服务恢复正常
1、云助手消息服务在阿里云的服务器上访问钉钉接口时,出现域名解析异常,导致消息无法正常推送到钉钉
1、在新的物理机上持续监控消息发送日志,12-06日迁移后至今还未发现有异常日志
2、12-07日手动将发送失败的待办重新推送到了钉钉
1、在新的物理机上持续监控消息日志,运维深入排查在原有服务器上域名解析失败的原因,找到问题根因,彻底解决
2、消息推送重发工具上线,可针对推送失败的消息批量重推,以防再次出现问题,保证能在短时间内快速将消息重新推送到客户,不影响客户正常使用