[关闭]
@myyzs 2020-12-09T06:01:47.000000Z 字数 485 阅读 35

阜丰2020-12-06钉钉消息推送失败-事故报告

事故报告


现象:

12-06上午一线反馈早上很多领导收不到钉钉上的提醒

影响范围:

12-04 19:00至12-06 13:00 产生的部分明源待办在钉钉中无法收到,总影响流程大概100+

问题定位:

1、通过消息日志发现调用钉钉接口时,出现了钉钉接口报域名解析错误

解决问题的过程:

1、12-06 上午
提工单给阿里云,阿里云回复钉钉的服务没有问题,需要明源运维继续自查
2、12-06 13:00
迁移云助手服务到新的物理机,消息服务恢复正常

事故原因分析:

1、云助手消息服务在阿里云的服务器上访问钉钉接口时,出现域名解析异常,导致消息无法正常推送到钉钉

现状:

1、在新的物理机上持续监控消息发送日志,12-06日迁移后至今还未发现有异常日志
2、12-07日手动将发送失败的待办重新推送到了钉钉

规划-12SP2

1、在新的物理机上持续监控消息日志,运维深入排查在原有服务器上域名解析失败的原因,找到问题根因,彻底解决
2、消息推送重发工具上线,可针对推送失败的消息批量重推,以防再次出现问题,保证能在短时间内快速将消息重新推送到客户,不影响客户正常使用

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注