[关闭]
@chenhongen 2019-02-28T05:59:51.000000Z 字数 1412 阅读 913

线上事故处理方法


一、事故处理的流程

事前

1.企业定义好事故等级,一级、二级、三级,并制定不同级别第一时间的应对策略
2.制定好预警方案,同步各风险环节需要介入的岗位同事和处理办法

事发

1.稳住自己不能慌
2.第一时间定位问题,并解决线上问题,进行止损

事中

1.了解问题影响范围及产生原因
2.与团队一起制定事故解决方案
3.联系客服拟定回复口径,配合其安抚受影响用户
4.评估是否需要公关介入,制定公关说法

事后

1.定位损失,书写事故报告
2.提升优化计划,规避事故


二、各环节详细

事前

目标:通过方案完善、制度完善、各种验证机制等,规避事故的发生。

可借鉴方案:

1.产品环节控制风险,流程要考虑完整,了解该类系统常见的漏洞,把握系统中可能出现的风险点,反复推敲,并设置监控机制,出现问题,第一时间告知相关人;
2.各环节评审,产品经理都需要参加,了解每一步的细节;
3.技术方案要严谨,分机房上线、压力测试、回滚方案都不可缺少;
4.核心系统要注意上下游使用者,避免留坑。

事发

目标:解决与止损

稳住自己不能慌

产品经理是产品的第一负责人,要认识到线上问题是客观存在的,线上问题并不可怕,更不能因为线上问题而乱了阵脚,作为第一负责人,要做到思路清晰的处理线上问题。

第一时间解决线上问题

大致预判问题的严重性、影响面,找到相应研发,定位到问题,并与研发一起想办法阻止问题继续发生。已经出现问题的想策略降低其造成的影响,能挽救就挽救。通知到业务部门相关人员,比如涉及到直接损失的业务部门,通知自己领导,并由领导评估是否继续上报。

事中

目标:研发人员负责出系统解决方案,产品协调业务干系部门、研发、法务、公关、商家、售后等,部门一起协调整体解决方案,方案包含但不限于“损失承担方、责任方、用户咨询答疑、用户投诉解决方案、商家安抚方案...”

了解问题影响范围和产生原因,制定后续方案

在开发排查问题、修复问题过程中,不宜找开发了解问题影响范文、问题产品的原因,这会占用开发宝贵时间,打扰开发处理问题。等问题恢复了,再找开发了解这次线上问题的影响范围、产生原因,及处理措施。
已经处理措施是临时方案,还是彻底解决了问题。一般线上快速解决的只是临时方案,需要接下来提要求彻底解决。

联系客服拟定回复口径,配合其安抚受影响用户

问题出现势必会带来大量的咨询,因此,一般事故都是由客服第一时间反馈,并且客服第一时间可能不能回答用户问题。这时,需要通知并协助客服同学尽快议定用户回复的口径,为了避免用户大量咨询,导致更多客服受到影响,可以同步问题到客服知识库。

问题严重的,要适当主动外呼用户,回馈用户,对于给用户造成的不便给予适当的补偿,比如赠送些张优惠券、积分、道具什么的,这样用户能感受到你的诚意,降低企业的负面舆论。

确定是否需要公关接入

对于很严重的问题,比如信息泄露、用户财产问题等,这时产品及企业负面影响肯定会不小,严重影响用户口碑。这种情况下,需要在恢复问题的同时,尽快让公关介入,和公关一起制定公关措施,使得负面效果尽可能减弱。

事后

目标:定位损失,故障分析,提出改善计划,规避问题再次发生。

定位损失,书写事故报告

认错是要认得,深刻反思自我,并从中找到问题,从而提升自身的产品教训,跌倒了爬起来会变得更坚韧。

提升优化计划,规避事故

事后对个人自身一定是会产生影响的,要尽快从中走出来,你会发现你会更谨慎,趁这时间探查涉及的系统是否还存在其他问题,再走一遍自己的流程和逻辑,防范未然。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注