[关闭]
@Lucien 2017-10-17T15:43:13.000000Z 字数 749 阅读 644

百度智能故障自愈实践


新一代DevOps

张柳青

百度运维部资深研发工程师

百度智能监控平台、网络监控平台、故障自愈平台负责人。2012年加入百度,先后负责服务管理、运维数据仓库、智能监控、网络监控平台架构设计与研发工作。积累大量运维业务分析及平台研发经验。目前主攻的单机房故障自愈解决方案已经在百度多个核心产品线得到有效应用,在多次IDC故障中有出色表现。

演讲题目:百度智能故障自愈实践

演讲摘要:在大型互联网公司,单IDC级故障因为其故障时间长,影响范围大,一直是互联网公司及运维人员心头之痛。构成单IDC故障的原因,除了常见的运营商、IDC、链路等网络层面故障,也包括突增的用户请求、业务服务的容量不足、程序bug、异常的运维变更操作等,都会触发单IDC级业务故障的发生。在传统的运维方式中,由于故障感知判断与容量&流量调度决策的复杂性,通常是人为进行有效止损,但人工介入的时效性会影响服务的快速恢复,而人工决策的不可靠性则可能导致问题的扩大。

为解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单IDC故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与内网资源定位服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量预测与实时水位流量来调度自动止损策略与管控风险,从而实现任意单IDC故障时业务均可快速自愈的效果。

演讲提纲:

百度网络架构与单IDC故障问题分析;
故障发现;
网络故障发现;
业务故障发现;
百度流量调度;
外网流量调度介绍;
内网流量调度实践;
单IDC故障自愈实践。

听众受益点:

了解百度智能异常检测与网络/业务的异常判断策略;
了解百度内外网流量调度基础设施;
了解百度单IDC故障自动止损解决方案。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注