[关闭]
@Lucien 2017-11-01T01:46:34.000000Z 字数 775 阅读 646

滴滴出行海量数据场景下的智能监控与故障定位实践

李培龙:滴滴出行/质量部/高级专家工程师

现任滴滴出行质量架构团队负责人,负责滴滴的分布式调用链追踪系统、问题定位系统、基于机器学习的异常检测系统、日志数据及计算服务平台和全链路压测平台。

加入滴滴之前任职于百度质量部,负责业务监控、问题定位、分级发布等稳定性保障技术方向。

演讲题目:滴滴出行海量数据场景下的智能监控与故障定位实践

演讲摘要:随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。

监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡;

随着系统复杂度提升,监控报警后故障的定位难度越来越高,定位速度缓慢,我们借鉴Google的Dapper在滴滴落地了系统调用链路追踪系统,同时融合了滴滴自身的司机、乘客与订单的业务链路追踪技术,使得业务与系统故障时可以快速的进行数据关联与追踪分析,精准定位问题根源,整体故障定位效率大幅提升。

演讲提纲:

  1. 滴滴的监控体系技术架构演进;
  2. 基于机器学习的异常检测实践;
  3. 基于链路追踪的故障定位实践;

听众受益点:

  1. 海量数据场景下,如果为监控系统进行技术选型;
  2. 为降低运维成本,如果借助机器学习技术进行海量指标的异常检测;
  3. 如何建设业务与系统的链路追踪机制以提升故障定位效率;
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注