@Lucien
2017-10-18T06:45:29.000000Z
字数 1011
阅读 594
如何建立监控、预警,自动化运维平台,来保证系统可靠性?
(1)如何做有效的可靠性测试?
1)问题背景:可靠性测试是保证可靠性非常重要和基础的一环,其中有诸多研发活动和技术难点,如、故障场景设计、业务仿真、故障注入、故障演练、测试活动、评估活动等,其他厂家如何看待可靠性测试?遇到了哪些技术挑战?有哪些好的实践分享?
2)研讨目的:引导讨论可靠性测试中的优秀实践,或技术难题,上面的内容是可靠性测试这个范畴下的具体活动,这些内容都可以讨论,不必局限于嘉宾一定要讨论某个技术。或者有厂家指出可靠性测试并没那么重要,不用太复杂,通过后期运维也能解决问题,这也是一种观点。
(2)如何平衡流控与业务之间的矛盾?
1)问题背景:流控是保证高可用的必要手段,但流控又必然会影响用户业务和体验,如何平衡两者之间的矛盾?比如用户在搭建一个WEB系统,创建VM成功,接下来由于流控挂卷失败,使用户的操作停留在中间状态,体验非常差,这类问题如何解决?又比如流控单租户,就要记录各租户的请求和并发量,对系统整体性能产生影响,如何解决单租户流控与系统整体性能之间的矛盾?
2)研讨目的:引导嘉宾讨论流控这个话题,比如如何平衡流控与业务之间的矛盾、有无好的方案?方案可以是技术层面的,也可以是操作层面、商业层面的。平衡流控与用户业务的矛盾,这个问题带有思辨性质,可能没有完美的解决方案,因此针对这个话题可以广泛讨论。
(3)如何快速、准确识别亚健康问题?
1)问题背景:亚健康节点/故障是系统中隐藏的一类问题,类似人的亚健康问题,可能无法被马上识别,但长期继续下去会对业务造成严重影响。亚健康故障的危害有多大,有没有好的识别方法?
2)研讨目的:引导嘉宾讨论亚健康节点的危害、重要性,以及亚健康问题准确、快速的识别方法、优秀实践经验等。
(4)如何设计高效实用的可靠性监控体系?
1)问题背景:设计一个好的可靠性监控体系,需要确定可靠性监控指标和采样策略、做调用链分析、海量日志分析等工作,这里面有哪些技术难点?
2)研讨目的:引导嘉宾讨论对可靠性监控体系的需求、其中的技术难点、发展趋势等,与之相关的问题都可以讨论。
(5)异地容灾有哪些技术挑战?
1)背景:异地容灾目前还有诸多技术挑战需要解决,如网络抖动、复制技术、一致性保证等,其他嘉宾有哪些技术挑战,如何解决这些挑战?
2)研讨目的:引导大家讨论下异地容灾目前还有哪些关键的技术挑战,未来技术如何发展等?