@skyway
2021-02-15T13:43:27.000000Z
字数 785
阅读 465
aiops
物理机故障场景,包括CPU和内存使用率的问题,细分了CPU使用率攀升、CPU使用率持续高、内存高或者内存模式异常等不同类型的故障场景;
存储故障场景,包括磁盘写入IO占用率高、磁盘读取IO占用率高,或者存储网络延迟造成的故障等;
网络类型故障,包括网卡延迟、网络丢包、重传数据包以及占用端口等故障;
应用故障,在实际中比较常见,比如说数据库的全表扫描、中间件weblogic的内存溢出、Java应用频繁fullgc问题、应用日志读写慢等。
除网络类型的故障外,其余类型的故障均需要定位到性能指标或日志层次,即不仅给出发生故障的组件名,还需要给出反映故障原因的性能指标或日志,网络类型故障只要定位到组件名即可。
在广义上,一个trace代表了一个事务或者流程在(分布式)系统中的执行过程。在OpenTracing标准中,trace是多个span组成的一个有向无环图(DAG),每一个span代表trace中被命名并计时的连续性的执行片段。
span类似cat中的transaction,span表示一个执行过程,比如一个函数,而函数会调用其他函数,所以span会存在praent-child的关系。
span之间存在两种关系:ChildOf和FollowsFrom,这两种引用类型代表了子节点和父节点间的直接因果关系。
https://wu-sheng.gitbooks.io/opentracing-io/content/
https://www.jaegertracing.io/docs/1.21/architecture/#trace
https://zhuanlan.zhihu.com/p/34315546
https://docs.lightstep.com/docs/understand-distributed-tracing