盖白霖 https://m-mip.39.net/disease/mipso_4328637.html上星期和北京的一个做AIOPS的团队做了一次很不错的交流,其中提到了GrayFailure的问题。早期我们对IT系统的监控是基于网管理念的,我们只关心系统能不能用,系统出问题不能用了,我们就报警。随着IT系统规模的日益扩大,这种监控方式已经很难适应现在的信息系统了。年,老白的团队提出了系统健康管理的概念,把系统的状态分为健康、亚健康、故障三种状态。真正处于健康状态或者故障状态的系统很少,绝大多数系统都处于亚健康状态。也就是说系统中或多或少存在一些GrayFailure因素存在。GrayFailure和不同的Failure不同,可能是一些对系统影响细微的小问题,比如一个临时性的业务峰值,一个IO延时的抖动,一个网络的轻微丢包,这些问题不去
GrayFailure与系统健康管理
发布时间:2021-2-25 3:01:34 点击数: 次