SRE原理与实践:构建高可靠性互联网应用
上QQ阅读APP看书,第一时间看更新

Foreword
推荐序2

SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性展开的。我一直把质量、成本、效率、安全作为运维的4要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。

今天的IT应用架构复杂度高、迭代速度快,如何让IT系统可控地运行,不仅是运维人,更是所有IT人面临的重要挑战。本书作者长期在互联网公司从事海量应用的运维工作,SRE经验非常丰富。本书首先介绍了可靠性的定义、度量以及分析设计等,重点讲解了观测性手段的使用方法,然后从故障管理的角度阐述了如何保障可靠性,接着利用大篇幅讲解了故障应急预案管理以及主动的混沌工程反脆弱,最后回归到可靠性工程,把它变成一个全面的管理命题而非单纯的技术命题对待。

可以说,本书考虑到了不同IT角色的需要,对每一种角色都有明确而具体的价值:

□对IT管理者来说,可靠性是一个非常重要的IT命题,基于可靠性可以完善IT管理的手段,比如监控、故障管理、IT治理、IT架构治理等;

□对开发人员来说,可靠性能力建设不再是运维的工作,许多手段是要前置的,可靠性不是保障出来的,而是需要提前设计、开发和管理的;

□对测试人员来说,要主动管理故障,特别是混沌工程,需要测试人员的深度参与,借助故障注入手段在测试阶段帮助系统发现脆弱点;

□对运维人员来说,最终的可靠性一定要体现到生产系统中,运维是可靠性的代言人,但运维的视角要足够的开阔,管理和控制的手段要丰富全面,方能保障系统可用性,从而保证业务的连续性。

最后,再次感谢作者不吝词语,共享此作!希望本书能够帮助大家打造出高可靠性IT平台。

——王津银(运维老王)优维科技CEO