第3章 数据中心的可靠性/可用度模型
在日常生活中,人们在购买一种商品或对一种商品进行评价时,总会有这样的问题:这商品能用多长时间?是否容易损坏?这就是可靠性问题,就是人们对可靠性的一般认识。可见,可靠性的问题早已是人们生活中的一部分。随着科学技术的发展,特别是近十几年来各种技术取得了突破性进展,使得如今的系统越来越复杂,功能也越来越强大。由于系统功能的强大和复杂程度的提高,随之产生的系统可靠性问题便日益突出。
如今的系统承载着大量的信息,一旦发生崩溃,所带来的损失是无法估量的。特别是计算机网络和通信网络技术的飞速发展,引发人类社会第三次技术革命“信息革命”,从根本上改变了人们的生活方式,人们越来越多地依赖于网络、信息的存在,使得人们对信息系统可靠性的要求也越来越高,日益向着高可靠性和高可用性的趋势发展。
如何设计具有高可靠性和高可用性系统的数据中心一直以来是全球数据中心行业的研究热点。本书将对数据中心的可靠性模型进行研究和分析,为数据中心规划、设计、建设、评估等提供有效的可靠性分析方法。
3.1 可靠性研究的发展
可靠性问题涉及社会的各个方面,其概念的历史几乎与人类社会一样的漫长。但是,可靠性作为一种概念最早是在第二次世界大战期间提出的,当时的武器系统远没有现在的武器系统可靠性高,许多武器还未运送到战场就已经瘫痪,更不用说在战场上发挥作用,因此造成了很大的损失。据统计,当时由于故障而损失的飞机是被击落的飞机的2.5倍,这一结果引起了军方的高度重视,从此促进了可靠性的提出、研究与发展。
可靠性问题提出至今已经60多年了,它的发展可以分为下列三个阶段。
(1)第一阶段:20世纪30—40年代的初期发展阶段。这一时期经历了两次世界大战。战争中,运输工具和武器装备因大比例“意外故障”而失效,使得人们注意到并开始研究这些“意外故障”发生的规律,这就是可靠性问题的提出。
第二次世界大战末期,德国火箭专家R.Lussen首次把V-II火箭诱导装置作为串联系统,利用概率乘法,求出其可靠度为75%,标志对系统可靠性研究的开始。
(2)第二阶段:50—60年代可靠性技术发展形成阶段。在这一时期,世界不少发达国家都注意到产品可靠性问题,并对可靠性问题进行了深入的研究。
1952年,美国国防部成立了一个电子设备可靠性常设顾问团(Advisory Group on Relia-bility of Electronic Equipment,AGREE),专门对电子设备的可靠性进行研究。它成为世界上第一个主要的可靠性研究组织,并在1957年发表了第一份报告,包括可靠性的一些定义、可靠性测试要求等。
此后,日本、英国、法国、前苏联等相继成立了许多新的可靠性研究组织。到20世纪60年代,可靠性已经发展成为一门独立的工程基础研究。
(3)第三阶段:70年代以后可靠性的国际化发展阶段。这一阶段随着电子产品大量运用,可靠性问题得到了全球各国重视,一些国际学术组织开始处理专门委员会推动可靠性研究的国际化。
1977年,国际电子技术委员会(International Electrotechnical Commission,IEC)设立了可靠性与可维修性技术委员会,负责协调各国的可靠性用语与定义、可靠性管理、数据收集等。可靠性研究已经由电子、航空、宇航、核能等尖端工业部门扩展到电动机与电力系统、机械、动力、土木等一般产业部门,扩展到工业产品的各个领域。
根据世界发展趋势,只有高可靠性的产品和企业才能在日趋激烈的竞争中生存下来。全球的企业把对可靠性的研究工作提高到节约资源和能源高度,力求通过可靠性研究来延长使用期限,通过有效的可靠性分析、设计达到有效利用材料、减小劳动投入和提高产品质量目的。