Nagios系统监控实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

1.2 处理和开销

监控系统会不可避免地带来一些额外的开销,主要以网络流量和资源占用的形式体现在被监控主机上。大多数监控系统通常都有一些特定的操作模式,所以系统的功能、实现方式的选择,决定了产生开销的对象和开销的数量。

1.2.1 远端处理与本地处理

Nagios将服务检测逻辑输出到插件中,插件是一种专用的小程序。这种架构能够方便快捷地扩展对新型服务的检测,也能整合已有的监控脚本。这种模块化的方式使其能够调用插件本身,无论是在本地监控服务器还是在远端被监控的主机上。

一般情况下,人们更加喜欢集中式的执行方式,因为这样被监控主机的资源占用就会更少一些,而且所有的配置都保存在一个地方。然而,远端处理是不可避免的,在某些情况下,可能这种方式更受欢迎。如在一个有上万台主机的超大型环境中,集中式的执行对于一台监控服务器来说可能负担过重而无法掌控。在这种情况下,监控系统可能需要依赖客户端自行进行服务检测并返回检测结果。有些类型的检测可能根本完全无法在中央服务器上执行,比如,检测系统负载或者剩余内存的插件需要在远端执行。

为了避免大家困惑,我需要说明的是,本地和远端的处理界线已经很模糊,有几种方式,例如Check_MK这样的插件(参见第6章),实现了“超级检测”,即一条服务检测命令能够返回多个服务的检测结果。类似的还有多种分布式监控方案(参见第7章),它可以通过多台Nagios服务器来分散服务检测的负载,通过与其他系统的集成,如Ganglia(参见第8章),可实现同类监控系统的状态共享和检测结果的复用。

1.2.2 带宽方面的考虑

几乎所有的插件都会产生一定的IP流量,这些流量在必须通过的每台网络设备上产生了网络开销,或者说系统中的设备之间产生了依赖关系。图1-1中,在服务器Nagios和服务器1之间有一台路由器1。因为Nagios必须通过路由器1才能连接服务器1,所以可以说服务器1是路由器的子节点。  因为Nagios访问服务器1的过程为:Nagios→路由器1→服务器1,只有路由器1有效的情况下,服务器1才能被检测到。因此服务器1在访问路径上是路由器1的子节点。—译者注 在监控系统和目标主机之间,要尽量少进行3层路由,特别是类似连接了防火墙和广域网(WAN)链路的地方。所以监控系统(或监控系统群)在网络拓扑中的位置成为了实施时的一个重要细节。

图1-1 在Nagios和服务器1之间的路由以第三层路由决策的形式形成了一个依赖,并带来一些网络开销

此外,为了尽量减少来自监控主机的第三层路由流量,我们也希望确保监控主机发出的流量尽可能少。这意味着需要注意诸如轮询间隔的设置以及冗余插件。冗余插件是指2个或以上的插件都在有效地监控着同一个服务。

冗余插件可能不是很明显。它们经常以两个插件的形式监控同一个服务,但是在不同的目录中。比如,一个Web服务镜像在服务器1上运行,而监控系统可能一开始设置为检测80端口连通性,以判断Web服务是否可用。而过了几个月之后,可能服务器1上的Web网站在用户验证方面存在问题,于是有人创建了用于检测验证有效性的插件。在这种情况下,我们只需要第二个插件,因为如果能够登录网站(用户验证通过),就表明80端口是可以连通的,而第一个插件不仅没用而且在浪费资源。冗余插件对于小型网站来说不是什么问题,但是小型网站往往发展成大型网站,而对大型网站来说,剔除冗余插件(能够一开始就避免它出现则更好)能够有效地降低监控系统和网络的负载。

最大限度减少环境的开销是从全局的角度考虑维护资源的一种手段。对于连接主机的广域网链路速度慢而且利用率过高,或者其他方面对资源利用非常敏感的地方,应该进行逻辑分组。这里可以使用Nagios提供的“主机组”(hostgroup)。使用主机组可以通过对配置进行优化,来满足该组的需求。比如,可以将主机组“远程办公室”某个插件的超时时间设置得更高,以确保主机在较慢的网络中不会因网络时延而产生误报。尤其要特别考虑监控系统的位置,以降低它对网络的影响,此外也要考虑到最小化它对其他设备的依赖(本章稍后会讨论这个问题)。此外,确保配置调整不会对所监控的系统和网络增加不必要的负担,冗余插件也一样。最后,监控系统要做的就是自身的调优。

[1] 因为Nagios访问服务器1的过程为:Nagios→路由器1→服务器1,只有路由器1有效的情况下,服务器1才能被检测到。因此服务器1在访问路径上是路由器1的子节点。—译者注