Ganglia集成Nagios组合监视企业集群并设置邮件报警

Ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是Ganglia在预警以及发生事件后通知用户上并不擅长。最新的Ganglia已经有了部分这方面的功能。可我们为什么不找一个更擅长此道的人去做呢?Unix上的一个核心思想也是不要大而全的软件,通过把各种在某些方面擅长的软件组合起来来完成更多的工作。Nagios,就是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起来,把Ganglia采集的数据作为Nagios的数据源,然后利用Nagios来发送预警通知,可以完美的实现一整套监控管理的系统。

Ganglia的安装运行:http://www.3mu.me/%e4%bc%81%e4%b8%9a%e7%ba%a7%e5%bc%80%e6%ba%90%e7%9b%91%e6%8e%a7%e8%bd%af%e4%bb%b6ganglia-%e5%ae%89%e8%a3%85%e4%b8%8e%e9%85%8d%e7%bd%ae/

Nagios的安装运行:http://www.3mu.me/linuxcentos%e7%b3%bb%e7%bb%9f%e9%80%9a%e8%bf%87yum%e5%ae%89%e8%a3%85nagios%e7%9b%91%e8%a7%86%e8%bd%af%e4%bb%b6%e4%b8%8e%e9%85%8d%e7%bd%ae/

Ganglia与Nagios的结合
1、解压源码ganglia-3.1.7.tar.gz,将check_ganglia.py复制到/etc/nagios目录下。

2、创建ganglia-services.cfg文件(参考自 http://www.ibm.com/developerworks/cn/linux/l-ganglia-nagios-2/)

define host {
	use linux-server
	#host_name server111.example.com
	host_name 192.168.1.111
	address 192.168.1.111
}

define hostgroup {
	hostgroup_name ganglia-servers
	alias   nagios server
	#members server111.example.com
	members *
}

define servicegroup { 
	servicegroup_name ganglia-metrics 
	alias Ganglia Metrics
}

define command {
	command_name check_ganglia
	command_line $USER1$/check_ganglia.py -h $HOSTNAME$ -m $ARG1$ -w $ARG2$ -c $ARG3$
}

define service { 
	use generic-service 
	name ganglia-service 
	hostgroup_name ganglia-servers
	service_groups ganglia-metrics 
	notifications_enabled 0
}

define service { 
	use ganglia-service 
	service_description load_one 
	check_command check_ganglia!load_one!4!5
}
define service { 
	use ganglia-service 
	service_description ambient_temp 
	check_command check_ganglia!AmbientTemp!20!30
}
define service { 
	use ganglia-service 
	service_description disk_free 
	check_command check_ganglia!disk_free!10!5
}

3、把文件路径加入 /etc/nagios/nagios.cfg中,即加入一句 cfg_file=/etc/nagios/objects/ganglia-services.cfg

4、验证配置正确性
# nagios -v /etc/nagios/nagios.cfg   # 验证nagios配置文件是否正确
# /etc/init.d/nagios restart #重启nagios服务

5、测试
# /usr/lib64/nagios/plugins/check_ganglia.py -h 192.168.1.111 -m bytes_in -w 10 -c 20
输出如下信息则为正常:
CHECKGANGLIA CRITICAL: bytes_in is 5498665.00

6、刷新web监控页面即可看到类似如下最终效果。

nagios

参考资料:
Ganglia 和 Nagios,第 1 部分: 用 Ganglia 监视企业集群:https://www.ibm.com/developerworks/cn/linux/l-ganglia-nagios-1/
Ganglia 和 Nagios,第 2 部分: 使用 Nagios 监视企业集群:http://www.ibm.com/developerworks/cn/linux/l-ganglia-nagios-2/
Nagios 集成 Ganglia:http://coolsa.org/?p=117
Ganglia与Nagios的最简易安装运行:http://hi.baidu.com/maiyudaodao/item/c177ad304908d41c9cc65eea
ganglia + nagios 安装及 nagios 配置进阶:http://blog.sina.com.cn/s/blog_6cf467320100m2rw.html
集成 Nagios 报告 Ganglia 指标:http://sushan.blog.51cto.com/3532080/719170
nagios 整合 ganglia 设置邮件、短信报警:http://www.cnblogs.com/Nstd/archive/2012/11/08/2760180.html
ganglia+nagios :http://blog.163.com/sjt_linux/blog/static/1993103192012615018698/
RHEL6.0+Ganglia+Nagios+fetion:http://blog.chinaunix.net/uid-26118446-id-2953385.html

发表评论?

1 条评论。

  1. 不错不错~
    xiaorui.cc

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据