Table des matières

, ,

Nagios: Services, états et tests

Approfondissement des notions de service, de test et d'état de service et de la façon dont elles sont liées.

Sous Nagios un hôte exécute un ou plusieurs services testés régulièrement. Tout paramètre de configuration, toute valeur observable sur un équipement et permettant d'inférer l'état d'un service (ex: espace disponible sur une partition, nombre de processus etc) peut être utilisé pour définir un test.

Les tests retournent un code de sortie qui caractérise l'état du service:

Valeur Status
0 OK
1 Warning
2 Critical
3 Unknown

Les tests peuvent s’exécuter localement ou à distance via des protocoles réseaux (snmp, icmp). Les tests sont mis en œuvre par des plugins correspondant à des binaires ou des scripts. Il est aisé de créer ses propres plugins en écrivant des scripts prenant en entrée des paramètres de configuration Nagios et des valeurs de seuils et retournant le code de sorti adéquat.

L'état d'un service est une image de ce que Nagios observe de l'infrastructure via les tests.

Les résultats des tests provoquent les transitions entre les différents états. Dans les cas des status Warning et Critical, on distinguera des états soft et hard(confirmé). Plusieurs tests successifs doivent retourner une même valeur avant que l'état soit confirmé (hard). Le service va donc passer d'abord par un état soft (soft warning ou soft critical) pour ensuite basculer sur l'état hard (hard warning ou hard critical) seulement après un certain nombre de resultat du même type. Les notifications sont envoyés au administrateurs et aux usagers lorsque les états hard sont atteints/quittés.

La fréquence des tests n'est pas la même selon que le service se trouve dans un état soft ou hard. En général l'état soft requiert des tests additionnels pour confirmer l'état du service. On augmente habituellement la fréquence des tests lorsque l'état est soft.

La création de ces sous états soft et hard sur les status warning et critical permettent notamment de limiter les faux positifs liés aux micro coupures réseau.

Un seul test retournant 0 permet de basculer d'un état hard vers l'état OK considéré comme confirmé.

Quizz

Références

Retour menu général du MOOC