Nagios: Concepts et architecture

Usages

Nagios est un outil de monitoring assurant la détection de pannes ou dysfonctionnements au sein d'une infrastructure réseau. Si l'on se réfère aux aires fonctionnelles FCAS, on le classe donc dans la catégorie de la gestion des fautes même si certains modules permettent de l'adapter afin de répondre aux problématiques de performances (cacti).

Simple: Se déploie facilement au sein d'une infrastructure.
Extensible: ajout de plugins spécifiques permettant de s'adapter aux besoins.
open source: Logiciel libre sous licence GPL.

Le but de Nagios est de d'avertir les administrateurs d'un dysfonctionnement avant que les usagers de l'infrastructure ne soient impactés. Pour cela Nagios s'appuie sur un ensemble de tests exécutés régulièrement via son ordonnanceur.

Architecture fonctionnelle

Data Reaping: Collecte les informations via les tests et calcule l'état des ressources (hôtes et services).
Notification System: filtrage communication et escalade des notifications. Transmissions par l'IHM, mails, sms.
IHM: serveur web et scripts CGI.

Les test ou checks sont exécutés périodiquement par Nagios afin de déduire (d'inférer) l'état d'un service. Un test est implanté via un plugin contenant un binaire ou un script exécuté sur un équipement. Pour exécuter les tests à distance Nagios peut se reposer sur:

SSH
L'agent dédié NRPE¹⁾
méthodes passives équivalent au trap snmp. Les agents rapportent des alertes au serveur lorsque certains événements ont lieu.

Les tests peuvent permettre de détecter de nombreuses anomalies comme par exemple:

Panne réseau.
Défaillance de service sur un serveur de mail.
Surcharge sur un serveur de stockage.

Nagios peut également servir à contrôler l'état de services externes à l'infrastructure tels que des services web, du cloud etc.

Nagios intègre un système de notification sophistiqué permettant d'alerter les administrateurs lorsque un problème est détecté. Sophistiqué car il se permet le filtrage et escalade:

Le filtrage permet d’éviter la génération d'un trop grand nombre d'alertes de s'assurer que la bonne information est envoyée à la bonne personne.
L’escalade de notification va permettre d’établir une hiérarchie de contacts parmi une liste d'administrateurs.

Interface

Interface Web listant les machines et les services testés sur celles-ci. Chaque service a un état( son status) indiquant si le service fonctionne correctement ou non. D'auters informations sont affichées telles que l'horodatage du dernier test, nombre de test effectués et des informations plus détaillées sur le résultat du test.

Le status d'un service est caractérisé par une couleur sur l'IHM

Couleur	Etat (status)
Green	OK, le service fonctionne normalement.
Yellow	WARNING, état alerte.
Red	CRITICAL, service HS, intervention nécessaire.

Le sens donné par les états OK, WARNING, CRITICAL est définit par l'administrateur selon les besoins et les scénari d'usage de son SI.

Notes issues du Quizz

Notes et affirmations issues du Quizz:

Le principal objectif de Nagios est la détection/gestion des pannes.
Nagios permet la détection d'erreurs au niveau réseau, services et applications.
L’état d'un service peut être observé aussi bien depuis l'interface Web ou le service de notification de Nagios.
La couleur Yellow correspond à un état Warning.
Un test est mis en œuvre via un plugin.
L'architecture Nagios est centralisée.

Références

MOOC Supervision réseaux et services, Université de Lorraine, session janvier 2020

Retour menu général MOOC

¹⁾

Nagios Remote Process Executor

wikinotes

Outils pour utilisateurs

Outils du site

Table des matières