{{tag>netadmin supervision mooc}}
====== S1: Concepts clé avec SNMP ======
Notes prises au cours de la semaine 1 du MOOC **Supervision de Réseaux et Services** proposé par l'Université de Lorraine sur la plateforme fun mooc session janvier 2020.
===== Architecture du Système de gestion =====
Le **NM System**((**N**etwork **M**anagement **System**)) désigne l'ensemble des éléments et outils permettant la supervision et le contrôle du réseau. Il est constitué par:
* Une interface de gestion appelée **NM Application**, synthétisant les informations de gestion et permettant à l'administrateur de lancer des commandes/tâches de gestion sur le réseau.
* Un ensemble de nœuds pouvant être gérés. Chacun d'entre eux exécutant une **NM Entity**((Network Management Entity)) chargée de gérer le nœud en collectant, stockant et transmettant les informations au gestionnaire et en exécutant les commandes reçues.
Le NM system perçoit l'ensemble du réseau comme un tout. Il offre une vue globale du système.
Une **NM Entity** est mise en œuvre par l’exécution d'un **Agent** sur le nœud. C'est un processus local chargé des opérations de gestion. Les agents gèrent différentes informations/ressources/attributs du nœud appelées **Managed Objects**
L'administrateur gestionnaire dispose de l'application de gestion appelée Manager communiquant avec les Agents.
Certains équipements peuvent ne pas respecter scrupuleusement les standards et ne pas s'interfacer directement avec le Manager. Dans ce cas la mise en place d'un proxy permet l’interfaçage.
===== Stratégies de supervision =====
* **Polling**: sondage périodique de l'Agent.
* **Event-reporting**: Le Manager reste à l’écoute des Agents qui envoient les événements.
Les deux stratégies sont utiles et peuvent coexister en fonction des besoins. Le Polling est réputé plus fiable et plus léger coté Agent mais il est moins réactif lors de l'apparition d'événements et génère plus de trafic.
===== Métriques =====
Des données de supervision (métriques) peuvent être brutes ou déduites/calculées à partir des données collectées.
==== La disponibilité ====
La **disponibilité** exprime la proportion du temps où le service est disponible pour les utilisateurs.
On le calcule en comparant le temps moyen entre 2 pannes **MTBF**((**M**ean **T**ime **B**etween **F**ailures)) et le temps moyen entre deux pannes auquel est ajouté le temps moyen de remise en service **MTTR**((**M**ean **T**ime **T**o **R**epair))
A = MTBF/(MTBF+MTTR)
Selon l'infrastructure le calcul de la disponibilité diffère:
* Si deux composants sont en série, la disponibilité est impactée dès qu'un élément est en panne. La disponibilité globale correspond au produit des disponibilités : A x A
* Si les composants sont en parallèle, le système est indisponible dans le cas ou les éléments sont en panne au même moment: 1-(1-A)² <=> 2A-A²
==== Le temps de réponse ====
Temps s'écoulant entre la sollicitation et la réponse effectivement retournée par le système. Il résume plusieurs délais (selon la complexité et les dépendances du système) en une seule métrique.
Le temps de réponse est souvent caractérisé à l'aide d'intervalles. Il doit rester faible pour que les services soient perçus comme réactifs par les utilisateurs.
==== Précision ====
La précision ou **accuracy** indique la quantité de données transmises sans erreur.
==== Débit ====
Le débit ou **throughput** nombre d'événements par unité de temps.
==== Taux d'utilisation ====
Le taux d'utilisation d'une ressources indique le pourcentage d'utilisation d'une ressource par rapport à ses capacités.
Il existe de nombreuses métriques et façon de les présenter:
Matrices, courbes etc.
Il faut trouver le bon compromis entre des mesures exhaustives et coûteuse pouvant devenir contre productives en surchargeant le système et provoquant des pertes et un échantillonnage trop grossier laissant échapper trop d'information.