Table des matières

MOOC Supervision de réseaux et services

MOOC Supervision de réseaux et services

Session de janvier 2020.

Semaine 0

Définitions et objectifs

La supervision désigne l' ensemble des normes et techniques automatisées assurant le bon fonctionnement du réseau au cours du temps. Deux principales activités pour répondre à cet objectif:

Supervision ou monitoring: Collecte des infos sur l' état des nœuds (observer, analyser).
Contrôle: Altération des paramètres de configuration (agir de façon adaptée, automatiquement).

On cherche au maximum à automatiser ces activités. Cela soulève plusieurs problématiques:

Comment organiser les informations de gestion?
Comment en définir de nouvelles?
Comment transmettre ces infos?

Pourquoi est-ce nécessaire?

Le développement de l'informatique à induit une augmentation: de la taille des réseaux, de leur complexité et de leur hétérogénéité. Ex de réseaux: Haut débit mobile, IoT
De nombreux services critiques s' appuient sur des réseaux: santé, banques, transports et sécurité des personnes. Le nombre d' équipements/protocoles a augmenté de concert pour répondre spécifiquement aux besoins.
Pour Maîtriser l'exploitation de ces réseaux complexes, il faut penser/concevoir des outils adaptés.

Pour chaque domaine de l'informatique des outils de gestion adaptés deviennent nécessaires: conception de circuits, développement logiciel OS, application etc

Pour chaque domaine il existe des organismes définissant standards et bonnes pratiques;

IETF: Internet Engeenering task force: standardisation des réseaux IP
ETSI European Telecomunication Standard Institute: Cloud, 5G

L' automatisation est but visé par la gestion de réseau.

Pour exemple, on peut évoquer l'exemple des adresses IP. A l'origine assignées manuellement au périphérique. Ce mode de fonctionnement est devenu incompatible avec la forte croissance des réseaux. En 96 apparition des serveurs DHCP. Puis avec IPv6 ICMPv6 permet d'auto-configurer les nœuds sans service externe.

L'automatisation permet d’accroître les possibilités de gestion.

L'OSI a définit les principaux objectifs de la gestion de réseau désignés aires fonctionnelles:

Gestion de fautes (Fault)
Gestion configuration et des noms (Configuration)
Gestion de la volumétrie (Accounting)
Gestion de la performance (Performance)
Gestion de la sécurité (Security)

En anglais ces objectifs sont désignés par F CAPS ¹⁾

L'objectif de la gestion de faute est de réduire le temps d'indisponibilité du système du à un problème.

On distingue les notions de faute et d'erreur. L'erreur est un événement isolé, une occurrence qui n'est pas forcement un péril pour le fonctionnement du système. Une faute est un condition anormale nécessitant une intervention et qui engendre des erreurs dans le système.

Les aires fonctionnelles plus en détail

La gestion de faute consiste à détecter au plus vite les fautes afin de rétablir au plus tôt le fonctionnement nominal du système.

Pour faciliter la gestion de fautes on prévoit en général de la redondance sur les éléments critiques (équipements ou services). Lorsqu'un faute est localisée, le réseau est temporairement reconfiguré pour pallier la défaillance puis le dispositif est remplacé.

Le défit lié à cette aire fonctionnelle: résolution rapide et fiable des fautes. Problématique: remonter les infos de supervision du réseau alors que l'état du réseau lui même est dégradé. C'est pour cela qu' en général un réseau distinct est dédié à la gestion du réseau.

La gestion de la configuration et des noms des équipements consiste à identifier précisément un équipement du réseau afin de pouvoir agir dessus:

Arrêter/démarrer le nœud à distance
charger différents modes de configurations

Défis liés au domaine:

standardisation des attributs des objets sur lesquels l' administrateur peut agir
authentification: restreindre l’accès des ressources critiques du réseau aux administrateurs.

La gestion de la volumétrie a pour but de comptabiliser avec assez de précision les usages du réseau afi de pouvoir par exemple:

Demander une rétribution aux usagers.
Anticiper l'évolution de l'infrastructure.
Détecter les cyberattaques.

Enjeux/défis: obtenir granularité des mesures suffisante pour les besoins opérationnels en limitant les surcoût liés à l'activité de supervision: temps de calcul, bande passante sur le réseau.

La Gestion des performances doit garantir que le réseau offre en permanence le niveau de performances adéquat. Pour cela il faut être en mesure de lire de nombreux indicateurs de performance sur les dispositifs et d'agir en cas de dégradation. Quelques exemples d'indicateurs usuels:

débit
latence
taux de pertes/retransmissions des paquets

Défis: définir les indicateurs et les seuils afin d'identifier au plus vite les goulots d'étranglement du réseau pour pouvoir y remédier. Ex: modifier les routages pour améliorer la répartition de la charge.

La gestion de la sécurité vise à protéger les ressources du réseau et les informations des utilisateurs contre les attaques principalement en:

Gérant les droits et méthodes d’accès aux différents nœuds du réseau et aux informations de gestion.
Supervisant et contrôlant des logs.

Défis/enjeux: Sécuriser la gestion du réseau elle même car elle permet d'agir en profondeur sur les nœuds et l'infrastructure.

REX Orange

Présentation d'un REX ²⁾ avec le fonctionnement de la supervision des réseau ADSL et fibre Orange.

Environ 47000 DSLAM pour le réseau ADSL et 1500 équivalents sur le réseau fibre. La supervision se répartie en 3 secteurs:

Remontée des alarmes
Diagnostic
Pilotage du rétablissement

A propos de la remontée des alarmes, au premier niveau basée sur des gestionnaires d' équipement propriétaires.

Couche de médiation, d' agrégation et de filtrage
Enrichissement par éléments contextuels
Définition du niveau de priorité

Introduction du big data pour l'aide au diagnostic. Centralisation des alarmes et corrélation plus large de différents types d'équipements et de réseaux avec un niveau d'analyse plus global offert par le big data.

L'activité de supervision exploite en général une galaxie de logiciels le cas Orange 35 applications environs. L' aspect sécurité est important: contrôle physique des accès sur sites et évolution des processus liés à la sécurité. Le métier de la supervision est en cours de mutation, forte évolution lié aux réseaux hétérogènes: arrivée de la 5G et fibre requiert capacité fortes d'adaptation.

La supervision de services chez Orange comprend entre autres:

Internet,
Télévision,
Mail
Mobile
Banking

La supervision se décline en:

Supervision techniques des équipements et plateformes
Supervision des services ( de bout en bout) tels que perçus par le client.

Identification de plusieurs niveaux de criticité des services en fonction du besoin client. Cela détermine la qualité de la surveillance: H24, heures ouvrables.

Robots et sondes génèrent les alarmes. Peut importe la source d'incident, la première étape consiste à reproduire le problème, tester afin écarter les faux positifs pouvant être remontés par robots/sondes. Ensuite pilotage du rétablissement, vérification du retour de service.

L'activité de supervision fait coopérer différents métiers et équipes en temps réel pour le suivi et la résolution d'incidents et en temps différé pour l'analyse des process et la mise en place de procédures automatisées.

REX Airbus

Airbus propose un service de supervision de sécurité. Le service est centralisé sur un site désigné SOC ³⁾. Son but est d' identifier, pour le compte de différents clients, les intrusions et comportements malveillants contre leur SI.

Pour réaliser la supervision de sécurité:

Prioriser les incidents: Avec couleurs/niveaux.
Analyser: Collecter les bons éléments techniques, le contexte permettant de qualifier l'incident. Pouvoir présenter rapidement et clairement les éléments à l'opérateur de sécurité.
S'appuyer sur une méthodologie. Les incidents de sécurité produisent du stress. Il est utile de pouvoir se référer à des procédures/fiches réflexe pour éviter les oublis/erreurs d'analyse.

Une fois les étapes précédentes passées, l'évènement est qualifié, l'opérateur a écarté les faux positifs.

Il faut ensuite mesurer l'impact sensibilité/criticité de l'incident.

A propos des outils et des méthodes:

Sondes, firewall et proxies: génèrent directement des évènements ou permettent l'audit (enregistrent les logs)
Le SIEM⁴⁾ Outil permettant la collecte,filtrage, indexation, corrélation des évènements.
Le ticketing (gestion de tickets) pour le suivi et le traitement des incidents: répartition des tâches, historique

Pour qualifier/analyser correctement les incidents, on s'appuie également sur des méthodes:

Normes et méthodes comme l'ISO 27001 ou l'ITIL⁵⁾
Au travers de formations en méthodologies d'analyse d'incidents dites digital forensics.

Profil idéal de l'opérateur technique: Curieux, méthodique, organisé, touche à tout. Attentif à l'actualité et la veille technologique.

Références

¹⁾

Fault, Configuration, Accounting, Performance, Security

²⁾

Retour EXpérience

³⁾

Security Operation Center

⁴⁾

Security Information and Event Management

⁵⁾

Information Technology Infrastructure Library

wikinotes

Outils pour utilisateurs

Outils du site