Défaillance de serveur : risques, conséquences et parade

Lorsqu’il s’agit de criminalité sur Internet, les entrepreneurs pensent tout d’abord à l’espionnage industriel, au détournement de données commerciales sensibles ainsi qu’à la violation de données personnelles. Mais la digitalisation croissante a entraîné une augmentation des attaques en réseau d’une nouvelle nature. Toujours plus de domaines d’activité se protègent avec des infrastructures informatiques pour cela. Les entreprises étant connectées à des réseaux publics, cela offre aux cybercriminels la chance d‘accéder à différents systèmes illégalement. Si une cyberattaque aboutit à une panne du système, cela entraîne une interruption de l’activité qui peut être très coûteuse pour l’entreprise. Une défaillance de serveur peut en quelques minutes entraîner des dommages de plusieurs milliers d’euros. Les pertes sont d’autant plus importantes lorsque la panne concerne un serveur qui héberge une boutique en ligne ou bien une base de données centralisée. Mais les pannes de serveur n’ont pas seulement des conséquences externes. Certains risques pèsent en effet sur le fonctionnement interne de l’entreprise.

En dehors de la prévention de menaces et de procédures standards dans le cadre d’un retour de l’activité à la normale, un concept de sécurité solide comprend pour cela des mesures organisationnelles et personnelles. Les mesures de prévention reposent généralement sur la compensation : techniquement, cela consiste à mettre à disposition une redondance matérielle pour obtenir une haute disponibilité ou bien compenser la panne avec un système réserve. La sécurité des données est assurée via des sauvegardes et logiciels de récupération de données ainsi qu’à travers une architecture de stockage redondante. Les conséquences financières d’une panne de serveur peuvent être amorties par des assurances.

Aperçu des scénarii de pannes

Les experts en sécurité différencient deux types de sources à risques causant de telles pannes de serveurs : des menaces externes et internes. Les menaces internes rassemblent tous les scénarii où les défaillances sont provoquées par votre propre infrastructure informatique, comme par exemple le système d’alimentation ou les erreurs venant des employés. Les menaces externes quant à elles sont généralement causées par des attaques malveillantes ou par des évènements imprévisibles extérieurs comme des accidents ou des catastrophes.

Sources de danger internes :

  • Incendie dans le centre de données
  • Panne d’électricité dans le centre de données
  • Panne matérielle (crash du disque dur, surcharge, surchauffe)
  • Erreurs logicielles (panne de la base de données)
  • Problèmes réseau
  • Erreur humaine

Sources de danger externes :

  • Infiltration (Attaque de l’homme du milieu, Hameçonnage, ingénierie sociale)
  • Sabotage (Attaques sur systèmes SCADA)
  • Virus, Cheval de Troie, Vers
  • Attaque par déni de service (DDoS)
  • Vol du matériel
  • Cas de force majeure (séisme, coup de foudre, inondation) 
  • Accidents (Catastrophe aérienne)
  • Attentats

Il est en général plus facile de prévenir des menaces internes qu’externes pour les entreprises. La raison à cela est que les hackers adaptent continuellement leur modèle d’attaque aux standards de sécurité utilisés par les entreprises, qui doivent sans cesse faire face à ces intrusions. Les sources de menaces internes sont au contraire anticipées durablement à travers une alimentation en courant sans interruption, des mesures de protection contre les incendies, par l’augmentation de la disponibilité des serveurs et par des formations de sécurité complètes.

Conséquences d’une panne système

Une défaillance de serveur entraîne des dommages financiers. C’est très clair pour la plupart des entreprises. Une étude de Techconsult en 2013 nous montre quels coûts résultent concrètement d’une heure de panne. Une étude a entre autres été menée chez HP Allemagne dans 300 entreprises de 200 à 4999 employés. Environ 77 pourcent des interrogés notaient des défaillances critiques de systèmes informatiques au cours de l’année précédant l’étude. Les principales concernées étaient les entreprises marchandes, de production, et de distribution. Cela aboutissait en moyenne à quatre défaillances par entreprise pendant la période de l’étude. Le temps moyen nécessaire pour récupérer les données était de 3,8 heures.

Les coûts entrainés par heure de panne varient selon la taille de l’entreprise. Tandis que les entreprises de moins de 500 employés constataient des dégâts à hauteur de 20 000 euros par heure de panne, celles de 1 000 employés devaient débourser le double, soit 40 000 euros par heure. Si l’on prend en compte le temps de réparation de la défaillance du serveur et la récupération des données, cela représente un coût annuel moyen de 380 000 euros pour les entreprises de taille moyenne.

Mais la portée que peut avoir une panne de serveur pour une entreprise en matière d’interruption de l’activité dépend beaucoup de la branche et du modèle commercial. Il est en principe possible pour les employés de trouver des activités alternatives, en organisant des rendez-vous, appels téléphoniques, ou en avançant des rendez-vous clients. Mais si tous les processus centraux sont pilotés via un système informatique, un temps d’arrêt peut s‘avérer particulièrement embêtant. Cela est d’autant plus coûteux pour les boutiques en ligne dont le fonctionnement est arrêté et ne permettant plus aux clients de passer des commandes ou bien paralysant la production en cas de défaillance du système SCADA.

Le calcul des coûts d’une interruption de l’activité devrait, en dehors du taux horaire des employés dans l’incapacité de travailler, aussi tenir compte des pertes liées aux commandes existantes n’arrivant pas à destination, des pénalités de retard en fonction des contrats, etc. On ajoute à cela les dégâts liés à l’image de l’entreprise, difficilement calculables.

Parades aux pannes de serveurs

Pour combattre ces défaillances de serveurs, il s’agit de lutter contre les risques réels à travers des mesures de prévention. Celles-ci se réfèrent en général à une série de mesures organisationnelles pour le choix et la conception de l’environnement des serveurs.

Protection incendie et système d’alimentation

Pour protéger des serveurs d’influences physiques telles que des incendies, inondations, pannes d’électricité ou encore d’actes de sabotage, votre salle des machines doit être équipée en conséquence. Cela commence dès le choix de son emplacement. Les caves ne sont pas recommandées pour les risques d’inondation qu’elles comportent. Par ailleurs, l’accès à cette salle devrait être limité aux spécialistes et cette dernière devrait être équipée de cloisons de sécurité. Ces espaces ne doivent, durablement, pas être pensés comme des places de travail.

Les dégâts engendrés par des incendies peuvent être parés via des systèmes de protection incendie.  Cela regroupe aussi bien l’installation de portes incendie, de dispositifs de détection de fumée, d’extincteurs portatifs, ou encore de systèmes d’extinction automatiques (à gaz par exemple).  D’autres mesures préventives consistent à se protéger de risques d’incendies en utilisant des matériaux (machines, câbles, etc.) convenables et résistants au feu et en évitant tout produit inflammable.  

Les appareils électroniques produisent de la chaleur. Une augmentation de la température dans la salle du serveur peut être la conséquence de l’ensoleillement tout simplement. Pour éviter les défaillances de serveur et les données erronées, des appareils de ventilation et des systèmes de refroidissement plus performants peuvent être utilisés. Les conditions optimales de stockage pour les médias de stockage de longue durée sont les suivantes : une température se situant entre 20 et 22 degrés et une humidité de 40 pourcent.

Une condition fondamentale pour le fonctionnement du serveur sans interruption est une alimentation constante en courant. Une interruption de plus de 10 ms est déjà considérée comme un dérangement. Pour cela, vous pouvez mettre en place un pont électrique à l’aide d’une alimentation de secours. Cela permet une exploitation autosuffisante de l’électricité, indépendamment du service public d’électricité, lorsqu’une interruption de cette dernière survient.

Fiabilité et disponibilité

Les entreprises de taille moyenne sous-estiment très souvent les conséquences de telles pannes de systèmes informatiques sur leur activité. Une raison à cela est la haute fiabilité des composants standards utilisés aujourd’hui en entreprise. Leur disponibilité est en général de 99,9 pourcent. Un chiffre qui peut paraître élevé, mais qui peut engendrer une interruption maximale de 9 heures sur une année en exploitant les ressources 24 heures sur 24. Si une interruption survient à un moment de grande affluence, l’entreprise peut payer très cher une indisponibilité relativement courte. Ces systèmes informatiques d’une haute disponibilité de 99,99 pourcent sont d’ailleurs utilisés comme standard pour la mise à disposition de données sensibles. Avec ce type de matériel, un temps d’arrêt maximal de 52 minutes par an est garanti. C’est pour cela que les experts parlent d’un système informatique à très haute disponibilité.

Le problème de ces chiffres sur la disponibilité est qu’ils concernent uniquement le matériel du serveur. Selon la définition du IEEE (Institute of Electrical and Electronics Engineers), un système hautement disponible est caractérisé en tant que tel lorsqu’il assure la sécurité des ressources informatiques même quand il y a une panne d’un composant système :

High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.”

Une telle disponibilité est atteinte avec l’utilisation de serveurs redondants. Tous les composants importants, en particulier les processeurs et unités de stockages et I/O sont mis deux fois chacun à disposition. Cela permet d’empêcher qu’un composant défectueux ne paralyse le serveur. Mais une haute disponibilité ne protège pas contre les incendies, logiciels malveillants, attaques par déni de service, sabotages ou encore la reprise du serveur par un pirate. Pour ces raisons, les entrepreneurs ont dû prévoir des temps d’arrêt bien plus longs et prendre les mesures correspondantes de prévention et de prise en charge des dégâts.

Il existe d’autres stratégies pour compenser la défaillance de ressources dans un service informatique comme un système de secours ainsi qu’une grappe de serveurs pour assurer une haute disponibilité en toute situation. Les deux approches se basent sur une association de deux serveurs ou plus, permettant de mettre plus de ressources matérielles à disposition que ce qu’une activité normale ne nécessite.  

Un système de secours est un second serveur assurant la protection du serveur primaire et prenant en charge ses fonctions en cas de problème matériel ou logiciel. La prise en charge du service est appelée basculement et est automatiquement introduite par le groupement de logiciels de gestion sans intervention de l’administrateur. Une telle construction de nœuds actifs et passifs en tant que groupe de disponibilité asymétrique est envisageable. On parle de structure asymétrique lorsque tous les nœuds du groupe permettent un fonctionnement normal du service.  

Etant donné que la migration d’un service d’un système sur un autre entraîne un retard, on ne peut complètement empêcher l’interruption du service sur des systèmes de secours ou des grappes à haute disponibilité.

Systèmes de défense

Différents programmes sont à disposition des Webmasters pour se protéger de l’influence des hackers, en repérant les intrusions et en s’en protégeant. Pour protéger un serveur d’accès non autorisés, les systèmes critiques sont isolés des réseaux publics via des pare-feu et zones démilitarisées (DMZ).

Les systèmes de reconnaissance d’intrusions, ou Intrusion Detection Systems (IDS), permettent une surveillance automatisée des serveurs et réseaux, et sonnent l’alarme lors de tentatives d’intrusion ou d’attaques automatisées via des logiciels malveillants : un processus qui s’appuie sur un modèle de reconnaissance et d’analyse de statistiques. Si des Intrusion Prevention Systems (IPS) sont mis en place, des mesures de protection automatisées suivent cette alarme. Une connexion au pare-feu est nécessaire, pour que des paquets de données puissent être rejetés, ou que des connexions suspectes soient interrompues.

Afin de tenir les hackers à l’écart des systèmes informatiques critiques, les administrateurs se servent de ce qu’on appelle des Honeypots. Ces derniers apparaissent comme des cibles de choix aux yeux des cybercriminels, fonctionnent de manière isolée du système de production et n’ont donc pas d’influence sur son fonctionnement. Ces Honeypots sont surveillés constamment et ils permettent de réagir à des agressions et d’analyser les modèles d’attaque utilisés ainsi que les stratégies actuelles.

Sécurité et récupération des données

Afin de vite récupérer des données commerciales sensibles en cas de panne de serveur, il est recommandé d’élaborer un concept de sauvegarde informatique conforme aux standards industriels internationaux comme ISO 27001. Ceci permet de déterminer qui est responsable de la sauvegarde informatique et de nommer les personnes ayant un pouvoir de décision en cas de récupération de données. Un tel concept de sauvegarde informatique détermine par ailleurs quand une restauration doit être effectuée, combien de générations doivent être sauvegardées, quel média de stockage doit être utilisé et si des modalités spéciales de transfert comme un cryptage sont nécessaires. Le type de sauvegarde est par ailleurs défini :

  • Sauvegarde complète des données : si toutes les données à enregistrer sont déposées à une certaine heure sur un système de stockage supplémentaire, on parle de sauvegarde informatique pleine. Si les données ont changé depuis le dernier processus de sauvegarde, cela ne sera pas pris en compte avec de telles sauvegardes. Une sauvegarde complète des données prend pour cette raison beaucoup de temps et exige une capacité de stockage élevée, surtout lorsque plusieurs générations de données sont conservées parallèlement. Ce type de sauvegarde informatique marque cependant des points via une récupération de données simple et rapide, car seule la dernière sauvegarde stockée doit être reconstituée. Mais les entreprises perdent cet avantage lorsque les sauvegardes sont effectuées trop rarement. Un tel cas implique une plus grande quantité de travail pour adapter les fichiers modifiés avec l’état actuel.
  • Sauvegarde incrémentale des données : si des entreprises se décident pour une sécurité de données incrémentale, la sauvegarde ne concerne que les données qui ont été modifiées depuis la dernière sauvegarde. Cela réduit ainsi le temps nécessaire pour effectuer une sauvegarde, mais cela n’est pas tout. Le besoin en capacité de stockage pour différentes générations est également sensiblement plus faible qu’avec une sauvegarde complète. Une sauvegarde informatique incrémentale présuppose au moins une sauvegarde complète. En pratique, cela aboutit souvent à des combinaisons de stratégies de stockage. Lors d’une récupération de données, c’est la sauvegarde complète qui sert de base et qui est complétée par les données des cycles de sauvegardes incrémentales. En général, plusieurs sauvegardes informatiques doivent être ajustées l’une après l’autre.
  • Sauvegarde différentielle : même une sauvegarde différentielle est construite sur une sauvegarde complète. Toutes les données qui ont été modifiées depuis la dernière sauvegarde complète sont sauvegardées. A la différence d’une sauvegarde incrémentale, il ne s’agit pas d’un engrenage de sauvegardes. Une adaptation de la dernière sauvegarde complète avec la sauvegarde différentielle actuelle suffit à une récupération de données.

La stratégie de sauvegarde à mettre en place dans votre entreprise dépend du besoin de disponibilité ainsi que divers aspects économiques. Les principaux facteurs de sélection sont la tolérance aux temps de récupération de données, la fréquence, les dates des sauvegardes ainsi que le rapport entre volume de modifications et volume total de données. Si ces derniers sont plus ou moins superposables, l’économie d’espace via les processus incrémentaux ou différentiels est négligeable.

Formations

Il n’est possible de prendre des mesures relatives à sécurité de l’information que lorsque les employés sont conscients de son impact sur la situation économique de l’entreprise. Une telle prise de conscience autour de la sécurité se développe à travers des formations régulières qui sensibilisent les employés aux risques internes et externes ainsi qu’à leurs conséquences.

Ces informations permettent de comprendre à l’utilisation et la mise en place d’appareils en termes de sécurité ainsi que les concepts d’urgence afin de faciliter un retour à la normale aussi vite que possible en cas de défaillance. Le Business Continuity Management constitue un angle d’approche structuré pour la création de tels concepts.

Business Continuity Management (BMC)

Afin de réduire autant que possible les dégâts liés à des défaillances de serveurs, les entreprises investissent de plus en plus dans des mesures de prévention. L’accent est pour cela mis sur ce qu’on appelle le Business Continuity Management (BMC). Dans le domaine de l’informatique, les stratégies BMC visent à combattre les pannes de serveurs dans des domaines commerciaux critiques, ainsi qu’à assurer une reprise immédiate de l’activité. Un prérequis pour un tel management d’urgence est ce que l’on nomme en anglais Business Impact Analyse (BIA). Cette analyse aide les entreprises à identifier les processus commerciaux critiques. Un processus est défini comme critique lorsqu’une panne a des répercutions significatives sur l‘activité. Le BIA se concentre tout d’abord sur les conséquences concrètes de scénarii de dégâts. Les causes d’une panne de serveur sont passées en revue dans le cadre de cette analyse des risques. Les contenus de divers standards et colombages nous montrent comment peuvent être mis en place, méthodiquement, les BIA et analyses de risques dans le cadre d’une BMC.

Business Impact Analyse (BIA)

La première étape sur la route du Business Community management est la Business Impact Analyse, ou analyse d’interruption de service en français. Les questions principales dans le cadre de cette analyse sont : quels systèmes sont d’une importance capitale pour maintenir le cœur de l’activité en état ? Et quelles conséquences entraînent une panne de ces systèmes sur l’activité ? Il est pour cette raison recommandé d’identifier tous les produits et services importants de votre entreprise, ainsi que leur infrastructure informatique. Si une entreprise mise en premier lieu sur la vente sur Internet, les serveurs mettant à disposition la boutique en ligne et les bases de données associées doivent être particulièrement protégés. Un Callcenter considèrera au contraire l’installation téléphonique comme cruciale. La BIA classe comme prioritaires les systèmes visant à la protection, aux calculs des dommages ainsi qu’à la reprise des ressources du système.

Analyse des risques

L’analyse des risques en management d’urgence a la fonction d’identifier les sources de dangers internes et externes qui pourraient entraîner une panne de serveur et l’interruption de l’activité qui en résulte. Le but est de rendre transparent les risques de sécurité et leurs conséquences, afin de trouver les parades adaptées et réduire les risques potentiels. Une évaluation des risques peut être effectuée en fonction des dommages anticipés et la probabilité correspondante. Le standard BSI 100-4 nous livre un exemple de classification des risques, comme le montre le tableau ci-dessous :

Enregistrement de l’état actuel

Si les sources de danger et de dégâts potentiels de pannes concrètes de serveurs ont été déterminées dans le cadre d’une BIA et d’une analyse des risques, il convient ensuite d’effectuer un enregistrement de l’état actuel, toujours dans cette stratégie de continuité. Les mesures de précaution d’urgence établies ainsi que les temps de redémarrage actuels y sont d’une grande importance. L’enregistrement de l’état actuel réel permet à des entreprises d’évaluer un besoin d’agir face à des menaces concrètes de sécurité ainsi que les frais liés à cela.

Choix de la stratégie de continuité

Il existe en général diverses stratégies pour les différentes sources de dangers externes et internes, permettant la continuation de l’activité, ou du moins une reprise rapide, malgré les dysfonctionnements rencontrés. Le choix de la stratégie de continuité à adopter dans une situation critique se fait dans le cadre du Business Continuity Management. L’analyse coûts-utilisation constitue la base de cette décision car elle contient les facteurs principaux ainsi que les moyens financiers nécessaires, le niveau de fiabilité de la solution et le temps de redémarrage estimé.  

Si une stratégie visant à prévenir un incendie dans le centre informatique doit être développée, il y a plusieurs approches de solutions au choix : les solutions minimales sont la compensation des dégâts via des assurances « pertes d’exploitation » de fournisseurs de service. Une stratégie plus coûteuse serait la construction d’un espace informatique moderne et anti-incendie, selon les standards de prévention et de protection. Si de plus gros investissements sont possibles, vous pouvez envisager la construction d’un deuxième espace, comportant des serveurs redondants.

Les stratégies de continuité élaborées sont déterminées dans le concept de sécurité d’urgence qui contient les instructions d’actes concrètes pour tous les scénarii d’urgence critiques.