Les entreprises de taille moyenne sous-estiment très souvent les conséquences de telles pannes de systèmes informatiques sur leur activité. Une raison à cela est la haute fiabilité des composants standards utilisés aujourd’hui en entreprise. Leur disponibilité est en général de 99,9 pourcent. Un chiffre qui peut paraître élevé, mais qui peut engendrer une interruption maximale de 9 heures sur une année en exploitant les ressources 24 heures sur 24. Si une interruption survient à un moment de grande affluence, l’entreprise peut payer très cher une indisponibilité relativement courte. Ces systèmes informatiques d’une haute disponibilité de 99,99 pourcent sont d’ailleurs utilisés comme standard pour la mise à disposition de données sensibles. Avec ce type de matériel, un temps d’arrêt maximal de 52 minutes par an est garanti. C’est pour cela que les experts parlent d’un système informatique à très haute disponibilité.
Le problème de ces chiffres sur la disponibilité est qu’ils concernent uniquement le matériel du serveur. Selon la définition duIEEE (Institute of Electrical and Electronics Engineers), un système hautement disponible est caractérisé en tant que tel lorsqu’il assure la sécurité des ressources informatiques même quand il y a une panne d’un composant système :
„High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.”
Une telle disponibilité est atteinte avec l’utilisation de serveurs redondants. Tous les composants importants, en particulier les processeurs et unités de stockages et I/O sont mis deux fois chacun à disposition. Cela permet d’empêcher qu’un composant défectueux ne paralyse le serveur. Mais une haute disponibilité ne protège pas contre les incendies, logiciels malveillants, attaques par déni de service, sabotages ou encore la reprise du serveur par un pirate. Pour ces raisons, les entrepreneurs ont dû prévoir des temps d’arrêt bien plus longs et prendre les mesures correspondantes de prévention et de prise en charge des dégâts.
Il existe d’autres stratégies pour compenser la défaillance de ressources dans un service informatique comme un système de secours ainsi qu’une grappe de serveurs pour assurer une haute disponibilité en toute situation. Les deux approches se basent sur une association de deux serveurs ou plus, permettant de mettre plus de ressources matérielles à disposition que ce qu’une activité normale ne nécessite.
Un système de secours est un second serveur assurant la protection du serveur primaire et prenant en charge ses fonctions en cas de problème matériel ou logiciel. La prise en charge du service est appelée basculement et est automatiquement introduite par le groupement de logiciels de gestion sans intervention de l’administrateur. Une telle construction de nœuds actifs et passifs en tant que groupe de disponibilité asymétrique est envisageable. On parle de structure asymétrique lorsque tous les nœuds du groupe permettent un fonctionnement normal du service.
Etant donné que la migration d’un service d’un système sur un autre entraîne un retard, on ne peut complètement empêcher l’interruption du service sur des systèmes de secours ou des grappes à haute disponibilité.