Le web mondial perturbé plus d’une demi-journée par une panne majeure du cloud d’Amazon

La première plateforme de cloud au monde, Amazon Web Services (AWS), a annoncé avoir résolu la longue panne qui a perturbé nombre d’applications en ligne lundi, dévoilant la vulnérabilité de l’informatique mondiale, très dépendante des géants de la tech américains.Des banques aux jeux en ligne (Fortnite, Roblox) en passant par les plateformes de streaming (Disney+, Prime Video) ou d’autres applications du quotidien (Airbnb, Zoom, Snapchat), c’est une part significative de services en ligne d’entreprises qui ont connu des perturbations voire des interruptions totales, à la suite d’une première défaillance peu après 7H00 GMT dans des centres de données historiques d’AWS, non loin de Washington.Vers 22H00 GMT, soit au bout d’une quinzaine d’heures de gestion de crise, “tous les services sont revenus à la normale”, avec seulement une file d’attente de quelques heures pour résoudre des processus techniques secondaires, a indiqué le propriétaire de cette épine dorsale de l’informatique en ligne.Cette défaillance, synonyme de paiements bloqués, de livraisons interrompues et d’autres activités professionnels ou privées empêchées, a illustré la dépendance du monde aux infrastructures des géants de la tech américains.Filiale d’Amazon, AWS est la plus importante plateforme mondiale d’informatique “en nuage” (cloud) qui fournit aux entreprises des centres de données mutualisés, des serveurs privés ou des outils d’intelligence artificielle (IA).Elle pèse près d’un tiers du marché mondial de ce secteur en pleine expansion, sous l’essor rapide de l’IA, devant ses concurrents eux aussi américains, Microsoft Azure et Google Cloud, qui se partagent le deuxième tiers, selon le cabinet Synergy Research Group.- “Dépendance” -Cette panne soulève “de sérieuses questions” sur la pertinence pour les entreprises “d’externaliser tout ou partie de leur infrastructure essentielle à un petit groupe de fournisseurs tiers afin de réaliser des économies sur l’hébergement”, a pointé l’analyste financier britannique Michael Hewson.”Cette dépendance excessive à l’égard d’un seul fournisseur menace désormais plus que la simple disponibilité des services: elle met en péril la réputation de la marque et la confiance des clients”, a souligné Gadjo Sevilla, analyste chez Emarketer, évoquant la nécessité pour les clients d’AWS de prévoir des stratégies de redondance, synonymes de coûts financiers et énergétiques supplémentaires.Selon un premier bilan à chaud sur son site de maintenance, AWS affirme que “le déclencheur” de l’incident est, pour une raison qui reste à préciser, lié à un problème de DNS, le système de nom de domaines des sites internet, sorte d’annuaire qui permet aux requêtes informatiques d’être guidées jusqu’à destination.Ce problème affectait l’accès à la base de données DynamoDB, utilisées par de nombreuses applications en ligne. – Effet domino – Cette défaillance, rapidement résolue en deux heures, a toutefois provoqué en cascade celle des serveurs EC2, une brique fondamentale des services d’AWS qui alloue de la puissance de calcul et de la mémoire aux entreprises au moment où elles ont en besoin.Puis, par effet domino, “le système de vérification des répartiteurs de charge réseau a également été affecté”, autrement dit la tour de contrôle a elle aussi ensuite été touchée par la défaillance initiale du système de navigation.Alors que la plupart des services semblaient revenir à la normale en Europe, vers 15H00 GMT de nombreux internautes aux Etats-Unis signalaient, sur le site Downdetector, des difficultés avec le jeu Battlefield, le site de la compagnie aérienne Delta ou encore le service de paiement en ligne Venmo, très populaire dans le pays.Pour éviter qu’une panne n’affecte tout le réseau, AWS a découpé le monde en une quarantaine de régions, disposant chacune de 3 structures distinctes et isolées, pouvant pallier la défaillance de l’une ou l’autre.Mais l’incident lundi a démontré qu’un certain nombre de requêtes fondamentales (par exemple le système IAM, qui gère les authentifications) continue de dépendre des centres de données de la région nommée US-East-1, la plus ancienne (2006) et la plus importante d’AWS, dans le nord de la Virginie.En juillet 2024, une autre panne informatique, liée à la mise à jour d’un logiciel du groupe de cybersécurité CrowdStrike sur Windows, avait paralysé des aéroports, des hôpitaux et de nombreuses autres organisations, provoquant une gigantesque pagaille à travers le monde.D’après Microsoft, cette panne d’un logiciel, et non d’une infrastructure, avait touché environ 8,5 millions d’appareils, les utilisateurs étant confrontés à des “écrans bleus de la mort” qui rendaient le redémarrage impossible.
La première plateforme de cloud au monde, Amazon Web Services (AWS), a annoncé avoir résolu la longue panne qui a perturbé nombre d’applications en ligne lundi, dévoilant la vulnérabilité de l’informatique mondiale, très dépendante des géants de la tech américains.Des banques aux jeux en ligne (Fortnite, Roblox) en passant par les plateformes de streaming (Disney+, Prime Video) ou d’autres applications du quotidien (Airbnb, Zoom, Snapchat), c’est une part significative de services en ligne d’entreprises qui ont connu des perturbations voire des interruptions totales, à la suite d’une première défaillance peu après 7H00 GMT dans des centres de données historiques d’AWS, non loin de Washington.Vers 22H00 GMT, soit au bout d’une quinzaine d’heures de gestion de crise, “tous les services sont revenus à la normale”, avec seulement une file d’attente de quelques heures pour résoudre des processus techniques secondaires, a indiqué le propriétaire de cette épine dorsale de l’informatique en ligne.Cette défaillance, synonyme de paiements bloqués, de livraisons interrompues et d’autres activités professionnels ou privées empêchées, a illustré la dépendance du monde aux infrastructures des géants de la tech américains.Filiale d’Amazon, AWS est la plus importante plateforme mondiale d’informatique “en nuage” (cloud) qui fournit aux entreprises des centres de données mutualisés, des serveurs privés ou des outils d’intelligence artificielle (IA).Elle pèse près d’un tiers du marché mondial de ce secteur en pleine expansion, sous l’essor rapide de l’IA, devant ses concurrents eux aussi américains, Microsoft Azure et Google Cloud, qui se partagent le deuxième tiers, selon le cabinet Synergy Research Group.- “Dépendance” -Cette panne soulève “de sérieuses questions” sur la pertinence pour les entreprises “d’externaliser tout ou partie de leur infrastructure essentielle à un petit groupe de fournisseurs tiers afin de réaliser des économies sur l’hébergement”, a pointé l’analyste financier britannique Michael Hewson.”Cette dépendance excessive à l’égard d’un seul fournisseur menace désormais plus que la simple disponibilité des services: elle met en péril la réputation de la marque et la confiance des clients”, a souligné Gadjo Sevilla, analyste chez Emarketer, évoquant la nécessité pour les clients d’AWS de prévoir des stratégies de redondance, synonymes de coûts financiers et énergétiques supplémentaires.Selon un premier bilan à chaud sur son site de maintenance, AWS affirme que “le déclencheur” de l’incident est, pour une raison qui reste à préciser, lié à un problème de DNS, le système de nom de domaines des sites internet, sorte d’annuaire qui permet aux requêtes informatiques d’être guidées jusqu’à destination.Ce problème affectait l’accès à la base de données DynamoDB, utilisées par de nombreuses applications en ligne. – Effet domino – Cette défaillance, rapidement résolue en deux heures, a toutefois provoqué en cascade celle des serveurs EC2, une brique fondamentale des services d’AWS qui alloue de la puissance de calcul et de la mémoire aux entreprises au moment où elles ont en besoin.Puis, par effet domino, “le système de vérification des répartiteurs de charge réseau a également été affecté”, autrement dit la tour de contrôle a elle aussi ensuite été touchée par la défaillance initiale du système de navigation.Alors que la plupart des services semblaient revenir à la normale en Europe, vers 15H00 GMT de nombreux internautes aux Etats-Unis signalaient, sur le site Downdetector, des difficultés avec le jeu Battlefield, le site de la compagnie aérienne Delta ou encore le service de paiement en ligne Venmo, très populaire dans le pays.Pour éviter qu’une panne n’affecte tout le réseau, AWS a découpé le monde en une quarantaine de régions, disposant chacune de 3 structures distinctes et isolées, pouvant pallier la défaillance de l’une ou l’autre.Mais l’incident lundi a démontré qu’un certain nombre de requêtes fondamentales (par exemple le système IAM, qui gère les authentifications) continue de dépendre des centres de données de la région nommée US-East-1, la plus ancienne (2006) et la plus importante d’AWS, dans le nord de la Virginie.En juillet 2024, une autre panne informatique, liée à la mise à jour d’un logiciel du groupe de cybersécurité CrowdStrike sur Windows, avait paralysé des aéroports, des hôpitaux et de nombreuses autres organisations, provoquant une gigantesque pagaille à travers le monde.D’après Microsoft, cette panne d’un logiciel, et non d’une infrastructure, avait touché environ 8,5 millions d’appareils, les utilisateurs étant confrontés à des “écrans bleus de la mort” qui rendaient le redémarrage impossible.