Amazon : la panne du S3 causée par une « erreur humaine »

Vous ne connaissez peut-être pas le S3 d’Amazon, et si c’est le cas il n’y a aucune honte à avoir. Méconnu du grand public, le S3 (Simple Storage Service) n’est ni plus ni moins qu’un service d’hébergement très apprécié par les PME et de nombreux services en ligne, notamment pour ses tarifs attractifs et son taux élevé de disponibilité.

Mais si nous évoquons le S3 aujourd’hui c’est parce qu’Amazon a trouvé l’origine de la panne d’envergure l’ayant touché mardi 28 février. D’après le géant américain, tout viendrait d’une simple faute de frappe faite par un employé lors d’une opération de maintenance parfaitement commune.

Amazon-S3

Personne n’est à l’abri d’une erreur humaine, même pas Amazon, qui a déclaré que la panne de son Simple Storage Service venait d’une simple faute de frappe.

Cette « erreur humaine » aura toutefois eu des répercussions fâcheuses pour plusieurs grands services comme Instagram, Slack ou ImgUr – tous trois utilisateurs du S3 – dont les services ont été grandement perturbés mardi dernier, au même titre que de nombreux autres sites internet dépendants de l’hébergement d’Amazon.

L’histoire du grain de sable dans un engrenage pourtant bien huilé

Pour donner une idée de l’ampleur du problème causé par une si petite erreur, notons que même le site Isitdownrightnow.com (dont l’unique utilité est de vérifier qu’un site est accessible ou non à l’ensemble de ses utilisateurs) était hors d’usage mardi 28. Une ironie qui pourrait presque prêter à sourire…

Toujours est-il que dans son communiqué, Amazon détaille en ces mots les circonstances ayant mené à cette situation : « Un membre de l’équipe S3 a exécuté une commande visant à retirer un petit nombre de serveurs appartenant à un sous-système gérant la facturation du S3. Malheureusement l’une des commandes a été saisie de manière erronée, et un nombre plus important que prévu de serveurs a été retiré.« 

Cette erreur de saisie aura suffi à bloquer une bonne partie du service pendant plusieurs heures. Pour éviter que l’erreur se reproduise, Amazon explique avoir modifié ses outils de gestion internes. L’histoire ne précise toutefois pas ce qui est advenu de l’employé fautif, espérons que le malheureux ne soit pas d’ores et déjà en train de croupir au fond d’un cachot…

Crédit illustration

Mots-clés amazonamazon s3