Voici ce qui a causé l'énorme panne sur Microsoft 365 et Teams

Microsoft 365
(Crédit photo: Microsoft/GTS)

La société Microsoft a révélé ses premières conclusions sur ce qu'elle estime être la cause d'une panne majeure qui a récemment affecté certaines de ses offres logicielles les plus populaires.

La panne a empêché les travailleurs d'Europe et d'Asie de se connecter aux services Microsoft 365 pendant plusieurs heures. Les services Microsoft Teams, Outlook, OneDrive for Business, Exchange Online et SharePoint ont tous été touchés.

Après avoir identifié dans un premier temps "une modification du routage du réseau étendu (WAN)" comme étant le coupable, Microsoft a ensuite publié les résultats de son enquête initiale sur la panne, révélant que les choses étaient en fait un peu plus compliquées que cela.

La panne de Microsoft Teams expliquée

"Entre 07h05 UTC et 12h43 UTC le 25 janvier 2023, les clients ont rencontré des problèmes de connectivité réseau, se manifestant par une longue latence réseau et/ou des délais d'attente lors de la tentative de connexion à des ressources hébergées sur des serveurs Azure, ainsi qu'à d'autres services Microsoft, notamment Microsoft 365 et Power Platform", note le rapport de l'entreprise.

"Nous avons déterminé qu'une modification apportée au réseau étendu (WAN) de Microsoft avait un impact sur la connectivité entre les clients sur Internet vers Azure, la connectivité entre les secteurs, ainsi que la connectivité entre les sites via ExpressRoute."

"Dans le cadre d'un changement prévu pour mettre à jour l'adresse IP sur un routeur WAN, une commande donnée au routeur l'a amené à envoyer des messages à tous les autres routeurs du WAN, les amenant à tous recalculer leurs tables de contiguïté et de transfert. Pendant ce processus de recalcul, les routeurs n'ont pas été en mesure de transférer correctement les données. La commande à l'origine du problème a des comportements différents selon les périphériques réseau et elle n'avait pas été vérifiée à l'aide de notre processus de qualification complet sur le routeur sur lequel elle a été exécutée."

Microsoft a déclaré que, dans l'ensemble, le problème a pu être identifié en une heure et que tous ses équipements de réseau interne étaient revenus à la normale en deux heures et demie.

Afin d'éviter que le même problème ne se reproduise à l'avenir, Microsoft affirme avoir "bloqué l'exécution de commandes à fort impact sur les appareils". La société travaille également à l'ajout d'une nouvelle exigence pour que l'exécution de toutes les commandes sur ses appareils suive les directives de modification sécurisée.

Mike Moore
Deputy Editor, TechRadar Pro

Mike Moore is Deputy Editor at TechRadar Pro. He has worked as a B2B and B2C tech journalist for nearly a decade, including at one of the UK's leading national newspapers and fellow Future title ITProPortal, and when he's not keeping track of all the latest enterprise and workplace trends, can most likely be found watching, following or taking part in some kind of sport.