Instagram, WhatsApp, Facebook et Facebook Messenger ont connu des pannes généralisées lundi, et de nombreux utilisateurs dans le monde n'ont pas pu utiliser certaines des plateformes / messageries les plus actives de la planète.

Bien que cela ne soit pas inédit, la durée de la panne, qui s'est étendue sur plus de six heures, se révèle relativement surprenante. La rumeur veut que cette longue interruption ait été causée par une mise à jour de routine des serveurs Facebook. Pour autant, la société - qui nous a envoyé un communiqué d’excuses suite à la défaillance de ses services - n’explicite aucune raison officielle à cet incident.

"À tous ceux qui ont été affectés par les pannes subies par nos plateformes aujourd'hui : nous sommes désolés. Nous savons que des milliards de personnes et d'entreprises dans le monde entier dépendent de nos produits et services pour rester en contact. Nous apprécions votre patience, pendant que nous opérons tout ce qui peut être entrepris afin d’assurer le retour de vos services en ligne".

La panne a démarré au sein de la salle de presse de l'entreprise et s'est étendue à l'ensemble des plateformes Facebook. Instagram, WhatsApp ou encore Messenger sont restés hors service partout sur la planète, avant de réapparaître progressivement région après région.

DownDetector - un site web qui suit en temps réel les pannes des services en ligne - avait également repéré la désactivation de diverses plateformes permettant de s’identifier via Facebook. A l’instar de Strava et Airbnb.

Peu après le début de la panne, le responsable de la communication de Facebook, Andy Stone, a été le premier à informer les utilisateurs des plateformes de sa compagnie. Passant par Twitter, il a tenté de rassurer le public sur la prise en charge active du problème par la firme de Menlo Park.

Mike Schroepfer, directeur technique de Facebook, a tweeté des excuses quatre heures après le début de la panne, et six heures plus tard, la société a envoyé un autre tweet pour informer du retour en ligne de ses services.

Jane Manchun Wong, célèbre dataminer, a de son côté averti les propriétaires d’un casque VR Oculus de ne pas redémarrer leurs appareils pendant la panne, pour ne pas risquer de perdre leurs bibliothèques de jeux et sauvegardes. Julien Dorra, concepteur de jeux et de logiciels de réalité virtuelle, a publié sur Twitter une vidéo montrant comment utiliser son casque Oculus pendant la panne :

Facebook brought Oculus down with them 🙁 pic.twitter.com/rfapj1yaSU

Selon un tweet de Sheera Frenkel, journaliste au New York Times, un employé de Facebook ne pouvait même plus entrer dans les bâtiments de l'entreprise en raison du dysfonctionnement de son badge. Un autre rapport du NYT affirme que les employés ont eu du mal à passer des appels à partir de leurs téléphones professionnels ou à recevoir des courriels externes.

Pannes Facebook : que s'est-il passé ?

Aucun des comptes Facebook, Whatsapp ou Instagram n'a expliqué la cause initiale de la panne, ce qui a donné lieu à diverses spéculations et analyses. À ce stade, la plupart s'accordent à dire qu'il ne s'agit pas d'un piratage ou d'une attaque dirigée contre l'infrastructure de Facebook. Des sources fiables ont déclaré au New York Times qu'il ne s'agissait probablement pas d'une cyberattaque car “une tentative est peu susceptible d'affecter autant d'applications à la fois”.

Brian Krebs, de la société de cybersécurité Krebs on Security, a tweeté son point de vue, selon lequel les enregistrements du système de nom de domaine (DNS) acheminant le trafic vers les sites et services Facebook ont tout simplement été retirés - c'est-à-dire qu'ils ont disparu du web.

M. Krebs ajoute que la disparition des routes BGP (border gateway protocol) desservant le DNS de Facebook ont rendu inaccessible chaque site répondant à un domaine Facebook. Cela explique vraisemblablement pourquoi ses services et l'accès aux connexions de tiers, ainsi que Instagram/WhatsApp/Facebook Messenger, étaient complètement hors service.

Confirmed: The DNS records that tell systems how to find https://t.co/qHzVq2Mr4E or https://t.co/JoIPxXI9GI got withdrawn this morning from the global routing tables. Can you imagine working at FB right now, when your email no longer works & all your internal FB-based tools fail?

PJ Norris, ingénieur système principal chez Tripwire, a envoyé l'analyse suivante à TechRadar :

"Vers 15h40 UTC le lundi 4 octobre, une modification a été apportée au BGP - Border Gateway Protocol. BGP est une technologie par laquelle les fournisseurs d'accès partagent des informations sur les fournisseurs qui sont responsables du routage du trafic Internet vers tel ou tel groupe d'adresses Internet [...] En d'autres termes, Facebook a supprimé par inadvertance la possibilité de localiser le service. Il n'a pas été facile de revenir en arrière, car Facebook utilise ses propres services internes de communication et de courrier électronique, qui ont aussi été touchés par la panne. Les personnes qui se trouvaient sur place, dans les centres de données et les bureaux, et qui tentaient d'annuler l’opération, n'ont pas pu accéder aux environnements du fait que le système de contrôle de déverrouillage des portes… subissait cette même panne.”

"Est-ce que cela aurait pu être évité ? Il est évident à ce stade précoce que Facebook a rencontré un point de défaillance unique qui s'est transformé en catastrophe générale et onéreuse pour le géant".

BGP est un gros problème (mondial)

Alors que le DNS est l'adresse numérique d'un site web sur le réseau internet (qui est traduite à partir du "www.___.com" que vous tapez dans votre barre de recherche), les routes BGP sont les chemins que les requêtes empruntent à travers les serveurs et les ordinateurs pour arriver à leur destination. Lorsque les routes BGP de Facebook ont été supprimées du réseau, les sites connectés à ces routes se sont effondrés et les services Facebook sont devenus inaccessibles.

Les théoriciens du subreddit r/sysadmin ont suggéré qu'un changement de configuration survenu hier a provoqué la fermeture des routes BGP, ce qui a empêché Facebook d'effectuer des modifications à distance. A partir de là, seul un accès physique pouvait réparer les dégâts.



Le New York Times soutient cette théorie en citant une note interne de Facebook selon laquelle une petite équipe d'employés a été envoyée au centre de données de Santa Clara (Californie) pour réinitialiser manuellement les serveurs de l'entreprise.

Juste avant que les services de Facebook ne reviennent en ligne, Krebs a cité une source affirmant que la panne avait été causée par une mise à jour BGP défectueuse qui empêchait les utilisateurs distants d'annuler les modifications tout en bloquant l'accès local :

From trusted source: Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access. So blocked at both ends from reversing it.

Des pannes massives vouées à se reproduire ?

"Les pannes augmentent en volume et peuvent souvent pointer vers une cyber-attaque, et cela peut ajouter à la confusion lorsque nous diagnostiquons les causes", a déclaré Jake More, expert de l’éditeur de suites de sécurité et d'antivirus ESET. "Comme nous l'avons vu avec Fastly au cours de l'été, les pannes de serveur sont plus souvent dues à un bug logiciel non découvert ou même à une erreur humaine".

Les mois de mars et avril 2021 ont connu des pannes de même ampleur où chacun des services Facebook concernés aujourd'hui - Facebook, Instagram, WhatsApp et Facebook Messenger - a été mis hors service pendant plus d'une demi-heure à chaque fois. Mais étant donné la rapidité avec laquelle ces problèmes ont été résolus, la dernière panne semble être une catastrophe d'une ampleur bien supérieure.

Ces dernières pannes étaient dues à un bug dans le système de noms de domaine (DNS) de ces services, mais apparemment pas aussi grave qu'un problème BGP.