Facebook beklager nedetiden, hevder at brukerdataene er trygge
Nok en driftsstans skal være ordnet opp i
Mange store aktører innen sosiale media sliter fortsatt. Instragram, WhatsApp, Facebook og Facebook Messenger var alle nede for telling på mandag, og et utall brukere verden over hadde ingen tilgang til de populære tjenestene.
Dette er på ingen måte første gang slike vidstrakte problemer finner sted, men omfanget og lengden på nedetiden (omlag 6 timer), er av den mer sjeldne sorten.
Det ryktes at det hele ble forårsaket av noe som egentlig skulle være en rutinemessig serveroppdatering, og i etterkant av problemene har Facebook oppdatert sin såkalte Engineering-side med mer informasjon, der innholdet tyder på at det ovennevnte kan ha vært tilfellet:
«Til alle folk og bedrifter verden over som avhenger av oss, vi beklager for besværet forårsaket av dagens nedetid på tvers av våre plattformer. Vi har jobbet så hardt vi kan for å gjenopprette tilgang, og systemene våre er nå oppe og kjører.»
«Den underliggende årsaken bak nedetiden fikk også konsekvenser for mange av de interne verktøyene og systemene vi bruker i vårt daglige virke, noe som gjorde det mer komplisert å gjøre en rask diagnose og løse problemet.»
«Vårt ingeniør-team har funnet ut at konfigurasjonsforandringer i backbone-ruterne som koordinerer nettverkstrafikken mellom våre datasentre forårsaket problemer som forstyrret denne kommunikasjonen. Dette avbruddet i nettverkstrafikk førte til en dominoeffekt i måten våre datasentre kommuniserer, og gjorde at tjenestene våre stanset.»
«Våre tjenester er nå tilbake på nett, og vi jobber aktivt med å få disse tilbake til vanlig drift. Vi ønsker å være klare på at denne gangen mener vi at den grunnleggende årsaken til nedetiden var en feilaktig konfigurasjonsforandring. Vi har heller ingen bevis for at brukerdata ble eksponert som et resultat av nedetiden.»
«Individer og bedrifter i hele verden avhenger av oss for å holde kontakten med hverandre. Vi forstår hvor stor innvirkning problemer som dette har på folks liv, og vårt ansvar når det gjelder å holde folk informert om avbrudd i våre tjenester. Vi utsteder en beklagelse til alle berørte, og vi jobber med å forstå mer om det som skjedde i dag, slik at vi kan fortsette å gjøre infrastrukturen vår mer standhaftig.»
Nedetiden startet med selskapets Newsroom-side, og spredde seg videre til hele nettstedet og det sosiale nettverket. Facebook begynte etter hvert å fungere igjen, men det tok litt lengre tid med Instagram og de andre berørte tjenestene, noe som kan tyde på at tjenestene ble satt i gang trinnvis, etter region.
DownDetector – et nettsted som holder oversikten over hvilke nettjenester som fungerer – viste at alle tjenestene hadde problemer i mange deler av verden. Det har også versert rapporter om at tjenester med kontoer knyttet til Facebook-innlogging, som eksempelvis Airbnb, Strava og Oculus, ikke fungerte.
Det var ingen måte å omgå problemene på, så brukere måtte pent vente til de tekniske vanskelighetene ble løst før de kunne kople seg til WhatsApp, Instagram og Facebook.
Facebook-nettstedene begynte så smått å komme tilbake på nett etter mange timers ventetid, og nærmest sporenstreks kom offisielle tvitringer fra Instagram, WhatsApp og andre tjenester, som informerte om at tjenestene var tilbake.
Kort tid etter at nedetiden var et faktum var Andy Stone, Facebooks kommunikasjonssjef, raskt på pletten med en oppdatering via Twitter, der han sa at selskapet var klar over problemene, og at de jobbet med en løsning. WhatsApps Twitter-konto fulgte med sin oppdatering kort tid etter.
Det tok heller ikke lang tid før den offisielle Facebook-kontoen erkjente at brukere hadde problemer med å få kontakt med selskapets apper og produkter. Facebooks CTO, Mike Schroepfer, tvitret en unnskyldning omtrent fire timer etter at de første meldingene om nedetiden ble offentliggjort, og etter seks timer fyrte selskapet av nok en tvitring med en beklagelse, i det tjenesten var i ferd med å komme tilbake på nett.
Problemene gjaldt ikke bare rene Facebook-produkter: En hel del brukere kunne melde om problemer ved bruk av VR-briller produsert av Facebook-eide Oculus.
Jane Manchun Wong, kjent for å være god på å utvinne data fra Facebook og Twitter, advarte om at man ikke burde starte Oculus-enheter på nytt under nedetiden, og at om man gjorde det kunne brukernes spill forsvinne. VR-spillutvikler Julien Dorra tvitret en video som viste hvordan det var å starte et Oculus-hodesett under nedetiden:
Facebook brought Oculus down with them 🙁 pic.twitter.com/rfapj1yaSUOctober 4, 2021
Det later også til at nedetiden fikk konsekvenser for Facebooks infrastruktur i den virkelige verden: Ifølge en tvitring ført i pennen av The New York Times-journalisten Sheera Frenkel, skal en Facebook-ansatt ha hatt problemer med å komme seg inn i selskapets bygninger, siden nøkkelkortet ikke fungerte.
En annen artikkel fra The New York Times hevdet at ansatte hadde problemer med å ringe fra jobbtelefoner og motta e-poster som ikke hadde en intern avsender.
Facebook-nedetiden: Hva skjedde?
Verken Facebook, WhatsApp eller Instagram har forklart hva som var kimen til nedetiden, hvilket har ført til en rekke spekulasjoner og analyser. Akkurat nå er de fleste enige om at dette ikke er snakk om hacking eller et angrep på Facebooks infrastruktur. Kilder har fortalt The New York Times at dette antakeligvis ikke var et nettangrep, siden det er usannsynlig at «ett angrep kan ha hatt så stor innvirkning på så mange apper samtidig.»
Ting tyder snarere på at selskapets nettverksruter ut til resten av internett simpelthen forsvant, helt uten videre, mandag kveld.
Brian Krebs, fra sikkerhetsfirmaet Krebs on Security, tvitret en teori om at DNS-tjenerene som rutet trafikken til Facebook-sider og -tjenester simpelthen ble borte – med andre ord forduftet fra nettet – denne mandagskvelden.
Confirmed: The DNS records that tell systems how to find https://t.co/qHzVq2Mr4E or https://t.co/JoIPxXI9GI got withdrawn this morning from the global routing tables. Can you imagine working at FB right now, when your email no longer works & all your internal FB-based tools fail?October 4, 2021
I en påfølgende tvitring klargjorde Krebs sine uttalelser, og sa at han trodde at de såkalte BGP-rutene som fungerte sammen med Facebooks DNS var borte, og dermed at alle sidene på Facebook-domenet var utilgjengelige. Dette forklarte presumptivt hvorfor tilgangen til innloggingsystemene i tjenestene og tredjepartssystemene, samt Instagram, WhatsApp og Facebook Messenger, var nede.
Andre nettverksselskaper meldte seg også på BGP-teorien, inkludert Dane Knecht, fra Cloudflare SVP, som tvitret samme konklusjon: At Facebook DNS-en og andre tjenester lå nede, og at «BGP-rutene har blitt fjernet fra internett.»
Han merket seg også at Cloudflare også hadde sine problemer, men meldte i en senere tvitring om at systemene var på vei tilbake. I tillegg, uten noen videre sammenheng, tvitret John Graham-Cumming, CTO i Cloudflare, at han observerte forandringene i BGP-rutene i sanntid, og mente at det stort sett var snakk om at BGP-rutene ble fjernet.
PJ Norris, hovedsystemingeniør hos Tripwire, sendte følgende analyse til TechRadar som følge av nedetiden:
«Rundt 15:40 UTC, mandag den 4. oktober, ble det gjort forandringer i BGP – Border Gateway Protocol. BGP er en teknologi som nettilbydere bruker til å dele informasjon om hvilke tilbydere som er ansvarlige for å rute internettrafikk til spesifikke grupper internettadresser.»
«Med andre ord: Facebook fjernet ved en feiltakelse sin egen mulighet til å fortelle verden hvor de bor.»
«Det var dog ikke enkelt å gjøre om på forandringen, siden Facebook bruker sin egenproduserte kommunikasjon og e-posttjeneste, hvilket også ble påvirket av nedetiden. Siden folk jobbet hjemmefra, på grunn av pandemien, var dette et stort problem.»
«De som fysisk befant seg i datasentrene og kontorene, og som prøvde å gjøre om på forandringen, klarte ikke å få tilgang til de relevante områdene, siden kontrollsystemet til dørene også var nede, på grunn av problemene.»
«Spørsmålet er alltid: 'kunne man unngått dette?' Det er tydelig nå, tidlig i prosessen, at Facebook hadde ett enkelt feilskjær med en dominoeffekt som endte opp med å bli en stor og kostbar nedetid for teknologigiganten.»
BGP er et stort (globalt) problem
DNS-teknologien holder styr på hvilke IP-adresser fysiske maskiner har på internett (www.techradar.no, som du skriver inn i adressefeltet, oversettes for eksempel til en viss IP-adresse), mens BGP-ruter er «kjørefeltene» informasjonen tar på vei fra maskinen din, gjennom diverse rutere og servere, til destinasjonen. Når Facebooks BGP-ruter ble fjernet fra internett, kunne ikke sider som brukte disse rutene (som eksempelvis Cloudflare) komme gjennom, ei heller vanlige brukere.
Spekulasjoner om hva som kunne være årsaken fant sted nær sagt i alle kanaler, også på Reddit. Et knippe brukere på /r/sysadmin mente at en forandring i en konfigurasjon kunne ha forårsaket at BGP-rutene forsvant, og at dette var kimen til at Facebook ikke kunne gjøre forandringer fra utsiden (med andre ord, at administratorer ikke kunne logge seg inn på nettverksutstyret uten fysisk å være til stede, eksemplifisert via et Twitter-bilde fra Andree Toonk.)
Den ovennevnte New York Times-artikkelen støttet denne teorien, og refererte til noe som skulle være et internt Facebook-skriv som vitnet om at et lite medarbeider-team var på vei til selskapets Santa Clara-datasenter for å slå av og på selskapets servere manuelt.
Rett før Facebook-tjenestene begynte å livne til siterte Krebs en kilde som mente å vite at nedetiden ble forårsaket av en BGP-oppdatering som inneholdt feil, og som blokkerte brukere fra å kople seg til utenfra og reversere forandringene, samtidig som lokal tilgang også var vanskelig:
Get the best Black Friday deals direct to your inbox, plus news, reviews, and more.
Sign up to be the first to know about unmissable Black Friday deals on top tech, plus get all your favorite TechRadar content.
From trusted source: Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access. So blocked at both ends from reversing it.October 4, 2021
Nedetid: Et pågående problem?
«Det blir stadig flere nedetider, og ofte kan det tyde på nettangrep, men dette kan føre til forvirring på et tidlig stadium når vi diagnostiserer årsakene [...]», sier Jake More, medarbeider hos nettsikkerhet- og antivirusselskapet ESET via e-post til TechRadar. «Som vi så når Fastly var nede i sommer, så kommer nettproblemer oftere fra uoppdagede programvarefeil, eller simpelthen menneskelige feil.»
Tidligere i år, i mars og april, opplevde vi en nedetid med et lignende omfang som Facebooks problemer denne uken – Facebook, Instagram, WhatsApp og Facebook Messenger var alle nede i en halvtime i begge tilfellene. Denne gangen tok det langt lengre tid før tjenestene var oppe igjen, og var dermed langt mer alvorlig for de involverte.
De foregående feilene, som inntraff på vårparten, var forårsaket av problemer med DNS-tjenerne hos disse tjenestene, men omfanget var langt mindre enn dagens BGP-problem.
David is now a mobile reporter at Cnet. Formerly Mobile Editor, US for TechRadar, he covered phones, tablets, and wearables. He still thinks the iPhone 4 is the best-looking smartphone ever made. He's most interested in technology, gaming and culture – and where they overlap and change our lives. His current beat explores how our on-the-go existence is affected by new gadgets, carrier coverage expansions, and corporate strategy shifts.