Skip to main content

La extraña explicación de Facebook a la caída catastrófica de más de seis horas

Social app icons on a phone screen
(Image credit: dole777 / Unsplash)

Instagram, WhatsApp, Facebook y Facebook Messenger sufrieron cortes generalizados este pasado lunes durante más. La incidencia fue resuelta después de mucho tiempo y ahora Facebook se ha disculpado con una nota adicional extraña:  "los datos de los usuarios no se han visto comprometidos". Excusatio non petita, accusatio manifesta?

Los cortes son comunes últimamente pero esta vez la duración ha sido sorpréndente: más de seis horas. Es algo muy raro.

El rumor es que todo fue causado por una actualización rutinaria del servidor. Facebook ha actualizado su página de ingeniería con la siguiente nota, que reproducimos íntegramente a continuación:

"A todas las personas y empresas de todo el mundo que dependen de nosotros, lamentamos las molestias causadas por la interrupción de hoy en nuestras plataformas. Hemos estado trabajando todo lo posible para restablecer el acceso y nuestros sistemas ya están funcionando de nuevo. 

La causa subyacente de esta interrupción también afectó a muchas de las herramientas y sistemas internos que utilizamos en nuestras operaciones diarias, lo que complicó nuestros intentos de diagnosticar y resolver rápidamente el problema.

Nuestros equipos de ingeniería han averiguado que los cambios de configuración en los routers troncales que coordinan el tráfico de red entre nuestros centros de datos provocaron problemas que interrumpieron esta comunicación. Esta interrupción del tráfico de red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que hizo que nuestros servicios se detuvieran.

Nuestros servicios vuelven a estar online y estamos trabajando activamente para que vuelvan a funcionar con normalidad. Queremos dejar claro en este momento que creemos que la causa principal de esta interrupción fue un cambio de configuración defectuoso. Tampoco tenemos pruebas de que los datos de los usuarios se hayan visto comprometidos como resultado de esta interrupción.

La gente y las empresas de todo el mundo confían en nosotros cada día para estar conectados. Entendemos el impacto que tienen estas interrupciones en la vida de las personas y nuestra responsabilidad de mantenerlas informadas sobre las interrupciones de nuestros servicios. Pedimos disculpas a todos los afectados, y estamos trabajando para entender mejor lo que ha ocurrido hoy para poder seguir haciendo más resistente nuestra infraestructura."

La interrupción parece que comenzó con la página de prensa de la compañía y se extendió a todo el sitio y la red social. Instagram y otros servicios de Facebook permanecieron fuera de servicio durante mucho más tiempo en algunas zonas del mundo. Esto nos lleva a pensar que sus servicios se reanudaron región por región.

El sitio web DownDetector — que rastrea las interrupciones de servicios online — mostró que todos los servicios tenían problemas en muchos territorios. Además, los servicios con cuentas vinculadas a los inicios de sesión de Facebook, como Airbnb y Strava, también dejaron de funcionar. 

Tampoco había forma de evitar el bloqueo. Sólo quedaba la opción de "ojo y agua".

Poco después de que comenzara la interrupción, el jefe de comunicación de Facebook Andy Stone actualizó suTwitter para explicar que "Facebook está trabajando actualmente en una solución". Le siguió la cuenta de Twitter de WhatsApp. 

Un poco después, la cuenta oficial de Facebook anunció los problemas para acceder a las aplicaciones y productos de la compañía. El director de tecnología de Facebook, Mike Schroepfer, tuiteó una disculpa a las cuatro horas de la interrupción. 

Más de seis horas más tarde, la empresa envió otro tuit anunciando el comienzo del fin del problema.

El problema también afectó a otros productos de Facebook, como los servicios de juegos de Oculus.

La conocida minera de datos de Facebook y Twitter, Jane Manchun Wong, advirtió a los usuarios que no reiniciaran sus dispositivos Oculus durante la interrupción para no perder sus juegos. El diseñador de software y juegos de realidad virtual Julien Dorra tuiteó un vídeo del efecto en Oculus durante el apagón:

See more

Según un tuit de la reportera del New York Times Sheera Frenkel, el problema se extendió al mundo físico. Un empleado de Facebook, por ejemplo, no podía entrar en los edificios de la empresa debido al mal funcionamiento de las tarjetas de identificación a causa de la caída de sistemas.

El NYT afirma que los empleados de Facebook también tuvieron problemas para hacer llamadas desde sus teléfonos de trabajo o recibir correos electrónicos desde fuera de la empresa.

¿Qué es lo que ha pasado?

Nadie ha explicado cuál ha sido la causa original del apagón, esto ha dado lugar a especulaciones y análisis de todo tipo. 

Ahora mismo la mayoría de expertos está de acuerdo en que no se trata de un acceso no autorizado o un ataque dirigido a la infraestructura de Facebook. Las fuentes del New York Times aseguran que probablemente no fue un ciberataque. La razón: "es poco probable que un hackeo afecte a tantas aplicaciones a la vez".

Pero hay algo extraño: las pruebas demuestran que las rutas de la red de la empresa hacia el exterior han sido desconectadas sin explicación esta mañana.

Brian Krebs — de la empresa de ciberseguridad Krebs on Security — afirma que los registros del sistema de nombres de dominio (DNS) que dirigen el tráfico a los sitios y servicios de Facebook se desactivaron esta mañana:

See more

Krebs dijo que todos los sitios con un dominio de Facebook son inaccesibles debido a la ausencia de tablas de DNS. Esto explica en teoría por qué los servicios y el acceso de inicio de sesión de terceros — así como Instagram/WhatsApp/Facebook Messenger — están completamente caídos. 

Otros dicen que el problema está en las rutas BGP, incluido el vicepresidente senior de Cloudflare, Dane Knecht, que tuiteó que el DNS de Facebook y otros servicios están caídos y "sus rutas BGP han sido retiradas de Internet". 

También dijo que la propia Cloudflare había experimentado fallos pero que se estaba recuperando. El director de tecnología de Cloudflare, John Graham-Cumming, tuiteó que había visto los cambios de BGP de Facebook en el momento en que se produjeron. Según el, se trata principalmente de retiradas de rutas BGP.

PJ Norris, ingeniero principal de sistemas de Tripwire, envió el siguiente análisis a TechRadar en relación con la interrupción:

"Alrededor de las 15.40 UTC del lunes 4 de octubre, se realizó un cambio en el BGP — Border Gateway Protocol. BGP es una tecnología con la que los ISP comparten información sobre qué proveedores son responsables de enrutar el tráfico de Internet a qué grupos específicos de direcciones de Internet. 

En otras palabras, Facebook eliminó inadvertidamente la capacidad de decirle al mundo dónde vive.

Deshacer el cambio no fue fácil, ya que Facebook utiliza sus propios servicios internos de comunicación y correo electrónico, que se vieron afectados por la interrupción. El hecho de que la gente trabajara a distancia durante la pandemia supuso un gran problema. 

Aquellos que estaban en los centros de datos y las oficinas intentaron deshacer el cambio pero no pudieron acceder porque el sistema de control de acceso físico a las puertas no funcionaba debido al problema.

Así que la pregunta siempre se reduce a '¿podría haberse evitado?'. Es evidente en estos momentos que Facebook tuvo un único punto de fallo que se convirtió en cascada en una gran y costosa interrupción para [Facebook]".

BGP es gran problema global

Si las tablas de DNS son la agenda de direcciones de la web — traduciendo direcciones de dominios en direcciones de máquinas numéricas — las rutas BGP son los caminos que siguen las peticiones a través de esos servidores para llegar a su destino. Cuando las rutas BGP de Facebook fueron — supuestamente — "retiradas" de Internet, los sitios y servicios de Facebook se volvieron inaccesibles. 

Las teorías en el subreddit r/sysadmin sugieren que esta mañana se ha produjo un cambio de configuración que provocó la caída de las rutas BGP, algo que ha impedido a Facebook realizar cambios remotos. A partir de ahí, sólo el acceso físico a los servidores podría reparar los daños.

El artículo del New York Times antes mencionado apoya esta teoría. Cita un supuesto memo interno de Facebook según el cual un pequeño equipo de empleados fue enviado al centro de datos de la compañía en Santa Clara, California, para restablecer manualmente los servidores de la empresa.

Justo antes de que los servicios volvieran a estar online, Krebs mencionó que una fuente asegura que la interrupción fue causada por una actualización fallida de las tablas BGP, impidiendo a usuarios remotos el acceso a los servidores:

See more

Las caídas siguen siendo un problema

Lo grave es que estos apagones se están convirtiendo en algo común. 

Jake More, experto de la empresa de ciberseguridad y antivirus ESET, nos contó por email que "los apagones están aumentando en volumen y a menudo pueden apuntar a un ciberataque. Esto puede aumentar la confusión al principio cuando estamos diagnosticando las causas. Como vimos con Fastly este verano, los apagones web se originan más a menudo por un error de software no descubierto o incluso por un error humano".

En marzo y abril de 2021 se produjo también una interrupción importante en la que los servicios de Facebook — Facebook, Instagram, WhatsApp y Facebook Messenger — estuvieron caídos durante más de media hora. Pero el último apagón parece ser una catástrofe de una magnitud mucho mayor. 

En marzo y abril los cortes fueron provocados por un fallo en el Sistema de Nombres de Dominio (DNS) de estos servicios.