Actualizado: Facebook se disculpa por la caída y afirma que los datos de los usuarios no están comprometidos

Social app icons on a phone screen
(Crédito de imagen: dole777 / Unsplash)

Menudo problema tuvieron las grandes redes sociales: Instagram, WhatsApp, Facebook y Facebook Messenger experimentaron caídas generalizadas y prolongadas durante el lunes, lo que significa que miles de millones de usuarios en todo el mundo no pudieron acceder a algunas de las webs más populares del mundo. 

Si bien no es la primera vez que pasa algo así, el tiempo que estuvieron caídas estás páginas, que duró más de seis horas, fue muy raro. Los servicios de Facebook finalmente volvieron a estar online al final del día después del importarte corte. 

La causa de la caída fue difícil de diagnosticar al principio para el gigante de las redes sociales, que supuestamente tenía ingenieros corriendo como locos de un servidor a otro en un esfuerzo por encontrar el problema. Facebook actualizó su página de ingeniería al final del día con información que apuntaba a la raíz del problema: cambios de configuración en el hardware interno de la empresa. 

"A todas las personas y empresas de todo el mundo que dependen de nosotros, lamentamos las molestias causadas por la interrupción de hoy en nuestras plataformas. Hemos estado trabajando tan duro como hemos podido para restaurar el acceso, y nuestros sistemas ahora están recuperados y funcionando. 

"La causa subyacente de esta caída también afectó a muchas de las herramientas y sistemas internos que utilizamos en nuestras operaciones diarias, lo que complicó nuestros intentos de diagnosticar y resolver rápidamente el problema.

"Nuestros equipos de ingeniería han aprendido que los cambios de configuración en los enrutadores de la red troncal que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación. Esta interrupción del tráfico de red tuvo un efecto cascada en la forma en que se comunican nuestros centros de datos, deteniendo nuestros servicios."

"Esos servicios ahora están otra vez online y estamos trabajando activamente para que vuelva la normalidad. Queremos dejar claro en este momento que creemos que la causa principal de esta interrupción fue un cambio de configuración defectuoso. Tampoco tenemos indicios de que los datos de los usuarios se vieran comprometidos como resultado de este tiempo de inactividad.

"Las personas y las empresas de todo el mundo confían en nosotros todos los días para estar conectados. Entendemos el impacto que tienen las caídas como esta en la vida de las personas y nuestra responsabilidad de mantener informados a los usuarios sobre las interrupciones en nuestros servicios. Pedimos disculpas a todos los afectados y estamos trabajando para comprender más sobre lo sucedido y que podamos continuar haciendo que nuestra infraestructura sea más segura". 

La interrupción empezó en la sala de redacción de la empresa y se extendió por todas partes hasta la red social. Pero Instagram y otros servicios permanecieron inactivos en algunas áreas durante mucho más tiempo, lo que nos lleva a pensar que los servicios se restablecieron región por región. 

DownDetector, un sitio web que rastrea las caídas de los servicios en línea, había demostrado que todos los servicios tenían problemas en muchos territorios. También hubo informes de que los servicios con cuentas vinculadas a los inicios de sesión de Facebook, como Airbnb y Strava, no funcionaban. 

No había forma de evitar los problemas, por lo que los usuarios solo pudieron esperar hasta que se resolvieran para volver a conectarse a WhatsApp, Instagram o Facebook.

Las páginas que pertenecen a Facebook volvieron a la normalidad, e Instagram y WhatsApp tuitearon que estar operativos.

Poco después de que comenzara la caída, el director de comunicaciones de Facebook, Andy Stone, fue el primero en publicar en Twitter que la compañía tenía constancia del problema y estaba trabajando en una solución, y WhatsApp tuiteó lo mismo. 

Un tiempo después, la cuenta oficial de Facebook informaba a los usuarios que querían acceder a las apps y productos de la compañía. Mike Schroepfer, CTO de Facebook, se disculpaba por Twitter y, después de seis horas, volvieron a enviar otro tuit disculpándose a la vez que sus servicios volvían a estar en funcionamiento.

See more

El problema afectó a otros productos de Facebook: algunos usuarios informaron sobre problemas en los servicios de las Oculus.

Jane Manchun, minera de datos de Facebook y Twitter, aconsejaba no reiniciar las gafas porque podría producirse una pérdida de todos los datos. Julian Dorra, diseñadora de software y videojuegos de VR, mostraba en un tuit un vídeo de cómo se veían las Oculus durante la caída:

See more

Este problema podría haber tenido un impacto en la infraestructura de Facebook: según Sheera Frenkel, del New York Times, un empleado de Facebook no ha podido entrar ni siquiera al edificio de la compañía por un error en las acreditaciones. 

Otra persona del NYT hablaba de que los empleados no podían realizar llamadas o recibir emails que vinieran de fuera de la compañía.

Caídas de Facebook: ¿qué ha pasado?

Ni Facebook, ni WhatsApp ni Instagram se pronunciaron sobre lo que causó la caída, dando pie a especulación. Ahora mismo, la mayoría está de acuerdo en que no ha sido un ciberataque dirigido a la infraestructura de Facebook, y las fuentes del New York Times dicen que 'probablemente no fuera un ciberataque porque rara vez es posible atacar tantas aplicaciones al mismo tiempo'.

Lo que sí que está claro es la comunicación entre la red de la compañía y la web se cortó sin motivo alguno sobre las 17:40 hora española del lunes.

Brian Krebs, de la reputada compañía de ciberseguridad, tuiteaba su conclusión: el problema estaba en el DNS: aclaraba que las rutas del protocolo de puerta de enlace (BGP) hacia el DNS de Facebook se habían esfumado, dejando el dominio web de Facebook totalmente inaccesible.

See more

En un tuit de seguimiento, Krebs aclaró su teoría de que las rutas del protocolo de puerta de enlace de frontera (BGP) que servían al DNS de Facebook habían desaparecido, lo que hacía que todos los sitios de un dominio de Facebook fueran inaccesibles. Esto probablemente explica por qué sus servicios y el acceso de inicio de sesión de terceros, así como Instagram / WhatsApp / Facebook Messenger, estaban completamente caídos. 

Otras empresas de redes han notado y teorizado que el problema es con las rutas BGP, incluido el vicepresidente senior de Cloudflare, Dane Knecht, quien tuiteó una observación de que el DNS de Facebook y otros servicios están inactivos y 'sus rutas BGP se han retirado de Internet'. 

Señaló que Cloudflare también vio sus propias fallos, pero un tweet de seguimiento sugirió que se estaba recuperando. Por separado, el director de tecnología de Cloudflare, John Graham-Cumming, tuiteó al ver los cambios del BGP de Facebook a medida que ocurrían y sugirió que se trataba principalmente de retiradas de rutas de BGP. 

PJ Norris, ingeniero principal de sistemas de Tripwire, envió el siguiente análisis a TechRadar con respecto a la interrupción: "Alrededor de las 15.40 UTC (17:40, hora peninsular) del lunes 4 de octubre, se realizó un cambio en el BGP - Border Gateway Protocol. El BGP es una tecnología en la que los ISP comparten información sobre qué proveedores son responsables de enrutar el tráfico de Internet a qué grupos específicos de direcciones de Internet. 

"En otras palabras, Facebook eliminó sin querer la capacidad de decirle al mundo dónde se encentra."

"Sin embargo, revertir el cambio no fue fácil, ya que Facebook utiliza sus propios servicios de comunicación y correo electrónico internos que se vieron afectados por la caída. Con personas trabajando a distancia durante la pandemia, este fue un gran problema. "Aquellos que estaban en el sitio en los centros de datos y las oficinas que estaban tratando de retroceder el cambio, no pudieron acceder a los entornos porque el sistema de control de acceso de las puertas no funcionaba debido al impacto de la interrupción."

Así que la cuestión se reduce a: ¿podría haberse evitado? "Es evidente en esta etapa que Facebook tuvo un único punto débil que desembocó en una caída masiva y costosa para el gigante de la tecnología".

El BGP es un problema grande y global

Aunque el DNS es la dirección numérica de un sitio en internet (lo que nosotros entendemos por www.___.com), las rutas BGP son caminos que atraviesan los servidores hasta llegar a su destino. Cuando las rutas BGP de Facebook se fueron de internet, las direcciones conectadas a esas rutas colapsaron, y todos los sitios de Facebook se quedaron inaccesibles.

Internet teorizada en Reddit sobre un cambio en la configuración que hizo que las rutas BGP cayeran, impidiendo que Facebook pudiera hacer cambios de manera remota. A partir de ahí, solo el acceso físico podría arreglar el problema.

De nuevo, era el New York Times quien citaba una nota interna de Facebook en la que varios empleados habían sido enviados al Centro de Datos de Santa Clara (California) para resetear manualmente los servidores de la compañía.

Justo antes de que los servicios de Facebook comenzaran a estar de nuevo online, Krebs citaba una fuente que afirmaba que la caída había sido originada por una actualización BGP que bloqueaba a los usuarios y revertía los cambios, impidiendo el acceso local. 

See more

¿Será esto un problema constante?

"Las caídas de servicios online están aumentando en volumen y muchas veces pueden indicar un ciberataque, lo que puede llegar a confundir al usuario cuando todavía estamos diagnosticando las causas", dijo Jake More, experto de la empresa de antivirus y ciberseguridad ESET, en un comentario a TechRadar. "Como vimos con Fastly en verano, los apagones web se originan con mayor frecuencia por errores de software que no conocemos o incluso por errores humanos".

En marzo y abril del 2021 se produjo una caída importante en la que los servicios de Facebook afectados hoy (Facebook, Instagram y WhatsApp) estuvieron inactivos durante más de media hora. Este puede haber sido un problema similar, ya que ha afectado la misma serie de aplicaciones y servicios, todos propiedad de Facebook. 

Esta caída puede haber sido un error en el sistema de dominio (DNS) de estos servicios, por lo que, aunque todavía no tenemos una respuesta oficial, puede haber sido el causante.

Carlos Pedrós

Avgeek.
Pruebo toda la tecnología que puedo para decirte si vale la pena o no, pero lo que más me gusta analizar son los móviles.
Siempre estoy en Twitter o Instagram, si necesitas cualquier cosa o tienes alguna duda tecnológica, ¡mándame un mensaje, no te cortes!