Contexto del incidente
- En la madrugada, un centro de datos de AWS en Emiratos Árabes Unidos sufrió un incendio causado por impactos de objetos no identificados, posiblemente relacionados con conflictos geopolíticos recientes.
- El siniestro obligó a cortar el suministro eléctrico y dejó fuera de servicio todas las zonas de disponibilidad del centro afectado.
Afectación a servicios y usuarios
- La caída impactó directamente en Vercel, plataforma de despliegues en la nube, causando fallas en despliegues de producción y middleware functions globales.
- Usuarios experimentaron interrupciones y errores en servicios globales durante más de 12 horas, con problemas reportados desde las 4 a.m. UTC.
- Otros proveedores, como Anthropic, también reportaron problemas durante el mismo período, aunque no está confirmada la relación directa.
Análisis técnico y falla sistémica
- Aunque la arquitectura en la nube contempla zonas de disponibilidad independientes para mitigar fallos, en este caso las tres zonas en la región de Dubai colapsaron simultáneamente.
- Vercel replicaba despliegues globalmente, y la caída en una región única generó errores en otras regiones debido a dependencias en la región afectada.
- Esto evidencia un “punto único de fallo” no previsto en el diseño de despliegues globales.
Respuesta y lecciones
- AWS y Vercel han reconocido y están trabajando en la mitigación y restauración de servicios, con promesas de mejorar las estrategias de conmutación por error y recuperación ante desastres. Para profundizar en esta área, es recomendable revisar Fundamentos del Despliegue: Preparación y Responsabilidades para el Personal de Respuesta ante Desastres.
- Este incidente subraya la necesidad crítica de redundancias más robustas y pruebas continuas para evitar fallas globales derivadas de problemas regionales.
- Las empresas deben reevaluar su arquitectura cloud para garantizar aislamiento efectivo entre regiones y evitar que un fallo regional impacte en toda la infraestructura.
Conclusión
El incendio en el centro de datos de Emiratos Árabes Unidos ha causado una interrupción significativa que afectó a Vercel y otros servicios en todo el mundo, mostrando vulnerabilidades importantes en la distribución y replicación de servicios en la nube. Es crucial que se refuercen las medidas de resiliencia, para garantizar la continuidad operativa incluso ante fallos regionales extremos. Para entender mejor la importancia de estas medidas en el contexto digital actual, puede ser útil consultar La Importancia de la Ciberseguridad en la Era Digital.
Hoy se ha roto un poco internet. Seguramente os habréis dado cuenta que hay algunos servicios que no han
funcionado, que están funcionando un poco regulinchis y uno de ellos es el de Bersell. ¿Y por qué ha pasado semejante
cosa? ¿Por qué está ocurriendo esto? Esto que está diciendo la gente, como dice Tibo, los errores en Dubai están
impidiendo el despliegue en cualquier lugar en Versel. Si esto no es un único punto de fallo, single point of failure,
ya me diréis. Y es que fijaos que llevan horas, ¿eh? Llevan horas, más de 12 horas yo creo que llevan ya con la
tontería. No sé si ahora ya lo han arreglado, no me ha dado tiempo a verlo porque ya os he dicho que está con otras
cosas, pero yo sí que visto estos errores. Desde que ha empezado más o menos los problemas de los centros de
datos a las 4 de la mañana, que ahora os explicaré, no se ha podido hacer despliegues a producción en Versel y lo
que es peor, tampoco funcionaban ciertas funciones y middlews, ¿vale? Parece ser que eso más o menos lo han ido
arreglando, pero es bastante grave, pero deployments with middleware functions están impactados en todas las regiones.
Dice, porque las middleware functions se despiegan globalmente para los despliegues de producción. Claro,
depende del el estilo de despliegue, pues te petaba, a mí me ha petado alguno. Entonces, esto ha sido a las 6
de la mañana en hora UTC y fijaos que todavía todavía están en ello. O sea, ¿qué es lo que ha ocurrido? ¿Qué ha
pasado? Pues resulta que un centro de datos de los Emiratos Árabes Unidos por la madrugada más o menos ha sufrido una
interrupción en su servicio. ¿Por qué? Por el impacto de objetos no identificados. No se sabe si son
misiles, si son restos de un misil, de un avión, no se sabe exactamente. Objetos no identificados han impactado
el centro de datos provocando un incendio dentro de los centros de datos que ha obligado a tener que parar. y
dejar de darle suministro eléctrico a esos centros de datos. El problema es que esos centros de datos no ha sido una
zona, han sido todas las zonas, ¿vale? Todas las zonas de los Emiratos Árabes Unidos. Fijaos, provocando un incendio
en las instalaciones afectadas, que el incidente no está claro que esté relacionado con el conflicto entre
Estados Unidos e Irán, que bueno, es bastante importante. Es verdad que no se sabe al 100%, pero claro, es que
justamente el incendio se desata el mismo día que los proyectiles iraníes están impactando los Emiratos Árabes
Unidos en represalia por los ataques estadounidenses y encima son objetos no identificados. A ver, es un poco
aventurado afirmarlo, pero tampoco sería raro sospecharlo, ¿no? Me parece a mí que tampoco me parece que sería tan raro
que te puedes equivocar, sí puedes equivocarte, pero vaya, tiene pinta, ¿no? Total que AWS informó de este
problema hace ya unas horas. De hecho, podéis ir al AWS status y vais a ver que aquí tenemos todos los problemas. ¿Ves?
Service Health y está Severity Disrupted. O sea, disrupted es que están apagados, no es que haya un problema en
un servicio, ¿no? De múltiples servicios, no. Todos los servicios disrapte, todos, todos. Bueno, claro,
esto es porque a lo mejor no tiene nada que ver exactamente, pero bueno, que o sea, derruptedra total los las lambda
functions que son bastante importantes también que es bastante importante, fijaos, simple storage service, o sea, y
llevan horas, llevan horas desde las 4 de la mañana PST, ves que estaban teniendo problemas, pero es que llevan,
fijaos cómo está la cosa, seguimos trabajando, es que telita, telita. Pero bueno, la pregunta del millón, que
seguramente te las estás haciendo y yo también me la he hecho, es, "Pero esto está ocurriendo en un centro de datos,
en una localización en concreto que son los Emiratos Árabes Unidos. ¿Por qué esto iba a provocar problemas en otros
sitios?" Pues sí, ha provocado problemas en otros lugares. Fijaos muchas veces como es el cloud, el cloud que decimos,
"No, es que el cloud no te preocupes porque hay diferentes zonas de disponibilidad, hay diferentes regiones,
centro de datos, replicación y tal." Bueno, pues que ha ocurrido en el caso de Versel, que lleva bastantes horas y
yo creo que aquí habría que darle un tirón de orejas. Yo creo que esto, la propia gente de Versel debe ser
consciente que no tiene sentido, por más que hay una explicación, o sea, hay una explicación sobre esto, lo explicó aquí
Guillermo, dice, "El último año anunciamos la Versel Dubai Region en AWS. Esta región estaba hecha de
múltiples aability sons, pero ¿qué pasa aquí? Guille da lo deja claro como que ha sido bombardeada. No hay
confirmación, quiero decir, no hay confirmación 100% que haya sido bombardeada. No se sabe exactamente qué
ha pasado. Mejor ha sido un resto de de algo, no se sabe. Vale, entonces, ¿qué pasa? Que aunque todo esto haya podido
funcionar totalmente, el tema es que todo el centro de datos, dentro de los centros de datos hay diferentes zonas de
disponibilidad, ¿vale? ¿Por qué? Porque si una parte del centro de datos pues eh se viene abajo, la idea es que tengas
diferentes centros de disponibilidad o para evitar la caída total. Son como subregiones, lo dice él, ¿vale? que
tienen su suministro eléctrico totalmente independiente, red independiente, seguridad independiente,
eh pues antiincendios independiente. Por eso son subregiones, porque así le pasa algo a un centro de disponibilidad los
otros deberían funcionarte. Pero claro, ¿qué pasa? Que en este caso se han caído las tres. Tiene tres centros de
disponibilidad, se han caído las tres. Es muy fuerte, ¿vale? O sea, habéis sido bastante best. No se sabe si ha sido un
ataque claramente dirigido a esto, obviamente, pero fijaos que tiene mala pinta. El tema es que, ¿qué ha pasado?
Porque esto es un centro de datos de Emiratos Árabes Unidos, que no debería afectar, por ejemplo, a si haces un
desplay en Europa, no debería haber ningún problema y también debería redirigirse el tráfico fácilmente. Pero,
¿qué pasa? Comenta por aquí Guille, el problema es que muchas cargas de trabajo en Bersel y no solo en Bersel, ya os
digo yo que este problema está ocurriendo también en otras empresas. Eh, muchos tienen una naturaleza global.
¿Qué significa esto? que cuando tú desplegas en una región realmente automáticamente se desplega en todas las
regiones donde tienen cómputo. Imagínate que una de esas regiones justamente es la de Emiratos Árabes. Claro, como esto
se replica realmente en todas las regiones, si hay una región caída, pues no responde y te da un error. Aunque
ellos han estado intentando seguramente pues redirigir tráfico y tal, pues deben tener un montón de flujos de trabajo
internos en los que en ningún momento estaban dando por sentado que se podían caer todos los centros de
disponibilidad, que es bastante poco probable, pero muy poco probable, pero en este caso pues le ha pasado. Yo la
verdad es que esto, quieras o no, por más que dices, mientras enfrentamos un panorama global incierto, continuamos
reforzando nuestras medidas de conmutación por error de emergencia para una recuperación de desastres aún más
rápida. A ver, os lo voy a decir con todo mi cariño a todas las empresas que está pasando todo esto. Esto es una
[ __ ] de la que hay que aprender. No te puede pasar esto. Por más que tengas naturaleza global y tal, tú no puedes
parar todos los despliegues a tu servicio por un centro de datos, ¿vale? O sea, eso es eso es así. Y yo creo que
de esto tendrán que aprender porque eh justamente te deben te deben, o sea, te debe dar la seguridad de que esto no va
a ocurrir. Entonces yo creo que van a tener que arreglarlo de alguna forma porque me parece que no no es no es
aceptable. No es aceptable, ¿eh? Y que sepáis que también estamos teniendo problemas con Anthropic. O sea,
Anthropic también está teniendo problemas. No se sabe si relacionado a esto, si es que ha sido justamente, o
sea, es un poco raro, pero fijaos, fijaos. Aquí tenemos justamente desde que han empezado un poco los problemas
también en en todos los centros, en WS, en Versel y tal, no sé si está relacionado con Bersel, utilizan algún
servicio de Versel o lo que sea, pero dicen que están implementando el error, o sea, implementando un fix y todo esto,
pero fijaos que ya llevan también bastante tiempos, bastante tiempo que han estado teniendo eh problemas, llevan
horas, eh, o sea, es que últimamente, fijaos, eh, fijaos, es que 6 horas, no sé qué, o sea, Todos los últimos días,
los últimos días, fijaos, ¿eh? El 25 de febrero, 3 horas de problemas, 26 de febrero, 6 horas de problemas, 27 de
febrero, 4 horas de problemas. 28 2 horas 50. Mira, el 1 de marzo que fue ayer, pues perfecto, pero luego 2 de
marzo, 2 horas 45, o sea, no sé si está relacionado, no se sabe, no se sabe, pero bueno. Y anda que mira que han
puesto aquí, cloud para el gobierno, justamente desde el 17 de febrero. Aquí esto no tenía ni idea, pero o sea, me he
fijado antes que es nuevo, que han añadido cloud para el gobierno y este, mira, ha ido mejor. Este ha ido mejor,
¿no? No, perfecto, pero ha ido mejor. Total, pues eso es lo que ha pasado, eh, que una región, bueno, un centro de
datos se ha caído el de los Emiratos Árabes y como podéis ver está afectando a diferentes servicios y por eso
seguramente habéis tenido problemas con con Versel. De hecho, aquí lo tenéis, eh, Guille pidiendo disculpas. el
middlew de enrutamiento simplemente en todas partes. Nunca hemos visto una falla regional de S3 de esta naturaleza
que bloquee nuestro flujo de trabajo. El trabajador de para remediar estos problemos está en marcha y nos vamos a
asegurar que al redirigir las regiones no bloqueen la creación de funciones globales en el futuro. Disculpas. La
verdad es que claro, es verdad que creo que es que no sé, es que me parece un error importante, eh, un nivel de
infraestructura como este, esto tendría que estar arreglado. Eh, qué curiosidad que todos sufren degradación justo
cuando empieza lo del gobierno. Ah, no sé. casualidad. No lo creo.
La caída fue provocada por un incendio en el centro de datos causado por impactos de objetos no identificados, posiblemente relacionados con conflictos geopolíticos recientes, lo que obligó a cortar el suministro eléctrico y dejó fuera de servicio todas las zonas de disponibilidad de esa región.
El incendio impactó directamente en Vercel, causando fallas en los despliegues de producción y en funciones middleware globales. Los usuarios tuvieron interrupciones y errores en sus servicios durante más de 12 horas desde las 4 a.m. UTC, afectando también a otros proveedores como Anthropic.
Aunque AWS diseña sus regiones con múltiples zonas de disponibilidad para evitar fallos simultáneos, en este caso las tres zonas en Dubai colapsaron a la vez debido al incendio, evidenciando un punto único de fallo no considerado en la arquitectura global.
Vercel replicaba despliegues globalmente, pero debido a dependencias en la región afectada en Emiratos Árabes Unidos, el fallo regional generó errores también en otras regiones, mostrando que la replicación no estaba completamente aislada para evitar impacto en cascada.
Ambas empresas están trabajando en mejorar sus estrategias de conmutación por error y recuperación ante desastres, prometiendo reforzar redundancias y realizar pruebas más continuas para evitar que fallos regionales causen interrupciones globales.
Es fundamental reevaluar la arquitectura cloud para garantizar un aislamiento efectivo entre regiones, eliminar puntos únicos de fallo y fortalecer las redundancias, asegurando así la continuidad operativa incluso ante fallos extremos en una región.
Se recomienda consultar recursos como "Fundamentos del Despliegue: Preparación y Responsabilidades para el Personal de Respuesta ante Desastres" que ofrecen guías prácticas para mejorar la resiliencia y la recuperación ante fallos en infraestructuras críticas en la nube.
Heads up!
This summary and transcript were automatically generated using AI with the Free YouTube Transcript Summary Tool by LunaNotes.
Generate a summary for freeRelated Summaries
La Importancia de la Ciberseguridad en la Era Digital
Descubre por qué la ciberseguridad es crucial para las empresas y cómo prevenir ataques informáticos de manera efectiva.
Impacto de la Inteligencia Artificial en la Industria del Software y Windows 11
Este análisis explora cómo la inteligencia artificial está transformando la industria del software, provocando caídas en grandes empresas como Microsoft, Salesforce y SAP. Además, se examinan los problemas recientes de Windows 11 y la reacción de Microsoft para recuperar la confianza de los usuarios.
Extensiones Maliciosas en Visual Studio Code: ¿Qué Debes Saber?
Aprende sobre las recientes extensiones maliciosas en Visual Studio Code y cómo te afectan.
Terremoto de 7.6 Grados Sacude el Norte de Honduras: Todo lo Que Necesitas Saber
Un poderoso terremoto de magnitud 7.6 ha impactado el norte de Honduras. Descubre los detalles y lo que sigue.
Tragedia Aérea: Análisis del Vuelo 676 de China Airlines
Explora el trágico accidente del vuelo 676 de China Airlines, que dejó a 196 personas sin vida y sus lecciones cruciales.
Most Viewed Summaries
Kolonyalismo at Imperyalismo: Ang Kasaysayan ng Pagsakop sa Pilipinas
Tuklasin ang kasaysayan ng kolonyalismo at imperyalismo sa Pilipinas sa pamamagitan ni Ferdinand Magellan.
A Comprehensive Guide to Using Stable Diffusion Forge UI
Explore the Stable Diffusion Forge UI, customizable settings, models, and more to enhance your image generation experience.
Mastering Inpainting with Stable Diffusion: Fix Mistakes and Enhance Your Images
Learn to fix mistakes and enhance images with Stable Diffusion's inpainting features effectively.
Pamamaraan at Patakarang Kolonyal ng mga Espanyol sa Pilipinas
Tuklasin ang mga pamamaraan at patakaran ng mga Espanyol sa Pilipinas, at ang epekto nito sa mga Pilipino.
Pamaraan at Patakarang Kolonyal ng mga Espanyol sa Pilipinas
Tuklasin ang mga pamamaraan at patakarang kolonyal ng mga Espanyol sa Pilipinas at ang mga epekto nito sa mga Pilipino.

