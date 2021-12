Otra caída grave de Amazon AWS. Y van varias veces en un mes y ahora con un apagón. COPE, Slack, Epic Games y otras plataformas como Trello o Chartbeat sufren una caída provocada por Amazon Web Services

La interrupción del servicio de Amazon está afectando también a los jugadores de Epic Games, Fornaite y Slack.

Amazon Web Services, el servicio del gigante tecnológico, ha sufrido una caída que afecta al funcionamiento de grandes plataformas como Slack, Epic Games y más, según los últimos datos de DownDetector y tal y como se refleja en la página de estado de AWS. Se trata de la tercera interrupción del servicio en este mes, y todo apunta a «una pérdida de energía dentro de un solo centro de datos» como la causante, según ha confirmado la compañía.

¿Cómo se les puede quedar sin luz un CPD? Llevan 9 horas con problemas y aún les quedan servidores que se ha roto por le apagón. Un verdadero desastre

La caída de AWS marcó los peligros de su dependencia. Si AWS tiene problemas internet se constipa. Te das cuenta de lo conectado que está el mundo.

Es probable que conozcas a Amazon por su popular servicio de streaming o por su plataforma de comercio electrónico, pero lo cierto es que también existe Amazon Web Services (AWS). Como su nombre lo indica, entrega una serie de servicios online que forman parte de una nube, es decir, almacena los datos de sus clientes, ejecuta sus actividades en internet y mucho más. Diversos servicios en línea dependen de esta plataforma.

Asimismo, es un gran centro de ganancias para Amazon: posee cerca de 40 por ciento del mercado global de infraestructura en la nube de $64,000 millones de dólares, lo cual es una participación mayor que la de sus rivales más cercanos como Microsoft, Alibaba y Google combinados, según la firma de investigación Gartner.

Los fallos comenzaron a reportarse entorno a las 13:00 horas (España) y principalmente en COPE, Epic Games Store, Hulu y Slack. En todos los casos, los servicios funcionan bajo la tecnología de Amazon Web Services. Si bien la compañía ha confirmado que el servicio se está restableciendo poco a poco, los usuarios continúan informando de problemas a la hora de iniciar sesión o hacer compras en la tienda de Epic. También para jugar a juegos o acceder a sitios webs o aplicaciones que funcionan con AWS y muchas webs caídas. Llevan más de 7 horas con problemas

«Las interrupciones de los servicios de Internet están afectando actualmente a Epic Games Store, afectando los inicios de sesión, la biblioteca, las compras, etc. Estamos monitoreando la situación y os informaremos cuando se resuelva el problema», ha mencionado la compañía desarrolladora de juegos a través de Twitter.

Además de Slack, Epic y algunos de los juegos disponibles en la tienda de la compañía estadounidense, como Fortnite, también han sufrido una caída plataformas como Hulu, Tinder o Grindr. El juego Rocket League también tiene problemas de conexión de servidor a causa del fallo de Amazon Web Services.

Amazon Web Services comienza a recuperarse poco a poco. Esto es lo que han reportado

4:35 a. M. PST Estamos investigando un aumento en las fallas de lanzamiento de EC2 y problemas de conectividad de red para algunas instancias en una única zona de disponibilidad (USE1-AZ4) en la región US-EAST-1. Otras zonas de disponibilidad dentro de la región US-EAST-1 no se ven afectadas por este problema.

5:01 AM PST Podemos confirmar una pérdida de energía dentro de un solo centro de datos dentro de una sola Zona de Disponibilidad (USE1-AZ4) en la Región US-EAST-1. Esto está afectando la disponibilidad y la conectividad a las instancias EC2 que forman parte del centro de datos afectado dentro de la zona de disponibilidad afectada. También estamos experimentando tasas de error elevadas de la API RunInstance para lanzamientos dentro de la zona de disponibilidad afectada. La conectividad y la alimentación a otros centros de datos dentro de la zona de disponibilidad afectada, u otras zonas de disponibilidad dentro de la región US-EAST-1 no se ven afectadas por este problema, pero le recomendamos que no se aleje de la zona de disponibilidad afectada (USE1-AZ4) si son capaces de hacerlo. Continuamos trabajando para abordar el problema y restaurar la energía dentro del centro de datos afectado.

5:18 a. M. PST Continuamos progresando en la restauración de la energía del centro de datos afectado dentro de la Zona de disponibilidad afectada (USE1-AZ4) en la Región US-EAST-1. Ahora hemos restaurado la energía a la mayoría de las instancias y dispositivos de red dentro del centro de datos afectado y estamos comenzando a ver algunos signos tempranos de recuperación. Los clientes que experimenten problemas de conectividad o disponibilidad de instancias dentro de la zona de disponibilidad afectada, deberían comenzar a ver cierta recuperación a medida que se restablezca la energía en el centro de datos afectado. Las tasas de error de la API de RunInstances están volviendo a niveles normales y estamos trabajando para recuperar las instancias EC2 y los volúmenes de EBS afectados. Si bien esperaríamos una mejora continua durante la próxima hora, aún recomendamos que deje de estar en la zona de disponibilidad si puede hacerlo para mitigar este problema.

5:39 a.m. PST Ahora hemos restaurado la energía a todas las instancias y dispositivos de red dentro del centro de datos afectado y estamos viendo la recuperación para la mayoría de las instancias EC2 y volúmenes de EBS dentro de la zona de disponibilidad afectada. La conectividad de red dentro de la zona de disponibilidad afectada también ha vuelto a niveles normales. Si bien todos los servicios están comenzando a ver una recuperación significativa, los servicios que alojaban puntos finales dentro del centro de datos afectado, como bases de datos RDS de una sola AZ, ElastiCache, etc., habrían tenido un impacto durante el evento, pero están comenzando a ver una recuperación ahora. Dado el nivel de recuperación, si aún no ha fallado fuera de la zona de disponibilidad afectada, debería comenzar a ver la recuperación en esta etapa.

6:13 a.m. PST Ahora hemos restaurado la energía en todas las instancias y dispositivos de red dentro del centro de datos afectado y estamos viendo la recuperación para la mayoría de las instancias EC2 y los volúmenes de EBS dentro de la zona de disponibilidad afectada. Continuamos avanzando en la recuperación de las instancias EC2 restantes y los volúmenes de EBS dentro de la zona de disponibilidad afectada. Si puede reiniciar las instancias EC2 afectadas dentro de la zona de disponibilidad afectada, eso puede ayudar a acelerar la recuperación. Tenemos una pequeña cantidad de volúmenes de EBS afectados que aún experimentan un rendimiento de E / S degradado y estamos trabajando para recuperarlos. La mayoría de los servicios de AWS también se han recuperado, pero los servicios que alojan puntos finales dentro de las VPC del cliente, como bases de datos RDS de una sola zona de disponibilidad, ElasticCache, Redshift, etc., continúan teniendo cierto impacto a medida que trabajamos hacia la recuperación completa.

6:51 a.m. PST Ahora hemos restaurado la energía a todas las instancias y dispositivos de red dentro del centro de datos afectado y estamos viendo la recuperación para la mayoría de las instancias EC2 y volúmenes de EBS dentro de la zona de disponibilidad afectada. Para las instancias EC2 restantes, estamos experimentando algunos problemas de conectividad de red, lo que ralentiza la recuperación completa. Creemos que entendemos por qué este es el caso y estamos trabajando en una resolución. Una vez resuelto, esperamos ver una recuperación más rápida para las instancias EC2 restantes y los volúmenes de EBS. Si puede reiniciar las instancias EC2 afectadas dentro de la zona de disponibilidad afectada, eso puede ayudar a acelerar la recuperación. Tenga en cuenta que reiniciar una instancia en esta etapa no ayudará, ya que un reinicio no cambia el hardware subyacente. Tenemos una pequeña cantidad de volúmenes de EBS afectados que aún experimentan un rendimiento de E / S degradado y estamos trabajando para recuperarlos. La mayoría de los servicios de AWS también se han recuperado, pero los servicios que alojan puntos finales dentro de las VPC del cliente, como bases de datos RDS de una sola zona de disponibilidad, ElasticCache, Redshift, etc., continúan teniendo cierto impacto a medida que trabajamos hacia la recuperación completa.

8:02 AM PST La energía continúa estable dentro del centro de datos afectado dentro de la Zona de disponibilidad afectada (USE1-AZ4) en la Región US-EAST-1. Hemos estado trabajando para resolver los problemas de conectividad que están experimentando las instancias EC2 restantes y los volúmenes de EBS en el centro de datos afectado, que forma parte de una única zona de disponibilidad (USE1-AZ4) en la región US-EAST-1. Hemos abordado el problema de conectividad de los volúmenes de EBS afectados, que ahora están comenzando a ver una mayor recuperación. Continuamos trabajando para mitigar el impacto de la red para las instancias EC2 dentro del centro de datos afectado, y esperamos ver una mayor recuperación allí a partir de los próximos 30 minutos. Dado que las API de EC2 han estado en buen estado durante algún tiempo dentro de la zona de disponibilidad afectada, el camino más rápido hacia la recuperación ahora sería relanzar las instancias de EC2 afectadas dentro de la zona de disponibilidad afectada u otras zonas de disponibilidad dentro de la región.

9:28 a. M. PST Continuamos progresando en la restauración de la conectividad con las instancias EC2 restantes y los volúmenes de EBS. En la última hora, hemos restaurado la conectividad subyacente a la mayoría de las instancias EC2 restantes y los volúmenes de EBS, pero ahora estamos trabajando en una recuperación completa a nivel de host. La mayoría de los servicios de AWS afectados permanecen en recuperación y hemos visto recuperación para la mayoría de las bases de datos RDS de una sola zona de disponibilidad que se vieron afectadas por el evento. Si puede reiniciar las instancias EC2 afectadas dentro de la zona de disponibilidad afectada, eso puede ayudar a acelerar la recuperación. Tenga en cuenta que reiniciar una instancia en esta etapa no ayudará, ya que un reinicio no cambia el hardware subyacente. Seguimos trabajando para lograr una recuperación total.

11:08 a. M. PST Seguimos progresando en la restauración de la energía y la conectividad de las instancias EC2 restantes y los volúmenes de EBS, aunque la recuperación de las instancias y volúmenes restantes está tardando más de lo esperado. Creemos que esto está relacionado con la forma en que el centro de datos perdió energía, lo que ha provocado fallas en el hardware subyacente que estamos trabajando para recuperar. Si bien las instancias EC2 y los volúmenes de EBS que se han recuperado continúan funcionando normalmente dentro del centro de datos afectado, estamos trabajando para reemplazar los componentes de hardware para la recuperación de las instancias de EC2 y los volúmenes de EBS restantes. Tenemos varios ingenieros trabajando en las fallas de hardware subyacentes y esperamos ver la recuperación en las próximas horas. Como suele ser el caso con una pérdida de energía, puede haber algún hardware que no se pueda recuperar, por lo que seguimos recomendando que reinicie su instancia EC2 o que vuelva a crear su volumen de EBS a partir de una instantánea, si puede hacerlo.

12:03 p.m. PST Durante la última hora, después de abordar muchas de las fallas de hardware subyacentes, hemos visto una tasa de recuperación acelerada para las instancias EC2 y los volúmenes de EBS afectados. Continuamos trabajando para abordar las fallas de hardware subyacentes que impiden las instancias EC2 restantes y los volúmenes de EBS. Para los clientes que continúan teniendo una instancia EC2 o deficiencias en el volumen de EBS, el relanzamiento de las instancias EC2 afectadas o la recreación de los volúmenes de EBS que afectan dentro de la zona de disponibilidad afectada sigue siendo un camino más rápido hacia la recuperación completa.

La página de estado de Amazon Web Services indica que la mayoría de los servicios ya están operando con normalidad pero no es del todo cierto. La zona de cómputo en la nube de Virginia del norte, en Estados Unidos (Amazon Elastic Compute Cloud), que es la infraestructura más afectada, también se está recuperando, según la última actualización de la compañía. Amazon alerta, eso sí, que la recuperación es lenta..

La última vez que Amazon Web Services sufrió una caída fue el 7 de diciembre, tal y como refleja el portal Toms Guide. Los fallos, en este caso, afectaron principalmente a los servicios de streaming, y tanto de la propia Amazon, con Prime Video, como de otras compañías, como Disney+. Las aspiradoras robot Roomba se desconectaron, los paquetes a domicilio se detuvieron, las cámaras de vigilancia en las puertas de entrada dejaron de funcionar y las películas de Netflix y Disney Plus fueron interrumpidas; incluso las universidades que dependen de softwares tuvieron que posponer los exámenes finales.

Amazon confirmó que los problemas de servicio con la principal región “US-East-1” de AWS, ubicada en el norte de Virginia. Y ahora que. ¿Puedo reclamar a Amazon por la caída? Si adoptaste en gran medida el ecosistema de AWS y estás obligado a utilizar únicamente sus servicios y funciones, debe asegurarte de equilibrar sus cargas de trabajo entre regiones pero eso implica más costes y duplicar plataformas. A final siempre gana Amazon así que sólo nos queda patalear.

Algunos expertos en ciberseguridad han advertido durante años sobre las consecuencias de permitir que un puñado de grandes empresas tecnológicas dominen las operaciones clave de internet.