Skip to main content

El error de dedo que tiro Amazon Web Services

El martes pasado (28 Febrero 2017) miles de sitios en Internet experimentaron problemas de acceso a sus bases de datos, algunos no mostraban sus imágenes o incluso las paginas cargaban de forma incorrecta o con enlaces rotos, todo esto se debió a problemas en los servicios web de Amazon (AWS), la caída de sus servidores duro aproximadamente 5 horas en la que miles de usuarios en Internet estuvieron experimentando problemas, y todo se debió a un error de dedo, literalmente.

Amazon Web Services es un conjunto de soluciones que ofrece Amazon para webmasters, cualquier administrador de servidores o empresa con presencia en Internet. Sus servicios son muchos, uno de los mas comunes es el servicio de CDN que permite a miles de sitios en Internet guardar archivos de estilos, scripts e imágenes en los servidores de Amazon, esto ayuda a que la carga de las paginas web sea más rápida y el consumo de ciclos en los servidores sea menor ayudando a que la experiencia de los usuarios al visitar una pagina sea mas amena, otros servicios similares de AWS esta relacionado con bases de datos y todo lo relacionado con Cloud Computing, en fin, una infinidad de servicios de los que dependen miles de paginas de Internet, aplicaciones móviles y servicios especiales en Internet.

El comunicado de Amazon revela lo sucedido, y menciona que el problema fue ocasionado por un error humano durante un proceso de mantenimiento de los servidores de sistemas de facturación de Amazon,  que salio muy mal.

¿Que paso?

Bueno pues un ingeniero de Amazon ingreso parámetros extras a un comando lo que provoco la caída de múltiples servicios de AWS. El ingeniero de Amazon tenia como tarea darle mantenimiento a los servidores de facturación de AWS.

Parte del proceso de mantenimiento implica desconectar un grupo de servidores, pero un comando mal ingresado por el ingeniero provoco que un grupo muy grande de servidores relacionados con Amazon Web Services fuera desconectado, los servidores desconectados daban soporte a otros dos servicios relacionados S3, todo esto fue lo que provoco la interrupción de los servicios durante 5 horas que fue lo que tardaron los ingenieros en revivir los servicios web de Amazon.

¿Porque tardaron 5 horas?

Sobre esto Amazon dijo que esto se debió a que el proceso para reiniciar los servicios requirió de revisiones de seguridad para validad la integridad de los datos, esto debido a que los servicios llevaban muchos años sin haber fallado lo que conlleva una gran cantidad de información procesada y que debía ser revisada para corroborar que todo este bien y que el problema no se extienda.

Amazon ya ofreció disculpas a todos sus clientes por los problemas suscitados el pasado martes y menciono que se están haciendo cambios en sus procesos para evitar que esto vuelva a suceder.

Corre la voz con tus amigos/contactos:

Compartir