Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Marco de análisis de resiliencia
John Formento, Bruno Emer, Steven Hooper, Jason Barto y Michael Haken, de Amazon Web Services (AWS)
Septiembre de 2023(historial de documentos)
Los estándares y procesos consistentes y repetibles son una parte importante de la mejora continua. Esto también es válido para la resiliencia de los sistemas distribuidos. El propósito de esta guía es introducir un marco de análisis de la resiliencia que proporcione una forma coherente de analizar los modos de falla y cómo podrían afectar a sus cargas de trabajo. El uso de este marco durante todo el ciclo de vida de su carga de trabajo, desde el diseño hasta la operación, le ayuda a mejorar continuamente la resiliencia de sus cargas de trabajo ante una gama más amplia de posibles modos de fallo de forma coherente y repetible. Esto ayuda a garantizar que cumpla sus objetivos de resiliencia y mantenga las propiedades de resiliencia deseadas de sus cargas de trabajo.
Este marco se desarrolló a partir de la experiencia de los equipos de campo de arquitectura de soluciones de AWS en su trabajo con clientes de todos los sectores. Está dirigido a desarrolladores que pueden ocupar varios puestos de trabajo, como gerentes de producto, desarrolladores de software, ingenieros de sistemas, equipos de operaciones y arquitectos. Estas son las personas que más saben sobre el sistema, servicio o producto que se está analizando. El uso del marco en ejercicios continuos puede ayudarle a progresar gradualmente y a cumplir sus objetivos de resiliencia a largo plazo.
El objetivo del marco es identificar los posibles modos de fallo y los controles preventivos y correctivos que puede utilizar para mitigar su impacto. Incluso si las fallas se producen en componentes que no están directamente bajo su control, como el aumento de las tasas de error en una dependencia, debe tener en cuenta cómo esas fallas pueden afectar a su carga de trabajo y cómo diseñar esa carga de trabajo para responder a estas fallas. En última instancia, debe centrarse enfallas a las que puede respondermediante el uso de una mitigación que esté bajo su control.
Esta guía describe el marco y, a continuación, analiza cómo identificar y documentar una carga de trabajo, cómo aplicar el marco a esa carga de trabajo y cómo evaluar las estrategias de mitigación para detectar cualquier posible fallo que se detecte.
Contenido