Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Framework di analisi della resilienza
John Formento, Bruno Emer, Steven Hooper, Jason Barto e Michael Haken, Amazon Web Services (AWS)
settembre 2023(cronologia dei documenti)
Standard e processi coerenti e ripetibili sono una parte importante del miglioramento continuo. Questo vale anche per la resilienza dei sistemi distribuiti. Lo scopo di questa guida è introdurre un framework di analisi della resilienza che fornisca un modo coerente per analizzare le modalità di errore e il modo in cui potrebbero influire sui carichi di lavoro. L'utilizzo di questo framework per l'intero ciclo di vita del carico di lavoro, dalla progettazione all'esercizio, consente di migliorare continuamente la resilienza dei carichi di lavoro a una gamma più ampia di potenziali modalità di guasto in modo coerente e ripetibile. Questo aiuta a garantire il raggiungimento degli obiettivi di resilienza e il mantenimento delle proprietà di resilienza desiderate per i carichi di lavoro.
Questo framework è stato sviluppato grazie all'esperienza dei team sul campo dell'architettura delle soluzioni AWS nel loro lavoro con clienti di tutti i settori. Si rivolge a costruttori che possono ricoprire diversi ruoli, tra cui responsabili di prodotto, sviluppatori di software, ingegneri di sistema, team operativi e architetti. Queste sono le persone che conoscono meglio il sistema, il servizio o il prodotto che viene analizzato. L'uso del framework in esercizi continui può aiutarti a fare progressi incrementali e a raggiungere i tuoi obiettivi di resilienza a lungo termine.
L'obiettivo del framework è identificare le potenziali modalità di guasto e i controlli preventivi e correttivi che è possibile utilizzare per mitigarne l'impatto. Anche se i guasti si verificano in componenti che non sono direttamente sotto il controllo dell'utente, ad esempio un aumento dei tassi di errore in una dipendenza, è necessario considerare in che modo tali guasti potrebbero influire sul carico di lavoro e come progettare tale carico di lavoro in modo da rispondere a tali errori. In definitiva, dovreste concentrarvi sufallimenti a cui puoi rispondereutilizzando una mitigazione che è sotto il tuo controllo.
Questa guida delinea il framework e poi spiega come identificare e documentare un carico di lavoro, come applicare il framework a quel carico di lavoro e come valutare le strategie di mitigazione per eventuali guasti riscontrati.
Indice