Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Rahmen für die Resilienzanalyse
John Formento, Bruno Emer, Steven Hooper, Jason Barto und Michael Haken, Amazon Web Services (AWS)
September 2023(Historie dokumentieren)
Konsistente, wiederholbare Standards und Prozesse sind ein wichtiger Bestandteil der kontinuierlichen Verbesserung. Dies gilt auch für die Widerstandsfähigkeit verteilter Systeme. Der Zweck dieser Leitlinien besteht darin, ein Framework für die Resilienzanalyse einzuführen, das eine konsistente Methode zur Analyse von Ausfallarten und deren möglichen Auswirkungen auf Ihre Workloads bietet. Wenn Sie dieses Framework während des gesamten Lebenszyklus Ihres Workloads, vom Entwurf bis zum Betrieb, verwenden, können Sie die Widerstandsfähigkeit Ihrer Workloads gegenüber einem breiteren Spektrum potenzieller Ausfallarten kontinuierlich auf konsistente und wiederholbare Weise verbessern. Auf diese Weise können Sie sicherstellen, dass Sie Ihre Resilienzziele erreichen und die gewünschten Resilienzeigenschaften Ihrer Workloads beibehalten.
Dieses Framework wurde auf der Grundlage der Erfahrungen der Außendienstteams für AWS-Lösungsarchitektur bei der Arbeit mit Kunden aus allen Branchen entwickelt. Es richtet sich an Entwickler, die viele Berufsbezeichnungen haben können, darunter Produktmanager, Softwareentwickler, Systemingenieure, Betriebsteams und Architekten. Dies sind die Personen, die am meisten über das System, die Dienstleistung oder das Produkt wissen, das analysiert wird. Die Nutzung des Frameworks in kontinuierlichen Übungen kann Ihnen helfen, schrittweise Fortschritte zu erzielen und Ihre langfristigen Resilienzziele zu erreichen.
Der Schwerpunkt des Frameworks liegt auf der Identifizierung potenzieller Fehlerquellen und der präventiven und korrektiven Maßnahmen, mit denen Sie deren Auswirkungen abmildern können. Selbst wenn die Fehler in Komponenten auftreten, die nicht direkt unter Ihrer Kontrolle stehen, wie z. B. erhöhte Fehlerraten in einer Abhängigkeit, müssen Sie bedenken, wie sich diese Ausfälle auf Ihre Arbeitslast auswirken könnten und wie Sie diese Arbeitslast so gestalten können, dass sie auf diese Fehler reagiert. Letztlich sollten Sie sich auf Folgendes konzentrierenFehler, auf die Sie reagieren könnenindem Sie eine Abhilfemaßnahme verwenden, auf die Sie Einfluss haben.
In diesem Leitfaden wird das Framework beschrieben. Anschließend wird erläutert, wie ein Workload identifiziert und dokumentiert wird, wie das Framework auf diesen Workload angewendet wird und wie Strategien zur Risikominderung für mögliche Fehler, die Sie finden, bewertet werden können.
Inhalt