本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
彈性分析框架
約翰·福門托,布魯諾·埃默,史蒂芬·胡珀,傑森·巴托和邁克爾·哈肯,亞馬遜 Web 服務(AWS)
二零二三年九月(文件歷史)
一致且可重複的標準和流程是持續改進的重要組成部分。這對於分佈式系統的彈性也是如此。本指南的目的是引入彈性分析架構,提供一致的方式來分析失敗模式,以及它們如何影響您的工作負載。從設計到作業,在工作負載的整個生命週期中使用此架構,可協助您以一致且可重複的方式,持續將工作負載的彈性提升到更廣泛的潛在故障模式。這有助於確保您符合彈性目標,並維持工作負載所需的彈性特性。
此架構是透過 AWS 解決方案架構現場團隊與各行各業客戶合作的豐富經驗而開發的。它針對可以擁有許多職位的製造商,包括產品經理,軟件開發人員,系統工程師,運營團隊和架構師。這些是最了解正在分析的系統,服務或產品的人。在持續練習中使用該框架可以幫助您取得漸進的進步並滿足您的長期彈性目標。
架構的重點在於識別潛在的失敗模式,以及可用來減輕其影響的預防性和糾正控制項。即使不是直接受您控制的元件發生故障,例如增加相依性中的錯誤率,您也需要考慮這些失敗對工作負載的影響,以及如何設計該工作負載以回應這些失敗。最終,您應該專注於您可以回應的失敗通過使用您控制之下的緩解措施。
本指南概述了框架,然後討論如何識別和記錄工作負載,如何將框架應用於該工作負載,以及如何評估您發現的任何潛在故障的緩解策略。
內容