使用跨區域推論提高輸送量 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用跨區域推論提高輸送量

在隨需模式下執行模型推論時,您的請求可能會受到服務配額或尖峰使用時段的限制。跨區域推論可讓您透過跨不同的運算,無縫管理意外流量爆增 AWS 區域。使用跨區域推論,您可以將流量分散到多個區域 AWS 區域,從而提高輸送量。

若要使用跨區域推論,當您以下列方式執行模型推論時,請包含推論描述檔:

若要查看您可以使用推論設定檔來執行跨區域推論的區域和模型,請參閱 推論描述檔支援的 區域和模型

您也可以購買佈建輸送量,以增加模型的輸送量。推論設定檔目前不支援佈建輸送量。

若要了解如何使用推論設定檔跨區域傳送模型調用請求,請參閱在模型調用中使用推論描述檔

請注意下列跨區域推論的相關資訊:

  • 使用跨區域推論無需額外的路由成本。價格是根據您呼叫推論設定檔的區域來計算。如需定價的詳細資訊,請參閱 Amazon Bedrock 定價

  • 使用跨區域推論時,您的輸送量最多可達到推論設定檔所在區域中預設配額的兩倍。輸送量的增加僅適用於透過推論設定檔執行的調用,如果您選擇區域模型調用請求,則一般配額仍然適用。例如,如果您叫用美國 Anthropic Claude 3 Sonnet us-east-1 中的推論設定檔,您的輸送量每分鐘可以達到 1,000 個請求,每分鐘可以達到 2,000,000 個字符。若要查看隨需輸送量的預設配額,請參閱 中的執行期配額區段,Amazon Bedrock 的配額或使用 Service Quotas 主控台。

  • 跨區域推論請求會保留在所使用的推論描述檔一部分的區域中。例如,使用歐盟推論設定檔提出的請求會保留在歐盟區域。

若要進一步了解跨區域推論,請參閱 Amazon Bedrock 中的跨區域推論入門