クロスリージョン推論によるスループットの向上 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クロスリージョン推論によるスループットの向上

オンデマンドモードでモデル推論を実行する際、リクエストはサービスクォータまたはピーク使用時間によって制限される場合があります。クロスリージョン推論を使用すると、さまざまな でコンピューティングを利用することで、計画外のトラフィックバーストをシームレスに管理できます AWS リージョン。クロスリージョン推論を使用すると、複数の にトラフィックを分散できるため AWS リージョン、スループットが向上します。

クロスリージョン推論を使用するには、次の方法でモデル推論を実行するときに推論プロファイルを含めます。

  • オンデマンドモデル推論InvokeModel、、ConverseInvokeModelWithResponseStream、または ConverseStreamリクエストを送信するmodelIdときに、推論プロファイルの ID を として指定します。推論プロファイルは、ソースリージョンから発信される推論リクエストをルーティングできる 1 つ以上のリージョンを定義します。クロスリージョン推論を使用すると、推論プロファイルで定義されたリージョン間でモデル呼び出しリクエストを動的にルーティングすることで、スループットとパフォーマンスが向上します。ルーティング時には、ユーザートラフィック、需要、リソースの使用率が考慮されます。詳細については、「プロンプトを送信してモデル推論でレスポンスを生成する」を参照してください

  • バッチ推論 – リクエストの送信modelId時に推論プロファイルの ID を として指定して、バッチ推論を使用してCreateModelInvocationJobリクエストを非同期で送信します。推論プロファイルを使用すると、複数の でコンピューティングを活用し AWS リージョン 、バッチジョブの処理時間を短縮できます。ジョブが完了したら、ソースリージョンの Amazon S3 バケットから出力ファイルを取得できます。

  • ナレッジベースのレスポンス生成 – ナレッジベースをクエリした後でレスポンスを生成するとき、またはデータソース内の非テキスト情報を解析するときに、クロスリージョン推論を使用できます。詳細については、クエリとレスポンスを使用してナレッジベースをテストするおよびデータソースの解析オプションを参照してください。

  • モデル評価 – モデル評価ジョブを送信するときに評価するモデルとして推論プロファイルを送信できます。詳細については、「Amazon Bedrock リソースのパフォーマンスを評価する」を参照してください。

  • プロンプト管理 – プロンプト管理で作成したプロンプトのレスポンスを生成するときに、クロスリージョン推論を使用できます。詳細については、「Amazon Bedrock でプロンプト管理を使用して再利用可能なプロンプトを構築して保存する」を参照してください

  • プロンプトフロー – プロンプトフローのプロンプトノードでインラインに定義したプロンプトのレスポンスを生成するときに、クロスリージョン推論を使用できます。詳細については、「Amazon Bedrock Flows を使用して生成 AI ワークフローを構築する end-to-end 」を参照してください。

推論プロファイルを使用してクロスリージョン推論を実行できるリージョンとモデルを確認するには、「」を参照してください推論プロファイルでサポートされているリージョンとモデル

プロビジョンドスループットを購入することで、モデルのスループットを向上させることもできます。推論プロファイルは現在、プロビジョンドスループットをサポートしていません。

推論プロファイルを使用してリージョン間でモデル呼び出しリクエストを送信する方法については、「」を参照してくださいモデル呼び出しで推論プロファイルを使用する

クロスリージョン推論に関する以下の情報に注意してください。

  • クロスリージョン推論を使用する場合、追加のルーティングコストは必要ありません。料金は、推論プロファイルを呼び出すリージョンに基づいて計算されます。料金に関する詳細については、「Amazon Bedrock の料金」を参照してください。

  • クロスリージョン推論を使用する場合、スループットは推論プロファイルがあるリージョンのデフォルトクォータの最大 2 倍に達する可能性があります。スループットの増加は、推論プロファイルを介して実行される呼び出しにのみ適用されます。リージョン内のモデル呼び出しリクエストを選択した場合でも、通常のクォータが適用されます。たとえば、米国 を呼び出す場合 Anthropic Claude 3 Sonnet us-east-1 の推論プロファイルでは、スループットは 1 分あたり最大 1,000 リクエスト、1 分あたり 2,000,000 トークンに達する可能性があります。オンデマンドスループットのデフォルトのクォータを確認するには、Amazon Bedrock のクォータランタイムクォータセクションを参照するか、Service Quotas コンソールを使用します。

  • クロスリージョン推論リクエストは、使用された推論プロファイルの一部であるリージョン内に保持されます。例えば、EU 推論プロファイルを使用して行われたリクエストは、EU リージョン内に保持されます。

クロスリージョン推論の詳細については、「Getting started with cross-region inference in Amazon Bedrock」を参照してください。