Aumente a produtividade com inferência entre regiões

Ao executar a inferência de modelos no modo sob demanda, as solicitações podem ser restringidas por cotas de serviço ou em horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, você pode distribuir o tráfego entre várias Regiões da AWS, permitindo maior taxa de transferência.

Para usar a inferência entre regiões, você inclui um perfil de inferência ao executar a inferência do modelo das seguintes maneiras:

Inferência de modelo sob demanda — especifique o ID do perfil de inferência como o modelId ao enviar uma solicitação InvokeModel InvokeModelWithResponseStream, Converse ou. ConverseStream Um perfil de inferência define uma ou mais regiões para as quais ele pode encaminhar solicitações de inferência provenientes da sua região de origem. O uso da inferência entre regiões aumenta a taxa de transferência e o desempenho ao rotear dinamicamente as solicitações de invocação do modelo nas regiões definidas no perfil de inferência. Fatores de roteamento no tráfego, na demanda e na utilização de recursos do usuário. Para ter mais informações, consulte Envie prompts e gere respostas com a inferência de modelo
Inferência em lote — envie solicitações de forma assíncrona com a inferência em lote especificando o ID do perfil de inferência como o ao enviar uma solicitação. modelId CreateModelInvocationJob O uso de um perfil de inferência permite que você utilize a computação em vários Regiões da AWS e obtenha tempos de processamento mais rápidos para seus trabalhos em lotes. Depois que o trabalho for concluído, você poderá recuperar os arquivos de saída do bucket do Amazon S3 na região de origem.
Geração de respostas da base de conhecimento — Você pode usar a inferência entre regiões ao gerar uma resposta após consultar uma base de conhecimento ou ao analisar informações não textuais em uma fonte de dados. Para ter mais informações, consulte Testar a base de conhecimento com consultas e respostas e Opções de análise para sua fonte de dados.
Avaliação do modelo — Você pode enviar um perfil de inferência como modelo para avaliação ao enviar um trabalho de avaliação do modelo. Para obter mais informações, consulte Avalie o desempenho dos recursos do Amazon Bedrock.
Gerenciamento de solicitações — você pode usar a inferência entre regiões ao gerar uma resposta para uma solicitação criada no Gerenciamento de solicitações. Para obter mais informações, consulte Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock.
Fluxos de prompt — você pode usar a inferência entre regiões ao gerar uma resposta para um prompt definido em linha em um nó de prompt em um fluxo de prompt. Para obter mais informações, consulte Crie um fluxo de trabalho end-to-end generativo de IA com o Amazon Bedrock Flows.

Para ver as regiões e os modelos com os quais você pode usar perfis de inferência para executar inferência entre regiões, consulte. Regiões e modelos compatíveis para perfis de inferência

Você também pode aumentar o throughput de um modelo comprando throughput provisionado. Atualmente, os perfis de inferência não comportam throughput provisionado.

Para saber como usar um perfil de inferência para enviar solicitações de invocação de modelo entre regiões, consulte. Use um perfil de inferência na invocação de modelos

Observe as seguintes informações sobre inferência entre regiões:

Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região na qual você chama um perfil de inferência. Para obter mais informações sobre preços, consulte Preços do Amazon Bedrock.
Ao usar a inferência entre regiões, sua taxa de transferência pode atingir até o dobro das cotas padrão na região em que o perfil de inferência está. O aumento no throughput só se aplica à invocação realizada por meio de perfis de inferência. A cota normal ainda se aplicará se você optar pela solicitação de invocação de modelo na região. Por exemplo, se você invocar os EUA Anthropic Claude 3 Sonnet perfil de inferência em us-east-1, sua taxa de transferência pode atingir até 1.000 solicitações por minuto e 2.000.000 de tokens por minuto. Para ver as cotas padrão do throughput sob demanda, consulte a seção Runtime quotas em Cotas do Amazon Bedrock ou use o console do Service Quotas.
Os prompts de inferência entre regiões são mantidos nas regiões que fazem parte do perfil de inferência usado. Por exemplo, uma solicitação feita com um perfil de inferência da UE é mantida nas regiões da UE.

Para saber mais sobre a inferência entre regiões, consulte Getting started with cross-region inference in Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usando a automação de dados Bedrock API

Aumentar a capacidade de invocação do modelo com throughput provisionado