Tingkatkan throughput dengan inferensi lintas wilayah

Saat menjalankan inferensi model dalam mode sesuai permintaan, permintaan Anda mungkin dibatasi oleh kuota layanan atau selama waktu penggunaan puncak. Inferensi lintas wilayah memungkinkan Anda mengelola semburan lalu lintas yang tidak direncanakan dengan mulus dengan memanfaatkan komputasi di berbagai tempat. Wilayah AWS Dengan inferensi lintas wilayah, Anda dapat mendistribusikan lalu lintas di beberapa Wilayah AWS, memungkinkan throughput yang lebih tinggi.

Untuk menggunakan inferensi lintas wilayah, Anda menyertakan profil inferensi saat menjalankan inferensi model dengan cara berikut:

Inferensi model sesuai permintaan — Tentukan ID profil inferensi sebagai modelId saat mengirim,, Converse InvokeModel InvokeModelWithResponseStream, atau permintaan. ConverseStream Profil inferensi mendefinisikan satu atau beberapa Wilayah tempat ia dapat merutekan permintaan inferensi yang berasal dari Wilayah sumber Anda. Penggunaan inferensi lintas wilayah meningkatkan throughput dan kinerja dengan merutekan permintaan pemanggilan model secara dinamis di seluruh wilayah yang ditentukan dalam profil inferensi. Faktor routing dalam lalu lintas pengguna, permintaan dan pemanfaatan sumber daya. Untuk informasi selengkapnya, silakan lihat Kirim petunjuk dan hasilkan tanggapan dengan inferensi model
Inferensi Batch — Kirim permintaan secara asinkron dengan inferensi batch dengan menentukan ID profil inferensi sebagai saat mengirim permintaan. modelId CreateModelInvocationJob Menggunakan profil inferensi memungkinkan Anda memanfaatkan komputasi di beberapa Wilayah AWS dan mencapai waktu pemrosesan yang lebih cepat untuk pekerjaan batch Anda. Setelah pekerjaan selesai, Anda dapat mengambil file output dari bucket Amazon S3 di wilayah sumber.
Pembuatan respons basis pengetahuan — Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons setelah menanyakan basis pengetahuan atau saat mengurai informasi non-tekstual dalam sumber data. Untuk informasi selengkapnya, silakan lihat Uji basis pengetahuan Anda dengan pertanyaan dan tanggapan dan Opsi penguraian untuk sumber data Anda.
Evaluasi model — Anda dapat mengirimkan profil inferensi sebagai model untuk mengevaluasi saat mengirimkan pekerjaan evaluasi model. Untuk informasi selengkapnya, lihat Evaluasi kinerja sumber daya Amazon Bedrock.
Manajemen cepat - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda buat di Manajemen Prompt. Untuk informasi selengkapnya, silakan lihat Buat dan simpan petunjuk yang dapat digunakan kembali dengan manajemen Prompt di Amazon Bedrock
Alur prompt - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda tentukan sebaris dalam simpul prompt dalam alur prompt. Untuk informasi selengkapnya, lihat Bangun alur kerja AI end-to-end generatif dengan Amazon Bedrock Flows.

Untuk melihat Wilayah dan model yang dapat digunakan untuk menggunakan profil inferensi untuk menjalankan inferensi lintas wilayah, lihat. Wilayah dan model yang Didukung untuk profil inferensi

Anda juga dapat meningkatkan throughput untuk model dengan membeli Provisioned Throughput. Profil inferensi saat ini tidak mendukung Provisioned Throughput.

Untuk mempelajari cara menggunakan profil inferensi untuk mengirim permintaan pemanggilan model di seluruh Wilayah, lihat. Gunakan profil inferensi dalam pemanggilan model

Perhatikan informasi berikut tentang inferensi lintas wilayah:

Tidak ada biaya perutean tambahan untuk menggunakan inferensi lintas wilayah. Harga dihitung berdasarkan wilayah tempat Anda memanggil profil inferensi. Untuk informasi tentang harga, lihat harga Amazon Bedrock.
Saat menggunakan inferensi lintas wilayah, throughput Anda dapat mencapai hingga dua kali lipat kuota default di wilayah tempat profil inferensi berada. Peningkatan throughput hanya berlaku untuk pemanggilan yang dilakukan melalui profil inferensi, kuota reguler masih berlaku jika Anda memilih permintaan pemanggilan model dalam wilayah. Misalnya, jika Anda memanggil AS Anthropic Claude 3 Sonnet profil inferensi di us-east-1, throughput Anda dapat mencapai hingga 1.000 permintaan per menit dan 2.000.000 token per menit. Untuk melihat kuota default untuk throughput sesuai permintaan, lihat bagian Kuota Runtime di Kuota untuk Amazon Bedrock atau gunakan konsol Service Quotas.
Permintaan inferensi lintas wilayah disimpan di dalam wilayah yang merupakan bagian dari profil inferensi yang digunakan. Misalnya, permintaan yang dibuat dengan profil inferensi UE disimpan di wilayah UE.

Untuk mempelajari lebih lanjut tentang inferensi lintas wilayah, lihat Memulai inferensi lintas wilayah di Amazon Bedrock.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan Otomasi Data Batuan Dasar API

Tingkatkan kapasitas pemanggilan model dengan Provisioned Throughput