Blocca i contenuti dannosi nei modelli che utilizzano Amazon Bedrock Guardrails

Amazon Bedrock Guardrails può implementare misure di protezione per le tue applicazioni di intelligenza artificiale generativa in base ai tuoi casi d'uso e alle politiche di intelligenza artificiale responsabili. Puoi creare più barriere personalizzate per diversi casi d'uso e applicarle a più modelli di base (FM), offrendo un'esperienza utente coerente e standardizzando i controlli di sicurezza e privacy nelle applicazioni di intelligenza artificiale generativa. È possibile utilizzare i guardrail con input utente basati su testo e risposte basate su modelli.

I guardrail possono essere utilizzati in diversi modi per aiutare a salvaguardare le applicazioni di intelligenza artificiale generativa. Per esempio:

Un'applicazione chatbot può utilizzare i guardrail per aiutare a filtrare gli input dannosi degli utenti e le risposte tossiche dei modelli.
Un'applicazione bancaria può utilizzare i guardrails per aiutare a bloccare le domande degli utenti o le risposte modello associate alla ricerca o alla fornitura di consulenza in materia di investimenti.
Un'applicazione di call center per riepilogare le trascrizioni delle conversazioni tra utenti e agenti può utilizzare i guardrail per oscurare le informazioni di identificazione personale degli utenti () per proteggere la privacy degli utenti. PII

Amazon Bedrock Guardrails supporta le seguenti politiche:

Filtri per i contenuti: regola la potenza dei filtri per bloccare le richieste di input o modellare le risposte contenenti contenuti dannosi. Filtraggio del testo in base al rilevamento di determinate categorie di contenuti dannosi predefinite: odio, insulti, sesso, violenza, cattiva condotta e attacco immediato.
Argomenti negati: definisci una serie di argomenti indesiderati nel contesto della tua candidatura. Il filtro aiuterà a bloccarli se rilevati nelle domande degli utenti o nelle risposte del modello.
Filtri di parole: configura i filtri per bloccare parole, frasi e parolacce indesiderate. Tali parole possono includere termini offensivi, nomi di concorrenti, ecc.
Filtri per informazioni sensibili: configura i filtri per bloccare o mascherare le informazioni sensibili, come le informazioni di identificazione personale (PII) o espressioni regolari personalizzate negli input degli utenti e nelle risposte del modello. Il filtraggio o il mascheramento del testo si basa sul rilevamento di informazioni sensibili come SSN numero, data di nascita, indirizzo, ecc. Ciò consente inoltre di configurare il rilevamento dei pattern per gli identificatori basato su espressioni regolari.
Controllo contestuale del grounding: aiuta a rilevare e filtrare le allucinazioni nelle risposte del modello basate sulla localizzazione di una fonte e sulla pertinenza rispetto alla richiesta dell'utente.
Filtro del contenuto delle immagini: aiuta a rilevare e filtrare contenuti di immagini inappropriati o tossici. Gli utenti possono impostare filtri per categorie specifiche e impostare l'intensità del filtro.

Oltre alle politiche di cui sopra, puoi anche configurare i messaggi da restituire all'utente se l'input dell'utente o la risposta del modello violano le politiche definite nel guardrail.

Puoi creare più versioni di guardrail per il tuo guardrail. Quando create un guardrail, una bozza di lavoro è automaticamente disponibile da modificare in modo iterativo. Sperimentate diverse configurazioni e utilizzate la finestra di test integrata per vedere se sono appropriate per il vostro caso d'uso. Se sei soddisfatto di un set di configurazioni, puoi creare una versione del guardrail e utilizzarla con i modelli di base supportati.

I guardrail possono essere utilizzati direttamente FMs durante l'APIinvocazione dell'inferenza specificando l'ID del guardrail e la versione. I guardrail possono anche essere utilizzati direttamente tramite il senza richiamare i modelli di base. ApplyGuardrail API Se viene utilizzato un guardrail, valuterà i prompt di input e i completamenti FM rispetto alle politiche definite.

Per le applicazioni di retrieval augmented generation (RAG) o conversazionali, potrebbe essere necessario valutare solo l'input dell'utente nel prompt di input, ignorando le istruzioni di sistema, i risultati della ricerca, la cronologia delle conversazioni o alcuni brevi esempi. Per valutare selettivamente una sezione del prompt di input, vedere. Applica tag all'input dell'utente per filtrare i contenuti

Importante

Amazon Bedrock Guardrails supporta inglese, francese e spagnolo. La valutazione del contenuto di testo in altre lingue può portare a risultati inaffidabili.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esegui esempi di codice