Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Titan Multimodal Embeddings G1 model
Amazon Titan Foundation-Modelle werden anhand großer Datensätze vorab trainiert, was sie zu leistungsstarken Allzweckmodellen macht. Verwenden Sie sie unverändert oder passen Sie sie an, indem Sie die Modelle mit Ihren eigenen Daten für eine bestimmte Aufgabe optimieren, ohne große Datenmengen mit Anmerkungen zu versehen.
Es gibt drei Arten von Titan-Modellen: Einbettungen, Textgenerierung und Bilderzeugung.
Es gibt zwei Titan Multimodal Embeddings G1 Modelle. Das Modell Titan Multimodal Embeddings G1 übersetzt Texteingaben (Wörter, Phrasen oder möglicherweise große Texteinheiten) in numerische Repräsentationen (sogenannte Einbettungen), die die semantische Bedeutung des Textes enthalten. Dieses Modell generiert zwar keinen Text, ist aber für Anwendungen wie Personalisierung und Suche nützlich. Durch den Vergleich von Einbettungen wird das Modell relevantere und kontextuellere Antworten liefern als beim Wortabgleich. Das G1-Modell für multimodale Einbettungen wird für Anwendungsfälle wie die Suche nach Text, nach Bildern auf Ähnlichkeit oder nach einer Kombination aus Text und Bild verwendet. Es übersetzt das eingegebene Bild oder den eingegebenen Text in eine Einbettung, die die semantische Bedeutung von Bild und Text im selben semantischen Raum enthält.
Titan-Textmodelle sind generativ LLMs für Aufgaben wie Zusammenfassung, Textgenerierung, Klassifizierung, offene QnA und Informationsextraktion. Sie sind auch in vielen verschiedenen Programmiersprachen sowie in Rich-Text-Formaten wie Tabellen und CSV-Dateien und anderen Formaten geschult. JSON
Amazon Titan Multimodal Embeddings Modell G1 — Textmodell
Model ID:
amazon.titan-embed-image-v1
Max. Anzahl der eingegebenen Text-Token: 256
Sprachen: Englisch
Max. Eingabebildgröße — 25 MB
Größe des Ausgabevektors: 1.024 (Standard), 384, 256
Inferenztypen: Auf Abruf, bereitgestellter Durchsatz
Unterstützte Anwendungsfälle — Suche, Empfehlung und Personalisierung.
Titan Text Embeddings V1 verwendet als Eingabe eine nicht leere Zeichenfolge mit bis zu 8.192 Tokens und gibt eine 1.024-dimensionale Einbettung zurück. Das Verhältnis von Zeichen zu Token in Englisch beträgt 4,6 Zeichen/Token. Hinweis zu RAG Anwendungsfällen: Titan Text Embeddings V2 kann zwar bis zu 8.192 Token aufnehmen, wir empfehlen jedoch, Dokumente in logische Segmente (wie Absätze oder Abschnitte) zu segmentieren.
Einbettungslänge
Das Festlegen einer benutzerdefinierten Einbettungslänge ist optional. Die Standardlänge für die Einbettung beträgt 1024 Zeichen, was für die meisten Anwendungsfälle geeignet ist. Die Einbettungslänge kann auf 256, 384 oder 1024 Zeichen festgelegt werden. Je größer die Einbettung desto detaillierter die Antwort, allerdings erhöht sich dadurch auch die Rechenzeit. Kürzere Einbettungslängen sind weniger detailliert, verbessern aber die Reaktionszeit.
# EmbeddingConfig Shape { 'outputEmbeddingLength':
int
// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Feinabstimmung
Input zum Amazon Titan Multimodal Embeddings G1 Feinabstimmung besteht aus Bild-Text-Paaren.
Bildformate:, PNG JPEG
Größenbeschränkung für das Eingabebild: 25 MB
Bildabmessungen: min: 256 px, max: 4.096 px
Maximale Anzahl von Token in der Bildunterschrift: 128
Größenbereich für Trainingsdatensätze: 1000–500.000
Größenbereich des Validierungsdatensatzes: 8–50.000
Anzahl der Zeichen in Untertiteln: 0–2.560
Maximale Gesamtpixelanzahl pro Bild: 2048*2048*3
Seitenverhältnis (B/H): min.: 0,25, max.: 4
Vorbereiten von Datensätzen
Erstellen Sie für den Trainingsdatensatz eine .jsonl
Datei mit mehreren JSON Zeilen. Jede JSON Zeile enthält image-ref
sowohl ein als auch caption
Attribute, die dem Format Sagemaker Augmented Manifest ähneln. Ein Validierungsdatensatz ist erforderlich. Automatische Untertitelung wird derzeit nicht unterstützt.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Sowohl für die Trainings- als auch für die Validierungsdatensätze erstellen Sie .jsonl
Dateien mit mehreren Zeilen. JSON
Die Amazon S3 S3-Pfade müssen sich in denselben Ordnern befinden, in denen Sie Amazon Bedrock Berechtigungen für den Zugriff auf die Daten erteilt haben, indem Sie Ihrer Amazon Bedrock-Servicerolle eine IAM Richtlinie anhängen. Weitere Informationen zur Gewährung von IAM Richtlinien für Trainingsdaten finden Sie unter Gewährung von Zugriff auf Ihre Trainingsdaten für benutzerdefinierte Jobs.
Hyperparameter
Diese Werte können für die Hyperparameter des Modells „Multimodale Einbettungen“ angepasst werden. Die Standardwerte eignen sich für die meisten Anwendungsfälle gut.
-
Lernrate – (min/max. Lernrate) – Standard: 5.00E-05, min: 5.00E-08, max: 1
-
Batchgröße – Effektive Batchgröße – Standard: 576, min: 256, max.: 9.216
-
Max. Epochen – Standard: „auto“, min: 1, max: 100