Wie funktioniert die Datenverarbeitung in Data Wrangler - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wie funktioniert die Datenverarbeitung in Data Wrangler

Bei der interaktiven Arbeit mit Daten in einem Amazon Data SageMaker Wrangler-Datenfluss wendet Amazon SageMaker Canvas die Transformationen nur auf einen Beispieldatensatz an, den Sie in der Vorschau anzeigen können. Nachdem Sie Ihren Datenfluss in SageMaker Canvas abgeschlossen haben, können Sie alle Ihre Daten verarbeiten und an einem Ort speichern, der für Ihre Workflows für maschinelles Lernen geeignet ist.

Es gibt mehrere Optionen, wie Sie vorgehen können, nachdem Sie die Transformation Ihrer Daten in Data Wrangler abgeschlossen haben:

  • Erstellen Sie ein Modell. Sie können ein Canvas-Modell erstellen, bei dem Sie direkt mit der Erstellung eines Modells mit Ihren vorbereiteten Daten beginnen. Sie können ein Modell entweder nach der Verarbeitung Ihres gesamten Datensatzes erstellen oder indem Sie nur die Beispieldaten exportieren, mit denen Sie in Data Wrangler gearbeitet haben. Canvas speichert Ihre verarbeiteten Daten (entweder den gesamten Datensatz oder die Beispieldaten) als Canvas-Datensatz.

    Wir empfehlen, dass Sie Ihre Beispieldaten für schnelle Iterationen verwenden, aber dass Sie Ihre gesamten Daten verwenden, wenn Sie Ihr endgültiges Modell trainieren möchten. Bei der Erstellung tabellarischer Modelle werden Datensätze, die größer als 5 GB sind, automatisch auf 5 GB heruntergerechnet, und bei Zeitreihenprognosemodellen werden Datensätze, die größer als 30 GB sind, auf 30 GB heruntergerechnet.

    Weitere Informationen zum Erstellen eines Modells finden Sie unter. Wie funktionieren benutzerdefinierte Modelle

  • Exportieren Sie die Daten. Sie können Ihre Daten zur Verwendung in Workflows für maschinelles Lernen exportieren. Wenn Sie Ihre Daten exportieren möchten, haben Sie mehrere Möglichkeiten:

    • Sie können Ihre Daten in der Canvas-Anwendung als Datensatz speichern. Weitere Informationen zu den unterstützten Dateitypen für Canvas-Datasets und zu zusätzlichen Anforderungen beim Importieren von Daten in Canvas finden Sie unterErstellen eines Datensatzes.

    • Sie können Ihre Daten in Amazon S3 speichern. Abhängig von der Verfügbarkeit des Canvas-Speichers werden Ihre Daten in der Anwendung verarbeitet und anschließend nach Amazon S3 exportiert. Wenn die Größe Ihres Datensatzes das übersteigt, was Canvas verarbeiten kann, verwendet Canvas standardmäßig einen EMR serverlosen Job, um auf mehrere Recheninstanzen zu skalieren, Ihren gesamten Datensatz zu verarbeiten und ihn nach Amazon S3 zu exportieren. Sie können einen SageMaker Verarbeitungsauftrag auch manuell konfigurieren, um eine genauere Kontrolle über die Rechenressourcen zu haben, die für die Verarbeitung Ihrer Daten verwendet werden.

  • Exportieren Sie einen Datenfluss. Möglicherweise möchten Sie den Code für Ihren Datenfluss speichern, damit Sie Ihre Transformationen außerhalb von Canvas ändern oder ausführen können. Canvas bietet Ihnen die Möglichkeit, Ihre Datenflusstransformationen als Python-Code in einem Jupyter-Notizbuch zu speichern, das Sie dann nach Amazon S3 exportieren können, um es an anderer Stelle in Ihren Machine-Learning-Workflows zu verwenden.

Wenn Sie Ihre Daten aus einem Datenfluss exportieren und entweder als Canvas-Datensatz oder in Amazon S3 speichern, erstellt Canvas einen neuen Zielknoten in Ihrem Datenfluss. Dies ist ein letzter Knoten, der Ihnen zeigt, wo Ihre verarbeiteten Daten gespeichert sind. Sie können Ihrem Flow zusätzliche Zielknoten hinzufügen, wenn Sie mehrere Exportvorgänge durchführen möchten. Sie können beispielsweise die Daten von verschiedenen Punkten in Ihrem Datenfluss exportieren, um nur einige der Transformationen anzuwenden, oder Sie können transformierte Daten an verschiedene Amazon S3 S3-Standorte exportieren. Weitere Informationen zum Hinzufügen oder Bearbeiten eines Zielknotens finden Sie unter Fügen Sie Zielknoten hinzu undBearbeiten Sie einen Zielknoten.

Weitere Informationen zum Einrichten eines Zeitplans mit Amazon für EventBridge die automatische Verarbeitung und den Export Ihrer Daten nach einem Zeitplan finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten.