Cómo funciona el procesamiento de datos en Data Wrangler - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo funciona el procesamiento de datos en Data Wrangler

Al trabajar con datos de forma interactiva en un flujo de datos de Amazon SageMaker Data Wrangler, Amazon SageMaker Canvas solo aplica las transformaciones a un conjunto de datos de muestra para que pueda previsualizarlos. Una vez finalizado el flujo de datos en SageMaker Canvas, puede procesar todos los datos y guardarlos en una ubicación adecuada para sus flujos de trabajo de aprendizaje automático.

Hay varias opciones para continuar cuando termine de transformar los datos en Data Wrangler:

  • Creación de un modelo Puede crear un modelo de Canvas, donde puede empezar directamente a crearlo con los datos preparados. Puede crear un modelo después de procesar todo el conjunto de datos o exportando solo los datos de muestra con los que ha trabajado en Data Wrangler. Canvas guarda los datos procesados (ya sea el conjunto de datos completo o los datos de muestra) como un conjunto de datos de Canvas.

    Le recomendamos que utilice los datos de muestra para iteraciones rápidas, pero utilice todos los datos cuando desee entrenar el modelo final. Cuando crea modelos tabulares, los conjuntos de datos de más de 5 GB se reducen automáticamente a 5 GB y, en el caso de los modelos de previsión de series temporales, los conjuntos de datos de más de 30 GB se reducen a 30 GB.

    Para obtener más información acerca de la creación de modelos, consulte Cómo funcionan los modelos personalizados.

  • Exportación de los datos Puede exportar los datos para usarlos en flujos de trabajo de machine learning. Dispone de varias opciones para exportar los datos:

    • Puede guardar sus datos en la aplicación de Canvas como un conjunto de datos. Para obtener más información sobre los tipos de archivo compatibles con los conjuntos de datos de Canvas y los requisitos adicionales para importar datos a Canvas, consulte Creación de un conjunto de datos.

    • Puede guardar los datos en Amazon S3. Según la disponibilidad de memoria de Canvas, los datos se procesan en la aplicación y, a continuación, se exportan a Amazon S3. Si el tamaño del conjunto de datos supera lo que Canvas puede procesar, de forma predeterminada, Canvas utiliza un trabajo EMR sin servidor para escalarlo a varias instancias de cómputo, procesar todo el conjunto de datos y exportarlo a Amazon S3. También puede configurar manualmente un trabajo de SageMaker procesamiento para tener un control más detallado sobre los recursos de cómputo utilizados para procesar sus datos.

  • Exportación de un flujo de datos. Puede resultar conveniente guardar el código del flujo de datos para poder modificar o ejecutar las transformaciones fuera de Canvas. Canvas le ofrece la opción de guardar las transformaciones del flujo de datos como código Python en un cuaderno de Jupyter, que luego puede exportar a Amazon S3 para usarlo en otros lugares de los flujos de trabajo de machine learning.

Cuando exporta los datos de un flujo de datos y los guarda como un conjunto de datos de Canvas o en Amazon S3, Canvas crea un nuevo nodo de destino en el flujo de datos, que es un nodo final que muestra dónde se almacenan los datos procesados. Puede añadir nodos de destino adicionales al flujo si desea realizar varias operaciones de exportación. Por ejemplo, puede exportar los datos desde distintos puntos del flujo de datos para aplicar solo algunas de las transformaciones o exportar los datos transformados a diferentes ubicaciones de Amazon S3. Para obtener más información sobre cómo añadir o editar un nodo de destino, consulte Adición de nodos de destino y Edición de un nodo de destino.

Para obtener más información sobre cómo configurar un cronograma con Amazon EventBridge para procesar y exportar automáticamente tus datos según un cronograma, consultaCreación de una programación para procesar automáticamente los datos nuevos.