Como o processamento de dados funciona no Data Wrangler - Amazon SageMaker

Como o processamento de dados funciona no Data Wrangler

Ao trabalhar com dados de forma interativa em um fluxo de dados do Amazon SageMaker Data Wrangler, o Amazon SageMaker Canvas só aplica as transformações a um conjunto de dados de amostra para você visualizar. Depois de concluir seu fluxo de dados no SageMaker Canvas, você pode processar todos os seus dados e salvá-los em um local adequado para seus fluxos de trabalho de machine learning.

Há várias opções de como proceder depois de terminar de transformar seus dados no Data Wrangler:

  • Criar um modelo. Você pode criar um modelo Canvas, onde você começa diretamente a criar um modelo com seus dados preparados. Você pode criar um modelo depois de processar todo o conjunto de dados ou exportando apenas os dados de amostra com os quais você trabalhou no Data Wrangler. O Canvas salva seus dados processados (o conjunto de dados inteiro ou os dados de amostra) como um conjunto de dados do Canvas.

    Recomendamos que você use seus dados de amostra para iterações rápidas, mas use todos os dados quando quiser treinar seu modelo final. Ao criar modelos tabulares, conjuntos de dados maiores que 5 GB são automaticamente reduzidos para 5 GB e, para modelos de previsão de séries temporais, conjuntos de dados maiores que 30 GB são reduzidos para 30 GB.

    Para saber mais sobre como criar um modelo, consulte Como os modelos personalizados funcionam.

  • Exportar os dados. Você pode exportar seus dados para uso em fluxos de trabalho de machine learning. Ao escolher exportar seus dados, você tem várias opções:

    • Você pode salvar seus dados na aplicação Canvas como um conjunto de dados. Para obter mais informações sobre os tipos de arquivo compatíveis com conjuntos de dados do Canvas e requisitos adicionais ao importar dados para o Canvas, consulte. Criar um conjunto de dados

    • Você pode salvar seus dados no Amazon S3. Dependendo da disponibilidade de memória do Canvas, seus dados são processados na aplicação e depois exportados para o Amazon S3. Se o tamanho do seu conjunto de dados exceder o que o Canvas pode processar, então, por padrão, o Canvas usa um trabalho do EMR com tecnologia sem servidor para escalar para várias instâncias de computação, processar seu conjunto de dados completo e exportá-lo para o Amazon S3. Você também pode configurar manualmente uma tarefa de processamento do SageMaker para ter um controle mais granular sobre os recursos computacionais usados para processar seus dados.

  • Exportar um fluxo de dados. Talvez você queira salvar o código do seu fluxo de dados para poder modificar ou executar suas transformações fora do Canvas. O Canvas oferece a opção de salvar suas transformações de fluxo de dados como código Python em um caderno Jupyter, que você pode então exportar para o Amazon S3 para uso em qualquer lugar em seus fluxos de trabalho de machine learning.

Quando você exporta seus dados de um fluxo de dados e os salva como um conjunto de dados do Canvas ou para o Amazon S3, o Canvas cria um novo nó de destino em seu fluxo de dados, que é um nó final que mostra onde seus dados processados estão armazenados. Você pode adicionar outros nós de destino ao seu fluxo se quiser realizar várias operações de exportação. Por exemplo, você pode exportar os dados de diferentes pontos em seu fluxo de dados para aplicar apenas algumas das transformações, ou você pode exportar dados transformados para diferentes locais do Amazon S3. Para obter mais informações sobre como adicionar ou editar um nó de destino, consulte Adicionar nós de destino e Editar um nó de destino .

Para obter mais informações sobre como configurar um cronograma com o Amazon EventBridge para processar e exportar automaticamente seus dados de acordo com um cronograma, consulte. Crie um cronograma para processar automaticamente novos dados