数据准备
注意
此前,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 体验的一部分。现在,如果您更新为使用新的 Studio 体验,则必须使用 SageMaker Canvas 访问 Data Wrangler 并接收最新的功能更新。如果您之前一直在 Studio Classic 中使用 Data Wrangler,现在想迁移到 Canvas 中的 Data Wrangler,可能需要为创建和使用 Canvas 应用程序授予额外的权限。有关更多信息,请参阅 (可选)从 Studio Classic 中的 Data Wrangler 迁移到 SageMaker Canvas。
要了解如何在 Studio Classic 中从 Data Wrangler 迁移数据流,请参阅 (可选)将数据从 Studio Classic 迁移到 Studio。
在 Amazon SageMaker Canvas 中使用 Amazon SageMaker Data Wrangler 来准备、展示和分析您的数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。
-
数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。
-
转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。
-
生成数据见解:使用 Data Wrangler 数据质量和见解报告,自动验证数据质量并检测数据中的异常。
-
分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。
-
导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:
-
Amazon Simple Storage Service (Amazon S3)桶
-
Amazon SageMaker Feature Store – 将特征及其数据存储在中央存放区。
-
-
自动准备数据:根据您的数据流创建机器学习工作流程。
-
Amazon SageMaker Pipelines:构建用于管理 SageMaker 数据准备、模型训练和模型部署作业的工作流程。
-
串行推理管道:根据您的数据流创建串行推理管道。使用它预测新数据。
-
Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。
-