視覚化を使用してデータを探索する - Amazon SageMaker

視覚化を使用してデータを探索する

注記

SageMaker Canvas の視覚化は、表形式のデータセットに基づいて構築されたモデルにのみ使用できます。マルチカテゴリテキスト予測モデルも対象外です。

Amazon SageMaker Canvas では、機械学習モデルを構築する前に、データを探索して視覚化し、データに関する高度なインサイトを得ることができます。散布図、棒グラフ、ボックスプロットを使用して視覚化できるため、データを理解し、モデルの精度に影響を与える可能性のある特徴間の関係を発見するのに役立ちます。

SageMaker Canvas アプリケーションの [ビルド] タブで、[データビジュアライザー] を選択して、視覚化の作成を開始します。

視覚化のサンプルサイズを変更すると、データセットから取得するランダムサンプルのサイズを調整できます。サンプルサイズが大きすぎるとデータの視覚化のパフォーマンスに影響する可能性があるため、適切なサンプルサイズを選択することをお勧めします。サンプルサイズを変更するには、次の手順に従います。

  1. [視覚化サンプル] を選択します。

  2. スライダーを使用して希望するサンプルサイズを選択します。

  3. [更新] を選択して、サンプルサイズの変更を確定します。

注記

一部の視覚化手法では、特定のデータ型の列が必要です。例えば、散布図の X 軸と Y 軸には数値列しか使用できません。

散布図

データセットを使用して散布図を作成するには、[視覚化] パネルで [散布図] を選択します。X 軸と Y 軸にプロットする特徴量を [列] セクションで選択します。列を座標軸にドラッグアンドドロップしたり、軸をドロップした後に、サポートされている列のリストから列を選択したりすることもできます。

[色別] では、3 つ目の特徴量を使用してプロット上のデータポイントに色を付けることができます。[グループ別] では、4 つ目の特徴量に基づいてデータを別々のプロットにグループ化することもできます。

次の画像は、[色別][グループ別] を使用した散布図を示しています。この例では、各データポイントは MaritalStatus 特徴量ごとに色分けされ、Department 特徴量でグループ化すると、各部門のデータポイントの散布図が作成されます。

Canvas アプリケーションの [データビジュアライザー] ビューの散布図のスクリーンショット。

棒グラフ

データセットを使用して棒グラフを作成するには、[視覚化] パネルで [棒グラフ] を選択します。X 軸と Y 軸にプロットする特徴量を [列] セクションで選択します。列を座標軸にドラッグアンドドロップしたり、軸をドロップした後に、サポートされている列のリストから列を選択したりすることもできます。

[グループ別] を使用すると、棒グラフを 3 つ目の特徴量でグループ化できます。[スタック別] を使用すると、4 つ目の特徴量の固有値に基づいて各棒グラフを縦方向にシェーディングできます。

次の画像は、[グループ別][スタック別] を使用した棒グラフを示しています。この例では、棒グラフは MaritalStatus 特徴量でグループ化され、JobLevel 特徴量で積み上げられています。X 軸の各 JobRole には、MaritalStatus 特徴量内の一意のカテゴリを示す個別のバーがあり、各バーは JobLevel 特徴量ごとに縦に積み上げられています。

Canvas アプリケーションの [データビジュアライザー] ビューの棒グラフのスクリーンショット。

ボックスプロット

データセットを使用してボックスプロットを作成するには、[視覚化] パネルで [ボックスプロット] を選択します。X 軸と Y 軸にプロットする特徴量を [列] セクションで選択します。列を座標軸にドラッグアンドドロップしたり、軸をドロップした後に、サポートされている列のリストから列を選択したりすることもできます。

[グループ別] を使用すると、ボックスプロットを 3 つ目の特徴量でグループ化できます。

次の画像は、[グループ別] を使用したボックスプロットを示しています。この例では、X 軸と Y 軸にはそれぞれ JobLevelJobSatisfaction が表示され、色付きのボックスプロットは Department 特徴量でグループ化されています。

Canvas アプリケーションの [データビジュアライザー] ビューのボックスプロットのスクリーンショット。