本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
搭配 Amazon SageMaker Ground Truth 使用人工訓練資料標籤
若要訓練機器學習模型,您需要一個大型、高品質、標籤化的資料集。Ground Truth 可協助您為機器學習模型建置高品質的訓練資料集。透過 Ground Truth,您可以使用 Amazon Mechanical Turk (您選擇的廠商) 的工作者,或使用內部私有人力資源並搭配機器學習,讓您能夠建立已標籤的資料集。您可以使用 Ground Truth 的已標籤資料集輸出,來訓練您自己的模型。您也可以使用輸出做為 Amazon SageMaker AI 模型的訓練資料集。
視您的機器學習 (ML) 應用程式而定,您可以從其中一種 Ground Truth 內建任務類型中選擇,讓工作者為您的資料產生特定類型的標籤。您也可以建立自訂標籤工作流程,以提供您自己的使用者介面和工具給工作者來標籤您的資料。若要進一步了解 Ground Truth 內建任務類型,請參閱內建任務類型。若要了解如何建立自訂標籤工作流程,請參閱自訂標籤工作流程。
為了自動標籤您的訓練資料集,您可以選擇使用自動化資料標籤,此為使用機器學習來決定哪些資料需要由人工標籤的 Ground Truth 程序。自動資料標籤可以減少標籤所需的時間和手動操作工作量。如需詳細資訊,請參閱自動化資料標籤。若要建立自訂標籤工作流程,請參閱自訂標籤工作流程。
使用預先建置的工具或自訂工具,為您的訓練資料集指派標籤任務。標籤使用者介面範本是 Ground Truth 用於將任務和指示呈現給工作者的網頁。SageMaker AI 主控台提供標籤資料的內建範本。您可以利用這些範本來開始使用,也可以利用我們的 HTML 2.0 元件來建置任務和說明。如需詳細資訊,請參閱自訂標籤工作流程。
使用您選擇的人力資源標來標籤資料集。您可以選擇下列人力資源:
-
全球超過 500,000 個獨立承包商的 Amazon Mechanical Turk 人力資源。
-
您透過員工或承包商建立的私有人力資源,用於處理組織內的資料。
-
您可以在 中找到 AWS Marketplace 專門提供資料標籤服務的廠商公司。
如需詳細資訊,請參閱人力資源。
您可以在 Amazon S3 儲存貯體存放您的資料集。儲存貯體包含 3 個項目:需要標籤的資料、Ground Truth 用於讀取資料檔案的輸入資訊清單檔案、輸出資訊清單檔案。輸出檔案包含標籤工作的結果。如需詳細資訊,請參閱使用輸入和輸出資料。
來自標籤工作的事件會顯示在 /aws/sagemaker/LabelingJobs
群組下的 Amazon CloudWatch 中。CloudWatch 會使用標籤工作名稱做為日誌串流的名稱。
第一次使用 Ground Truth 嗎?
如果是第一次使用 Ground Truth,建議您完成以下事項:
-
閱讀 入門:使用 Ground Truth 建立週框方塊標籤工作 — 此節介紹如何設定您的第一個 Ground Truth 標籤工作。
-
探索其他主題 — 取決於您的需求,執行下列作業:
-
探索內建任務類型 — 使用內建任務類型來精簡建立標籤工作的程序。若要進一步了解 Ground Truth 內建任務類型,請參閱內建任務類型。
-
管理您的標籤人力資源 — 建立新的工作團隊並管理現有的人力資源。如需詳細資訊,請參閱人力資源。
-
瞭解串流標籤工作 — 建立串流標籤工作,並使用永久執行的標籤工作,即時將新的資料集物件傳送給工作者。只要標籤工作處於作用中狀態且正在向其傳送新物件,工作者就會持續接收要標籤的新資料物件。如需進一步了解,請參閱 Ground Truth 串流標籤工作。
-
-
若要進一步了解自動化 Ground Truth 操作的可用操作,請參閱 SageMaker AI 服務 API 參考。