Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Format kumpulan data dan metrik objektif untuk klasifikasi teks
Pada bagian ini kita belajar tentang format yang tersedia untuk kumpulan data yang digunakan dalam klasifikasi teks serta metrik yang digunakan untuk mengevaluasi kualitas prediktif kandidat model pembelajaran mesin. Metrik yang dihitung untuk kandidat ditentukan menggunakan array MetricDatumtipe.
Format kumpulan data
Autopilot mendukung data tabular yang diformat sebagai file atau sebagai CSV file Parket. Untuk data tabular, setiap kolom berisi fitur dengan tipe data tertentu dan setiap baris berisi pengamatan. Sifat-sifat dari dua format file ini sangat berbeda.
-
CSV(comma-separated-values) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.
-
Parket adalah format file berbasis kolom di mana data disimpan dan diproses lebih efisien daripada format file berbasis baris. Ini membuat mereka menjadi pilihan yang lebih baik untuk masalah data besar.
Tipe data yang diterima untuk kolom termasuk numerik, kategoris, teks.
Autopilot mendukung pembuatan model pembelajaran mesin pada kumpulan data besar hingga ratusan. GBs Untuk detail tentang batas sumber daya default untuk kumpulan data input dan cara meningkatkannya, lihat kuota Amazon SageMaker Autopilot.
Metrik obyektif
Daftar berikut berisi nama-nama metrik yang saat ini tersedia untuk mengukur kinerja model untuk klasifikasi teks.
Accuracy
-
Rasio jumlah item yang diklasifikasikan dengan benar dengan jumlah total item yang diklasifikasikan (benar dan salah). Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan sempurna.