Pemelajaran semi terawasi
Pemelajaran semi terawasi (bahasa Inggris: semi-supervised learning) adalah sebuah paradigma dalam pemelajaran mesin yang menjadi lebih relevan dan signifikan dengan munculnya model bahasa besar (LLM), terutama karena LLM membutuhkan jumlah data yang besar untuk melatihnya. Paradigma ini ditandai dengan penggunaan kombinasi antara sejumlah kecil data yang dilabeli manual dan sejumlah besar data tanpa label (digunakan secara eksklusif dalam pemelajaran tak terawasi). Dengan kata lain, nilai keluaran yang diinginkan hanya diberikan untuk sebagian kecil data pelatihan, sedangkan data yang tersisa tidak berlabel atau berlabel tanpa presisi. Secara intuitif, konsep ini dapat diibaratkan sebagai ujian. Dengan data yang berlabel, seperti soal contoh yang dikerjakan oleh guru sebagai bantuan dalam menyelesaikan rangkaian masalah lainnya. Dalam konteks transduktif, masalah yang belum terselesaikan ini berperan sebagai pertanyaan dalam ujian. Dalam konteks induktif, masalah ini menjadi latihan sejenis yang akan muncul dalam ujian. Secara teknis, masalah ini dapat dilihat sebagai klasterisasi dan kemudian memberi label pada klaster dengan data yang berlabel, mendorong batas keputusan menjauh dari wilayah berkepadatan tinggi, atau mempelajari manifold satu dimensi yang mendasari di mana data berada.
Masalah
[sunting | sunting sumber]Bagian dari seri |
Pemelajaran mesin dan Penggalian Data |
---|
Pengadaan data berlabel untuk sebuah tugas pemelajaran seringkali memerlukan agen manusia yang terampil (misalnya, untuk mentranskripsikan segmen audio) atau eksperimen fisik (misalnya, menentukan struktur 3D suatu protein atau menentukan apakah ada minyak di lokasi tertentu). Biaya yang terkait dengan proses pelabelan dapat membuat himpunan pelatihan yang berlabel sepenuhnya menjadi tidak mungkin dilakukan. Di sisi lain, pengadaan data tanpa label relatif lebih murah. Dalam situasi seperti itu, pemelajaran semi-terawasi dapat memiliki nilai praktis yang besar. Pemelajaran semi-terawasi juga menarik secara teoritis dalam pemelajaran mesin dan sebagai model pemelajaran manusia.
Teknik
[sunting | sunting sumber]Secara lebih formal, pemelajaran semi-terawasi mengasumsikan sebuah himpunan yang independen dan terdistribusi secara identik, contohnya dengan label , dan dengan contoh tanpa label diolah. Pemelajaran semi-terawasi menggabungkan informasi ini untuk melampaui kinerja yang dapat diperoleh dari klasifikasi, baik dengan membuang data tanpa label dan melakukan pemelajaran terawasi, atau dengan membuang label dan melakukan pembelajaran tanpa terawasi.
Pemelajaran semi-terawasi dapat merujuk, baik kepada pembelajaran transduktif atau pemelajaran induktif.[1] Tujuan dari pemelajaran transduktif adalah untuk menyimpulkan label yang benar untuk data tanpa label yang diberikan saja. Sedangkan tujuan dari pemelajaran induktif adalah untuk menyimpulkan pemetaan yang benar dari ke .
Tidak perlu (dan menurut Prinsip vapnik, tidak bijaksana) untuk melakukan pemelajaran transduktif dengan cara menyimpulkan aturan klasifikasi di seluruh ruang input. Namun, dalam praktiknya, algoritma yang secara formal dirancang untuk transduksi atau induksi sering digunakan secara bergantian.
Lihat juga
[sunting | sunting sumber]Referensi
[sunting | sunting sumber]- ^ Semi-Supervised Learning Literature Survey, Page 5, 2007, CiteSeerX 10.1.1.99.9681
Sumber
[sunting | sunting sumber]- Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9.
Pranala eksternal
[sunting | sunting sumber]- Manifold Regularization Implementasi MATLAB yang tersedia secara bebas dari algoritma semi-terawasi berbasis grafik Laplacian support vector machines dan Laplacian regulated least squares.
- KEEL: Alat perangkat lunak untuk menilai algoritma evolusioner untuk masalah Penambangan Data (regresi, klasifikasi, klasterisasi, penambangan pola, dan sebagainya) Modul KEEL untuk pembelajaran semi-terawasi.
- Perangkat lunak semi terawasi
- Pemelajaran semi-terawasi — dokumentasi scikit-learn Pemelajaran semi-terawasi di scikit-learn.