Pemelajaran semi terawasi

Pemelajaran semi terawasi (bahasa Inggris: semi-supervised learning) adalah sebuah paradigma dalam pemelajaran mesin yang menjadi lebih relevan dan signifikan dengan munculnya model bahasa besar (LLM), terutama karena LLM membutuhkan jumlah data yang besar untuk melatihnya. Paradigma ini ditandai dengan penggunaan kombinasi antara sejumlah kecil data yang dilabeli manual dan sejumlah besar data tanpa label (digunakan secara eksklusif dalam pemelajaran tak terawasi). Dengan kata lain, nilai keluaran yang diinginkan hanya diberikan untuk sebagian kecil data pelatihan, sedangkan data yang tersisa tidak berlabel atau berlabel tanpa presisi. Secara intuitif, konsep ini dapat diibaratkan sebagai ujian. Dengan data yang berlabel, seperti soal contoh yang dikerjakan oleh guru sebagai bantuan dalam menyelesaikan rangkaian masalah lainnya. Dalam konteks transduktif, masalah yang belum terselesaikan ini berperan sebagai pertanyaan dalam ujian. Dalam konteks induktif, masalah ini menjadi latihan sejenis yang akan muncul dalam ujian. Secara teknis, masalah ini dapat dilihat sebagai klasterisasi dan kemudian memberi label pada klaster dengan data yang berlabel, mendorong batas keputusan menjauh dari wilayah berkepadatan tinggi, atau mempelajari manifold satu dimensi yang mendasari di mana data berada.

Masalah

Kecenderungan suatu tugas untuk menggunakan metode terawasi vs. tak terawasi. Penempatan nama tugas melewati batas lingkaran disengaja. Ini menunjukkan bahwa pembagian klasik untuk tugas-tugas imajinatif (kiri) yang menggunakan metode tak terawasi menjadi kabur dalam skema pembelajaran saat ini.

Pengadaan data berlabel untuk sebuah tugas pemelajaran seringkali memerlukan agen manusia yang terampil (misalnya, untuk mentranskripsikan segmen audio) atau eksperimen fisik (misalnya, menentukan struktur 3D suatu protein atau menentukan apakah ada minyak di lokasi tertentu). Biaya yang terkait dengan proses pelabelan dapat membuat himpunan pelatihan yang berlabel sepenuhnya menjadi tidak mungkin dilakukan. Di sisi lain, pengadaan data tanpa label relatif lebih murah. Dalam situasi seperti itu, pemelajaran semi-terawasi dapat memiliki nilai praktis yang besar. Pemelajaran semi-terawasi juga menarik secara teoritis dalam pemelajaran mesin dan sebagai model pemelajaran manusia.

Teknik

Secara lebih formal, pemelajaran semi-terawasi mengasumsikan sebuah himpunan $l$ yang independen dan terdistribusi secara identik, contohnya $x_{1},\dots ,x_{l}\in X$ dengan label $y_{1},\dots ,y_{l}\in Y$ , dan dengan $u$ contoh tanpa label $x_{l+1},\dots ,x_{l+u}\in X$ diolah. Pemelajaran semi-terawasi menggabungkan informasi ini untuk melampaui kinerja yang dapat diperoleh dari klasifikasi, baik dengan membuang data tanpa label dan melakukan pemelajaran terawasi, atau dengan membuang label dan melakukan pembelajaran tanpa terawasi.

Pemelajaran semi-terawasi dapat merujuk, baik kepada pembelajaran transduktif atau pemelajaran induktif.^[1] Tujuan dari pemelajaran transduktif adalah untuk menyimpulkan label yang benar untuk data tanpa label $x_{l+1},\dots ,x_{l+u}$ yang diberikan saja. Sedangkan tujuan dari pemelajaran induktif adalah untuk menyimpulkan pemetaan yang benar dari $X$ ke $Y$ .

Tidak perlu (dan menurut Prinsip vapnik, tidak bijaksana) untuk melakukan pemelajaran transduktif dengan cara menyimpulkan aturan klasifikasi di seluruh ruang input. Namun, dalam praktiknya, algoritma yang secara formal dirancang untuk transduksi atau induksi sering digunakan secara bergantian.