Naive Bayes classifier

Naive Bayes classifier (NBC) merupakan salah satu metode pembelajaran mesin yang memanfaatkan perhitungan probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas pada masa depan berdasarkan pengalaman pada masa sebelumnya.

Metode Naive Bayes juga sering diterapkan dalam bidang studi Teknik Informatika untuk menyelesaikan berbagai macam masalah yang berhubungan dengan database yang besar. Sistem kerja algoritma Niave Bayes classifier dengan melakukan pengklasifikasian melalui sebuah dataset yang tertampung dalam sebuah database. Naive bayes classifier juga bisa digunakan untuk memprediksi sebuah keputusan berdasarkan banyaknya dataset yang dimiliki di dalam database. Semakin banyak himpunan data yang digunakan semakin akurat hasil akurasi sebuah keputusan menggunakan algoritma ini.

Pengenalan[sunting | sunting sumber]

Naive Bayes adalah sebuah teknik sederhana untuk membangun klasifier, yaitu model yang memberikan label kelas pada suatu masalah, yang direpresentasikan sebagai vektor dari nilai fitur, di mana label kelas diambil dari suatu himpunan terbatas. Tidak ada satupun algoritma tunggal untuk melatih klasifier semacam itu, tetapi ada keluarga algoritma yang didasarkan pada suatu prinsip umum: semua klasifier Naive Bayes mengasumsikan bahwa nilai suatu fitur tertentu independen dari nilai fitur lainnya, dengan asumsi variabel kelas. Sebagai contoh, sebuah buah dapat dianggap sebagai apel jika berwarna merah, bulat, dan memiliki diameter sekitar 10 cm. Klasifier naive Bayes menganggap setiap fitur ini berkontribusi secara independen terhadap probabilitas bahwa buah ini adalah apel, tanpa memperhitungkan kemungkinan korelasi antara fitur warna, bulat, dan diameter.

Dalam banyak aplikasi, estimasi parameter untuk model naive Bayes menggunakan metode pendugaan kemungkinan maksimum (maximum likelihood); dengan kata lain, seseorang dapat menggunakan model naive Bayes tanpa harus menerima probabilitas Bayesian atau menggunakan metode Bayesian apa pun.

Meskipun desain yang "naive" dan asumsi yang tampak terlalu disederhanakan, NBC telah berhasil dalam banyak situasi dunia nyata yang kompleks. Pada tahun 2004, analisis terhadap masalah klasifikasi Bayesian menunjukkan bahwa ada alasan teoretis yang kuat untuk efektivitas yang tampaknya tidak masuk akal dari klasifier naive Bayes.^[1] Meskipun begitu, perbandingan komprehensif dengan algoritma klasifikasi lain pada tahun 2006 menunjukkan bahwa klasifikasi Bayes kalah oleh pendekatan lain, seperti boosted trees atau random forest.^[2]

Keuntungan dari naive Bayes adalah bahwa ia hanya memerlukan sejumlah kecil data latih untuk mengestimasi parameter yang diperlukan untuk klasifikasi.^[3]

Bacaan lanjutan[sunting | sunting sumber]

Domingos, Pedro; Pazzani, Michael (1997). "On the optimality of the simple Bayesian classifier under zero-one loss". Machine Learning. 29: 103–137.
Webb, G. I.; Boughton, J.; Wang, Z. (2005). "Not So Naive Bayes: Aggregating One-Dependence Estimators". Machine Learning. Springer. 58 (1): 5–24. doi:10.1007/s10994-005-4258-6. ^{[pranala nonaktif permanen]}
Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). Nomograms for Visualization of Naive Bayesian Classifier (PDF). Proc. PKDD-2004. hlm. 337–348.
Maron, M. E. (1961). "Automatic Indexing: An Experimental Inquiry". Journal of the ACM. 8 (3): 404–417. doi:10.1145/321075.321084.
Minsky, M. (1961). Steps toward Artificial Intelligence. Proc. IRE. 49. hlm. 8–30.

^ Zhang, Harry; Jiang, Liangxiao; Su, Jiang (2005). "Augmenting naive Bayes for ranking". Proceedings of the 22nd international conference on Machine learning - ICML '05. New York, New York, USA: ACM Press. doi:10.1145/1102351.1102480.
^ Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning - ICML '06. New York, New York, USA: ACM Press. doi:10.1145/1143844.1143865.
^ "Why does Naive Bayes work better when the number of features >> sample size compared to more sophisticated ML algorithms?". stats.stackexchange. Diakses tanggal 2023-11-25.

[1] Zhang, Harry; Jiang, Liangxiao; Su, Jiang (2005). "Augmenting naive Bayes for ranking". Proceedings of the 22nd international conference on Machine learning - ICML '05. New York, New York, USA: ACM Press. doi:10.1145/1102351.1102480.

[2] Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning - ICML '06. New York, New York, USA: ACM Press. doi:10.1145/1143844.1143865.

[3] "Why does Naive Bayes work better when the number of features >> sample size compared to more sophisticated ML algorithms?". stats.stackexchange. Diakses tanggal 2023-11-25.

[1]

[2]

[3]