Overfitting: Perbedaan antara revisi
gambar |
k Bot: Perubahan kosmetika |
||
Baris 1: | Baris 1: | ||
{{inuse}} |
{{inuse}} |
||
[[Image:Overfitting.svg| |
[[Image:Overfitting.svg|jmpl|300px|Garis hijau melambangkan model yang overfitting/underfitting dan garis hitam melambangkan model yang sudah teratur. |
||
Walaupun garis hijau adalah yang paling akurat untuk set data di gambar ini, tetapi kemungkinan galat terjadi akan besar bila datanya diganti.]] |
Walaupun garis hijau adalah yang paling akurat untuk set data di gambar ini, tetapi kemungkinan galat terjadi akan besar bila datanya diganti.]] |
||
[[Image:Overfitted Data.png| |
[[Image:Overfitted Data.png|jmpl|300px|Data berisik (noisy) yang berbentuk linear secara tak utuh, diterapkan ke fungsi linear dan fungsi polinomial. Meskipun fungsi polinomial sangat cocok untuk set data di gambar ini, fungsi linear dapat memberikan gambaran generalisasi yang lebih baik |
||
Jika dua fungsi digunakan untuk mengekstrapolasi diluar data set, fungsi linear dapat membuat prediksi yang lebih baik.]] |
Jika dua fungsi digunakan untuk mengekstrapolasi diluar data set, fungsi linear dapat membuat prediksi yang lebih baik.]] |
||
Baris 10: | Baris 10: | ||
'''Underfitting''' adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, ''tree'' bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, ''tree'' memiliki galat pelatihan dan tes yang lebih kecil. Pada saat ''tree'' berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun. |
'''Underfitting''' adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, ''tree'' bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, ''tree'' memiliki galat pelatihan dan tes yang lebih kecil. Pada saat ''tree'' berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun. |
||
Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya : |
Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya : |
||
* Prepruning: Hentikan pembuatan ''tree'' di awal. Tidak melakukan pemisahan node jika ''goodness measure'' dibawah ''threshold''. Walaupun dapat menyebabkan sulitnya |
* Prepruning: Hentikan pembuatan ''tree'' di awal. Tidak melakukan pemisahan node jika ''goodness measure'' dibawah ''threshold''. Walaupun dapat menyebabkan sulitnya menentukan threshold. |
||
* Postpruning: Buang cabang setelah ''tree'' jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan ''pruned tree'' yang terbaik. |
* Postpruning: Buang cabang setelah ''tree'' jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan ''pruned tree'' yang terbaik. |
||
Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: |
Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: |
||
* Gunakan teknik sampel ulang untuk memperikirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. |
* Gunakan teknik sampel ulang untuk memperikirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. |
||
* Cek kembali validitas dari set data. |
* Cek kembali validitas dari set data. |
||
== Bacaan lanjutan == |
== Bacaan lanjutan == |
||
Baris 35: | Baris 35: | ||
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data] |
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data] |
||
* [http://courses.cs.washington.edu/courses/cse546/12wi/slides/cse546wi12LinearRegression.pdf CSE546: Linear Regression Bias / Variance Tradeoff] |
* [http://courses.cs.washington.edu/courses/cse546/12wi/slides/cse546wi12LinearRegression.pdf CSE546: Linear Regression Bias / Variance Tradeoff] |
||
[[ |
[[Kategori:Analisis regresi]] |
||
[[ |
[[Kategori:Pembelajaran mesin]] |
Revisi per 23 November 2018 11.41
Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting.
Underfitting adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, tree bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, tree memiliki galat pelatihan dan tes yang lebih kecil. Pada saat tree berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun.
Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya :
- Prepruning: Hentikan pembuatan tree di awal. Tidak melakukan pemisahan node jika goodness measure dibawah threshold. Walaupun dapat menyebabkan sulitnya menentukan threshold.
- Postpruning: Buang cabang setelah tree jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan pruned tree yang terbaik.
Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba:
- Gunakan teknik sampel ulang untuk memperikirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal.
- Cek kembali validitas dari set data.
Bacaan lanjutan
- Christian, Brian; Griffiths, Tom (6 April 2017). "Chapter 7: Overfitting". Algorithms to live by: the computer science of human decisions. London, United Kingdom: William Collins. hlm. 149–168. ISBN 978-0-00-754799-9.
Pranala luar
- Overfitting: when accuracy measure goes wrong - an introductory video tutorial.
- The Problem of Overfitting Data
- CSE546: Linear Regression Bias / Variance Tradeoff