Reinforcement learning (pemelajaran mesin)

Reinforcement learning (RL) adalah suatu bidang interdisipliner dalam pemelajaran mesin dan kontrol optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil aksi di lingkungan yang dinamis dalam rangka untuk memaksimalkan penghargaan kumulatif. Reinforcement learning adalah salah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Reinforcement learning berbeda dengan pemelajaran yang terawasi dari dua sisi, yaitu tidak memerlukan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pengoreksian secara eksplisit untuk aksi yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara eksplorasi (wilayah yang belum dipetakan) dan eksploitasi (pengetahuan saat ini).^[1]

Lingkungan (environment) RL biasanya dinyatakan dalam bentuk proses keputusan Markov (Markov Decision Proses (MDP)) karena banyaknya algoritma RL yang dalam konteks ini menggunakan teknik pemrograman dinamis.^[2] Namun, terdapat perbedaan utama antara RL dengan pemrograman dinamis, yaitu RL tidak memerlukan pengetahuan (knowledge) eksak dari model matematis dari MDP, melainkan RL ini menargetkan MDP yang besar dan kompleks yang untuk mendapatkan model yang eksak menjadi sulit atau tidak mungkin dilakukan.^[3]

Referensi

^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103 . doi:10.1613/jair.301. Diarsipkan dari versi asli tanggal 2001-11-20.
^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.

Sumber

Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (edisi ke-2nd). MIT Press. ISBN 978-0-262-03924-6.
Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-1st). Springer Verlag, Singapore. ISBN 978-9-811-97783-1.
Bertsekas, Dimitri P. (2023). REINFORCEMENT LEARNING AND OPTIMAL CONTROL (edisi ke-1st). Athena Scientific. ISBN 978-1-886-52939-7.

Bacaan lanjutan

Annaswamy, Anuradha M. (3 May 2023). "Adaptive Control and Intersections with Reinforcement Learning". Annual Review of Control, Robotics, and Autonomous Systems (dalam bahasa Inggris). 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153 . ISSN 2573-5144.
Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560 . Bibcode:2018arXiv181112560F. doi:10.1561/2200000071.
Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Diarsipkan dari versi asli tanggal 2016-07-31. Diakses tanggal 2010-09-08.
Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009 .
Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. hlm. 1031–1038. Diarsipkan dari versi asli (PDF) tanggal 2010-07-14.

Pranala eksternal

Repositori Reinforcement Learning
Reinforcement Learning dan Kecerdasan buatan (RLAI, laboratorium Rich Sutton di Universitas Alberta)
Laboratorium Pemelajaran otonom (ALL, Laboratorium Andrew Barto di Universitas Massachusetts Amherst)
Eksperimen RL dunia nyata Diarsipkan 2018-10-08 di Wayback Machine. di Delft University of Technology
Kuliah Andrew NG di Universitas Standord terkait RL
Membedah RL Rangkaian posting blog tentang RL dengan kode Python
Mengintip (Lebih Jauh) ke dalam RL

Templat:Komputasi terdeferensialkan

[kaelbling-1] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103 . doi:10.1613/jair.301. Diarsipkan dari versi asli tanggal 2001-11-20.

[2] van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.

[Li-2023-3] Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.

[1]

[2]

[3]

l b s Bidang utama ilmu komputer
Catatan: Templat ini secara kasar mengikuti Sistem Klasifikasi Komputasi ACM tahun 2012.
Perangkat keras	Papan sirkuit cetak Periferal Sirkuit terpadu Integrasi skala sangat besar Sistem pada chip (SoCs) Konsumsi energi Otomasi desain elektronik Akselerasi perangkat keras
Organisasi sistem komputer	Arsitektur komputer Sistem benam Komputasi waktu nyata Keandalan
Jaringan	Arsitektur jaringan Protokol jaringan Perangkat keras jaringan Penjadwal jaringan Evaluasi kinerja jaringan Layanan jaringan
Organisasi perangkat lunak	Penerjemah Peranti tengah Mesin virtual Sistem operasi Kualitas perangkat lunak
Notasi dan alat perangkat lunak	Paradigma pemrograman Bahasa pemrograman Kompilator Bahasa khusus domain Bahasa pemodelan Kerangka kerja perangkat lunak Lingkungan pengembangan terpadu Manajemen konfigurasi perangkat lunak Pustaka perangkat lunak Repositori perangkat lunak
Pengembangan perangkat lunak	Variabel kontrol Proses pengembangan perangkat lunak Analisis kebutuhan Desain perangkat lunak Konstruksi perangkat lunak Penyebaran perangkat lunak Pemeliharaan perangkat lunak Tim pemrogram Model sumber terbuka
Teori komputasi	Model komputasi Bahasa formal Teori otomata Teori komputabilitas Teori kompleksitas komputasional Logika Semantik
Algoritma	Desain algoritma Analisis algoritma Efisiensi algoritma Algoritma acak Geometri komputasi
Komputasi matematika	Matematika diskrit Peluang Statistika Perangkat lunak matematis Teori informasi Analisis matematis Analisis numerik Ilmu komputer teoritis
Sistem informasi	Pangkalan data Sistem penyimpanan informasi Sistem informasi perusahaan Sistem informasi sosial Sistem informasi geografis Sistem pendukung keputusan Sistem pengendalian proses Sistem informasi multimedia Penggalian data Perpustakaan digital Serambi Pemasaran digital World Wide Web Sistem temu balik informasi
Keamanan	Kriptografi Metode formal Peretas Layanan keamanan Sistem deteksi intrusi Keamanan perangkat keras Keamanan jaringan Keamanan informasi Keamanan aplikasi
Interaksi manusia-komputer	Desain interaksi Komputasi sosial Komputasi di mana-mana Visualisasi Aksesibilitas
Kongruensi	Komputasi kongruensi Komputasi paralel Komputasi terdistribusi Multithreading Multipengolahan
Kecerdasan buatan	Pemrosesan bahasa alami Representasi pengetahuan dan penalaran Visi komputer Perencanaan dan penjadwalan otomatis Metodologi pencarian Metode kontrol Filsafat kecerdasan buatan Kecerdasan buatan terdistribusi
Pembelajaran mesin	Pemelajaran terarah Pemelajaran tak terarah Pemelajaran kukuh Pemelajaran multi-tugas Validasi silang
Grafika	Animasi Rendering Manipulasi citra Unit pemroses grafis Realitas campuran Realitas virtual Pemampatan citra Solid modeling
Komputasi terapan	Komputasi kuantum Perdagangan elektronik Perangkat lunak perusahaan Matematika komputasional Fisika komputasional Kimia komputasional Biologi komputasional Ilmu sosial komputasional Teknik komputasional Informatika kedokteran Seni digital Penerbitan elektronik Peperangan dunia maya Pemungutan suara elektronik Permainan video Pengolah kata Riset operasi Teknologi pendidikan Sistem manajemen dokumen '