Lompat ke isi

Model tas-kata-kata: Perbedaan antara revisi

Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
Konten dihapus Konten ditambahkan
HsfBot (bicara | kontrib)
k v2.04b - Fixed using Wikipedia:ProyekWiki Cek Wikipedia (Tanda baca setelah kode "<nowiki></ref></nowiki>")
k Bot: Mengganti kategori yang dialihkan Pemrosesan bahasa alami menjadi Pengolahan bahasa alami
 
(2 revisi perantara oleh 2 pengguna tidak ditampilkan)
Baris 1: Baris 1:
{{DISPLAYTITLE:Model tas-kata-kata}}
{{DISPLAYTITLE:Model tas-kata-kata}}
Model tas-kata-kata ({{lang-en|Bag-of-words model}}) ialah sebuah gambaran sederhana digunakan dalam <nowiki/>[[Pemrosesan bahasa alami|pengolahan bahasa alami]] dan [[Sistem temu balik informasi|pencarian informasi]].<ref name="s1">Soumya George K, Shibily Joseph. ''Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature''. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref> Dikenal sebagai model ruang vektor.<ref name="s2">McTear, Michael (''et al''.) (2016). ''The Conversational Interface - Talking to Smart Devices''. hlm. 166.</ref> Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai ''[[Tokenisasi|token]]'', mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.<ref>Saxena, D., Saritha, S. K., & Prasad, V. (2017). ''Survey Paper on Feature Extraction Methods in Text Categorization''. International Journal of Computer Applications, 166(11).</ref><ref name="s2"/>
'''Model tas-kata-kata''' ({{lang-en|Bag-of-words model}}) ialah sebuah gambaran sederhana digunakan dalam [[Pemrosesan bahasa alami|pengolahan bahasa alami]] dan [[Sistem temu balik informasi|pencarian informasi]].<ref name="s1">Soumya George K, Shibily Joseph. ''Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature''. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38</ref> Dikenal sebagai model [[ruang vektor]].<ref name="s2">McTear, Michael (''et al''.) (2016). ''The Conversational Interface - Talking to Smart Devices''. hlm. 166.</ref> Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai ''[[Tokenisasi|token]]'', mengabaikan [[tata bahasa]] dan bahkan [[urutan kata]] namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.<ref name="s2"/><ref>Saxena, D., Saritha, S. K., & Prasad, V. (2017). ''Survey Paper on Feature Extraction Methods in Text Categorization''. International Journal of Computer Applications, 166(11).</ref>


== Contoh Implementasi ==
== Contoh Implementasi ==
Baris 29: Baris 29:
{{reflist}}
{{reflist}}


[[Kategori:Pemrosesan bahasa alami]]
[[Kategori:Pengolahan bahasa alami]]
[[Kategori:Pemelajaran mesin]]
[[Kategori:Pemelajaran mesin]]

Revisi terkini sejak 3 Agustus 2024 08.02

Model tas-kata-kata (bahasa Inggris: Bag-of-words model) ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi.[1] Dikenal sebagai model ruang vektor.[2] Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai token, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.[2][3]

Contoh Implementasi

[sunting | sunting sumber]

Terdapat dua dokumen teks sederhana D1 dan D2:[1]

D1: "The Sun is a star. Sun is beautiful."

D2: "The Moon is a satellite."

Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun:

{
 "The":1
 "Sun":2
 "is":3
 "a":4
 "star":5
 "beautiful":6
 "Moon":7
 "satellite":8
}

Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus.

Catatan kaki

[sunting | sunting sumber]
  1. ^ a b Soumya George K, Shibily Joseph. Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38
  2. ^ a b McTear, Michael (et al.) (2016). The Conversational Interface - Talking to Smart Devices. hlm. 166.
  3. ^ Saxena, D., Saritha, S. K., & Prasad, V. (2017). Survey Paper on Feature Extraction Methods in Text Categorization. International Journal of Computer Applications, 166(11).