Model tas-kata-kata
Tampilan
Model bag-of-words ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi. Dikenal sebagai model ruang vektor[1]. Pada model ini, teks (sebuah kalimat atau dokumen) digambarkan sebagai bag dari kata-kata, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kemunculan kata dari dokumen[2].
Contoh Implementasi
Terdapat dua dokumen teks sederhana D1 dan D2[3]:
D1: "The Sun is a star. Sun is beautiful."
D2: "The Moon is a satellite."
Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun:
{
"The":1 "Sun":2 "is":3 "a":4 "star":5 "beautiful":6 "Moon":7 "satellite":8
}
Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus.
- ^ McTear, Michael (et al) (2016). The Conversational Interface - Talking to Smart Devices. p. 166.
- ^ Ali, Nawaf. "Text stylometry for chat bot identification and intelligence estimation." (2014).
- ^ Soumya George K, Shibily Joseph. (2014). Text Classification by Augmenting Bag of Words (BOW) Representation with Co-occurrence Feature. IOSR Journal of Computer Engineering (IOSR-JCE) Volume 16, Issue 1, Ver. V (Jan. 2014), PP 34-38