Model tas-kata-kata (Inggris: Bag-of-words model) ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi.
Dikenal sebagai model ruang vektor. Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai token, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.
Terdapat dua dokumen teks sederhana D1 dan D2:
D1: "The Sun is a star. Sun is beautiful."
D2: "The Moon is a satellite."
Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun:
{ "The":1 "Sun":2 "is":3 "a":4 "star":5 "beautiful":6 "Moon":7 "satellite":8 }
Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus.
This article uses material from the Wikipedia Bahasa Indonesia article Model tas-kata-kata, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Konten tersedia di bawah CC BY-SA 4.0 kecuali dinyatakan lain. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Bahasa Indonesia (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.