Peringkasan teks berita secara Otomatis menggunakan TF.IDF

Gratis

25
153
56
3 years ago
Preview
Full text

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014 Universitas Sumatera Utara PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA MEDAN 2014 Universitas Sumatera Utara ii PERSETUJUAN Judul : PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TF.IDF Kategori : SKRIPSI Nama : DANDUNG TRI SETIAWAN Nomor Induk Mahasiswa : 071402054 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, Komisi Pembimbing Agustus 2014 : Pembimbing 2 Pembimbing 1 M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, M Anggia Muchtar, ST, M.MIT NIP. 19800110 200801 1 010 Universitas Sumatera Utara iii PERNYATAAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF) SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya. Medan, Agustus 2014 Dandung Tri Setiawan 071402054 Universitas Sumatera Utara iv UCAPAN TERIMA KASIH Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini. Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati, penulis mengucapkan terima kasih sebesar-besarnya kepada: 1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena berkat dukungannya baik secara moril maupun materil secara terus disetiap saat, sehingga penulis dapat menyelesaikan skripsi ini. 2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga. 3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST, M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan waktu untuk memberikan saran dalam menyelesaikan skripsi ini. 4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M. Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc. 5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi S-1 Teknologi Informasi. 6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si, M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan saran dan kritik dalam menyelesaikan skripsi ini. 7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini. Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan membantu semua pihak yang memerlukannya. Universitas Sumatera Utara v ABSTRAK Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik. Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita. Universitas Sumatera Utara vi THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF) ABSTRACT The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar. Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news. Universitas Sumatera Utara vii DAFTAR ISI Hal. Persetujuan ii Pernyataan iii Ucapan Terima Kasih iv Abstrak v Abstract vi Daftar Isi vii Daftar Tabel ix Daftar Gambar x 1 Bab 1 Pendahuluan 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 2 1.3. Tujuan Penelitian 2 1.4. Manfaat Penelitian 2 1.5. Batasan Masalah 3 1.6. Metodologi Penelitian 3 1.7. Sistematika Penulisan 4 2 Bab 2 Landasan Teori 6 2.1. Peringkasan Teks Otomatis 6 2.2. Berita 9 2.2.1. Nilai-Nilai Berita 9 2.2.2. Unsur-Unsur Berita 10 2.2.3. Anatomi Berita 10 2.3. Text Mining 12 2.4. Kata 13 2.5. Kalimat 14 2.6. Paragraf 14 Universitas Sumatera Utara viii 2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15 2.8. Flowchart 17 2.9. Penelitian Terdahulu 18 3 Bab 3 Analisis dan Perancangan 21 3.1. Analisis Data 21 3.1.1. Data Berita 21 3.1.2. Data Stopword 23 3.1.3. Data Kata Dasar 23 3.2. Analisis Sistem 24 3.2.1. Text Preprocessing 24 3.2.2. Feature Selection 26 3.2.3. Contoh penggunaan algoritma (tf/idf) 28 3.3. Perancangan Sistem 31 3.3.1. Diagram konteks 31 3.3.2. DFD level 1 32 3.4. Perancangan Antarmuka Sistem 33 4 Bab 4 Implementasi dan Pengujian 35 4.1. Implementasi Sistem 35 4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35 4.1.2. Tampilan Awal 36 4.1.3. Tampilan Proses Sistem 36 4.1.4. Tampilan Hasil Sistem 37 4.2. Pengujian Sistem 38 5 Bab 5 Kesimpulan dan Saran 40 5.1. Kesimpulan 40 5.2. Saran 40 Daftar Pustaka 41 Universitas Sumatera Utara ix DAFTAR TABEL Hal. Tabel 2.1 Fungsi simbol-simbol flowchart 18 Tabel 2.2 Penelitian terdahulu 20 Tabel 3.1 Tabel Berita 22 Tabel 3.2 Tabel Stopword 23 Tabel 3.3 Tabel kata dasar 23 Tabel 3.4 Hasil dari proses text preprocessing 26 Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27 Tabel 3.6 Kumpulan stopword 27 Tabel 3.7 Hasil dari proses filtering 28 Tabel 3.8 Menghitung tf 29 Tabel 3.9 Menghitung df 29 Tabel 3.10 Menghitung idf (1) 30 Tabel 3.11 Menghitung idf (2) 30 Tabel 3.12 Menghitung tf.id 31 Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38 Tabel 4.2 Hasil Pengujian Tampilan Sistem 39 Universitas Sumatera Utara x DAFTAR GAMBAR Hal. Gambar 2.1 Mesin Peringkas Teks 8 Gambar 2.2 Modul Peringkas Teks 9 Gambar 2.3 Anatomi Berita 11 Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17 Gambar 3.1 Skema proses pengambilan berita 21 Gambar 3.2 Flowchart Text Preprocessing 25 Gambar 3.3 Contoh kalimat yang akan diinput 25 Gambar 3.4 Contoh kalimat setelah ToLowerCase 25 Gambar 3.5 Flowchart proses filtering 27 Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32 Gambar 3.7 DFD peringkas teks otomatis 32 Gambar 3.8 Tampilan Antarmuka Sistem 33 Gambar 4.1 Tampilan Awal Sistem 36 Gambar 4.2 Tampilan Proses Pemilihan 37 Gambar 4.3 Tampilan Hasil Proses Pemilihan 37 Gambar 4.4 Tampilan Hasil Ringkasan 38 Universitas Sumatera Utara v ABSTRAK Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik. Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita. Universitas Sumatera Utara vi THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF) ABSTRACT The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar. Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news. Universitas Sumatera Utara 1BAB 1 PENDAHULUAN 1.1. Latar Belakang Seiring perkembangan teknologi informasi mengakibatkan teknologi internet semakin pesat yang berdampak pada penggunaan internet. Tujuannya adalah untuk mendapatkan informasi dengan cepat dan akurat. Seiring bertambahnya informasi, maka berbanding lurus dengan dokumen yang ada di dunia internet, salah satu contohnya adalah dokumen berita. Dokumen berita merupakan kumpulan informasi tentang banyak peristiwa penting terjadi dan terbaru secara berkala. Memahami isi dokomen berita melalui ringkasan teks memerlukan waktu yang lebih singkat dibandingkan membaca seluruh isi dokumen, sehingga ringkasan teks menjadi sangat penting. Dengan adanya ringkasan, diharapkan pembaca dapat dengan cepat dan mudah memahami makna sebuah teks tanpa harus membaca keseluruhan teks. Selain dapat menghemat waktu, pembaca juga dapat menghindari pembacaan teks yang tidak relevan dengan informasi yang diharapkan oleh pembaca, terutama ketika sangat banyak informasi tersedia di internet. Ringkasan dibutuhkan untuk mendapatkan isi artikel secara ringkas. Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Menurut Mani dan Maybury, ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk yang lebih ringkas bagi penggunanya (Mani dan Maybury, 1999). Namun demikian, membuat ringkasan manual dengan dokumen yang banyak akan memerlukan waktu dan biaya yang besar. Sehingga diperlukan suatu sistem peringkasan secara otomatis untuk mengatasi masalah waktu baca dan biaya. Universitas Sumatera Utara 2 Peringkasan teks otomatis (automatic text summarization) adalah proses menghasilkan teks yang lebih pendek daripada teks aslinya menggunakan perangkat berbasis komputer. Banyak instansi yang bergerak dalam penyaluran informasi masyarakat atau berita yang pada awalnya menyampaikan berita melalui media Televisi, Surat Kabar, Majalah atau Radio sudah mulai menggunakan sistem berbasis web untuk menyampaikan beritanya secara up to date (Fajar, 2008). Aplikasi peringkasan teks otomatis merupakan teknologi yang menawarkan solusi untuk mencari informasi dengan menghasilkan ringkasan (summary) berita. Term frequency inverse document frequency (TF-IDF) adalah salah satu metode yang dapat digunakan untuk melakukan peringkasan teks. Metode TF-IDF adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk penghitungan bobot, yaitu Term Frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document Frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Berdasarkan dari uraian latar belakang diatas, maka penulis memilih judul “peringkasan teks berita secara otomatis menggunakan term frequency inverse document frequency“. 1.2. Rumusan Masalah Berdasarkan latar belakang di atas maka rumusan masalah pada penelitian ini adalah bagaimana mendapatkan ringkasan pada sebuah berita secara otomatis. 1.3. Tujuan Penelitian Tujuan dari penelitian ini adalah penggunaan TF-IDF (term frequency inverse document frequency) untuk memperoleh ringkasan berita secara otomatis dan mengetahui ringkasan dari suatu berita dengan cepat. 1.4. Manfaat Penelitian Manfaat yang dapat diperoleh dari penelitian ini adalah: 1. Memberikan efisiensi waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita. Universitas Sumatera Utara 3 2. Mengetahui kemampuan TF-IDF (term frequency inverse document frequency) untuk memperoleh ringkasan berita secara otomatis. 3. Menambah ilmu pengetahuan serta menjadi bahan referensi dan perbandingan untuk penelitian yang berkaitan dengan penggunaan term frequency inverse document frequency. 1.5. Batasan Masalah Guna mencegah meluasnya cakupan permasalahan yang akan dibahas dalam studi ini dan untuk membuat studi ini lebih terarah, maka dilakukan pembatasan masalah sebagai berikut: 1. Algoritma yang digunakan dalam peringkasan ini adalah term frequency inverse document frequency. 2. Data yang digunakan adalah berita politik 3. Jumlah data yang digunakan 50 berita 4. Berita yang digunakan dalam penelitian ini hanya berita berbahasa Indonesia. 5. Berita yang dimasukkan ke dalam sistem peringkasan adalah berita yang sudah dinyatakan layak untuk dipublikasikan. 6. Penelitian ini tidak melakukan perbandingan algoritma. 7. Perancangan program aplikasi sistem peringkas teks berita ini menggunakan bahasa pemrograman PHP. 8. Sistem ini dibangun tidak disatukan dengan media berita yang sudah ada tetapi dengan membuat homepage sendiri dan mengunakan jaringan offline. 1.6. Metodologi Penelitian Dalam penelitian ini, penulis melakukan beberapa metode untuk memperoleh data atau informasi dalam menyelesaikan permasalahan. Metode yang dilakukan tersebut antara lain : 1. Studi Literatur Dilakukan studi literatur atau studi pustaka yaitu mengumpulkan bahan-bahan referensi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet. 2. Analisis Hal-hal yang dilakukan tahap ini adalah : Universitas Sumatera Utara 4 a. Menganalisis tahap demi tahap dari proses peringkasan teks. b. Cara kerja dari algoritma term frequency invers document frequency dalam meringkas teks. 3. Perancangan Pada tahap ini dilakukan perancangan arsitektur, perancangan data, dan perancangan antarmuka. 4. Pengkodean Pada tahap ini akan dilakukan proses implementasi pengkodean program dalam aplikasi komputer menggunakan bahasa pemrograman yang telah ditentukan. 5. Pengujian Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem sesuai dengan spesifikasi yang ditentukan sebelumnya serta memastikan program yang dibuat dapat berjalan seperti yang diharapkan. 6. Penyusunan Laporan Pada tahap ini dilakukan penulisan dokumentasi hasil analisis dan implementasi. 1.7. Sistematika Penulisan Tugas akhir ini disusun dalam lima bab dengan sistematika penulisan sebagai berikut : BAB 1 : Pendahuluan Pada bab ini dibahas mengenai latar belakang penulisan, rumusan masalah, batasan masalah, tujuan, manfaat, metodologi penelitian dan sistematika penulisan. BAB 2 : Tinjauan Pustaka Pada bab tinjauan pustaka berisi landasan teori, kerangka pikir dan hipotesis yang diperoleh dari acuan yang mendasari dalam melakukan penelitian ini. BAB 3 : Analisis dan Perancangan Universitas Sumatera Utara 5 Pada bab ini dibahas mengenai analisis terhadap permasalahan dan penyelesaian persoalan dalam pembuatan aplikasi serta menjelaskan tentang rancangan struktur program dan antarmuka dari aplikasi perangkat lunak yang akan dibuat. BAB 4 : Implementasi dan Pengujian Pada bab ini dibahas implementasi dari perangkat lunak serta berisikan gambaran antarmuka dari perangkat lunak yang akan dibuat. Selain itu, juga dilakukan pengujian untuk melihat perangkat lunak yang dibuat berhasil dijalankan atau tidak serta untuk menemukan kesalahan (error). BAB 5 : Kesimpulan dan Saran Pada bab ini berisi tentang kesimpulan yang didapat dari pembuatan skripsi dan saran-saran yang diharapkan dapat dikembangkan untuk penelitian selanjutnya. Universitas Sumatera Utara 2BAB 2 LANDASAN TEORI 2.1. Peringkasan Teks Otomatis Sering kali kita membutuhkan ringkasan dari sebuah bacaan untuk mendapatkan secara ringkas dan cepat isi dari bacaan. Konsep sederhana dari ringkasan adalah mengambil bagian penting yang menggambarkan keseluruhan isi dari dokumen asal. Menurut Mani dan Maybury (Mani and Maybury, 1999), ringkasan adalah mengambil isi yang paling penting dari sumber informasi yang kemudian menyajikan kembali dalam bentuk yang lebih ringkas bagi penggunanya.Dalam Hovy (2001), summary atau ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks, mengandung informasi dari teks asli dan panjangnya tidak lebih dari setengah teks asli. Peringkasan teks otomatis (automatic text summarization) adalah pembuatan versi yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan pada komputer. Hasil peringkasan ini mengandung poin -poin penting dari teks asli. 2.1.1. Tipe Ringkasan Berdasar teknik pembuatan, suatu ringkasan diambil dari bagian terpenting dari teks aslinya (Mani, 2001), terdapat 2 tipe yaitu : 1. Abstraktif Tipe peringkasan abstraktif menghasilkan sebuah interpretasi terhadap teks aslinya. Dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang lebih singkat dan kalimat baru yang tidak terdapat dalam dokumen yang asli atau dengan kalimat yang berbeda. Universitas Sumatera Utara 7 2. Ekstraktif Tipe peringkasan ekstraktif menghasilkan suatu ringkasan dengan memilih sebagian dari kalimat yang ada dalam dokumen asli. Metode ini menggunakan metode statistical, linguistical dan heuristic atau kombinasi dari semuanya dalam menetapkan ringkasan suatu teks. Berdasarkan teori, hasil ringkasan ekstraktif lebih baik dibandingkan dengan ringkasan abstraktif. Hal ini dikarenakan peringkasan abstraktif, seperti representasi semantik, inferens dan pembangun natural language relatif lebih sulit, dibandingkan pendekatan data driven, seperti ekstraksi kalimat (Erkan dan Radev, 2004). Sehingga kebanyakan penelitian dilakukan menggunakan metode ekstraktif. Sedangkan model peringkasan teks otomatis ada dua yaitu ringkasan yang umum (generic summary) merupakan perwakilan dari teks asli yang mencoba untuk mempresentasikan semua fitur penting dari sebuah teks asal. Mengikuti pendekatan bottom up (information retrieval) dan yang kedua ringkasan berpusat pada pemakai (query driven) yaitu peringkasan bersandar pada spesifikasi kebutuhan informasi pemakai, seperti topik atau query dan mengikuti pendekatan top down (information extraction). Tujuan dari peringkasan teks (teks summarization) dapat dikategorikan berdasarkan maksud, fokus dan cakupannya (Firmin dan Chrzanowski, 1999), sebagai berikut : 1. Informatif Informatif, ringkasan ini menyatakan informasi - informasi penting yang terdapat pada dokumen asal. 2. Indikatif Indikatif, tujuan dari ringkasan ini adalah untuk dijadikan sebuah referensi, yang membantu pembaca untuk mengetahui isi dari teks daripada membaca keseluruhan teks yang ada. Ringkasan ini meliputi topik kunci dari teks asal. 3. Evaluatif Evaluatif, atau ringkasan yang melibatkan pembuatan sebuah pertimbangan pada teks asal, seperti suatu tinjauan ulang atau opini. Universitas Sumatera Utara 8 4. User-focused (query-relevant) User-focused, ringkasan yang dibuat berdasarkan topik yang dipilih oleh user, sering merupakan jawaban dari query yang dimiliki oleh user. 5. Generic Generic, disebut juga author-focused, sifatnya lebih umum dan berdasarkan pada teks aslinya. 6. Dokumen tunggal (single document) Dokumen tunggal, ringkasan merupakan ringkasan dari satu dokumen. 7. Banyak dokumen (multi document) Banyak dokumen, ringkasan merupakan hasil ringkasan dari banyak dokumen. Berikut gambar mesin dan modul peringkasan teks menurut (Hovy dan Marcu, 1998) : Gambar 2.1 Mesin Peringkas Teks Universitas Sumatera Utara 9 Serta gambar modul peringkasan teks : Gambar 2.2 Modul Peringkas Teks 2.2. Berita Kata "berita" berasal dari bahasa sansekerta yaitu dari kata "vrit" yang sebenarnya berarti "terjadi" atau "ada" (Djuroto, 2004). Berita (news) adalah laporan mengenai suatu peristiwa atau kejadian yang terbaru (aktual); laporan mengenai fakta-fakta yang aktual, menarik perhatian, dinilai penting, atau luar biasa (Budiman, 2011). Berita adalah informasi baru tentang kejadian yang baru, penting, dan bermakna, yang berpengaruh pada para pendengarnya serta relevan dan layak dinikmati (Maeseneer, 1999). 2.2.1. Nilai-Nilai Berita Dalam menulis berita, ada beberapa hal yang perlu diperhatikan terkait nilai berita itu sendiri (Djuroto, 2004). Ada beberapa nilai berita yang dapat dikelompokkan sebagai acuan dalam sebuah penulisan. Beberapa nilai berita tesebut adalah sebagai berikut : 1. Magnitude (pengaruh) artinya seberapa luas pengaruh suatu berita terhadap khalayak. Universitas Sumatera Utara 10 2. Significant (Arti) artinya seberapa penting arti dari suatu kejadian atau peristiwa. 3. Actuality (Aktualitas) artinya seberapa besar tingkat aktualitas suatu kejadian atau peristiwa. 4. Proximity (Kedekatan) artinya bertia lokal lebih pas diberitakan di daerah bersangkutan. 5. Prominence (Keakraban) artinya akrabnya suatu peristiwa terhadap khalayak. 6. Surprise (Kejutan). 7. Clarity (Kejelasan) kejadian atau peristiwa. 8. Dampak (Impact) artinya berdampak apakah berita tersebut terhadap khalayak. 9. Konflik. 10. Human Interest artinya kemampuan suatu peristiwa menyentuh perasaan khalayak. 2.2.2. Unsur-Unsur Berita Dalam penulisan berita kita harus memahami unsur dari suatu berita supaya memberi kemudahan kita dalam mendeskripsikan berita tersebut dan berita yang kita buat mudah untuk dipahami oleh khalayak ramai (Olii, 2007). Unsur-unsur berita tersebut adalah: 1. What (apa) artinya apa yang tengah terjadi. Peristiwa apa yang tengah terjadi. 2. Who (siapa) artinya siapa saja yang terlibat dalam peristiwa itu. 3. Where (dimana) artinya dimana lokasi terjadinya peristiwa itu. 4. When (kapan) artinya kapan perisitiwa itu berlangsung. 5. Why (mengapa) artinya mengapa kejadian itu bisa terjadi. 6. How (bagaimana) artinya bagaimana kejadian itu bisa berlangsung. 2.2.3. Anatomi Berita Seperti tubuh manusia, berita juga mempunyai bagian-bagian, diantaranya adalah sebagai berikut (Budiman, 2011) : 1. Judul atau Kepala Berita (Headline) Headline mewakili isi berita yang ingin disampaikan dan memiliki daya tarik yang kuat. Universitas Sumatera Utara 11 2. Baris Tanggal (Dateline) Dateline terdiri atas nama media massa, tempat kejadian dan tanggal kejadian. Tujuannya adalah untuk menunjukkan tempat kejadian dan inisial media. 3. Teras Berita (Lead atau Intro) Lead biasanya ditulis pada paragrap pertama sebuah berita. Lead merupakan unsur yang paling penting dari sebuah berita, yang menentukan apakah isi berita akan dibaca atau tidak. 4. Tubuh Berita (Body) Body isinya menceritakan peristiwa yang dilaporkan dengan bahasa yang singkat, padat, dan jelas baik yang sudah dikemukakan dalam teras maupun yang belum diungkapkan. Headline Baris Tanggal Teras Berita Tubuh Berita Gambar 2.3 Anatomi Berita Bagian yang disebutkan membentuk anatomi yang tersusun sebagai sebuah struktur yang utuh dan terpadu, yang sering dinamakan sebagai gaya piramida terbalik (inverted pyramid style) seperti yang terlihat pada Gambar 2.3. Disebut demikian karena bagian tubuh berita disusun dengan pola pengembangan umum ke khusus (dimulai dari hal umum, lalu secara berangsur-angsur menuju ke hal-hal yang semakin khusus) atau klimaks-antiklimaks (dari yang paling pokok atau penting beralih secara berturut-turut ke yang kurang pokok atau penting). Tujuannya adalah untuk memudahkan atau mempercepat pembaca dalam mengetahui apa yang diberitakan. Universitas Sumatera Utara 12 2.3. Text Mining Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang di-ekstrak secara otomatis dari sumber-sumber data teks yang berbedabeda (Feldman & Sanger, 2007). Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction dan information retrival (Berry & Kogan, 2010). Pada dasarnya proses kerja dari text mining banyak mengapdopsi dari penelitian data mining namun yang menjadi perbedaan adalah pola yang digunakan oleh text mining diambil dari sekumpulan bahasa alami yang tidak terstruktur sedangkan dalam data mining pola yang diambil dari database yang terstruktur (Han & Kamber, 2006). 2.3.1. Tahap – Tahap Text Mining Tahap-tahap text mining secara umum adalah text preprocessing dan feature selection (Feldman & Sanger 2007, Berry & Kogan 2010) . Dimana penjelasan dari tahaptahap tersebut adalah sebagai berikut : 1. Text Preprocessing Tahap text preprocessing adalah tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil, dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat – kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005). 2. Feature Selection Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga Universitas Sumatera Utara 13 proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword ( stopword removal ) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010., Feldman & Sanger 2007). Namun pada penelitian ini proses stemming tidak dilakukan. Stopword adalah kosakata yang bukan merupakan ciri ( kata unik ) dari suatu dokumen (Dragut et al. 2009). Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar stopword (stoplist). Jika termasuk di dalam stoplist maka kata-kata tersebut akan dihapus dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen atau keywords. Daftar kata stopword di penelitian ini bersumber dari Tala (2003). 2.4. Kata Kata adalah kesatuan terkecil yang diperoleh sesudah kalimat dibagi atas bagianbagiannya dan mengandung suatu ide. Kategori kata berdasarkan sintaksisnya terdiri dari lima kata (Putrayasa, 2007), yaitu : 1. Kata Benda (Nomina) Kata benda adalah kata yang mengacu pada manusia, binatang, benda dan konsep atau pengertian. 2. Kata Kerja (Verba) Kata kerja adalah kata yang menyatakan tindakan. 3. Kata Sifat (Adjektiva) Kata sifat adalah kata yang memberi keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh nomina dalam kalimat. 4. Kata Keterangan (adverbia) Kata keterangan adalah kategori yang dapat mendampingi adjektiva, numeralia atau preposisi dalam konstruksi sintaksis. 5. Kata Tugas Kata tugas adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki arti leksikal. Universitas Sumatera Utara 14 2.5. Kalimat Kalimat adalah satuan bahasa terkecil dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh. Kalimat terdiri atas deret kata yang dimulai dengan huruf kapital dan diakhiri dengan tanda titik (.), tanda tanya (?), atau tanda seru (!). Unsur-unsur kalimat terdiri dari kata, kelompok kata dan lagu kalimat. Di dalam kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya. Ada bagian didalam kalimat yang menunjukkan sebagai “pelaku”, ada bagian yang menunjukkan sebagai “perbuatan”, ada bagian yang menunjukkan “bagaimana perbuatan itu dilakukan”. Berdasarkan jabatannya kalimat terdiri dari : 1. Subyek, yaitu bagian yang menjadi pangkal atau pokok pembicaraan. 2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah subyek. 3. Obyek, yaitu bagian yang menjadi tujuan. 4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu), tempat (keterangan tempat), alat (keterangan alat) dan sebagainya. Sedangkan kalimat berdasarkan fungsinya, dapat dikategorikan sebagai berikut: 1. Kalimat pernyataan 2. Kalimat pertanyaan 3. Kalimat perintah 4. Kalimat seruan 2.6. Paragraf Paragraf disebut juga alinea. Kata paragraf merupakan kata serapan dari bahasa Inggris paragraph, sedangkan kata alinea dari bahasa Belanda dengan ejaan yang sama. Paragraf adalah seperangkat kalimat yang membicarakan suatu gagasan atau topik. Terdapat dua syarat dalam membentuk paragraf : 1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik. 2. Mengangkat pola susunan rincian dengan patut. Universitas Sumatera Utara 15 2.7. Term Frequency Inverse Document Frequency (TF-IDF) Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2004). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis menghasilkan ringkasan (summary). Proses text preprosessing yang dilakukan pada peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan me-scan kalimat dengan pemisah (delimiter) white space (spasi, tab dan newline)( Tala, 2003). Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah sebagai berikut : 1. Menginput dokumen yang akan dibuat ringkasannya 2. Memilah dokumen menjadi beberapa kalimat. Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang panjang menjadi kalaimat-kalimat mengunakan fungsi split(), dengan tanda titik ”.”, tanda tanya ”?” dan tanda seru ”!” sebagai delimiter untuk memotong string dokumen. 3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam variable array. Untuk memilah kalimat menjadi kata digunakan proses tokenizing. Universitas Sumatera Utara 16 4. Pembobotan TF-IDF Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen (IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen (Grossman, 1998). Nilai IDF sebuah term dihitung menggunakan persamaan 1. (1) dengan: N = jumlah kalimat yang berisi term(t) dfi = jumlah kemunculan kata (term) terhadap D 5. Menghitung bobot (W) masing-masing dokumen dengan persamaan 2 (Mustaqhfiri, 2011). (2) dengan : d = kalimat ke-d t = kata(term) ke –t TF = term freqency W = bobot kalimat ke-d terhadap kata(term)ke- t IDF = inverse document f reqency 6. Melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat. 7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis. Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas ditunjukan pada Gambar 2.4. Universitas Sumatera Utara 17 Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8. Flowchart Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan prosedur suatu program (Setiawan, 2006). Simbol-simbol dari flowchart memiliki fungsi yang berbeda antara satu simbol dengan simbol lainnya (Davis, 1999). Fungsi dari simbol-simbol flowchart adalah sebagai berikut : Universitas Sumatera Utara 18 Tabel 2.1 Fungsi simbol-simbol flowchart. Simbol Fungsi simbol process, yaitu menyatakan suatu tindakan (proses) yang dilakukan di dalam program. Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman (misalnya tidak cukup dalam satu halaman). Simbol online connector, berfungsi untuk menyatakan sambungan dari prose ke proses yang lainnya dalam halaman yang sama. Simbol arus/flowline, yaitu menyatakan jalannya arus suatu proses. Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu ya/ tidak. Simbol input/output, menyatakan proses input atau output tanpa tergantung jenis peralatannya. Simbol terminal yaitu menyatakan permulaan atau akhir suatu program. Simbol document, mencetak keluaran dalam bentuk dokumen. 2.9. Penelitian Terdahulu Metode Term Frequency Inverse Document Frequency telah banyak digunakan dalam menyelesaikan berbagai macam permasalahan dalam hal pembobotan kata. Dari permasalahan yang kecil hingga permasalahan yang cukup kompleks dengan berbagai metode dalam penyelesaiannya. Universitas Sumatera Utara 19 Zafikri, (2008) melakukan penelitian untuk menyelesaikan permasalahan dalam pencarian informasi yang akurat dan efektif pada mesin pencari. Dalam penelitiannya mencoba menerapkangabungan antara metode Term Frequency Inverse Document Frequency (TF-IDF) dan model ruang vektor (vector space model) pada mesin pencari. Hasilnya metode pembobotan dokumen TF-IDF tidak selalu memberikan hasil performansi yang baik. Akbar (2011) dalam penelitiannya menyelesaikan permasalahan dalam menentukan nilai tes esai online. Dalam halini Akbar (2011) menggunakan algoritma Latent Semantic Analysis (LSA) dengan pembobotan Term Frequency/Inverse Document Frequency (TF/IDF) untuk menyelesaikan permasalahannya yakni sebagai alternatif solusi penilaian esai kepada user ssecara konsisten tanpa mengikutsertakan subjektivitas penilai, seperti suasana hati dan tingkat pengetahuan. Algoritma TF/IDFLSA memiliki tingkat keakuratan cukup tinggi dalam pemeriksaan jawaban esai dengan jumlah kata yang banyak. Sulthan (2012) menggunakan algoritma Hill Climbing dalam meringkas teks, hasil dari peringkasan menggunakan algoritma Hill Climbing cukup baik. Metode text mining juga pernah dilakukan Kurniawan (2012) dalam klasifikasi berita, dan hasil dari metode text mining cukup berhasil. Aristoteles (2013) melakukan penelitian peringkasan teks dokumen bahasa Indonesia menggunakan algoritma genetika, hasilnya bahwa algoritma genetika dapat digunakan untuk mencari tingkat kepentingan yang optimal dari tiap fitur teks. Nilai akurasi 47.46% pada pemampatan 30%. Sedangkan hasil tidak optimal pada pemampatan 10%. Universitas Sumatera Utara 20 Tabel 2.2 Penelitian terdahulu No Peneliti / Tahun 1 Zafikri (2008) 2 Akbar (2011) 3 Sulthan (2012) 4 Kurniawan (2012) 5 Aristoteles (2013) Judul Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Menentukan Nilai Tes Esai Online Menggunakan AlgoritmaLatent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency Peringkasan Teks Otomatis Berbasis Web Menggunakan AlgoritmaHill Climbing Klasifikasi Konten Berita menggunakan Text Mining Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Keterangan Universitas Sumatera Utara 3BAB 3 ANALISIS DAN PERANCANGAN Pada bab ini akan membahas beberapa hal diantaranya data yang digunakan, flowchart system, tampilan antar-muka serta analisis perancangan yang bertujuan untuk mengindentifikasi permasalahan yang ada pada sistem tersebut. Analisis ini diperlukan sebagai dasar perancangan sistem untuk mengimplementasikan tf-idf dalam meringkas teks. 3.1. Analisis Data Dalam penelitian ini data terdiri dari 3 bagian yaitu data berita, data stopword dan data kata dasar. 3.1.1. Data Berita Data berita dalam penelitian ini didapat dari beberapa media berita online yang kemudian dimasukkan kedalam database. Skema dari proses pengambilan berita dapat dilihat pada gambar 3.1. Mengambil berita dari media berita online Media berita online Menyimpan berita kedalam database Database penyimpan berita pengunggah Gambar 3.1 Skema proses pengambilan berita Data berita berjumlah 50 dokumen berita politik.Untuk memperoleh ketepatan dan mempermudah proses pengujian maka berita diambil dari situs media berita online. Berikut tabel 3.1. Universitas Sumatera Utara 22 Tabel 3.1 Tabel Berita id_berita Judul Berita 1 Kontras Kritik Penunjukan Hendropriyono 2 Presiden Baru, Rakyat Akan Kembali Kecewa 3 Israel Gunakan Bom Fosfor Putih di Gaza 4 Sengketa PLN Pertamina Ancam Listrik Padam Isi Berita Koordinator Komisi untuk Orang Hilang dan Korban Tindak Kekerasan (Kontras), Haris Azhar mengatakan dipilihnya AM Hendropriyono sebagai penasihat tim transisi Jokowi-JK tidak mendukung penuntasan kasus hak asasi manusia di Indonesia. Kontras menilai terpilihnya Hendropriyono mencerminkan sikap Joko Widodo yang kurang serius terhadap persoalan HAM. “Antara tidak serius, tidak mengerti, atau rentan diintervensi (berbagai kepentingan),” ujarnya dikutip BBC, Kamis (14/8). .... KH M Shoffar Mawardi menyatakan rakyat akan kembali kecewa pasca pemilu 2014 lantaran harapan presiden yang baru akan membawa Indonesia menuju kehidupan yang adil dan makmur tidak akan tercapai. “Pada akhirnya, banyak rakyat yang sedih dan kecewa saat harapannya tidak kunjung menjadi nyata,” ungkap Pengasuh Ma’had Daarul Muwahhid Srengseng Jakarta Barat tersebut seperti dilansir tabloid Media Umat Edisi 132: Presiden Baru, Umat Siap Kecewa, Jum’at (18 Juli-21 Agustus)..... Laporan terakhir mengatakan pasukan udara dan darat Israel menggunakan bom fosfor putih untuk menghantam beberapa wilayah pemukiman di Jalur Gaza yang terkepung. Bom-bom mematikan itu melanggar semua konvensi internasional dan dianggap sebagai senjata terlarang untuk digunakan di wilayah penduduk sipil. Perusahaan Listrik Negara mengatakan berkurangnya pasokan solar dari Pertamina sekitar 50% akan diatasi dengan pasokan dari tempat lain guna mengantisipasi listrik tidak padam. Pertamina mengurangi pasokan solar sebanyak 50% kepada pembangkit listrik di seluruh Indonesia sejak 10 Agustus lalu. Universitas Sumatera Utara 23 3.1.2. Data Stopword Data stopword didapat dari jurnal Tala (2003) dimana datanya berjumlah 753 data dan dari berita-berita yang digunakan dalam penelitian. Data stopword di dalam database. Rancangan tabel stopword dapat dilihat pada Tabel 3.2 Tabel 3.2 Tabel Stopword id_stopword Stopword 1 Di 2 Ada 3 Itu 4 Dan 5 Ke 6 Untuk 7 Dengan 8 Namun 9 Kepada 10 Akan 11 Agar 12 Dari 13 Karena 14 Ini 15 Pun 3.1.3. Data Kata Dasar Data kata dasar didapat dari kamus bahasa Indonesia online dimana datanya berjumlah 28533 data. Data kata dasar disimpan di dalam database. Rancangan tabel kata dasar dapat dilihat pada Tabel 3.3. Tabel 3.3 Tabel kata dasar id_katadasar Katadasar 1 Lari 2 Ajar 3 Makan 4 Lari 5 Belajar Universitas Sumatera Utara 24 3.2. Analisis Sistem Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak (software), pengguna (user) serta hasil analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam aplikasi peringkasan teks otomatis. Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al, 2005). Sedangkan tahap kedua adalah Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword (stopword removal) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010., Feldman & Sanger 2007). 3.2.1. Text Preprocessing Langkah-langkah proses text preprocessing adalah sebagai berikut : 1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase. 2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang ada di teks dokumen tersebut. 3. Hasilnya adalah kata-kata penyusun kalimat yang ada di teks dokumen. Universitas Sumatera Utara 25 4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing adalah sebagai berikut: Mulai Teks dokumen toLowerCase Menghilangkan delimiter dan penguraian kalimat Kata-kata penyusun kalimat Selesai Gambar 3.2 Flowchart Text Preprocessing Contoh : Misal terdapat input kalimat seperti : Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar. Gambar 3.3 Contoh kalimat yang akan diinput Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil : dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar. 3.4 Contoh kalimat delimiter setelah ToLowerCase KemudianGambar setelah proses penghilangan dan penguraian kalimat maka Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka hasilnya adalah sebagai berikut : Universitas Sumatera Utara 26 Tabel 3.4 Hasil dari proses text preprocessing dalam penelitian ini terdiri bagian yaitu data berita data unik dan data kata dasar 3.2.2. Feature Selection Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut : 1. Stopword Removal (Filtering) Langkah-langkah untuk proses filtering adalah sebagai berikut : a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan sebagai masukkan. b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword. c. Jika kata yang dimasukkan sama dengan kata di database stopword maka kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak sama dengan kata yang ada di database stopword maka tersebut tidak dihapus d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai berikut : Universitas Sumatera Utara 27 Mulai Kata-kata hasil text processing Membandingkan kata yang diinput dengan dengan kata-kata yang ada di database stopword Kata yang diinput = kata yang ada didatabase stopword Ya hapus Tidak Kata-kata yang bukan stopword Selesai Gambar 3.5 Flowchart proses filtering Contoh : Misalkan terdapat masukkanyang merupakan hasil dari proses text processing sebagai berikut : Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. dalam penelitian ini terdiri bagian yaitu data berita data unik dan data kata dasar Dan misalnya terdapat stopword yang dalam database stopword sebagai berikut : Tabel 3.6 Kumpulan stopword dan dari ingin ini kepada dalam selalu lalu yaitu bahwa terdiri sekali dulu sekalian enggak bagian Universitas Sumatera Utara 28 Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai berikut : Tabel 3.7 Hasil dari proses filtering penelitian data berita data unik data kata dasar 3.2.3. Contoh penggunaan algoritma (tf/idf) Berikut simulasi perhitungan nilai tf*idf bisa dilihat pada bagian dibawah ini : Terdapat kalimat: Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai tf.idf. Mari kita belajar! Catatan: tiap kalimat dianggap sebagai dokumen. Setelah di pisah akan menjadi seperti berikut : D1 Saya sedang belajar menghitung tf.idf. D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen. D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. D4 Langkah terakhir menghitung nilai tf.idf. D5 Mari kita belajar! Menghitung Term Frequency (tf) Term frequency (tf) merupakan frekuensi kemunculan term (t) pada dokumen (d). Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga menjadi : Universitas Sumatera Utara 29 Tabel 3.8 Menghitung tf Term (t) Akhir Awal Belajar Dokumen Frekuensi Hitung Idf Kita Langkah Muncul Saya Term Tf D1 0 0 1 0 0 1 1 0 0 0 1 0 1 D2 0 0 0 1 1 0 1 0 0 1 0 1 1 D3 0 1 0 0 0 3 1 0 1 0 0 0 1 D4 1 0 0 0 0 1 1 0 1 0 0 0 1 D5 0 0 1 0 0 0 0 1 0 0 0 0 0 Menghitung document frequency (df) Document frequency (df) adalah banyaknya dokumen dimana suatu term (t) muncul. Tabel 3.9 Menghitung df Term (t) Akhir Awal Belajar Dokumen Frekuensi Hitung Idf Kita Langkah Muncul Saya Term Tf df 1 1 2 1 1 3 4 1 2 1 1 1 4 Universitas Sumatera Utara 30 Menghitung invers document frequency (idf) Menggunakan rumus (1) IDF = 1 / df Tabel 3.10 Menghitung idf (1) Term (t) Akhir Awal Belajar Dokumen Frekuensi Hitung Idf Kita Langkah Muncul Saya Term Tf df 1 1 2 1 1 3 4 1 2 1 1 1 4 idf 1 1 ½=0.5 1 1 1/3=0.3 ¼=0.25 1 ½=0.5 1 1 1 ¼=0.25 Menggunakan rumus (2) IDF = Log ( N/df ) Tabel 3.11 Menghitung idf (2) Term (t) Akhir Awal Belajar Dokumen Frekuensi Hitung Idf Kita Langkah Muncul Saya Term Tf df 1 1 2 1 1 3 4 1 2 1 1 1 4 idf Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/2) = 0.398 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/3) = 0.221 Log (5/4) = 0.097 Log (5/1) = 0.699 Log (5/2) = 0.398 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/4) = 0.097 Universitas Sumatera Utara 31 Menghitung tf.idf Hasil kali tf x idf Tabel 3.12 Menghitung tf.idf Term (t) Akhir Awal Belajar Dokumen Frekuensi Hitung Idf Kita Langkah Muncul Saya Term Tf D1 0 0 1 0 0 1 1 0 0 0 1 0 1 D2 0 0 0 1 1 0 1 0 0 1 0 1 1 D3 0 1 0 0 0 3 1 0 1 0 0 0 1 D4 1 0 0 0 0 1 1 0 1 0 0 0 1 Total W D5 0 0 1 0 0 0 0 1 0 0 0 0 0 idf Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/2) = 0.398 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/3) = 0.222 Log (5/4) = 0.097 Log (5/1) = 0.699 Log (5/2) = 0.398 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/1) = 0.699 Log (5/4) = 0.097 D1 0 0 0.398 0 0 0.222 0.097 0 0 0 0.699 0 0.097 1.513 D2 0 0 0 0.699 0.699 0 0.097 0 0 0.699 0 0.699 0.097 2.99 tf.idf D3 0 0.699 0 0 0 0.666 0.097 0 0.398 0 0 0 0.097 1.957 D4 0.699 0 0 0 0 0.222 0.097 0 0.398 0 0 0 0.097 1.513 3.3. Perancangan Sistem Perancangan proses perlu dilakukan untuk mengetahui proses-proses yang diperlukan dalampembuatan aplikasi, aliran data pada tiap-tiap proses hingga aktor yang terlibat di dalamnya. Perancangan ini bertujuan untuk mengetahui proses transformasi data dari input berupa dokumen hingga menjadi output berupa hasil ringkasan. 3.3.1. Diagram konteks Diagram konteks dibuat untuk menggambarkan sistem secara umum dan entitasentitas yangterlibat di dalamnya. Dalam konteks diagram Peringkas Teks Otomatis pada Bahasa Indonesia terdapat satu eksternal yakni pengguna, yakni orang yang menggunakan sistem. Pengguna memasukkan dokumen, kemudian sistem akan memberikan output berupa hasil ringkasan. Diagram konteks ini seperti gambar 3.6 berikut. Universitas Sumatera Utara D5 0 0 0.398 0 0 0 0 0.699 0 0 0 0 0 1.097 32 Dokumen Pengguna Ringkasan 1 Peringkasan Teks berita secara otomatis + Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 3.3.2. DFD level 1 Dari konteks diagram gambar 3.6, dijabarkan menjadi DFD Level 1 seperti terlihat pada gambar 3.7. Dari gambar tersebut terdapat 5 proses yakni Pra Proses, Pembagian dokumen menjadi topik, penghitungan bobot relatif topik, dan pemilihan kalimat paling penting dari topik. Dokumen dari pengguna akan diproses pada pra proses, kemudian representasi dokumen yang dihasilkan pada proses ini akan dijadikan masukan pada proses pembagian dokumen menjadi topik. Keluaran dari proses sebelumnya yang berupa topik dijadikan sebagai masukan untuk dilakukan proses perhitungan bobot topik. Kemudian proses terakhir pada level ini adalah pemilihan kalimat paling penting dari topik. Masing-masing proses terdapat sub proses yang merupakan dekomposisi dari proses tersebut, kecuali untuk proses penghitungan bobot topik yang tidak memiliki sub proses karena sudah cukup ditangani pada proses itu. 1.1 Pra Proses Dokumen Representasi + dokumen 1.2 Pembagian dokumen menjadi topik + Pengguna Topik Ringkasan 1.4 Pemilihan kalimat paling penting dari topik 1.3 Penghitungan bobot Kalimat + Gambar 3.7 DFD peringkas teks otomatis Universitas Sumatera Utara 33 3.4. Perancangan Antarmuka Sistem 3.4.1. Antarmuka Sistem Antar muka sistem merupakan tampilan sistem yang berfungsi untuk membantu pengguna dalam menggunakan sistem. Antarmuka sistem pada penelitian ini dibuat sesederhana mungkin dengan tujuan untuk mengurangi penggunaan waktu yang tidak relevan pada proses sistem serta membantu pengguna dalam memahami dan menggunakan sistem. Adapun rancangan antarmuka sistem terdiri atas beberapa komponen dasar, yaitu : tombol pilih file, kolom set tingkat kompresi, kolom teks asli, kolom ringkasan dan tombol proses. Adapun bentuk ataupun gambaran dari antarmuka sistem yang akan dibuat dapat dilihat pada Gambar 3.8 berikut : Teks Asli Ringkasan Pilih File Set Kompresi % Proses Gambar 3.8 Tampilan Antarmuka Sistem Universitas Sumatera Utara 34 Berikut ini merupakan rincian dari rancangan tampilan antarmuka sistem pada Gambar 3.8 yang akan dibuat, yaitu : a. Tombol Pilih File, dimana user dapat memilih salah satu file berita yang telah di simpan di direktori. b. Kolom set tingkat kompresi, dimana user dapat menentukan berapa persen tingkat dari hasil ringkasan. Interval yang diberikan 0 sampai 100 persen. c. Kolom teks asli, akan menampilkan teks asli dari berita yang dipilih. d. Kolom ringkasan, akan menampilkan hasil ringkasan dari berita yang dipilih. e. Tombol proses, setelah user memilih file berita dan menentukan tingkat kompresi ringkasan maka user bisa meng-klik perintah proses. Universitas Sumatera Utara 4BAB 4 IMPLEMENTASI DAN PENGUJIAN Dalam bab ini akan dibahas mengenai implementasi peringkasan teks berita secara otomatis menggunakan term frequency inverse document frequency. Untuk mengetahui apakah implementasi aplikasi tersebut berhasil atau tidak, serta dilakukan pengujian terhadap sistem. Berikut ini hasil implementasi dari aplikasi yang telah dibangun. 4.1. Implementasi Sistem Berdasarkan hasil analisis dan perancangan sistem yang telah dilakukan, maka dilakukan implementasi sistem peringkasan teks berita secara otomatis menggunakan term frequency inverse document frequency ke dalam bentuk program dengan menggunakan bahasa pemrograman PHP. Artinya sistem akan dijalankan pada browser sebagai media pemrosesan dan interface sistem dengan menggunakan software XAMPP. 4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak Lingkungan implementasi merupakan lingkungan perangkat lunak yang digunakan untuk membangun dan mengoperasikan perangkat lunak. Berikut ini merupakan spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam pembuatan sistem, yaitu: Spesifikasi perangkat keras yang digunakan : 1. Processor AMD C60 APU with Radeon(tm) HD Graphics 1.00 GHz 2. Memory RAM yang digunakan 2 GB 3. Kapasitas Hardisk 320GB Spesifikasi perangkat lunak yang digunakan : 1. Sistem Operasi yang digunakan Windows 7 Ultimate 32-bit Universitas Sumatera Utara 36 2. XAMPP win32-1.8.3-4-VC11 3. PHP 5.6 4. Mozilla Firefox 30.0 4.1.2. Tampilan Awal Pada tampilan awal sistem dibuat sederhana agar mudah dalam menggunakan sistem serta membuang waktu yang tidak relevan, dengan rincian sebagai berikut : 1. Tombol Pilih File untuk mencari dan memilih file txt yang akan diuji 2. Kolom Set Tingkat Kompresi untuk membatasi jumlah maksimum kalimat hasil ringkasan. 3. Kolom Teks Asli sebagai media untuk menampilkan teks berita hasil dari pemilihan file berita. 4. Kolom Ringkasan sebagai media untuk menampilkan ringkasan teks hasil dari proses peringkasan teks berita. 5. Tombol Proses untuk memulai eksekusi proses peringkasan. Tampilan awal sistem dapat dilihat pada Gambar 4.1 berikut: Gambar 4.1 Tampilan Awal Sistem 4.1.3. Tampilan Proses Sistem Pada Gambar 4.2 menampilkan proses pemilihan dari peringkasan teks berita dimana user memilih file teks berita dan menentukan tingkat kompresi ringkasan. Universitas Sumatera Utara 37 Gambar 4.2 Tampilan Proses Pemilihan Setelah kita memilih file teks berita dan menentukan tingkat kompresi ringkasan, maka akan didapat tampilan hasil proses pemilihan seperti terlihat pada Gambar 4.1 berikut : Gambar 4.3 Tampilan Hasil Proses Pemilihan 4.1.4. Tampilan Hasil Sistem Setelah kita melewati tahap pemilihan file berita dan menentukan tingkat kompresi hasil ringkasan, kemudian eksekusi proses peringkasan dengan tombol proses maka hasil ringkasan akan terlihat seperti Gambar 4.4 berikut : Universitas Sumatera Utara 38 Gambar 4.4 Tampilan Hasil Ringkasan 4.2. Pengujian Sistem Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil ringkasan. 4.2.1. Pengujian Tampilan Sistem Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen, algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel 4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini : Tabel 4.1 Rancangan Pengujian Tampilan Sistem No 1 Komponen Sistem Yang Diuji Tombol Pilih File Butir Uji mencari dan memilih file txt yang akan diuji 2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat hasil ringkasan 3 Kolom Teks Asli menampilkan teks berita hasil dari pemilihan file berita 4 Kolom Ringkasan menampilkan ringkasan teks hasil dari proses peringkasan teks berita 5 Tombol Proses memulai eksekusi proses peringkasan Tabel 4.2 Hasil Pengujian Tampilan Sistem Universitas Sumatera Utara 39 No Komponen Sistem Yang Diuji Hasil Pengujian 1 Tombol Pilih File Berhasil 2 Kolom Set Tingkat Kompresi Berhasil 3 Kolom Teks Asli Berhasil 4 Kolom Ringkasan Berhasil 5 Tombol Proses Berhasil Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat digunakan untuk meringkas teks. Universitas Sumatera Utara 5BAB 5 KESIMPULAN DAN SARAN Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas teks berita secara otomatis menggunakan term frequency inverse document frequency. 5.1. Kesimpulan Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks asli meskipun secara makna dan tata bahasa belum baik. 5.2. Saran Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan lainnya. Universitas Sumatera Utara DAFTAR PUSTAKA Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York . Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding Konferensi Nasional Sistem dan Informatika, pp. 196-201. Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas Sumatera Utara. Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta. Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung. Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia. Proceedings of the Twenty-eighth Australasian conference on Computer Science.Vol. 38, hal. Australia : Association for Computing Machinery. Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom. Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online) http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013). Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya. Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24 Desember 2013). Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language. (Online) http://IlmuKomputer.com. Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State. Universitas Sumatera Utara 42 Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23. Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/mediacetak-di-era-digital/(24Desember 2013). Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York. Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text Summarization System. The MIT Press : Cambrige. Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco. Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung. Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of computation linguistics. Oxford:Oxford University Press. Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California. Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining. Skripsi. Medan. Indonesia: Universitas Sumatera Utara. Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta. Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate. Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA. Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige. Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta. Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147. Olii, Helena. 2007. Berita dan Informasi : Jurnalistik Radio. Jakarta : INDEKS. Universitas Sumatera Utara 43 Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520. Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem Kontrol. Andi : Yogyakarta. Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana. Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands. (Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari 2014). Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining : Predictive Methods fo Analyzing Unstructered Information. Springer : New York. Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan. Indonesia: Universitas Sumatera Utara. Universitas Sumatera Utara

Dokumen baru

Dokumen yang terkait

Peringkasan teks berita secara Otomatis menggunakan TF.IDF
25
153
56
Rancang bangun webgis intensitas hujan secara realtime menggunakan data radar : studi kasus radar Serpong
9
65
181
Peningkatan keterampilan menulis teks berita jenis straight news melalui teknik pengamatan objek langsung pada siswa kelas VIII MTS Al- Ishlahat Kota Tangerang
1
9
125
Analisis produksi teks berita film Inndocence Of Muslim di liputat6.com
0
14
132
Afiksasi pembentuk verba dalam teks berita siswa kelas VIII di SMP Darul Muttaqien Jakarta tahun pelajaran 2013/2014
3
16
92
Peningkatan kemampuan menulis teks berita dengan menggunakan media audio visual siswa kelas VIII semester II SMPN 2 Tangerang Selatan Tahun pelajaran 2013/2014
3
28
174
Analisis teks puisi
0
8
34
Aplikasi pendeteksi mata mengantuk berbasis citra digital menggunakan metode haar classifier secara real rime
45
141
88
Peringkasan Literatur Ilmu Komputer Bahasa Indonesia Berbasis Fitur Statistik dan Linguistik menggunakan Metode Gaussian Naïve Bayes
0
1
13
Peringkasan Teks Otomatis Secara Ekstraktif Pada Artikel Berita Kesehatan Berbahasa Indonesia Dengan Menggunakan Metode Latent Semantic Analysis
2
4
8
Kloning gen penyandi β-1,6-glukanase kapang secara cepat dengan teknik RT-PCR menggunakan primer spesifik
0
0
11
Peringkasan Multi-dokumen Berita Berbahasa Indonesia menggunakan Conditional Random Fields (CRF)
0
0
12
Academicopter : Mesin Pencarian Meta Untuk Akademik Dengan Peringkasan Otomatis Pdf Jurnal Ilmiah
0
1
63
Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik
0
0
6
3.2Menggali isi teks penjelasan (eksplanasi) ilmiah yang didengar dan dibaca. 4.2Menyajikan hasil penggalian informasi dari teks penjelasan (eksplanasi) ilmiah secara lisan, tulis, dan visual dengan menggunakan kosakata baku dan kalimat efektif.  Menemuk
4
520
11
Show more