Full text

(1)

PERINGKASAN TEKS BERITA SECARA OTOMATIS

MENGGUNAKAN TERM FREQUENCY INVERSE

DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

DANDUNG TRI SETIAWAN

071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

(2)

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN

TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

DANDUNG TRI SETIAWAN 071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA

MEDAN 2014

(3)

ii

PERSETUJUAN

Judul : PERINGKASAN TEKS BERITA SECARA

OTOMATIS MENGGUNAKAN TF.IDF

Kategori : SKRIPSI

Nama : DANDUNG TRI SETIAWAN

Nomor Induk Mahasiswa : 071402054

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Agustus 2014

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc

NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi

Ketua,

M Anggia Muchtar, ST, M.MIT

(4)

iii

PERNYATAAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM

FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Agustus 2014

Dandung Tri Setiawan

071402054

(5)

iv

UCAPAN TERIMA KASIH

Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta

shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas

berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini.

Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta

dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati,

penulis mengucapkan terima kasih sebesar-besarnya kepada:

1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena

berkat dukungannya baik secara moril maupun materil secara terus disetiap

saat, sehingga penulis dapat menyelesaikan skripsi ini.

2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga.

3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST,

M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan

waktu untuk memberikan saran dalam menyelesaikan skripsi ini.

4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M.

Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc.

5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi

Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi

S-1 Teknologi Informasi.

6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si,

M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan

saran dan kritik dalam menyelesaikan skripsi ini.

7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.

Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak

kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat

membangun dari semua pihak demi kesempuranaan skripsi ini.

Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan

(6)

v

ABSTRAK

Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan

menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses

dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah

berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu

pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text

preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil

dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk

meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem

dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan

kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.

Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.

(7)

vi

THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

ABSTRACT

The development of internet technology affect the increasing of news web and create

an information explosion. This make all information can be accessed fast and not

need so much time in reading a news. The automaic summarizaton technology of text

give solution in searching the content of news in short description. This study begins

with the processing text step, feature selection and count the amount tf-idf. The result

of this study show that tf-idf can be used to summarize text automatcally though it

cannot reach stemming process. The system of tf.idf method still has some

weaknesses that is the result of text does not interprete the content of text and there are

also some of text grammar.

Keywords : summary, teks summarization, automatic text summarization, term

(8)

vii

DAFTAR ISI

Hal.

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak v

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Tujuan Penelitian 2

1.4. Manfaat Penelitian 2

1.5. Batasan Masalah 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

2 Bab 2 Landasan Teori 6

2.1. Peringkasan Teks Otomatis 6

(9)

viii

2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15

2.8. Flowchart 17

2.9. Penelitian Terdahulu 18

3 Bab 3 Analisis dan Perancangan 21

3.1. Analisis Data 21

3.1.1. Data Berita 21

3.1.2. Data Stopword 23

3.1.3. Data Kata Dasar 23

3.2. Analisis Sistem 24

3.2.1. Text Preprocessing 24

3.2.2. Feature Selection 26

3.2.3. Contoh penggunaan algoritma (tf/idf) 28

3.3. Perancangan Sistem 31

3.3.1. Diagram konteks 31

3.3.2. DFD level 1 32

3.4. Perancangan Antarmuka Sistem 33

4 Bab 4 Implementasi dan Pengujian 35

4.1. Implementasi Sistem 35

4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35

4.1.2. Tampilan Awal 36

4.1.3. Tampilan Proses Sistem 36

4.1.4. Tampilan Hasil Sistem 37

4.2. Pengujian Sistem 38

5 Bab 5 Kesimpulan dan Saran 40

5.1. Kesimpulan 40

5.2. Saran 40

(10)

ix

DAFTAR TABEL

Hal.

Tabel 2.1 Fungsi simbol-simbol flowchart 18

Tabel 2.2 Penelitian terdahulu 20

Tabel 3.1 Tabel Berita 22

Tabel 3.2 Tabel Stopword 23

Tabel 3.3 Tabel kata dasar 23

Tabel 3.4 Hasil dari proses text preprocessing 26

Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27

Tabel 3.6 Kumpulan stopword 27

Tabel 3.7 Hasil dari proses filtering 28

Tabel 3.8 Menghitung tf 29

Tabel 3.9 Menghitung df 29

Tabel 3.10 Menghitung idf (1) 30

Tabel 3.11 Menghitung idf (2) 30

Tabel 3.12 Menghitung tf.id 31

Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38

Tabel 4.2 Hasil Pengujian Tampilan Sistem 39

(11)

x

DAFTAR GAMBAR

Hal.

Gambar 2.1 Mesin Peringkas Teks 8

Gambar 2.2 Modul Peringkas Teks 9

Gambar 2.3 Anatomi Berita 11

Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17

Gambar 3.1 Skema proses pengambilan berita 21

Gambar 3.2 Flowchart Text Preprocessing 25

Gambar 3.3 Contoh kalimat yang akan diinput 25

Gambar 3.4 Contoh kalimat setelah ToLowerCase 25

Gambar 3.5 Flowchart proses filtering 27

Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32

Gambar 3.7 DFD peringkas teks otomatis 32

Gambar 3.8 Tampilan Antarmuka Sistem 33

Gambar 4.1 Tampilan Awal Sistem 36

Gambar 4.2 Tampilan Proses Pemilihan 37

Gambar 4.3 Tampilan Hasil Proses Pemilihan 37

(12)

v

ABSTRAK

Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan

menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses

dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah

berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu

pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text

preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil

dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk

meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem

dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan

kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.

Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.

(13)

vi

THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

ABSTRACT

The development of internet technology affect the increasing of news web and create

an information explosion. This make all information can be accessed fast and not

need so much time in reading a news. The automaic summarizaton technology of text

give solution in searching the content of news in short description. This study begins

with the processing text step, feature selection and count the amount tf-idf. The result

of this study show that tf-idf can be used to summarize text automatcally though it

cannot reach stemming process. The system of tf.idf method still has some

weaknesses that is the result of text does not interprete the content of text and there are

also some of text grammar.

Keywords : summary, teks summarization, automatic text summarization, term

(14)

1BAB 1 PENDAHULUAN

1.1.Latar Belakang

Seiring perkembangan teknologi informasi mengakibatkan teknologi internet semakin

pesat yang berdampak pada penggunaan internet. Tujuannya adalah untuk

mendapatkan informasi dengan cepat dan akurat. Seiring bertambahnya informasi,

maka berbanding lurus dengan dokumen yang ada di dunia internet, salah satu

contohnya adalah dokumen berita.

Dokumen berita merupakan kumpulan informasi tentang banyak peristiwa

penting terjadi dan terbaru secara berkala. Memahami isi dokomen berita melalui

ringkasan teks memerlukan waktu yang lebih singkat dibandingkan membaca seluruh

isi dokumen, sehingga ringkasan teks menjadi sangat penting. Dengan adanya

ringkasan, diharapkan pembaca dapat dengan cepat dan mudah memahami makna

sebuah teks tanpa harus membaca keseluruhan teks. Selain dapat menghemat waktu,

pembaca juga dapat menghindari pembacaan teks yang tidak relevan dengan informasi

yang diharapkan oleh pembaca, terutama ketika sangat banyak informasi tersedia di

internet.

Ringkasan dibutuhkan untuk mendapatkan isi artikel secara ringkas. Konsep

sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari

artikel. Menurut Mani dan Maybury, ringkasan adalah mengambil isi yang paling

penting dari sumber informasi yang kemudian menyajikannya kembali dalam bentuk

yang lebih ringkas bagi penggunanya (Mani dan Maybury, 1999). Namun demikian,

membuat ringkasan manual dengan dokumen yang banyak akan memerlukan waktu

dan biaya yang besar. Sehingga diperlukan suatu sistem peringkasan secara otomatis

untuk mengatasi masalah waktu baca dan biaya.

(15)

2

Peringkasan teks otomatis (automatic text summarization) adalah proses

menghasilkan teks yang lebih pendek daripada teks aslinya menggunakan perangkat

berbasis komputer. Banyak instansi yang bergerak dalam penyaluran informasi

masyarakat atau berita yang pada awalnya menyampaikan berita melalui media

Televisi, Surat Kabar, Majalah atau Radio sudah mulai menggunakan sistem berbasis

web untuk menyampaikan beritanya secara up to date (Fajar, 2008). Aplikasi

peringkasan teks otomatis merupakan teknologi yang menawarkan solusi untuk

mencari informasi dengan menghasilkan ringkasan (summary) berita.

Term frequency inverse document frequency (TF-IDF) adalah salah satu

metode yang dapat digunakan untuk melakukan peringkasan teks. Metode TF-IDF

adalah cara pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk

dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini

menggabungkan dua konsep untuk penghitungan bobot, yaitu Term Frequency (TF)

merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document Frequency

(DF) adalah banyaknya kalimat dimana suatu kata (t) muncul.

Berdasarkan dari uraian latar belakang diatas, maka penulis memilih judul

“peringkasan teks berita secara otomatis menggunakan term frequency inverse

document frequency“.

1.2.Rumusan Masalah

Berdasarkan latar belakang di atas maka rumusan masalah pada penelitian ini adalah

bagaimana mendapatkan ringkasan pada sebuah berita secara otomatis.

1.3.Tujuan Penelitian

Tujuan dari penelitian ini adalah penggunaan TF-IDF (term frequency inverse

document frequency) untuk memperoleh ringkasan berita secara otomatis dan

mengetahui ringkasan dari suatu berita dengan cepat.

1.4.Manfaat Penelitian

Manfaat yang dapat diperoleh dari penelitian ini adalah:

1. Memberikan efisiensi waktu bagi para pembaca berita dalam memahami berita

(16)

3

2. Mengetahui kemampuan TF-IDF (term frequency inverse document frequency)

untuk memperoleh ringkasan berita secara otomatis.

3. Menambah ilmu pengetahuan serta menjadi bahan referensi dan perbandingan

untuk penelitian yang berkaitan dengan penggunaan term frequency inverse

document frequency.

1.5.Batasan Masalah

Guna mencegah meluasnya cakupan permasalahan yang akan dibahas dalam studi ini

dan untuk membuat studi ini lebih terarah, maka dilakukan pembatasan masalah

sebagai berikut:

1. Algoritma yang digunakan dalam peringkasan ini adalah term frequency

inverse document frequency.

2. Data yang digunakan adalah berita politik

3. Jumlah data yang digunakan 50 berita

4. Berita yang digunakan dalam penelitian ini hanya berita berbahasa Indonesia.

5. Berita yang dimasukkan ke dalam sistem peringkasan adalah berita yang sudah

dinyatakan layak untuk dipublikasikan.

6. Penelitian ini tidak melakukan perbandingan algoritma.

7. Perancangan program aplikasi sistem peringkas teks berita ini menggunakan

bahasa pemrograman PHP.

8. Sistem ini dibangun tidak disatukan dengan media berita yang sudah ada tetapi

dengan membuat homepage sendiri dan mengunakan jaringan offline.

1.6.Metodologi Penelitian

Dalam penelitian ini, penulis melakukan beberapa metode untuk memperoleh data

atau informasi dalam menyelesaikan permasalahan. Metode yang dilakukan tersebut

antara lain :

1. Studi Literatur

Dilakukan studi literatur atau studi pustaka yaitu mengumpulkan bahan-bahan

referensi baik dari buku, artikel, paper, jurnal, makalah, maupun situs internet.

2. Analisis

Hal-hal yang dilakukan tahap ini adalah :

(17)

4

a. Menganalisis tahap demi tahap dari proses peringkasan teks.

b. Cara kerja dari algoritma term frequency invers document frequency dalam

meringkas teks.

3. Perancangan

Pada tahap ini dilakukan perancangan arsitektur, perancangan data, dan

perancangan antarmuka.

4. Pengkodean

Pada tahap ini akan dilakukan proses implementasi pengkodean program

dalam aplikasi komputer menggunakan bahasa pemrograman yang telah

ditentukan.

5. Pengujian

Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem

sesuai dengan spesifikasi yang ditentukan sebelumnya serta memastikan

program yang dibuat dapat berjalan seperti yang diharapkan.

6. Penyusunan Laporan

Pada tahap ini dilakukan penulisan dokumentasi hasil analisis dan

implementasi.

1.7.Sistematika Penulisan

Tugas akhir ini disusun dalam lima bab dengan sistematika penulisan sebagai

berikut :

BAB 1 : Pendahuluan

Pada bab ini dibahas mengenai latar belakang penulisan, rumusan masalah,

batasan masalah, tujuan, manfaat, metodologi penelitian dan sistematika

penulisan.

BAB 2 : Tinjauan Pustaka

Pada bab tinjauan pustaka berisi landasan teori, kerangka pikir dan hipotesis

yang diperoleh dari acuan yang mendasari dalam melakukan penelitian ini.

(18)

5

Pada bab ini dibahas mengenai analisis terhadap permasalahan dan

penyelesaian persoalan dalam pembuatan aplikasi serta menjelaskan tentang

rancangan struktur program dan antarmuka dari aplikasi perangkat lunak yang

akan dibuat.

BAB 4 : Implementasi dan Pengujian

Pada bab ini dibahas implementasi dari perangkat lunak serta berisikan

gambaran antarmuka dari perangkat lunak yang akan dibuat. Selain itu, juga

dilakukan pengujian untuk melihat perangkat lunak yang dibuat berhasil

dijalankan atau tidak serta untuk menemukan kesalahan (error).

BAB 5 : Kesimpulan dan Saran

Pada bab ini berisi tentang kesimpulan yang didapat dari pembuatan skripsi

dan saran-saran yang diharapkan dapat dikembangkan untuk penelitian

selanjutnya.

(19)

2BAB 2

LANDASAN TEORI

2.1.Peringkasan Teks Otomatis

Sering kali kita membutuhkan ringkasan dari sebuah bacaan untuk mendapatkan

secara ringkas dan cepat isi dari bacaan. Konsep sederhana dari ringkasan adalah

mengambil bagian penting yang menggambarkan keseluruhan isi dari dokumen asal.

Menurut Mani dan Maybury (Mani and Maybury, 1999), ringkasan adalah mengambil

isi yang paling penting dari sumber informasi yang kemudian menyajikan kembali

dalam bentuk yang lebih ringkas bagi penggunanya.Dalam Hovy (2001), summary

atau ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih

teks, mengandung informasi dari teks asli dan panjangnya tidak lebih dari setengah

teks asli.

Peringkasan teks otomatis (automatic text summarization) adalah pembuatan

versi yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang

dijalankan pada komputer. Hasil peringkasan ini mengandung poin -poin penting dari

teks asli.

2.1.1.Tipe Ringkasan

Berdasar teknik pembuatan, suatu ringkasan diambil dari bagian terpenting dari teks

aslinya (Mani, 2001), terdapat 2 tipe yaitu :

1. Abstraktif

Tipe peringkasan abstraktif menghasilkan sebuah interpretasi terhadap teks

aslinya. Dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang

lebih singkat dan kalimat baru yang tidak terdapat dalam dokumen yang asli

(20)

7

2. Ekstraktif

Tipe peringkasan ekstraktif menghasilkan suatu ringkasan dengan memilih

sebagian dari kalimat yang ada dalam dokumen asli. Metode ini menggunakan

metode statistical, linguistical dan heuristic atau kombinasi dari semuanya

dalam menetapkan ringkasan suatu teks.

Berdasarkan teori, hasil ringkasan ekstraktif lebih baik dibandingkan dengan

ringkasan abstraktif. Hal ini dikarenakan peringkasan abstraktif, seperti representasi

semantik, inferens dan pembangun natural language relatif lebih sulit, dibandingkan

pendekatan data driven, seperti ekstraksi kalimat (Erkan dan Radev, 2004). Sehingga

kebanyakan penelitian dilakukan menggunakan metode ekstraktif.

Sedangkan model peringkasan teks otomatis ada dua yaitu ringkasan yang

umum (generic summary) merupakan perwakilan dari teks asli yang mencoba untuk

mempresentasikan semua fitur penting dari sebuah teks asal. Mengikuti pendekatan

bottom up (information retrieval) dan yang kedua ringkasan berpusat pada pemakai

(query driven) yaitu peringkasan bersandar pada spesifikasi kebutuhan informasi

pemakai, seperti topik atau query dan mengikuti pendekatan top down (information

extraction).

Tujuan dari peringkasan teks (teks summarization) dapat dikategorikan

berdasarkan maksud, fokus dan cakupannya (Firmin dan Chrzanowski, 1999), sebagai

berikut :

1. Informatif

Informatif, ringkasan ini menyatakan informasi - informasi penting yang

terdapat pada dokumen asal.

2. Indikatif

Indikatif, tujuan dari ringkasan ini adalah untuk dijadikan sebuah referensi,

yang membantu pembaca untuk mengetahui isi dari teks daripada membaca

keseluruhan teks yang ada. Ringkasan ini meliputi topik kunci dari teks asal.

3. Evaluatif

Evaluatif, atau ringkasan yang melibatkan pembuatan sebuah pertimbangan

pada teks asal, seperti suatu tinjauan ulang atau opini.

(21)

8

4. User-focused (query-relevant)

User-focused, ringkasan yang dibuat berdasarkan topik yang dipilih oleh user,

sering merupakan jawaban dari query yang dimiliki oleh user.

5. Generic

Generic, disebut juga author-focused, sifatnya lebih umum dan berdasarkan

pada teks aslinya.

6. Dokumen tunggal (single document)

Dokumen tunggal, ringkasan merupakan ringkasan dari satu dokumen.

7. Banyak dokumen (multi document)

Banyak dokumen, ringkasan merupakan hasil ringkasan dari banyak dokumen.

Berikut gambar mesin dan modul peringkasan teks menurut (Hovy dan Marcu,

1998) :

(22)

9

Serta gambar modul peringkasan teks :

Gambar 2.2 Modul Peringkas Teks 2.2.Berita

Kata "berita" berasal dari bahasa sansekerta yaitu dari kata "vrit" yang sebenarnya

berarti "terjadi" atau "ada" (Djuroto, 2004). Berita (news) adalah laporan mengenai

suatu peristiwa atau kejadian yang terbaru (aktual); laporan mengenai fakta-fakta yang

aktual, menarik perhatian, dinilai penting, atau luar biasa (Budiman, 2011).

Berita adalah informasi baru tentang kejadian yang baru, penting, dan

bermakna, yang berpengaruh pada para pendengarnya serta relevan dan layak

dinikmati (Maeseneer, 1999).

2.2.1.Nilai-Nilai Berita

Dalam menulis berita, ada beberapa hal yang perlu diperhatikan terkait nilai berita itu

sendiri (Djuroto, 2004). Ada beberapa nilai berita yang dapat dikelompokkan sebagai

acuan dalam sebuah penulisan. Beberapa nilai berita tesebut adalah sebagai berikut :

1. Magnitude (pengaruh) artinya seberapa luas pengaruh suatu berita terhadap

khalayak.

(23)

10

2. Significant (Arti) artinya seberapa penting arti dari suatu kejadian atau

peristiwa.

3. Actuality (Aktualitas) artinya seberapa besar tingkat aktualitas suatu kejadian

atau peristiwa.

4. Proximity (Kedekatan) artinya bertia lokal lebih pas diberitakan di daerah

bersangkutan.

5. Prominence (Keakraban) artinya akrabnya suatu peristiwa terhadap khalayak.

6. Surprise (Kejutan).

7. Clarity (Kejelasan) kejadian atau peristiwa.

8. Dampak (Impact) artinya berdampak apakah berita tersebut terhadap khalayak.

9. Konflik.

10. Human Interest artinya kemampuan suatu peristiwa menyentuh perasaan

khalayak.

2.2.2.Unsur-Unsur Berita

Dalam penulisan berita kita harus memahami unsur dari suatu berita supaya memberi

kemudahan kita dalam mendeskripsikan berita tersebut dan berita yang kita buat

mudah untuk dipahami oleh khalayak ramai (Olii, 2007). Unsur-unsur berita tersebut

adalah:

1. What (apa) artinya apa yang tengah terjadi. Peristiwa apa yang tengah terjadi.

2. Who (siapa) artinya siapa saja yang terlibat dalam peristiwa itu.

3. Where (dimana) artinya dimana lokasi terjadinya peristiwa itu.

4. When (kapan) artinya kapan perisitiwa itu berlangsung.

5. Why (mengapa) artinya mengapa kejadian itu bisa terjadi.

6. How (bagaimana) artinya bagaimana kejadian itu bisa berlangsung.

2.2.3.Anatomi Berita

Seperti tubuh manusia, berita juga mempunyai bagian-bagian, diantaranya adalah

sebagai berikut (Budiman, 2011) :

1. Judul atau Kepala Berita (Headline)

Headline mewakili isi berita yang ingin disampaikan dan memiliki daya tarik

(24)

11

2. Baris Tanggal (Dateline)

Dateline terdiri atas nama media massa, tempat kejadian dan tanggal kejadian.

Tujuannya adalah untuk menunjukkan tempat kejadian dan inisial media.

3. Teras Berita (Lead atau Intro)

Lead biasanya ditulis pada paragrap pertama sebuah berita. Lead merupakan

unsur yang paling penting dari sebuah berita, yang menentukan apakah isi

berita akan dibaca atau tidak.

4. Tubuh Berita (Body)

Body isinya menceritakan peristiwa yang dilaporkan dengan bahasa yang

singkat, padat, dan jelas baik yang sudah dikemukakan dalam teras maupun

yang belum diungkapkan.

Gambar 2.3 Anatomi Berita

Bagian yang disebutkan membentuk anatomi yang tersusun sebagai sebuah

struktur yang utuh dan terpadu, yang sering dinamakan sebagai gaya piramida terbalik

(inverted pyramid style) seperti yang terlihat pada Gambar 2.3. Disebut demikian

karena bagian tubuh berita disusun dengan pola pengembangan umum ke khusus

(dimulai dari hal umum, lalu secara berangsur-angsur menuju ke hal-hal yang semakin

khusus) atau klimaks-antiklimaks (dari yang paling pokok atau penting beralih secara

berturut-turut ke yang kurang pokok atau penting). Tujuannya adalah untuk

memudahkan atau mempercepat pembaca dalam mengetahui apa yang diberitakan. Headline

Baris Tanggal

Teras Berita

Tubuh Berita

(25)

12

2.3.Text Mining

Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer

untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau

menemukan kembali informasi yang tersirat secara implisit, yang berasal dari

informasi yang di-ekstrak secara otomatis dari sumber-sumber data teks yang

berbeda-beda (Feldman & Sanger, 2007). Text mining merupakan teknik yang digunakan untuk

menangani masalah klasifikasi, clustering, information extraction dan information

retrival (Berry & Kogan, 2010).

Pada dasarnya proses kerja dari text mining banyak mengapdopsi dari

penelitian data mining namun yang menjadi perbedaan adalah pola yang digunakan

oleh text mining diambil dari sekumpulan bahasa alami yang tidak terstruktur

sedangkan dalam data mining pola yang diambil dari database yang terstruktur (Han

& Kamber, 2006).

2.3.1.Tahap – Tahap Text Mining

Tahap-tahap text mining secara umum adalah text preprocessing dan feature selection

(Feldman & Sanger 2007, Berry & Kogan 2010) . Dimana penjelasan dari

tahap-tahap tersebut adalah sebagai berikut :

1. Text Preprocessing

Tahap text preprocessing adalah tahap awal dari text mining. Tahap ini

mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan

digunakan pada operasi knowledge discovery sistem text mining (Feldman &

Sanger, 2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase,

yaitu mengubah semua karakter huruf menjadi huruf kecil, dan Tokenizing

yaitu proses penguraian deskripsi yang semula berupa kalimat – kalimat

menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.),

koma (,), spasi dan karakter angka yang ada pada kata tersebut (Weiss et al,

2005).

2. Feature Selection

Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi

dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang

(26)

13

proses pengklasifikasian lebih efektif dan akurat (Do et al, 2006., Feldman &

Sanger, 2007., Berry & Kogan 2010). Pada tahap ini tindakan yang dilakukan

adalah menghilangkan stopword ( stopword removal ) dan stemming terhadap

kata yang berimbuhan (Berry & Kogan 2010., Feldman & Sanger 2007).

Namun pada penelitian ini proses stemming tidak dilakukan.

Stopword adalah kosakata yang bukan merupakan ciri ( kata unik ) dari suatu

dokumen (Dragut et al. 2009). Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan

lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar

stopword (stoplist). Jika termasuk di dalam stoplist maka kata-kata tersebut akan

dihapus dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap

sebagai kata-kata yang mencirikan isi dari suatu dokumen atau keywords. Daftar kata

stopword di penelitian ini bersumber dari Tala (2003).

2.4.Kata

Kata adalah kesatuan terkecil yang diperoleh sesudah kalimat dibagi atas

bagian-bagiannya dan mengandung suatu ide.

Kategori kata berdasarkan sintaksisnya terdiri dari lima kata (Putrayasa, 2007),

yaitu :

1. Kata Benda (Nomina)

Kata benda adalah kata yang mengacu pada manusia, binatang, benda dan

konsep atau pengertian.

2. Kata Kerja (Verba)

Kata kerja adalah kata yang menyatakan tindakan.

3. Kata Sifat (Adjektiva)

Kata sifat adalah kata yang memberi keterangan yang lebih khusus tentang

sesuatu yang dinyatakan oleh nomina dalam kalimat.

4. Kata Keterangan (adverbia)

Kata keterangan adalah kategori yang dapat mendampingi adjektiva, numeralia

atau preposisi dalam konstruksi sintaksis.

5. Kata Tugas

Kata tugas adalah kata yang hanya memiliki arti gramatikal dan tidak memiliki

arti leksikal.

(27)

14

2.5.Kalimat

Kalimat adalah satuan bahasa terkecil dalam wujud lisan atau tulisan, yang

mengungkapkan pikiran yang utuh. Kalimat terdiri atas deret kata yang dimulai

dengan huruf kapital dan diakhiri dengan tanda titik (.), tanda tanya (?), atau tanda

seru (!).

Unsur-unsur kalimat terdiri dari kata, kelompok kata dan lagu kalimat. Di

dalam kalimat terdapat pengaturan hubungan kedudukan antara bagian-bagiannya.

Ada bagian didalam kalimat yang menunjukkan sebagai “pelaku”, ada bagian yang

menunjukkan sebagai “perbuatan”, ada bagian yang menunjukkan “bagaimana

perbuatan itu dilakukan”. Berdasarkan jabatannya kalimat terdiri dari :

1. Subyek, yaitu bagian yang menjadi pangkal atau pokok pembicaraan.

2. Predikat, yaitu bagian yang menerangkan subyek, biasanya berdiri sesudah

subyek.

3. Obyek, yaitu bagian yang menjadi tujuan.

4. Keterangan, yaitu bagian yang menunjukkan waktu (keterangan waktu),

tempat (keterangan tempat), alat (keterangan alat) dan sebagainya.

Sedangkan kalimat berdasarkan fungsinya, dapat dikategorikan sebagai

berikut:

Paragraf disebut juga alinea. Kata paragraf merupakan kata serapan dari bahasa

Inggris paragraph, sedangkan kata alinea dari bahasa Belanda dengan ejaan yang

sama. Paragraf adalah seperangkat kalimat yang membicarakan suatu gagasan atau

topik. Terdapat dua syarat dalam membentuk paragraf :

1. Menulis pernyataan (kalimat) tentang pokok bahasan dengan baik.

(28)

15

2.7.Term Frequency Inverse Document Frequency (TF-IDF)

Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara

pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen

tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua

konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi

kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya

kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen

yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut.

Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum

kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan

semakin kecil jika muncul dalam banyak dokumen (Robertson, 2004). Pada Metode

ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF

dan IDF.

Pada penelitian ini, peringkasan teks otomatis yang di kembangkan merupakan

sistem peringkasan dengan inputan berupa single dokumen dan secara otomatis

menghasilkan ringkasan (summary). Proses text preprosessing yang dilakukan pada

peringkasan teks otomatis ini hanya proses tokenizing yaitu proses pemotongan string

input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata

tunggal dilakukan dengan me-scan kalimat dengan pemisah (delimiter) white space

(spasi, tab dan newline)( Tala, 2003).

Adapun tahapan-tahapan peringkasan teks otomatis metode TF-IDF adalah

sebagai berikut :

1. Menginput dokumen yang akan dibuat ringkasannya

2. Memilah dokumen menjadi beberapa kalimat.

Pemilahan kalimat dilakukan dengan memecah string teks dari dokumen yang

panjang menjadi kalaimat-kalimat mengunakan fungsi split(), dengan tanda

titik ”.”, tanda tanya ”?” dan tanda seru ”!” sebagai delimiter untuk memotong

string dokumen.

3. Memilah kalimat yang terbentuk menjadi beberapa kata dan simpan dalam

variable array. Untuk memilah kalimat menjadi kata digunakan proses

tokenizing.

(29)

16

4. Pembobotan TF-IDF

Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat

(TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen

(IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul

dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam

banyak dokumen (Grossman, 1998). Nilai IDF sebuah term dihitung

menggunakan persamaan 1.

(1)

dengan:

N = jumlah kalimat yang berisi term(t)

dfi = jumlah kemunculan kata (term) terhadap D

5. Menghitung bobot (W) masing-masing dokumen dengan persamaan 2

(Mustaqhfiri, 2011).

(2)

dengan :

d = kalimat ke-d

t = kata(term) ke –t

TF = term freqency

W = bobot kalimat ke-d terhadap kata(term)ke- t

IDF = inverse document f reqency

6. Melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap

kalimat.

7. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan

atau sebagai output dari peringkasan teks otomatis.

Tahapan-tahapan Peringkasan Teks Otomatis dengan metode TF -IDF di atas

(30)

17

Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 2.8.Flowchart

Flowchart adalah penggambaran secara grafik dari langkah-langkah dan urutan-urutan

prosedur suatu program (Setiawan, 2006). Simbol-simbol dari flowchart memiliki

fungsi yang berbeda antara satu simbol dengan simbol lainnya (Davis, 1999). Fungsi

dari simbol-simbol flowchart adalah sebagai berikut :

(31)

18

Tabel 2.1 Fungsi simbol-simbol flowchart.

Simbol Fungsi

simbol process, yaitu menyatakan suatu tindakan (proses) yang dilakukan di dalam program.

Simbol offline connector yaitu menyatakan penghubung bila flowchart terputus disebabkan oleh pergantian halaman (misalnya tidak cukup dalam satu halaman).

Simbol online connector, berfungsi untuk menyatakan sambungan dari prose ke proses yang lainnya dalam halaman yang sama.

Simbol arus/flowline, yaitu

menyatakan jalannya arus suatu proses.

Simbol decision yaitu menunjukkan suatu kondisi tertentu yang akan menghasilkan dua kemungkinan jawaban yaitu ya/ tidak.

Simbol input/output, menyatakan proses input atau output tanpa tergantung jenis peralatannya.

Simbol terminal yaitu menyatakan permulaan atau akhir suatu program.

Simbol document, mencetak keluaran dalam bentuk dokumen.

2.9.Penelitian Terdahulu

Metode Term Frequency Inverse Document Frequency telah banyak digunakan dalam

menyelesaikan berbagai macam permasalahan dalam hal pembobotan kata. Dari

permasalahan yang kecil hingga permasalahan yang cukup kompleks dengan berbagai

(32)

19

Zafikri, (2008) melakukan penelitian untuk menyelesaikan permasalahan

dalam pencarian informasi yang akurat dan efektif pada mesin pencari. Dalam

penelitiannya mencoba menerapkangabungan antara metode Term Frequency Inverse

Document Frequency (TF-IDF) dan model ruang vektor (vector space model) pada

mesin pencari. Hasilnya metode pembobotan dokumen TF-IDF tidak selalu

memberikan hasil performansi yang baik.

Akbar (2011) dalam penelitiannya menyelesaikan permasalahan dalam

menentukan nilai tes esai online. Dalam halini Akbar (2011) menggunakan algoritma

Latent Semantic Analysis (LSA) dengan pembobotan Term Frequency/Inverse

Document Frequency (TF/IDF) untuk menyelesaikan permasalahannya yakni sebagai

alternatif solusi penilaian esai kepada user ssecara konsisten tanpa mengikutsertakan

subjektivitas penilai, seperti suasana hati dan tingkat pengetahuan. Algoritma

TF/IDF-LSA memiliki tingkat keakuratan cukup tinggi dalam pemeriksaan jawaban esai

dengan jumlah kata yang banyak.

Sulthan (2012) menggunakan algoritma Hill Climbing dalam meringkas teks,

hasil dari peringkasan menggunakan algoritma Hill Climbing cukup baik. Metode text

mining juga pernah dilakukan Kurniawan (2012) dalam klasifikasi berita, dan hasil

dari metode text mining cukup berhasil.

Aristoteles (2013) melakukan penelitian peringkasan teks dokumen bahasa

Indonesia menggunakan algoritma genetika, hasilnya bahwa algoritma genetika dapat

digunakan untuk mencari tingkat kepentingan yang optimal dari tiap fitur teks. Nilai

akurasi 47.46% pada pemampatan 30%. Sedangkan hasil tidak optimal pada

pemampatan 10%.

(33)

20

Tabel 2.2 Penelitian terdahulu

No Peneliti / Tahun Judul Keterangan

1 Zafikri (2008) Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) pada Sistem Temu Kembali informasi.

2 Akbar (2011) Menentukan Nilai Tes Esai Online Menggunakan AlgoritmaLatent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/ Inverse Document Frequency

3 Sulthan (2012) Peringkasan Teks Otomatis Berbasis Web Menggunakan AlgoritmaHill Climbing

4 Kurniawan (2012) Klasifikasi Konten Berita menggunakan

Text Mining

(34)

3BAB 3

ANALISIS DAN PERANCANGAN

Pada bab ini akan membahas beberapa hal diantaranya data yang digunakan, flowchart

system, tampilan antar-muka serta analisis perancangan yang bertujuan untuk

mengindentifikasi permasalahan yang ada pada sistem tersebut. Analisis ini

diperlukan sebagai dasar perancangan sistem untuk mengimplementasikan tf-idf

dalam meringkas teks.

3.1.Analisis Data

Dalam penelitian ini data terdiri dari 3 bagian yaitu data berita, data stopword dan data

kata dasar.

3.1.1.Data Berita

Data berita dalam penelitian ini didapat dari beberapa media berita online yang

kemudian dimasukkan kedalam database. Skema dari proses pengambilan berita dapat

dilihat pada gambar 3.1.

Data berita berjumlah 50 dokumen berita politik.Untuk memperoleh ketepatan

dan mempermudah proses pengujian maka berita diambil dari situs media berita

online. Berikut tabel 3.1.

Database

Gambar 3.1 Skema proses pengambilan berita

(35)

22

Tabel 3.1 Tabel Berita

id_berita Judul Berita Isi Berita

1 Kontras Kritik Penunjukan Hendropriyono

Koordinator Komisi untuk Orang Hilang dan Korban Tindak Kekerasan (Kontras),

Haris Azhar mengatakan dipilihnya AM Hendropriyono sebagai penasihat tim

transisi Jokowi-JK tidak mendukung penuntasan kasus hak asasi manusia di

Indonesia.

Kontras menilai terpilihnya

Hendropriyono mencerminkan sikap Joko Widodo yang kurang serius terhadap persoalan HAM. “Antara tidak serius, tidak mengerti, atau rentan diintervensi (berbagai kepentingan),” ujarnya dikutip

BBC, Kamis (14/8). .... 2 Presiden Baru, Rakyat

Akan Kembali Kecewa

KH M Shoffar Mawardi menyatakan rakyat akan kembali kecewa pasca pemilu 2014 lantaran harapan presiden yang baru

akan membawa Indonesia menuju kehidupan yang adil dan makmur tidak

akan tercapai. “Pada akhirnya, banyak rakyat yang sedih dan kecewa saat harapannya tidak kunjung menjadi nyata,”

ungkap Pengasuh Ma’had Daarul Muwahhid Srengseng Jakarta Barat tersebut seperti dilansir tabloid Media Umat Edisi 132: Presiden Baru, Umat Siap

Kecewa, Jum’at (18 Juli-21 Agustus)...

3 Israel Gunakan Bom

Fosfor Putih di Gaza

Laporan terakhir mengatakan pasukan udara dan darat Israel menggunakan bom fosfor putih untuk menghantam beberapa wilayah pemukiman di Jalur Gaza yang

terkepung.

Bom-bom mematikan itu melanggar semua konvensi internasional dan dianggap sebagai senjata terlarang untuk

digunakan di wilayah penduduk sipil. 4 Sengketa PLN Pertamina

Ancam Listrik Padam

Perusahaan Listrik Negara mengatakan berkurangnya pasokan solar dari Pertamina sekitar 50% akan diatasi dengan

(36)

23

3.1.2.Data Stopword

Data stopword didapat dari jurnal Tala (2003) dimana datanya berjumlah 753 data dan

dari berita-berita yang digunakan dalam penelitian. Data stopword di dalam database.

Rancangan tabel stopword dapat dilihat pada Tabel 3.2

Tabel 3.2 Tabel Stopword

id_stopword Stopword

3.1.3.Data Kata Dasar

Data kata dasar didapat dari kamus bahasa Indonesia online dimana datanya

berjumlah 28533 data. Data kata dasar disimpan di dalam database. Rancangan tabel

kata dasar dapat dilihat pada Tabel 3.3.

Tabel 3.3 Tabel kata dasar

(37)

24

3.2.Analisis Sistem

Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang

ada pada sistem yang meliputi perangkat lunak (software), pengguna (user) serta hasil

analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan

sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain

data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam

aplikasi peringkasan teks otomatis.

Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan

pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini

mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan

digunakan pada operasi knowledge discovery sistem text mining (Feldman & Sanger,

2007). Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah

semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian

deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan

delimiter-delimiter seperti tanda titik (.), koma (,), spasi dan karakter angka yang ada

pada kata tersebut (Weiss et al, 2005). Sedangkan tahap kedua adalah Tahap seleksi

fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan

teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau

tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif

dan akurat (Do et al, 2006., Feldman & Sanger, 2007., Berry & Kogan 2010). Pada

tahap ini tindakan yang dilakukan adalah menghilangkan stopword (stopword

removal) dan stemming terhadap kata yang berimbuhan (Berry & Kogan 2010.,

Feldman & Sanger 2007).

3.2.1.Text Preprocessing

Langkah-langkah proses text preprocessing adalah sebagai berikut :

1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter

huruf menjadi huruf kecil melalui proses toLowerCase.

2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter

simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang

ada di teks dokumen tersebut.

(38)

25

4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing

adalah sebagai berikut:

Gambar 3.2 Flowchart Text Preprocessing

Contoh :

Misal terdapat input kalimat seperti :

Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat

tersebut berubah menjadi huruf kecil :

Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka

Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka

hasilnya adalah sebagai berikut :

Gambar 3.4 Contoh kalimat setelah ToLowerCase

dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.

Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata

dasar.

Gambar 3.3 Contoh kalimat yang akan diinput

(39)

26

Tabel 3.4 Hasil dari proses text preprocessing

dalam penelitian ini terdiri

bagian yaitu data berita

data unik dan data

kata dasar

3.2.2.Feature Selection

Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut :

1. Stopword Removal (Filtering)

Langkah-langkah untuk proses filtering adalah sebagai berikut :

a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan

sebagai masukkan.

b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword.

c. Jika kata yang dimasukkan sama dengan kata di database stopword maka

kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak

sama dengan kata yang ada di database stopword maka tersebut tidak

dihapus

d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai

(40)

27

Kata yang diinput = kata yang ada didatabase stopword

Gambar 3.5 Flowchart proses filtering

Contoh :

Misalkan terdapat masukkanyang merupakan hasil dari proses text processing

sebagai berikut :

Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input.

dalam penelitian ini terdiri

bagian yaitu data berita

data unik dan data

kata dasar

Dan misalnya terdapat stopword yang dalam database stopword sebagai

berikut :

Tabel 3.6 Kumpulan stopword

dan dari ingin ini

kepada dalam selalu lalu

yaitu bahwa terdiri sekali

dulu sekalian enggak bagian

(41)

28

Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan

dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan

menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama

dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai

berikut :

Tabel 3.7 Hasil dari proses filtering

penelitian data berita data

unik data kata dasar

3.2.3.Contoh penggunaan algoritma (tf/idf)

Berikut simulasi perhitungan nilai tf*idf bisa dilihat pada bagian dibawah ini :

Terdapat kalimat:

Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi

kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah

menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai

tf.idf. Mari kita belajar!

Catatan: tiap kalimat dianggap sebagai dokumen.

Setelah di pisah akan menjadi seperti berikut :

D1 Saya sedang belajar menghitung tf.idf.

D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen.

D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung

df dan idf.

D4 Langkah terakhir menghitung nilai tf.idf.

D5 Mari kita belajar!

Menghitung Term Frequency (tf)

Term frequency (tf) merupakan frekuensi kemunculan term (t) pada dokumen (d).

Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga

(42)

29

Tabel 3.8 Menghitung tf

Term (t) D1 D2 D3 D4 D5

Menghitung document frequency (df)

Document frequency (df) adalah banyaknya dokumen dimana suatu term (t) muncul.

(43)

30

Menghitung invers document frequency (idf) Menggunakan rumus (1)

IDF = 1 / df

Tabel 3.10 Menghitung idf (1)

Term (t) df idf

Tabel 3.11 Menghitung idf (2)

(44)

31

Menghitung tf.idf Hasil kali tf x idf

Tabel 3.12 Menghitung tf.idf

Term (t) D1 D2 D3 D4 D5 idf tf.idf

Perancangan proses perlu dilakukan untuk mengetahui proses-proses yang diperlukan

dalampembuatan aplikasi, aliran data pada tiap-tiap proses hingga aktor yang terlibat

di dalamnya. Perancangan ini bertujuan untuk mengetahui proses transformasi data

dari input berupa dokumen hingga menjadi output berupa hasil ringkasan.

3.3.1.Diagram konteks

Diagram konteks dibuat untuk menggambarkan sistem secara umum dan

entitas-entitas yangterlibat di dalamnya. Dalam konteks diagram Peringkas Teks Otomatis

pada Bahasa Indonesia terdapat satu eksternal yakni pengguna, yakni orang yang

menggunakan sistem. Pengguna memasukkan dokumen, kemudian sistem akan

memberikan output berupa hasil ringkasan.

Diagram konteks ini seperti gambar 3.6 berikut.

(45)

32

Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis

3.3.2.DFD level 1

Dari konteks diagram gambar 3.6, dijabarkan menjadi DFD Level 1 seperti terlihat

pada gambar 3.7. Dari gambar tersebut terdapat 5 proses yakni Pra Proses, Pembagian

dokumen menjadi topik, penghitungan bobot relatif topik, dan pemilihan kalimat

paling penting dari topik. Dokumen dari pengguna akan diproses pada pra proses,

kemudian representasi dokumen yang dihasilkan pada proses ini akan dijadikan

masukan pada proses pembagian dokumen menjadi topik. Keluaran dari proses

sebelumnya yang berupa topik dijadikan sebagai masukan untuk dilakukan proses

perhitungan bobot topik. Kemudian proses terakhir pada level ini adalah pemilihan

kalimat paling penting dari topik. Masing-masing proses terdapat sub proses yang

merupakan dekomposisi dari proses tersebut, kecuali untuk proses penghitungan bobot

topik yang tidak memiliki sub proses karena sudah cukup ditangani pada proses itu.

(46)

33

Pilih File

Set Kompresi %

Teks Asli Ringkasan

Proses

3.4.Perancangan Antarmuka Sistem

3.4.1.Antarmuka Sistem

Antar muka sistem merupakan tampilan sistem yang berfungsi untuk membantu

pengguna dalam menggunakan sistem.

Antarmuka sistem pada penelitian ini dibuat sesederhana mungkin dengan

tujuan untuk mengurangi penggunaan waktu yang tidak relevan pada proses sistem

serta membantu pengguna dalam memahami dan menggunakan sistem. Adapun

rancangan antarmuka sistem terdiri atas beberapa komponen dasar, yaitu : tombol

pilih file, kolom set tingkat kompresi, kolom teks asli, kolom ringkasan dan tombol

proses.

Adapun bentuk ataupun gambaran dari antarmuka sistem yang akan dibuat

dapat dilihat pada Gambar 3.8 berikut :

Gambar 3.8 Tampilan Antarmuka Sistem

(47)

34

Berikut ini merupakan rincian dari rancangan tampilan antarmuka sistem pada

Gambar 3.8 yang akan dibuat, yaitu :

a. Tombol Pilih File, dimana user dapat memilih salah satu file berita yang

telah di simpan di direktori.

b. Kolom set tingkat kompresi, dimana user dapat menentukan berapa persen

tingkat dari hasil ringkasan. Interval yang diberikan 0 sampai 100 persen.

c. Kolom teks asli, akan menampilkan teks asli dari berita yang dipilih.

d. Kolom ringkasan, akan menampilkan hasil ringkasan dari berita yang

dipilih.

e. Tombol proses, setelah user memilih file berita dan menentukan tingkat

(48)

4BAB 4

IMPLEMENTASI DAN PENGUJIAN

Dalam bab ini akan dibahas mengenai implementasi peringkasan teks berita secara

otomatis menggunakan term frequency inverse document frequency. Untuk

mengetahui apakah implementasi aplikasi tersebut berhasil atau tidak, serta dilakukan

pengujian terhadap sistem. Berikut ini hasil implementasi dari aplikasi yang telah

dibangun.

4.1.Implementasi Sistem

Berdasarkan hasil analisis dan perancangan sistem yang telah dilakukan, maka

dilakukan implementasi sistem peringkasan teks berita secara otomatis menggunakan

term frequency inverse document frequency ke dalam bentuk program dengan

menggunakan bahasa pemrograman PHP. Artinya sistem akan dijalankan pada

browser sebagai media pemrosesan dan interface sistem dengan menggunakan

software XAMPP.

4.1.1.Spesifikasi Perangkat Keras dan Perangkat Lunak

Lingkungan implementasi merupakan lingkungan perangkat lunak yang digunakan

untuk membangun dan mengoperasikan perangkat lunak. Berikut ini merupakan

spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam pembuatan

sistem, yaitu:

Spesifikasi perangkat keras yang digunakan :

1. Processor AMD C60 APU with Radeon(tm) HD Graphics 1.00 GHz

2. Memory RAM yang digunakan 2 GB

3. Kapasitas Hardisk 320GB

Spesifikasi perangkat lunak yang digunakan :

1. Sistem Operasi yang digunakan Windows 7 Ultimate 32-bit

(49)

36

2. XAMPP win32-1.8.3-4-VC11

3. PHP 5.6

4. Mozilla Firefox 30.0

4.1.2.Tampilan Awal

Pada tampilan awal sistem dibuat sederhana agar mudah dalam menggunakan

sistem serta membuang waktu yang tidak relevan, dengan rincian sebagai berikut :

1. Tombol Pilih File untuk mencari dan memilih file txt yang akan diuji

2. Kolom Set Tingkat Kompresi untuk membatasi jumlah maksimum kalimat

hasil ringkasan.

3. Kolom Teks Asli sebagai media untuk menampilkan teks berita hasil dari

pemilihan file berita.

4. Kolom Ringkasan sebagai media untuk menampilkan ringkasan teks hasil

dari proses peringkasan teks berita.

5. Tombol Proses untuk memulai eksekusi proses peringkasan.

Tampilan awal sistem dapat dilihat pada Gambar 4.1 berikut:

Gambar 4.1 Tampilan Awal Sistem

4.1.3.Tampilan Proses Sistem

Pada Gambar 4.2 menampilkan proses pemilihan dari peringkasan teks berita

(50)

37

Gambar 4.2 Tampilan Proses Pemilihan

Setelah kita memilih file teks berita dan menentukan tingkat kompresi

ringkasan, maka akan didapat tampilan hasil proses pemilihan seperti terlihat pada

Gambar 4.1 berikut :

Gambar 4.3 Tampilan Hasil Proses Pemilihan

4.1.4.Tampilan Hasil Sistem

Setelah kita melewati tahap pemilihan file berita dan menentukan tingkat

kompresi hasil ringkasan, kemudian eksekusi proses peringkasan dengan

tombol proses maka hasil ringkasan akan terlihat seperti Gambar 4.4 berikut :

(51)

38

Gambar 4.4 Tampilan Hasil Ringkasan 4.2.Pengujian Sistem

Pengujian yang dilakukan pada sistem adalah melihat hasil ringkasan teks berita yang

menggunakan term frequency inverse document frequency. Hal ini dilakukan untuk

mengetahui seberapa besar pengaruhnya dan perbedaan teks asli terhadap hasil

ringkasan.

4.2.1.Pengujian Tampilan Sistem

Pengujian yang dilakukan pada tampilan sistem berupa fungsi dari tiap komponen,

algoritma serta teknik yang digunakan. Rancanagn pengujian dapat dilihat pada Tabel

4.1 dan dilanjutkan dengan hasil pengujian pada Tabel 4.2 berikut ini :

Tabel 4.1 Rancangan Pengujian Tampilan Sistem

No Komponen Sistem Yang Diuji Butir Uji

1 Tombol Pilih File mencari dan memilih file txt yang akan

diuji

2 Kolom Set Tingkat Kompresi membatasi jumlah maksimum kalimat

hasil ringkasan

3 Kolom Teks Asli menampilkan teks berita hasil dari

pemilihan file berita

4 Kolom Ringkasan menampilkan ringkasan teks hasil dari

proses peringkasan teks berita

5 Tombol Proses memulai eksekusi proses peringkasan

(52)

39

No Komponen Sistem Yang Diuji Hasil Pengujian

1 Tombol Pilih File Berhasil

2 Kolom Set Tingkat Kompresi Berhasil

3 Kolom Teks Asli Berhasil

4 Kolom Ringkasan Berhasil

5 Tombol Proses Berhasil

Berdasarkan pada Gambar 4.4 terlihat hasil implementasi dan pengujian sistem, maka

dapat disimpulkan bahwa algoritma term frequency inverse document frequency dapat

digunakan untuk meringkas teks.

(53)

5BAB 5

KESIMPULAN DAN SARAN

Pada bab ini akan dibahas mengenai kesimpulan dan saran berdasarkan analisis dan

pengujian yang dilakukan dalam menyelesaikan permasalahannya, yaitu meringkas

teks berita secara otomatis menggunakan term frequency inverse document frequency.

5.1.Kesimpulan

Dari penelitian yang telah dilakukan dapat disimpulkan bahwa metode TF-IDF (Term

Frequency and Inverse Document Frequency) dapat digunakan untuk meringkas teks

secara otomatis meskipun tidak melalui proses stemming. Dan menghasilkan

ringkasan teks yang tetap memiliki bagian-bagian yang penting dan dominan dari teks

asli meskipun secara makna dan tata bahasa belum baik.

5.2.Saran

Pada penelitian selanjutnya disarankan untuk menggunakan metode dan algoritma

yang lebih baik lagi. Hasil ringkasan teks otomatis perlu dilakukan perbandingan

terhadap hasil ringkasan secara manual serta tidak hanya untuk meringkas teks

berbahasa Indonesia saja melainkan bahasa asing yang lain, seperti bahasa Inggris dan

(54)

DAFTAR PUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M. & Williams, H.E. 2007. Stemming Indonesian : A Confix-Stripping Approach. Transaction on Asian Langeage Information Processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery : New York .

Agusta, L. 2009. Perbandingan Algoritma stemming Porter dengan algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia.Prosiding

Konferensi Nasional Sistem dan Informatika, pp. 196-201.

Akbar, Fakhreza. 2011. Menentukan Nilai Tes Esai Online Menggunakan Algoritma Latent Semantic Analysis (LSA) dengan Pembobotan Term Frequency/

Inverse Document Frequency. Skripsi. Medan, Indonesia: Universitas

Sumatera Utara.

Alwi, H., Dardjowidjojo, S. &Lapoliwa, A.M., 2003. Tata Bahasa Baku Bahasa Indonesia.Edisi Ketiga. Balai Pustaka : Jakarta.

Aristoteles. 2013. Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen

Bahasa Indonesia. Skripsi. Lampung. Indonesia: Universitas Lampung.

Asian, J., Williams, H.E. & Tahaghoghi, S.M.M. 2005. Stemming Indonesia.

Proceedings of the Twenty-eighth Australasian conference on Computer

Science.Vol. 38, hal. Australia : Association for Computing Machinery.

Berry, M.W. & Kogan, J. 2010. Text Mining Aplication and theory. WILEY : United Kingdom.

Budiman, K. 2011. Dasar-dasar Jurnalistik. (Online)

http://www.akirahmedia.com/main/articledetail/7 (24 Desember 2013).

Djuroto, Totok. 2004. Manajemen Penerbitan Pers. Bandung : PT Remaja Rosdakarya.

Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related

Problems in Web Interface Integration.(Online)http://www.vldb.org/pvldb/2/vldb09-384.pdf (24

Desember 2013).

Dharwiyanti, S dan Wahono, S.R., 2003. Pengantar Unified Modeling Language.

(Online) http://IlmuKomputer.com.

Davis, S.T. 1999. Chapter-Five : Logic (process) Flowchart. CRC Press : United State.

(55)

42

Erkan, Gunes & Radev Dragomir R.. “LexRank : Graph-Based Centrality as Salience in Text Summarization.” Journal of Artificial Intelegence Research 22, 2004: 1-23.

Fajar, M. 2008. Media cetak era digital. (Online) www.emfajar.net/internet/media-cetak-di-era-digital/(24Desember 2013).

Feldman, R & Sanger, J. 2007. The Text Mining Handbook : Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press : New York.

Firmin, T. &M.J Chrzanowski. 1999. An Evaluation of Automatic Text Summarization System. The MIT Press : Cambrige.

Han, J & Kamber, M. 2006 Data Mining: Concepts and Techniques Second Edition. Morgan Kaufmann publisher : San Francisco.

Hariyanto, B., 2004. Rekayasa Sistem Berorientasi Objek. Bandung: Informatika Bandung.

Hovy, E. 2001. Automated Text Summarization. In R. Mitkov. (Eds).Handbook of

computation linguistics. Oxford:Oxford University Press.

Hovy, E & Marcu, D. 1998. Automated Text summarization Tutorial, Information Sciences Institute, University of Southern California.

Kurniawan, Bambang. 2012. Klasifikasi Konten Berita Menggunakan Text Mining.

Skripsi. Medan. Indonesia: Universitas Sumatera Utara.

Kridalaksana, H. 2009. Pembentukkan Kata dalam Bahasa Indonesia. Gramedia Pustaka Utama : Jakarta.

Maeseener, P. D. 1999. Here’s The News : A Radio News Manual. United States : Unesco Asosiate.

Mani, Inderjeet. 2001. Summarization Evaluation: An Overview. The MITRE Corporation, W640 11493 Sunset Hills Road Reston, VA 20190-5214 USA.

Mani, I. &Maybury, M. T. 1999. Advance in Automatic Text Summarization. The MIT Press: Cambrige.

Muslich, M., 2008. Tata Bentuk Bahasa Indonesia : Kajian ke Arah Tata Bahasa Deskriptif. Bumi Aksara : Jakarta.

Mustaqhfiri, M., Abidin Z. &Kusumawati, R.2011. Peringkasan Teks Otomatis Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance.Ejournal Matics4(4) : 135-147.

(56)

43

Robertson, S., 2004. “Understanding Inverse Document Frequency: On theoretical arguments for IDF”, Journal ofDocumentation, Vol.60, no.5, pp. 503-520.

Setiawan, I. 2006. Progrmmable Logic Controller dan Teknik Perancangan Sistem Kontrol. Andi : Yogyakarta.

Sulthan, Aniesma. 2012. Peringkasan Teks Otomatis Berbasis Web Menggunakan

Algoritma Hill Climbing. Skripsi. Jakarta, Indonesia: Universitas Mercu Buana.

Tala, Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands.

(Online)http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. (04 Januari

2014).

Weiss, S.M., Indurkhya, N., Zhang, T. &Damerau, F.J. (Editor). 2005. Text Mining :

Predictive Methods fo Analyzing Unstructered Information. Springer : New

York.

Zafikri, Atika. 2008. Implementasi Metode Term Frequency Inverse Document

Frequency (TF-IDF) pada Sistem Temu Kembali informasi. Skripsi. Medan.

Indonesia: Universitas Sumatera Utara.

Gambar

Gambar 2.1 Mesin Peringkas Teks
Gambar 2 1 Mesin Peringkas Teks . View in document p.21
Gambar 2.2 Modul Peringkas Teks
Gambar 2 2 Modul Peringkas Teks . View in document p.22
Gambar 2.3 Anatomi Berita
Gambar 2 3 Anatomi Berita . View in document p.24
Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF
Gambar 2 4 Tahapan tahapan peringkasan teks otomatis metode TF IDF . View in document p.30
Tabel 2.1 Fungsi simbol-simbol flowchart.
Tabel 2 1 Fungsi simbol simbol flowchart . View in document p.31
Tabel 2.2 Penelitian terdahulu
Tabel 2 2 Penelitian terdahulu . View in document p.33
Gambar 3.1 Skema proses pengambilan berita
Gambar 3 1 Skema proses pengambilan berita . View in document p.34
Tabel 3.1 Tabel Berita
Tabel 3 1 Tabel Berita . View in document p.35
Tabel 3.2 Tabel Stopword
Tabel 3 2 Tabel Stopword . View in document p.36
Tabel 3.3 Tabel kata dasar
Tabel 3 3 Tabel kata dasar . View in document p.36
Gambar 3.2 Flowchart Text Preprocessing
Gambar 3 2 Flowchart Text Preprocessing . View in document p.38
Tabel 3.4 Hasil dari proses text preprocessing
Tabel 3 4 Hasil dari proses text preprocessing . View in document p.39
Gambar 3.5 Flowchart proses filtering
Gambar 3 5 Flowchart proses filtering . View in document p.40
Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input.
Tabel 3 5 Hasil dari proses text preprocessing yang dijadikan input . View in document p.40
Tabel 3.6 Kumpulan stopword
Tabel 3 6 Kumpulan stopword . View in document p.40
Tabel 3.7 Hasil dari proses filtering
Tabel 3 7 Hasil dari proses filtering . View in document p.41
Tabel 3.9 Menghitung df
Tabel 3 9 Menghitung df . View in document p.42
Tabel 3.8 Menghitung tf
Tabel 3 8 Menghitung tf . View in document p.42
Tabel 3.10 Menghitung idf (1)
Tabel 3 10 Menghitung idf 1 . View in document p.43
Tabel 3.11 Menghitung idf (2)
Tabel 3 11 Menghitung idf 2 . View in document p.43
Tabel 3.12 Menghitung tf.idf
Tabel 3 12 Menghitung tf idf . View in document p.44
Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis
Gambar 3 6 Konteks Diagram Peringkas Teks Otomatis . View in document p.45
Gambar 3.7 DFD  peringkas teks otomatis
Gambar 3 7 DFD peringkas teks otomatis . View in document p.45
Gambar 3.8 Tampilan Antarmuka Sistem
Gambar 3 8 Tampilan Antarmuka Sistem . View in document p.46
Gambar 4.1 Tampilan Awal Sistem
Gambar 4 1 Tampilan Awal Sistem . View in document p.49
Gambar 4.1 berikut :
Gambar 4 1 berikut . View in document p.50
Gambar 4.2 Tampilan Proses Pemilihan
Gambar 4 2 Tampilan Proses Pemilihan . View in document p.50
Tabel 4.1 Rancangan Pengujian Tampilan Sistem
Tabel 4 1 Rancangan Pengujian Tampilan Sistem . View in document p.51
Gambar 4.4 Tampilan Hasil Ringkasan
Gambar 4 4 Tampilan Hasil Ringkasan . View in document p.51

Referensi

Memperbarui...

Download now (56 pages)