PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERATIVE HIERARCHICAL CLUSTERING

Gratis

0
0
224
1 month ago
Preview
Full text
(1)PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh Johannes Agus Subagio 145314026 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2019

(2) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI CLUSTERING AND BOOK RECOMMENDATION BASED ON THE SYNOPSIS OF THE BOOKS USING AGGLOMERATIVE HIERARCHICAL CLUSTERING A THESIS Presented as Partial Fulfillment of The Requirements to Obtain Sarjana Komputer Degree In Informatics Engineering Study Program Writen by: Johannes Agus Subagio 145314026 INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2019 ii

(3) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI HALAMAN PERSETUJUAN PEMBIMBING SKRIPSI PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERATIVE HIERARCHICAL CLUSTERING Oleh Johannes Agus Subagio 145314026 Telah disetujui oleh : Pembimbing Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc. iii Tanggal : …………….

(4) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI HALAMAN PENGESAHAN PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERATIVE HIERARCHICAL CLUSTERING Dipersiapkan dan ditulis oleh : JOHANNES AGUS SUBAGIO NIM : 145314026 Telah dipertahankan di depan Penguji pada tanggal ………….. Susunan Panitia Penguji Nama Lengkap Tanda Tangan Ketua : Robertus Adi Nugroho, S.T., M.Eng. ………………… Sekretaris : Drs. Haris Sriwindono, M.Kom ………………… Anggota : Dr. C. Kuntoro Adi, S.J., M.A., M.Sc. ………………… Yogyakarta, …………………………… Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan, Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D iv

(5) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI MOTTO “Be humble in this life, that God may raise you up in the next” St. Stephen of Hungary “DON’T GIVE UP” When your faith is being tested For God has prepared something for those who have faith in Him. James 1:12 v

(6) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PERNYATAAN KEASLIAN KARYA Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah. Yogyakarta, 08 Februari 2019 Penulis Johannes Agus Subagio vi

(7) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Yang bertanda tangan dibawah ini, saya mahasiswa Univeristas Sanata Dharma : Nama : Johannes Agus Subagio NIM : 145314026 Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERATIVE HIERARCHICAL CLUSTERING Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengaktikan dalam bentuk media lain, mengelolahnya dalam bentuk pangkalan data, mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain untuk kepentiangan akademis tanpa perlu meminta izin dari saya maupun memberikan royalty kepada saya selama tetap mencamtukan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya. Yogyakarta, 08 Februari 2019 Yang menyatakan Johannes Agus Subagio vii

(8) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI ABSTRAK Penjualan berbasis online (e-commerce) kian banyak digunakan di bidang usaha. PT. Kanisius menggunakan aplikasi web untuk memudahkan para customer mereka untuk mencari, memilih dan membeli. Namun, web mereka belum dilengkapi dengan fitur rekomendasi kepada customer. Penelitian ini bertujuan untuk membangun sistem yang secara otomatis mampu mengelompokkan dan merekomendasikan buku berdasarkan sinopsis dan mengetahui tingkat akurasinya. Tahapan dimulai dari preprocessing, yaitu pemilihan data yang berdasarkan sinopsis buku, tokenizing, stopword, stemming, pembobotan kata, principal component analysis, normalisasi min-max, normalisasi z-score dan menghitung jarak antar data menggunakan euclidean distance dan cosine similarity. Proses selanjutnya adalah mengelompokkan data dengan menggunakan agglomerative hierarchical clustering yang memiliki 3 metode yaitu single, average dan complete linkage. Dilakukan 96 kali percobaan pengelompokan dan setiap percobaan dihitung nilai sum of square error. Dari hasil percobaan tersebut, ditemukan hasil percobaa yang paling optimal pada percobaan ke-14 dengan error terkecil yaitu 3.0103. Percobaan tersebut menggunakan metode normalisai min-max, penghitungan jarak menggunakan euclidean distance serta metode AHC complete linkage. Kata kunci : Buku, Tokenizing, Stopword, Stemming, Principal Component Analysis, Min-Max, Z-Score, Euclidean Distance, Cosine Similarity, Agglomerative Hierarchical Clustering, Sum of Square Error viii

(9) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI ABSTRACT More businesses are using e-commerce nowadays. PT.Kanisius uses web to help the customers in searching, choosing, and buying online effortlessly. However, their web is not completed with recommendation feature yet. This research aims to build a system which can automatically cluster and present the book recommendation and figure out the accuracy using the agglomerative hierarchical clustering. The stages were started from preprocessing, tokenizing, stop word, stemming, word weighting, principal component analysis, normalization min-max, normalization score, and distance counting using Euclidean distance and cosine similarity. Data were collected by using the agglomerative hierarchical clustering which has 3 methods; they are single, average and complete linkage. 96 times of clustering trials were done and sum of square error value of each trial were counted. From the trials, it was found that the 14th trial is the most optimum trial with the minimum error value 3.0103. The trial was presented by using the method of min-max normalization, distance counting based on euclidean distance, and AHC complete linkage. Keywords : Book, Tokenizing, Stopword, Stemming, Principal Component Analysis, Min-Max, Z-Score, Euclidean Distance, Cosine Similarity, Agglomerative Hierarchical Clustering, Sum of Square Error ix

(10) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI KATA PENGANTAR Puji dan syukur penulis ucapkan kehadirat Tuhan Yang Maha Esa oleh karena berkat dan kasih-Nya penulis dapat menyelesaikan skripsi yang berjudul “Pengelompokan dan Rekomendasi Buku Berdasarkan Sinopsis Buku Menggunakan Agglomerative Hierarchical Clustering” dengan baik dan tepat waktu. Skripsi ini merupakan salah satu syarat mahasiswa untuk mendapatkan gelar S-1 pada Program Studi Teknik Informatika di Universitas Sanata Dharma. Pada kesempatan ini, penulis ingin mengucapkan terimakasih kepada pihakpihak yang telah membantu dan mendukung penulis selama mengerjakan skripsi ini. Ucapan terimakasih saya sampaikan kepada : 1. Tuhan Yang Maha Esa, karena senantiasa melindungi dari segala marabahaya dan memberikan kesehatan selama penyelesaian skripsi ini. 2. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D, selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta. 3. Dr. C. Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing saya, yang selalu mau memberikan waktu, saran, kritik dan pelajaran buat saya. 4. Dr. Anastasia Rita Widiarti, M.Kom., selaku dosen metopen dan sekaligus sebagai kaprodi Teknik Informatika yang selalu memberikan arahan, kritikan, saran dan membimbing kami selama mata kuliah metopen sehingga saya memiliki gambaran kedepannya untuk menyelesaikan skripsi ini. 5. Orangtua saya Thomas Dwi Purwanto dan Endang Sri Wahyuni saya yang jauh di pulau seberang serta keluarga saya (VENA) yang selalu memberikan dukungan dan doanya. 6. Ike Wilawaty Christina Napitu, sebagai pacar penulis yang selalu memberikan semangat dan masukan serta menjadi pendengar terbaik dari semua suka dan duka yang saya alami selama pengerjaan skripsi ini. x

(11) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 7. Keluarga Sweet Home, yaitu Ike, Elfrida dan Rio yang selalu membuat penulis semangat, marah, bahagia dan perasaan yang bercampur aduk. Keluarga kecil yang gila dan tidak tau dimana sweet nya. 8. Keluarga BSS Transport yang selalu mengerti keadaanku ketika mengejar deadline skripsi dan mau membantu untuk mencarikan penggantiku. 9. Dana, Galih, yang selalu mengajari, mendukung, berbagi ilmu dan saling memberikan semangat dan motivasi untuk menyelesaikan Skripsi. 10. Mas Surya, Kak Tommy dan Wiliam Sianturi yang telah membantu, mendukung, membagi ilmu, mengajari jika terdapat kesulitan, dan selalu memberikan semangat untuk menyelesaikan Skripsi. 11. Budhi, Joni, Jefry, Andre, Kingkin, Nata, Asto, Al, Dian, Sam dan teman-teman Teknik Informatika Sanata Dharma tahun 2014 dan teman penulis lainnya yang tidak dapat disebutkan satu per satu yang selalu memberikan semangat untuk menyelesaikan Skripsi. 12. Para pegawai Fakultas Sains & Teknologi yang selalu memberikan waktu dan hati untuk melayani permintaan kami dalam mendukung penyelesaian Skripsis ini. Penulis menyadari bahwa masih banyak kekurangan dari penulisan Skripsi ini, sehingga penulis mengharapkan kritik dan saran yang bersifat membangun untuk penyempurnaan dikemudian hari. Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi banyak pihak. Yogyakarta, 08 Februari 2019 Johannes Agus Subagio xi

(12) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI PENGELOMPOKAN DAN REKOMENDASI BUKU BERDASARAKAN SINOPSIS BUKU MENGGUNAKAN AGGLOMERTATIVE HIERARCHICAL CLUSTERING . .............................................................................................................. i CLUSTERING AND BOOK RECOMMENDATION BASED ON THE SYNOPSIS OF THE BOOKS USING AGGLOMERTATIVE HIERARCHICAL CLUSTERING ………. ii HALAMAN PERSETUJUAN PEMBIMBING…………………………………….. iii HALAMAN PENGESAHAN ...................................................................................... iv MOTTO ....................................................................................................................... v PERNYATAAN KEASLIAN KARYA ..................................................................... vi LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ................................................................... vii ABSTRAK ................................................................................................................ viii ABSTRACT ................................................................................................................ ix KATA PENGANTAR ................................................................................................. x DAFTAR ISI .............................................................................................................. xii DAFTAR GAMBAR ................................................................................................ xvi DAFTAR TABEL ................................................................................................... xviii BAB I PENDAHULUAN ............................................................................................. 1 1.1.Latar Belakang .................................................................................................. 1 1.2.Rumusan Masalah ............................................................................................. 3 xii

(13) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 1.3.Tujuan................................................................................................................ 4 1.4.Manfaat Penelitian ............................................................................................ 4 1.5.Luaran ................................................................................................................ 5 1.6.Batasan Masalah ............................................................................................... 5 1.7.Sistematika Penulisan ........................................................................................ 5 BAB II LANDASAN TEORI ...................................................................................... 7 2.1 Information Retrieval ....................................................................................... 7 2.1.1 Tokenizing ............................................................................................ 7 2.1.2 Stopword ............................................................................................. 8 2.1.3 Stemming ............................................................................................. 9 2.1.4 Pembobotan Kata ............................................................................... 13 2.2 Principal Component Analysis ....................................................................... 14 2.3 Normalisasi .................................................................................................... 20 2.3.1 Z-Score ............................................................................................... 20 2.3.2 Min-Max ............................................................................................ 21 2.4 Penghitungan Jarak ........................................................................................ 21 2.4.1 Euclidean Distance ............................................................................. 21 2.4.2 Cosine Similarity ................................................................................. 22 2.5 Uji Data ......................................................................................................... 23 2.5.1 Agglomerative Hierarchical Clustering ............................................ 23 2.5.1.1 Single Linkage (Jarak Terdekat) ............................................ 24 2.5.1.2 Complete Linkage (Jarak Terjauh) ......................................... 24 2.5.1.3 Average Linkage (Jarak Rerata) ............................................. 25 2.5.2 Uji Akurasi Data ............................................................................... 32 2.5.2.1 Internal Evaluation .................................................................. 32 2.5.2.2 External Evaluation ................................................................ 32 xiii

(14) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB III METODOLOGI PENELITIAN .................................................................. 35 3.1. Data .............................................................................................................. 35 3.2. Spesifikasi Kebutuhan Sistem ....................................................................... 38 3.3. Tahap-Tahap Penelitian ................................................................................ 38 3.1.1 Studi Pustaka ...................................................................................... 38 3.3.2. Pengumpulan Data ............................................................................ 38 3.3.3. Pembuatan Alat Uji ........................................................................... 38 3.3.4. Pengujian ........................................................................................... 39 3.4.Desain Graphical User Interface (GUI) ........................................................ 39 3.5.Skenario Sistem.............................................................................................. 40 3.5.1. Gambaran Umum Sistem ................................................................... 40 3.5.1.1 Tahap Preprocessing ............................................................ 41 3.5.1.2 Tahap Pembobotan ............................................................... 43 3.5.1.3 Principal Component Analysis ............................................. 51 3.5.1.4 Tahap Normalisasi ................................................................ 51 3.5.1.5 Penghitungan Jarak ............................................................... 54 3.5.1.6 Agglomerative Hierarchical Clustering ................................ 57 3.5.1.7 Uji Data ................................................................................. 60 3.5.1.8 Uji Data Tunggal .................................................................. 60 3.6. Desain Pengujian ............................................................................................ 60 BAB IV IMPLEMENTASI DAN ANALISA .......................................................... 61 4.1. Implementasi ................................................................................................ 61 4.1.1 Data ................................................................................................... 61 4.1.2 Preprocessing .................................................................................... 63 4.1.3 Pengujian Sistem ............................................................................... 74 4.1.3.1 Agglomerative hierarchical clustering ................................. 74 xiv

(15) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4.1.3.2 Output .................................................................................. 76 4.1.3.3 Error ..................................................................................... 76 4.1.4 Uji Data Tunggal ............................................................................... 77 4.2. Hasil dan Analisa ......................................................................................... 78 4.2.1 Hasil Percobaan ................................................................................. 80 4.3. User Interface ................................................................................................ 88 BAB V IMPLEMENTASI DAN ANALISA ............................................................ 93 5.1. Kesimpulan .................................................................................................. 93 5.2. Saran ............................................................................................................. 94 DAFTAR PUSTAKA ................................................................................................ 95 LAMPIRAN .............................................................................................................. 99 xv

(16) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR GAMBAR Gambar 2.1 Hasil eigenvector dan eigenvalue dengan matlab ................................. 18 Gambar 2.2 Hasil dendogram single linkage ............................................................ 28 Gambar 2.3 Hasil dendogram complate linkage ....................................................... 30 Gambar 2.4 Hasil dendogram average linkage ......................................................... 31 Gambar 3.1 Judul buku, sinopsis dari pengarang Donny Kurniawan ....................... 35 Gambar 3.2 Judul buku, sinopsis dari pengarang Janine Amos ................................ 36 Gambar 3.3 Judul buku, sinopsis dari pengarang Sharon Jennings .......................... 36 Gambar 3.4 Judul buku, sinopsis dari pengarang Paulette Bourgeois, Brenda Clark .......................................................................................................................... 37 Gambar 3.5 Judul buku, sinopsis dari pengarang Eddy Supangkat .......................... 37 Gambar 3.6 Desain graphical user interface ............................................................. 39 Gambar 3.7 Diagram blok .......................................................................................... 40 Gambar 3.8 Dendogram data min-max single linkage .............................................. 57 Gambar 3.9 Dendogram data min-max complate linkage ........................................ 58 Gambar 3.10 Dendogram data min-max average linkage ......................................... 59 Gambar 4.1 Data ....................................................................................................... 62 Gambar 4.2 Contoh database unik ............................................................................ 67 Gambar 4.3 Contoh hasil term frequency ................................................................. 68 Gambar 4.4 Contoh hasil menghitung weight ........................................................... 69 Gambar 4.5 Contoh hasil principal component analysis 150x50 .............................. 70 Gambar 4.6 Contoh hasil implementasi normalisasi min-max ................................. 71 Gambar 4.7 Contoh hasil implementasi normalisasi z-score .................................... 72 Gambar 4.8 Contoh hasil implementasi dari jarak euclidean distance ..................... 73 Gambar 4.9 Contoh hasil implementasi dari jarak cosine similarity ........................ 73 Gambar 4.10 Output hasil cluster setiap metode ...................................................... 76 Gambar 4.11 Hasil potongan data baru untuk uji data .............................................. 77 Gambar 4.12 Hasil uji data ........................................................................................ 77 xvi

(17) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Gambar 4.13 Hasil Rekomendasi .............................................................................. 77 Gambar 4.14 Grafik percobaan single linkage .......................................................... 80 Gambar 4.15 Grafik percobaan average linkage ....................................................... 81 Gambar 4.16 Grafik percobaan complete linkage ..................................................... 82 Gambar 4.17 Dendrogram PCA 150x100 normalisasi z-score jarak euclidean cluster complete .................................................................................................................... 83 Gambar 4.18 Dendrogram PCA 150x50 normalisasi min-max jarak euclidean cluster complete .................................................................................................................... 84 Gambar 4.19 Dendrogram PCA 150x150 normalisasi z-score jarak cosine cluster complete .................................................................................................................... 86 Gambar 4.20 Tampilan sebelum melakukan pengujian ............................................ 88 Gambar 4.21 Tampilan setelah melakukan pengujian .............................................. 89 Gambar 4.22 Input data ............................................................................................. 90 Gambar 4.23 Memilih data ....................................................................................... 90 Gambar 4.24 Proses pengambilan data sudah selesai ............................................... 90 Gambar 4.25 Hasil kata unik dan bobot .................................................................... 90 Gambar 4.26 Proses tidak memillih PCA ................................................................. 91 Gambar 4.27 Proses memillih PCA dan memasukan jumlah PCA .......................... 91 Gambar 4.28 Proses memillih normalisasi, penghitungan jarak dan AHC ............... 91 Gambar 4.29 Hasil proses setelah memilih normalisasi, penghitungan jarak dan AHC .... 91 Gambar 4.30 Tabel 5 data uji .................................................................................... 92 Gambar 4.31 Uji data tunggal ................................................................................... 92 Gambar 4.32 Hasil rekomendasi ............................................................................... 92 xvii

(18) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR TABEL Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan ....................................... 10 Tabel 2.2 Cara menentukan tipe awalan untuk kata yang diawali dengan “te-” ............................................................................................................. 11 Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ................................................. 11 Tabel 2.4 Contoh data PCA ...................................................................................... 14 Tabel 2.5 Hasil penghitungan rata-rata ..................................................................... 15 Tabel 2.6 Proses penghitungan covariance ............................................................... 16 Tabel 2.7 Hasil penghitungan covariance ................................................................. 16 Tabel 2.8 Hasil data set baru PCA ............................................................................ 19 Tabel 2.9 Contoh data AHC ....................................................................................... 25 Tabel 2.10 Hasil penghitungan euclidean distance ................................................... 26 Tabel 2.11 Matriks jarak dari hasil perhitungan euclidean distance ......................... 26 Tabel 2.12 Matriks jarak pertama untuk single lingkage .......................................... 27 Tabel 2.13 Matriks jarak kedua untuk single lingkage ............................................. 28 Tabel 2.14 Matriks jarak pertama untuk complate lingkage ..................................... 29 Tabel 2.15 Matriks jarak kedua untuk complate lingkage ........................................ 29 Tabel 2.16 Matriks jarak pertama untuk average lingkage ....................................... 30 Tabel 2.17 Matriks jarak kedua untuk average lingkage .......................................... 31 Tabel 2.18 Contoh data SSE ..................................................................................... 33 Tabel 2.19 Rata-rata data SSE .................................................................................. 34 Tabel 2.20 Hasil pengurangan data dengan rata-rata ............................................... 34 Tabel 2.21 Hasil pangkat dari hasil pengurangan ..................................................... 34 Tabel 2.22 Hasil sum dari pangkat 2 ......................................................................... 34 Tabel 3.1 TF sinopsis confident – percaya diri ........................................................ 43 xviii

(19) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Tabel 3.2 TF sinopsis precil tetap tinggal di danau ................................................. 44 Tabel 3.3 TF sinopsis franklin bermain sepak bola .................................................. 44 Tabel 3.4 TF sinopsis si manis yang banyak tingkah ................................................ 44 Tabel 3.5 TF sinopsis detektif franklin ..................................................................... 45 Tabel 3.6 Penghitungan document frequency (df) .................................................... 45 Tabel 3.7 Penghitungan inverse document frequency (idf) ...................................... 47 Tabel 3.8 Bobot sinopsis semua dokumen ................................................................ 49 Tabel 3.9 Contoh pembobotan ................................................................................... 51 Tabel 3.10 Tabel min-max ........................................................................................ 52 Tabel 3.11 Tabel hasil normalisasi min-max ............................................................ 52 Tabel 3.12 Tabel hasil normalisasi z-score ............................................................... 53 Tabel 3.13 Hasil matriks jarak euclidean distance dengan normalisasi min-max ................................................................................................. 54 Tabel 3.14 Hasil matriks jarak euclidean distance dengan normalisasi z-score .................................................................................................... 55 Tabel 3.15 Hasil matriks jarak cosine similarity dengan normalisasi min-max ................................................................................................. 55 Tabel 3.16 Hasil matriks jarak cosine similarity dengan normalisasi z-score .................................................................................................... 56 Tabel 3.17 Cluster data min-max single linkage ....................................................... 58 Tabel 3.18 Cluster data min-max complate linkage .................................................. 58 Tabel 3.19 Cluster data min-max average linkage .................................................... 59 Tabel 4.1 Tabel percobaan single linkage ................................................................. 80 Tabel 4.2 Tabel percobaan complete linkage ............................................................ 81 Tabel 4.3 Tabel percobaan average linkage .............................................................. 82 Tabel 4.4 Tabel hasil pengelompokan error terkecil pertama .................................. 83 Tabel 4.5 Tabel hasil pengelompokan error terkecil kedua ..................................... 85 Tabel 4.6 Tabel hasil pengelompokan error terkecil ketiga ..................................... 86 xix

(20) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB I PENDAHULUAN 1.1. LATAR BELAKANG Teknologi informasi saat ini terus berkembang secara pesat. Hal ini menuntut kita untuk terus mengikuti perkembangannya, misalnya di bidang penjualan berbasis online. Penjualan berbasis online merupakan layanan yang dapat memudahkan para customer dalam mencari, memilih dan membeli barang secara online dari suatu website tertentu. Layanan ini kini semakin popular di kalangan pengguna e-commerce. Menurut data yang dirilis oleh tekno.liputan6.com dan biro riset Frost & Sullivan (2013) bersama China, Indonesia menjadi negara dengan pertumbuhan pasar e-commerce terbesar dengan rata-rata pertumbuhan 17 persen tiap tahun. Tentu hal ini memiliki dampak yang besar terhadap persaingan diantara penyedia layanan penjualan berbasis online. Penjualan berbasis online tidak hanya menjual 1 kategori barang tertentu saja, melainkan lebih dari 1 kategori, misalnya kategori buku, aksesoris, pakaian wanita/pria, sepatu wanita/pria, dll. Penjualan berbasis online juga tidak hanya menjual barang yang digunakan oleh orang secara umum melainkan ada yang menjual barang-barang rohani, salah satunya adalah PT.Kanisius. PT Kanisius merupakan perusahaan yang bergerak di bidang penerbitan dan percetakaan. Sejauh ini PT.Kanisius telah menerbitkan 31 kategori buku yang berbeda, yakni: Administrasi Paroki, Ajaran Gereja, Liturgi, Teologi, 1

(21) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2 Kitab Suci, Katekese, Doa, Bacaan Rohani, Kelompok Bermain, Pelajaran TK, Pelajaran SD, Pelajaran SMP, Pelajaran SMA/K, Filsafat, Psikologi, Ilmu Sosial, Hukum, Ekonomi, Manajemen Organisasi, Pendidikan, Bahasa, Kedokteran, Kesehatan, Pertanian (Perkebunan, Tanaman), Peternakan (Perikanan, Hewan), Sains Teknik, Seni, Keterampilan/Hobi, Referensi, Sejarah dan Fiksi. Dalam upaya mendongkrak dan mengembangkan hasil penjualan penerbitan yang mereka olah sendiri tersebut, maka mereka menggunakan aplikasi web yang memungkinkan customer dapat melihat dan membeli produk PT.Kanisius. Namun, saat ini sistem mereka belum dilengkapi dengan fitur pemberian rekomendasi buku kepada pelanggan. Padahal, fitur tersebut akan sangat bermanfaat bagi customer karena berupa presentasi perbandingan beberapa buku sejenis sehingga memudahkan customer untuk memilih buku yang paling sesuai dengan kebutuhannya. Penulis melihat hal ini sebagai kebutuhan yang sebenarnya dapat diciptakan solusinya. Maka dari itu, penulis ingin membuat sistem yang dapat membantu PT Kanisius dalam menangani kekurangan pada WEB mereka yakni fitur rekomendasi buku dengan menggunakan metode agglomerative hierarchical clustering. Analisa mengenai sistem rekomendasi yang telah dilakukan oleh Abdul Rokhim dan Akhmad Saikhu (2016) yang menggunakan metode Collaborative Filtering dalam sistem rekomendasi buku pada aplikasi perpustakaan SMKN 1 Bangil memberikan hasil yang dapat membantu dalam mengolah data di rekomendasi buku sehingga dapat menjadi inovasi di dalam percepatan layanan dan membantu dalam mencari informasi mengenai data yang dibutuhkan. Analisa lain menunjukkan tentang rancang bangun music recommender system dengan metode user based collaborative filtering yang dilakukan oleh

(22) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3 Teguh Budianto dan Galih Hermawan (2013) memberikan hasil pada implementasi dan hasil uji mereka bahwa metode user based collaborative filtering mampu untuk mengatasi kekosongan data dengan tingkat sparsity sebanyak 70%, namun hasil akhir dari perhitungan MAE (Mean Absolute Error) memiliki rentang 0 – 1, yang menghasilkan nilai lebih dari 0.5. Jadi, metode ini masih kurang akurat. 1.2. RUMUSAN MASALAH Berdasarkan latar belakang yang telah dikemukakan diatas, maka permasalahan yang akan dibahas dalam penelitian ini, yaitu: 1. Apakah agglomerative hierarchical clustering dapat mengelompokkan dan merekomendasikan buku secara baik? 2. Berapakah error yang didapat dalam mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering? 3. Metode manakah yang paling optimal dalam mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering?

(23) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4 1.3. TUJUAN Tujuan dari penelitian ini , yaitu : 1. Membangun sistem yang secara otomatis untuk mengelompokan dan merekomendasikan buku secara baik menggunakan agglomerative hierarchical clustering. 2. Mengetahui error yang didapat dari mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering. 3. Mengetahui metode yang paling optimal dalam mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering 1.4. MANFAAT PENELITIAN Manfaat yang diberikan pada penelitian ini, yaitu: 1. Mengetahui error yang didapat dari mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering. 2. Mengetahui metode yang paling optimal dalam mengelompokkan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering. 3. Menjadi referensi bagi para peneliti lainnya yang sesuai dengan kasus pengelompokan dan merekomendasikan buku menggunakan agglomerative hierarchical clustering.

(24) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 5 1.5. LUARAN Luaran yang diharapkan pada penelitian ini berupa sistem pengelompokan dan rekomendasi yang cerdas. 1.6. BATASAN MASALAH Batasan masalah yang penulis akan pakai dalam penelitian ini sebagai berikut: 1. Penulis menggunakan data judul, pengarang dan sinopsis buku. 2. Penulis mengambil data dari PT.Kanisius 3. Data yang digunakan hanya kategori fiksi dengan 5 pengarang yang dimiliki oleh PT. Kanisius 4. Data yang diolah hanya data yang menggunakan bahasa Indonesia. 5. Perangkat lunak dibangun dengan menggunakan aplikasi Matlab 1.7. SISTEMATIKA PENULISAN Sistematika penulisan dalam penelitian ini dibagi menjadi beberapa bab dengan susunan sebagai berikut: BAB I : Pendahuluan Berisi penjelasan tentag masalah yang akan diteliti, berisi latar belakang, rumusan masalah, tujuan penelitian, manfaat penelitian, luaran, batasan masalah dan sistematika penulisan.

(25) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6 BAB II : Landasan Teori Berisi tentang penjelasan dan uraian dari teori-teori yang akan berkaitan dengan pengelompokan dan rekomendasi buku, dengan menggunakan teori information retrieval, principal component analysis, min-max, z-score, cosine similarity, euclidean distance, agglomerative hierarchical clustering dan sum of square error. BAB III : Metodologi Penelitian Berisi tentang analisa dan design yang merupakan detail dari teknis sistem yang akan dibangun kemudian membahas alur dari penelitian. BAB IV : Implementasi dan Analisa Hasil Berisi tentang implementasi dari perancangan yang telah dibuat pada bab sebelumnya dan membuat analisa dari hasil program yang telah dibuat. BAB V : Kesimpulan Bab ini berisi tentang kesimpulan dari hasil penelitian dan saran-saran untuk pengembangan penelitian lebih lanjut.

(26) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB II LANDASAN TEORI Bab ini berisi penjabaran dari teori-teori yang akan digunakan. Teori yang mencakup, yaitu: information retrieval, principal component analysis, min-max, zscore, euclidean distance, cosine similarity, agglomerative hierarchical clustering dan sum of square error. 2.1. Information Retrieval Information retrieval adalah proses untuk menemukan dokumen (biasanya teks) yang sifatnya tidak terstruktur untuk memenuhi kebutuhan informasi dari koleksi atau dari data yang besar (Manning, dkk, 2009). Berikut beberapa proses yang dimiliki oleh information retrieval : 2.1.1 Tokenizing Tokenizing adalah proses untuk memotong kalimat menjadi beberapa bagian-bagian kecil (kata), yang disebut dengan token. Walaupun terkadang pada saat bersamaan membuang beberapa karakter tertentu, seperti tanda baca (Manning, dkk, 2009). Contoh proses tokenizing Kalimat asli: Franklin meminjam buku dari perpustakaan, tapi ia menghilangkannya. Lalu Franklin mencoba mengingat kembali kegiatannya sebelum buku itu hilang. Hasil tokenizing : Franklin meminjam buku dari perpustakaan tapi ia menghilangkannya lalu Franklin 7 mencoba mengingat kembali kegiatannya sebelum buku itu hilang

(27) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 8 2.1.2 Stopword Stopword adalah suatu kata yang sangat sering muncul dalam berbagai dokumen yang tidak berguna dalam information retrieval. Contoh stopword dalam bahasa Indonesia, yaitu : - kata ganti orang (“aku”, “kamu”, “kita”, dsb.), - konjungsi (“dan”, “atau”, dsb.), dan beberapa kata lainnya (Ardyan, dkk, 2016). Sebelum proses stopword dilakukan maka harus membuat daftar stoplist terlebih dahulu, yang berisikan kata-kata umum, kata-kata penghubung, kata ganti orang dan bukan kata unik. Jika sebuah kata terdapat dalam stoplist maka kata tersebut dihapus. Untuk daftar stoplist bersumber dari Tala (2003). Contoh untuk stopword Hasil dari tokenizing : Franklin tapi mencoba buku meminjam ia mengingat itu buku menghilangkannya kembali hilang dari lalu kegiatannya perpustakaan Franklin sebelum Franklin menghilangkannya hilang meminjam Franklin buku kegiatannya perpustakaan buku Hasil stopword :

(28) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9 2.1.3 Stemming Stemming merupakan suatu proses yang terdapat dalam sistem information retrieval yang menghilangkan kata berimbuhan menjadi kata dasar yang berasal dari proses stopword dengan menggunakan aturan yang sudah ditentukan (Agusta, 2009). Contoh proses stemming Hasil dari stopword : Franklin menghilangkannya meminjam Franklin buku kegiatannya perpustakaan buku hilang Hasil stemming : Franklin hilang minjam Franklin buku kegiatan perpustakaan buku hilang Algortima untuk melakukan proses stemming pada teks berbahasa Indonesia menggunakan algoritma Nazief & Adriani (2007), yaitu: 1. Cari kata yang akan distem ke dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti tetapi jika tidak ditemukan dilanjutkan ke langkah 2. 2. Inflection suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus possesive pronouns (“-ku”, “-mu”, atau “-nya”), jika ada. 3. Hapus derivation suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti.

(29) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 10 Jika tidak maka ke langkah 3a, yaitu: a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4 4. Hapus derivation prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel 2.1 untuk kombinasi awalan-akhiran yang tidak diijinkan. Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Jika ditemukan maka algoritma berhenti, jika tidak maka lanjut ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

(30) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 11 Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”. 2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-” maka berhenti. 4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada tabel 2.2 Tabel 2.2 Cara menentukan tipe awalan untuk kata yang diawali dengan “te-” Following charcters Tipe Awalan Set 1 Set 2 Set 3 Set 4 “-r-” “-r-” - - None “-r-” vowel - - Ter- luluh “-r-” Not(vowel “-er-” Vowel Ter “-er-” Not vowel Ter- Not “-er-” - Ter “-er-” Vowel - None “-er-” Not vowel - te or “-r-”) “-r-” Not(vowel or “-r-”) “-r-” Not(vowel or “-r-”) Not(vowel or “-r-”) Not(vowel or “-r-”)

(31) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 12 Tabel 2.3. Jenis awalan berdasarkan tipe awalannya Tipe Awalan dikeseteterter-luluh Awalan yang harus dihapus di ke se te ter ter Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini: 1. Aturan untuk reduplikasi. • Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root word-nya adalah “buku”. • Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”.

(32) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 13 2. Tambahan bentuk awalan dan akhiran serta aturannya. • Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”. • Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-” (Agusta, 2009). 2.1.4 Pembobotan Kata Pembobotan dilakukan untuk mendapatkan term dari hasil information retrieval. Metode yang digunakan dalam pembobotan ini adalah TF-IDF. Metode TF-IDF ini merupakan metode pembobotan dalam bentuk sebuah integrasi antar term frequency (TF) dan inverse document frequency (IDF) (Putri, 2013). Berikut rumus yang digunakan untuk mencari bobot kata dengan Term Frequency (TF) – Inverse Document Frequency (IDF), (Tresnawati, 2017): idf = log (D/df) (2.1) Keterangan : D : Jumlah semua dokumen dalam koleksi df : Jumlah dokumen yang mengandung term t Wij = tfij * idf Wij = tfij * log (D/dfj) (2.2) Keterangan : Wij : bobot term tj terhadap dokumen di tfij : jumlah kemunculan term tj dalam dokumen di D : jumlah semua dokumen yang ada dalam database dfj : jumlah dokumen yang mengandung term tj

(33) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14 2.2. Principal Component Analysis Principal component analysis (PCA) merupakan teknik yang digunakan untuk mereduksi data multivariable yang mengubah suatu matriks data asli menjadi kombinasi data linear yang lebih sedikit, tetapi tetap menyimpan sebagain besar jumlah varian dari data asli tersebut. Secara singkat dapat dijelaskan tujuan dari PCA adalah, menunjukan sebanyak mungkin dari jumlah varian data asli yang menggunakan komponen utama atau menggunakan vektor sesedikit mungkin (Situmorang, 2015). Berikut algoritma dalam penggunaan PCA (Smith,2002) : 1. Matrix X adalah hasil pengurangan rata-rata dari setiap dimensi data pada matrix data. 2. Matrix Cx merupakan covaiance matrix dari matrix X. 3. Hitung eigenvector dan eigenvalue dari Cx. 4. Memilih komponen dan bentuk vector feature dan principal component dari eigenvector yang memiliki eigenvalue paling besar diambil. 5. Menurunkan data set baru. Sebagai contoh data teks yang akan diproses menggunakan PCA, dapat dilihat pada tabel 2.4 Tabel 2.4 Contoh data PCA Data X Y a 2.19 3.77 b 5.13 0 c 0 0.79 d 3.52 8.21 Data tersebut akan dihitung dengan mengurangi setiap data dengan rata-rata per kolomnya. Set data tersebut dapat direpresentasikan kedalam sebuah matix X

(34) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 15 dengan dimensi MxN, dimana M adalah jumlah kolom sedangkan N adalah jumlah baris pada data. 𝑥11 𝑥12 𝑥𝑖𝑗 𝑥𝑗𝑁 𝑥21 ⋯ ⋯ 𝑥2𝑁 𝑋 = [𝑥 ⋯ ⋯ 𝑥𝑖𝑁 ] 𝑖1 𝑥𝑀1 𝑥𝑀2 𝑥𝑀𝑗 𝑥𝑀𝑛 Untuk fitur ke-j, semua nilai pada kolom dikurangi rata-ratanya. Rumus yang digunakan adalah sebagai berikut (Prasetyo,2012): 𝑥′𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥̅𝑗 (2.3) Keterangan : = 1,2,…,M dan j adalah kolom ke-j i Rumus tersebut menerangkan bahwa 𝑥 pada 𝑖𝑗 merupakan hasil pengurangan dari data 𝑥𝑖𝑗 dengan rata-rata data 𝑥 di setiap kolom 𝑗 (𝑥̅𝑗 ). Tabel 2.5 Hasil penghitungan rata-rata Data X Y a -0.52 0.5775 b 2.42 -3.1925 c -2.71 -2.402 d 0.81 5.0175 Rata-rata 2.71 3.1925 Data dari hasil perhitungan rata-rata diatas dihitung untuk mendapatkan covariance, yaitu 𝐶𝑥 . Rumus yang digunakan adalah (Prasetyo,2012): 𝐶𝑥 = 1 𝑀 𝑋𝑇 𝑋 Keterangan : 𝐶𝑥 : covariance matrix 𝑋𝑇 : transpose dari matrix X 𝑀 : jumlah data (2.4)

(35) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16 Apabila contoh diatas pada tabel 2.5 dihitung covariance matrix-nya maka hasilnya sebagai dapat dilihat pada tabel 2.6 dan tabel 2.7 M = 4; Tabel 2.6 Proses penghitungan covariance Tabel 2.7 Hasil penghitungan covariance X Y X 3.77 0.63 Y 0.63 10.36 Matrix 𝐶𝑥 mempunyai ciri-ciri sebagai berikut (Prasetyo,2012) : 1. 𝐶𝑥 merupakan matrix simetris yang bersifat bujur sangkar dengan ukuran NxN. 2. Pada bagian diagonal dari kiri atas ke kanan bawah merupakan nilai varian dari masing-masing fitur sesuai dengan indeks kolom. 3. Selain itu, bagian diagonal juga merupakan kovarian di antara dua pasangan yang bersesuaian. Matriks 𝐶𝑥 mengandung kovarian di antara semua pasangan yang mungkin dari fitur data matrix 𝑋. Nilai kovarian dapat meredakan noise dan redundansi pada fitur (Prasetyo,2012): 1. Diasumsikan bahwa dalam diagonal utama memiliki nilai tinggi yang berkorelasi dengan struktur data yang sangat penting. 2. Nilai pada jarak dapat menandakan redundansi yang tinggi

(36) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 17 Perlu diingat kembali, tujuan PCA adalah : 1. Meminimalkan redundansi pengukuran nilai jarak dari kovarian. 2. Memaksimalkan hasil pemetaan yang diukur dengan varian. Jadi, PCA adalah matrix dari hasil pemetaan dan 𝐶𝑥 adalah matrix kovarian dari 𝑋, yang diharapkan dari PCA adalah (Prasetyo, 2012) : 1. Semua elemen selain diagonal utama dalam 𝐶𝑥 harus nol dan 𝐶𝑥 harus berbentuk matrix diagonal. 2. Peletakan dimensi dalam PCA, diurutkan secara descending dari kiri ke kanan. Harapan PCA dapat dicapai dengan menghitung eigenvector dan eigenvalue dari covariance matix 𝐶𝑥 . Eigenvector adalah sebuah bilangan scalar dan eigenvector adalah sebuah matix yang keduanya dapat mendefinisikan matrix A. Jika matrix A adalah 𝑚 𝑥 𝑚, maka setiap scalar 𝜆 memenuhi persamaan: A𝑥 = 𝜆𝑥 (2.5) |𝐴 − 𝜆| = 0 (2.6) Setiap nilai eigenvalue 𝜆 harus memenuhi persamaan determinan, yang dikenal sebagai persamaan karateristik 𝐴. Hasil covariance pada tabel 2.6 dapat dicari eigenvalue-nya yang dianggap sebagai matrik A. 𝐴= [ 3.77 0.63 ] 0.63 10.36 Karakteristik dari determinan |𝐴 − 𝜆| = [ (3.77 − 𝜆) 0.63 ] 0.63 (10.36 − 𝜆)

(37) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18 Karena persamaan karatersitik |𝐴 − 𝜆| = 0, maka : ∴ (3.77 − 𝜆)(10.36 − 𝜆) − (0.63 ∗ 0.63) = 0 ∴ 39.05 − 3.77𝜆 − 10.36𝜆 + 𝜆2 − 0.3969 = 0 ∴ 39.05 − 14.13𝜆 + 𝜆2 − 0.3969 = 0 ∴ 𝜆2 − 14.13𝜆 + 38.65 = 0 Sampai hasil tersebut sudah dapat dicari nilai eigenvalue-nya. Tetapi, untuk melanjutkannya dengan hitungan manual akan mengalami kesulitan. Maka dari itu, penulis menggunakan program matlab untuk menentukan eigenvector dan eigenvalue dari tabel 2.6. Gambar 2.1 Hasil eigenvector dan eigenvalue dengan matlab Dari hasil perhitungan menggunakan matlab diketahui sebagai berikut : 𝑒𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 = [ −0.9955 0.0943 3.7103 𝑒𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒 = [ 0 0.0943 ] 0.9955 0 ] 10.4197

(38) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 19 Pada tahap ini, eigenvalue dan eigenvector telah ditemukan. Proses selanjutnya yaitu membentuk feature vector. Feature vector adalah mengambil diagonal utama dari eigenvalue dengan diurutkan secara descending atau urutan besar ke terkecil. Mengambil nilai eigenvector disusun berdasarkan indeks yang telah di urutkan secara descending pada proses eigenvalue. Hasilnya akan seperti ini : 3.7103 ] diagonal 𝑒𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒 = [ 10.4197 2 𝑖𝑛𝑑𝑒𝑥 𝑠𝑜𝑟𝑡𝑖𝑛𝑔 𝑑𝑖𝑎𝑔𝑜𝑛𝑎𝑙 = [ ] 1 0.0943 ] 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑣𝑒𝑐𝑡𝑜𝑟 = [ 0.9955 Proses selanjutnya yaitu menurunkan data set baru, yakni feature vector dikalikan dengan data matrix 𝑋 pada table 2.5. 𝑃𝐶𝐴 = 𝑋 ∗ 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑣𝑒𝑐𝑡𝑜𝑟 Hasil data set baru dapat dilihat pada tabel 2.8 Tabel 2.8 Hasil data set baru PCA Data X a 0.525 b -2.949 c -2.647 d 5.071 (2.7)

(39) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20 2.3. Normalisasi Normalisasi adalah teknik scaling yang digunakan untuk range baru dari range yang sudah ada. Metode normalisasi sangat membantu, karena dapat memperkecil data khususnya untuk range yang dihasilkan terlalu luas. Normalisasi yang digunakan untuk penelitian ini adalah metode normalisasi zscore dan metode normalisasi min-max. 2.3.1. Z-Score Normalisasi z-score digunakan jika nilai minimum dan maximum pada sebuah atribut tidak diketahui (Mustaffa, 2010). Normalisasi z-score dilakukan berdasarkan rata-rata dan standard deviation. Normalisai zscore dirumusukan sebagai berikut : v’ = ( (v-𝐴̅) / 𝜎A ) (2.8) Keterangan: v’ : nilai baru v : nilai lama 𝐴̅ : rata-rata dari atribut A 𝜎 : nilai standard deviasi dari atribut A Untuk rumus standard deviasi sebagai berikut : 𝑛 2 2 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 ) 𝑠= √ 𝑛(𝑛−1) Keterangan: s : standar deviasi 𝑥𝑖 : Nilai x ke-i 𝑛 : Ukuran sampel (2.9)

(40) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 21 2.3.2. Min-Max Normalisasi min-max merupakan metode normalisasi dengan melakukan transformasi liniear terhadap data asli. Normalisasi min-max dirumusakan sebagai berikut (Mustaffa, 2010) : 𝑋𝑛 = 𝑋0 − 𝑋𝑚𝑖𝑛 𝑋𝑚𝑎𝑥 −𝑋𝑚𝑖𝑛 (2.10) Keterangan: 𝑋𝑛 : nilai baru untuk variable X 𝑋𝑚𝑖𝑛 : nilai minimum dalam data set 𝑋0 : nilai lama untuk variable X 𝑋𝑚𝑎𝑥 : nilai maximum dalam data set 2.4. Penghitungan Jarak 2.4.1 Euclidean Distance Euclidean distance digunakan untuk menghitung nilai kedekatan antara dua dokumen. Perhitungan Euclidean distance dapat dirumuskan sebagai berikut (Prasetyo, 2014) : 𝑑(𝐴, 𝐵) = √|𝐴1 − 𝐵1 |2 + |𝐴2 − 𝐵2 |2 + … … + |𝐴𝑖 − 𝐵𝑖 |2 (2.11) atau 𝑑(𝐴, 𝐵) = √∑𝑛𝑖=1(𝐵𝑖 − 𝐴𝑖)2 Keterangan : n : Jumlah atribut 𝐵𝑖 − 𝐴𝑖 : Data (2.12)

(41) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 22 2.4.2 Cosine Similarity Cosine Similarity digunakan untuk mengukur kemiripan dari dua dokumen x dan y. Kemiripan yang sama antara x dan y akan diberikan nilai 1 dan sebaliknya akan diberikan 0 jika x dan y tidak sama atau berbeda. Nilai 1 yang dibentuk oleh veckor x dan y akan menyatakan sudut 00, yang diartikan antara vektor x dan y adalah sama jaraknya. Perhitungan untuk Cosini Similarity dapat dirumuskan sebagai berikut (Prasetyo, 2014) : 𝑠 (𝑥, 𝑦) = cos(𝑥, 𝑦) = 𝑥 .𝑦 ||𝑥||‖𝑦‖ (2.13) Tanda titik (.) = inner product 𝑥 . 𝑦 = ∑𝑟𝑖=1 𝑥𝑖 𝑦𝑖 (2.14) ||𝑥|| = √∑𝑟𝑖=1 𝑥𝑖 2 = √𝑥 . 𝑥 (2.15) Tanda ||x|| adalah panjang dari vector x, dimana

(42) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 23 2.5. Uji Data 2.5.1 Agglomerative Hierarchical Clustering Agglomerative Hierarchical Clustering adalah metode analisis kelompok yang berusaha untuk membangun sebuah hirarki kelompok data. Strategi pengelompokannya umumnya ada 2 jenis yaitu Agglomerative (Bottom-Up) dan Devisive (Top-Down). Namun pada bagian ini peneliti akan menggunakan konsep Agglomerative (Suppianto, 2014). Agglomerative Hierarchical Clustering (AHC) dengan menggunakan bottom-up, dimana proses pengelompokannya dimulai dari masing-masing data sebagai satu buah cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar. Proses tersebut diulang terus sehingga tampak bergerak keatas membentuk hirarki (Prasetyo, 2014). Pengelompokan berbasis hirarki sering ditampilkan dalam bentuk grafis menggunakan diagram yang mirip pohon (tree) yang disebut dengan dendogram. Dendogram merupakan diagram yang menampilkan hubungan cluster dan subclusternya dalam urutan yang mana cluster yang digabung (agglomerative view) atau dipecah (divisive view) (Prasetyo, 2014). Algoritma Agglomerative Hierarchical Clustering (AHC) sebagai berikut (Prasetyo, 2014) : 1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan 2. Ulangi langkah 3 sampai 4, hingga hanya 1 cluster yang tersisa 3. Gabungkan kedua cluster terdekat berdasarkan parameter kedekatan yang ditentukan 4. Perbarui matriks kedekatan untuk merefleksikan kedekatan diantar cluster baru dan cluser yang tersisa. 5. Selesai

(43) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 24 Ada 3 teknik kedekatan yang dapat digunakan untuk menghitung kedekatan diantara 2 cluster di metode Agglomerative Hierarchical Clustering (AHC), yaitu (Prasetyo, 2014) : 2.5.1.1 Single Linkage (Jarak Terdekat) Single Linkage atau MIN, kedekatan diantara 2 cluster ditentukan dari jarak terdekat (terkecil) antar 2 data dari cluster yang berbeda atau sering disebut dengan nilai kemiripan yang paling maksimal. Metode ini bagus untuk menangani set data yang bentuk distribusi datanya non-elips (non-elliptical shapes), tapi sangat sensitive terhadap noise dan outlier. Rumus untuk single linkage, yaitu (Prasetyo, 2014) : 𝑑(𝑈, 𝑉) = min{𝑑(𝑈, 𝑉)} ; 𝑑(𝑈, 𝑉)𝜖𝐷 (2.16) Keterangan : d(U,V) : jarak antar-cluster U dan V min{d(U,V)} : nilai minimum dari cluster U dan V 2.5.1.2 Complete Linkage (Jarak Terjauh) Complete Linkage atau MAX, kedekatan diantara dua cluster ditentukan dari jarak terjauh (terbesar) di antara 2 data dari 2 cluster berbeda atau sering disebut dengan nilai kemiripan yang paling minimal. Metode ini kurang peka terhadap noise dan outlier, tetapi bagus untuk data yang mempunyai distribusi bentuk bulat. Rumus untuk complete linkage, yaitu (Prasetyo, 2014) : 𝑑(𝑈, 𝑉) = max{𝑑(𝑈, 𝑉)} ; 𝑑(𝑈, 𝑉)𝜖𝐷 Keterangan : d(U,V) : jarak antar-cluster U dan V max{d(U,V)} : nilai maximum dari cluster U dan V (2.17)

(44) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 25 2.5.1.3 Average Linkage (Jarak Rerata) Average Linkage atau AVERAGE, kedekatan di antara 2 cluster ditentukan dari jarak rata-rata di antara 2 data dari 2 cluster berbeda atau disebut juga nilai rata-rata di antara single linkage dan complete linkage. Metode ini merupakan pendekatan yang mengambil pertengahan di antara single linkage dan complete linkage. Rumus untuk average linkage, yaitu (Prasetyo, 2014) : 𝑑(𝑈, 𝑉) = 1 𝑛𝑢 𝑛𝑣 {𝑑(𝑈, 𝑉)}; 𝑑(𝑈, 𝑉)𝜖 𝐷 (2.18) Keterangan : 𝑛𝑢 : jumlah data pada cluster U d(U,V) : jarak antar-cluster U dan V 𝑛𝑣 Sebagai : jumlah data pada cluster V contoh, terdapat 4 data dengan Pengelompokkan dilakukan dengan metode jumlah 2 dimensi. Algomerative Hierarchical Clustering dengan menggunakan jarak euclidean distance, metode single linkage, average linkage dan complete linkage. Untuk contoh data dapat dilihat pada tabel 2.9 Tabel 2.9 Contoh data AHC Data X Y 1 1 1 2 4 1 3 1 2 4 3 4

(45) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 26 • Hitung jarak euclidean distance, untuk setiap pasangan data 𝑑(1,2) = √(|4 − 1|2 + |1 − 1|2 ) = 3 𝑑(1,3) = √(|1 − 1|2 + |2 − 1|2 ) = 1 𝑑(1,4) = √(|3 − 1|2 + |4 − 1|2 ) = 3.60 𝑑(2,3) = √(|1 − 4|2 + |2 − 1|2 ) = 3.16 𝑑(2,4) = √(|3 − 4|2 + |4 − 1|2 ) = 3.16 • 𝑑(3,4) = √(|3 − 1|2 + |4 − 2|2 ) = 2.82 Similarity Matriks Tabel 2.10 Hasil penghitungan euclidean distance • 1 2 3 4 1 0 3 1 3,60 2 3 0 3.16 3.16 3 1 3.16 0 2.82 4 3.60 3.16 2.82 0 Matriks Jarak Karena similarity matriks bersifat simetris maka dapat dirubah menjadi matriks jarak Tabel 2.11 Matriks jarak dari hasil penghitungan euclidean distance 1 2 3 4 1 2 3 4 0 3 1 3.60 0 3.16 3.16 0 2.82 0

(46) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 27 • Mengggunakan metode single linkage Dari tabel 2.11 jarak yang paling dekat atau terkecil. min(𝑑𝑢𝑣 ) = 𝑑13 = 1 Cluster 1 dan 3 terpilih, maka cluster 1 dan 3 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (13) dengan cluster yang tersisa 2 dan 4. 𝑑(13)2 min(𝑑12 𝑑32 ) = min{3, 3.16} = 3 𝑑(13)4 min(𝑑14 𝑑34 ) = min{3.60, 2.82} = 2,82 Setelah mendapat cluster 13, baris dan kolom matriks jarak yang bersesuaian dengan cluster 1 dan 3 dihapus, kemudian ditambahkan baris dan kolom untuk custer 13, maka hasil matriksnya dapat dilihat pada tabel 2.12. Tabel 2.12 Matriks jarak pertama untuk single lingkage 13 13 2 4 0 3 2.82 0 3.16 2 4 0 Selanjutnya dipilih jarak dua cluster terkecil/terdekat min(𝑑𝑢𝑣 ) = 𝑑134 = 2.82 Cluster 13 dan 4 terpilih, maka cluster 13 dan 4 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (134) dengan cluster yang tersisa 2. 𝑑(134)2 min(𝑑12 𝑑32 𝑑42 ) = min{3, 3.16,3.16} = 3 Setelah mendapat cluster 134, baris dan kolom matriks jarak yang bersesuaian dengan cluster 13 dan 4 dihapus, kemudian ditambahkan baris dan kolom untuk cluster 134, maka hasil matriksnya dapat dilihat pada tabel 2.13.

(47) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 28 Tabel 2.13 Matriks jarak kedua untuk single lingkage 134 134 2 0 3 2 0 Ketika jarak cluster tersisa 1 maka proses iterasi perhitungan untuk pembentukan cluster berhenti. Jadi, cluster (134) dan 2 digabung agar membentuk 1 cluster yaitu, 1234 dengan jarak terdekat 3. Maka, untuk hasil dendrogramnya dapat dilihat pada gambar 2.2. Gambar 2.2 Hasil dendogram single linkage • Mengggunakan metode complete linkage Dengan metode ini akan di cari setiap jarak cluster yang paling jauh Data yang digunakan tetap berasal dari tabel 2.6. min(𝑑𝑢𝑣 ) = 𝑑13 = 1 Untuk awal cluster 1 dan 3 terpilih, maka cluster 1 dan 3 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (13) dengan cluster yang tersisa 2 dan 4. 𝑑(13)2 max(𝑑12 𝑑32 ) = max{3, 3.16} = 3.16 𝑑(13)4 max(𝑑14 𝑑34 ) = max{3.60, 2.82} = 3.60 Setelah mendapat cluster 13, baris dan kolom matriks jarak yang bersesuaian dengan cluster 1 dan 3 dihapus, kemudian ditambahkan baris dan kolom untuk custer 13, maka hasil matriksnya dapat dilihat pada tabel 2.14.

(48) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 29 Tabel 2.14 Matriks jarak pertama untuk complate lingkage 13 13 2 4 0 3.16 3.60 0 3.16 2 4 0 Selanjutnya dipilih jarak dua cluster terkecil/terdekat min(𝑑𝑢𝑣 ) = 𝑑132 = 3.16 dan min(𝑑𝑢𝑣 ) = 𝑑24 = 3.16 Karena hasilnya didapatkan 2 cluster yang sama maka penulis memilih Cluster 2 dan 4, maka cluster 2 dan 4 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (24) dengan cluster yang tersisa 13. 𝑑(24)13 max(𝑑21 𝑑23 𝑑41 𝑑43 ) = max{3, 3.16,3.60,2.82} = 3.60 Setelah mendapat cluster 132, baris dan kolom matriks jarak yang bersesuaian dengan cluster 13 dan 2 dihapus, kemudian ditambahkan baris dan kolom untuk cluster 132, maka hasil matriksnya dapat dilihat pada tabel 2.15. Tabel 2.15 Matriks jarak kedua untuk average lingkage 134 2 13 24 0 3.60 0 Ketika jarak cluster tersisa 1 maka proses iterasi perhitungan untuk pembentukan cluster berhenti. Jadi, cluster (13) dan (24) digabung agar membentuk 1 cluster yaitu, 1234 dengan jarak terdekat 3.60. Maka, untuk hasil dendrogramnya dapat dilihat pada gambar 2.3.

(49) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 30 Gambar 2.3 Hasil dendogram complete linkage • Mengggunakan metode average linkage Dengan metode ini akan di cari setiap jarak cluster yang akan dihitung dengan nilai rata-rata. Data yang digunakan tetap berasal dari tabel 2.6. min(𝑑𝑢𝑣 ) = 𝑑13 = 1 Untuk awal cluster 1 dan 3 terpilih, maka cluster 1 dan 3 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (13) dengan cluster yang tersisa 2 dan 4. 𝑑(13)2 average(𝑑12 𝑑32 ) = average{3, 3.16} = 𝑑(13)4 average(𝑑14 𝑑34 ) = average{3.60, 2.82} = 3 + 3.16 = 3.08 2 3.60 + 2.82 = 3.21 2 Setelah mendapat cluster 13, baris dan kolom matriks jarak yang bersesuaian dengan cluster 1 dan 3 dihapus, kemudian ditambahkan baris dan kolom untuk custer 13, maka hasil matriksnya dapat dilihat pada tabel 2.16. Tabel 2.16 Matriks jarak pertama untuk average lingkage 13 2 4 13 2 4 0 3.08 3.21 0 3.16 0

(50) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 31 Selanjutnya dipilih jarak dua cluster terkecil/terdekat min(𝑑𝑢𝑣 ) = 𝑑132 = 3.08 Cluster 13 dan 2 terpilih, maka cluster 13 dan 2 digabungkan. Selanjutnya, menghitung kembali jarak antara cluster (132) dengan cluster yang tersisa 4. 𝑑(132)4 average(𝑑14 𝑑34 𝑑24 ) = average{3.60, 2.82,3.16} = 3.60 + 2.82 + 3.16 = 3.19 3 Setelah mendapat cluster 132, baris dan kolom matriks jarak yang bersesuaian dengan cluster 13 dan 2 dihapus, kemudian ditambahkan baris dan kolom untuk cluster 132, maka hasil matriksnya dapat dilihat pada tabel 2.17. Tabel 2.17 Matriks jarak kedua untuk average lingkage 134 2 132 4 0 3.19 0 Ketika jarak cluster tersisa 1 maka proses iterasi perhitungan untuk pembentukan cluster berhenti. Jadi, cluster (132) dan 4 digabung agar membentuk 1 cluster yaitu, 1234 dengan jarak terdekat 3.19. Maka, untuk hasil dendrogramnya dapat dilihat pada gambar 2.4. Gambar 2.4 Hasil dendogram average linkage

(51) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 32 2.5.2 Uji Akurasi Data Data sinopsis yang sudah di preprocessing dan di uji menggunakan agglomerative hierarchical clustering diperlukan adanya uji akurasi. Fungsi uji akurasi ini berfungsi untuk mengetahui validitas dari pengujian tersebut. Dalam penulisan ini karena menggunakan clustering terdapat 2 jenis akurasi dalam menguji data dengan menggunakan metode clustering, yaitu internal evaluation dan external evaluation. 2.5.2.1 Internal Evaluation Internal evaluation atau unsupervised validation merupakan pengujian tanpa informasi dari luar. Contoh internal evaluation adalah cohesion, separation, silhouette coefficient dan sum of square error (SSE). 2.5.2.2 External evaluation External evaluation atau supervised validation merupakan pengujian antara label pada cluster yang sudah terbentuk dengan hasil cluster pada sistem. Contoh external evaluation adalah confusion matrix, entropy dan purity. Dalam penulisan ini, penulis menggunakan uji akurasi data menggunakan internal evaluation dengan metode sum of square error (SSE). Setiap percobaan dalam pembentukan cluster akan dihitung nilai sum of square error. Semakin kecil nilai SSE nya maka hasilnya semakin baik.

(52) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 33 Rumus SSE yang akan digunakan adalah sebagai berikut (Rokach, 2010) : 𝐾 𝑆𝑆𝐸 = ∑ ∑ ||𝑥𝑖 − 𝜇𝑘 ||2 𝑘=1 ∀𝑥𝑖 ∈∁𝑘 Keterangan : 𝑥𝑖 : jarak data 𝑥 di indeks 𝑖 𝜇𝑘 : rata-rata semua jarak pada data 𝑥𝑖 di cluster 𝑘 Untuk algoritma SSE sebagai berikut : 1. Tentukan matrix 𝐾 untuk dihitung menggunakan SSE 2. Jika k=1, maka 3. Hitunglah rata-rata cluster 𝑘 (𝜇𝑘 )… 𝑎 4. 5. 6. 7. 8. 9. Lakukan langkah 5 dan 7 untuk setiap data 𝑥 Kurangkan 𝑎 dengan data 𝑥 pada indeks 𝑖 (||𝑥𝑖 − 𝜇𝑘 ||) …b Hitung 𝑏 2 …c 𝑐 dijumlahkan untuk setiap cluster 𝑘… d Jumlah total d di matrix 𝐾 Selesai Contoh dapat dilihat pada tabel 2.18 sampai dengan tabel 2.22 Tabel 2.18 Contoh data SSE Data A 1.3914 B 1.7465 C 2.0911 D 0.1184

(53) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 34 Tabel 2.19 Rata-rata data SSE Data A 1.3914 B 1.7465 C 2.0911 D 0.1184 Rata - rata 1.33685 Tabel 2.20 Hasil pengurangan data dengan rata-rata Data a 1.3914 b 1.7465 c 2.0911 d 0.1184 Rata-rata ||𝒙𝒊 − 𝝁𝒌 || 0.05455 1.33685 1.7465 2.0911 0.1184 Tabel 2.21 Hasil pangkat dari hasil pengurangan Data Hasil Pengurangan Pangkat ^ 2 a 1.3914 0.05455 0.002976 b 1.7465 1.7465 3.050262 c 2.0911 2.0911 4.372699 d 0.1184 0.1184 0.014019 Tabel 2.22 Hasil sum dari pangkat 2 Pangkat ^ 2 a 0.002976 b 3.050262 c 4.372699 d 0.014019 Jumlah 7.439956 Hasil SSE-nya adalah 7.439956

(54) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB III METODOLOGI PENELITIAN Dalam metodologi penelitian akan dijelaskan hal-hal terkait data, spesifikasi kebutuhan sistem, tahap-tahap penelitian, desain graphical user interface, skenario sistem dan desain pengujian. 3.1. Data Data yang akan digunakan dalam penelitian ini diperoleh dari PT. Kanisius, penulis menggunakan kategori fiksi sebagai data yang akan diolah. Terdapat 5 pengarang dalam kategori fiksi yakni: Janine Amos, Donny Kurniawan, Paulette Bourgeois & Brenda Clark, Eddy Supangkat dan Sharon Jennings. Dari setiap pengarang tersebut, penulis mengambil data minimal 20 judul buku per pengarang dengan total data sebanyak 155 judul buku. Data yang digunakan pada penelitian ini hanya menggunakan bahasa Indondesia. Buku yang sudah terpilih kemudian disimpan dalam bentuk file excel. File ini akan berguna sebagai inputan pada sistem untuk diolah lebih lanjut. Berikut contoh sinopsis dari pengarang Donny Kurniawan yang sudah dipilih pada Gambar 3.1 : PRECIL, TETAP TINGGAL DI DANAU Sekawanan katak memutuskan untuk pergi meninggalkan danau, kecuali seekor katak kecil bernama Precil yang bersikeras tetap tinggal di sana. Apa yang menyebabkan kawanan katak itu pergi dari danau, dan bagaimanakah di Precil setelah ditinggal sendiri? Gambar 3.1 Judul buku, sinopsis dari pengarang Donny Kurniawan 35

(55) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 36 Berikut contoh sinopsis dari pengarang Janine Amos yang sudah dipilih pada Gambar 3.2 : CONFIDENT - PERCAYA DIRI Buku ini mengajak anak memahami rasa percaya diri dan bagaimana cara mengembangkan perasaan tersebut. ;Hana diminta gurunya untuk bermain drama dalam acara perpisahan di sekolah. Padahal selama ini, dia sudah berlatih koor dan merasa sudah hafal dengan semua lagu yang akan dibawakan. Ia menjadi tidak percaya diri karena harus berganti kegiatan. Ia merasa dianggap tidak mampu dalam koor. Hana kemudian membicarakan hal ini dengan kedua orang tuanya. Ayah dan ibu Hana mendorong Hana untuk mencoba dan mau berlatih menjadi narator dalam drama. Berhasilkah Hana mengatasi rasa percaya dirinya? Ikuti kisahnya dalam buku ini. Tidak hanya kisah Hana, namun juga kisah Jimi dan Tomi bisa dijumpai di dalamnya. Gambar 3.2 Judul buku, sinopsis dari pengarang Janine Amos Berikut contoh sinopsis dari pengarang Sharon Jennings yang sudah dipilih pada Gambar 3.3 : DETEKTIF FRANKLIN Franklin ingin menjadi detektif. Ia memakai topi dan mantel detektif miliknya. Suatu hari, Franklin menemui teman-temannya. Mereka tampak murung. Ternyata bola bisbol mereka hilang. Lalu Franklin melakukan tugasnya sebagai detektif. Berhasilkah Franklin menemukan bola bisbol teman-temannya? Ayo baca kelanjutan ceritanya dalam buku ini. Gambar 3.3 Judul buku, sinopsis dari pengarang Sharon Jennings

(56) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 37 Berikut contoh sinopsis dari pengarang Paulette Bourgeois & Brenda Clark yang sudah dipilih pada Gambar 3.4 : FRANKLIN BERMAIN SEPAK BOLA Franklin sangat senang bermain sepak bola. Kadang-kadang Franklin tidur sambil membawa bolanya. Bahkan, Franklin sering bermimpi mencetak gol. Kenyataannya Franklin belum bisa menendang bola dengan baik. Franklin juga belum pernah membuat gol. Begitu juga dengan tim sepak bolanya, sehingga mereka selalu kalah dalam pertandingan. Tim Bearlah yang selalu menjadi pemenang. Akhirnya Franklin bisa menemukan penyebab kekalahan mereka. Setiap sore sampai hari pertandingan tiba, Franklin dan timnya berlatih di taman. Pelatih mengajari mereka bermain dalam suatu permainan istimewa. Hari pertandingan tiba. Tim Franklin menunjukkan permainan istimewa mereka di lapangan. Mereka berhasil menahan gol lawan dan membuat gol ke gawang lawan. Meskipun pada akhirnya tim Bear yang menjadi pemenang, tim Franklin tetap merasa gembira. Mengapa demikian? Rahasianya ada dalam buku ini. Gambar 3.4 Judul Buku, Sinopsis dari pengarang Paulette Bourgeois, Brenda Clark Berikut contoh sinopsis dari pengarang Eddy Supangkat yang sudah dipilih pada Gambar 3.5 : SI MANIS YANG BANYAK TINGKAH Ini kisah tentang seekor kucing bernama si Manis. Selama ini dia sangat disayangi oleh keluarga majikannya. Ia satu-satunya hewan peliharaan dalam rumah itu. Perasaan disayang itu menjadi berubah dengan kehadiran hewan peliharaan yang lain. Mula-mula si Beo, kemudian si Pusi. Manis merasa keluarga Johan tidak menyayanginya lagi. Banyak hal dia lakukan untuk merebut rasa sayang itu kembali. Namun yang terjadi justru hal-hal yang tidak ia harapkan. Gambar 3.5 Judul buku, sinopsis dari pengarang Eddy Supangkat

(57) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 38 3.2. Spesifikasi Kebutuhan Sistem Dalam proses pembuatan sistem ini digunakan software dan hardware pendukung sebagai berikut : 1. Software : a. Sistem Operasi : Windows 10 64-bit b. Bahasa Pemrograman : Matlab 2015a 2. Hardware 3.3. a. Processor : Intel (R) Core(TM) i5-4200M CPU @2.50Ghz b. Memory : 4 Gb c. Harddisk : 500 Gb Tahap-Tahap Penelitian 3.3.1. Studi Pustaka Pada tahap ini penulis mencantumkan dan menggunakan teori yang terkait dengan penelitian yang akan dilakukan, seperti teori information retrieval, pembobotan kata, principal component analysis, min-max, z-score, euclidean distance, agglomerative hierarchical clustering dan sum of square error. 3.3.2. Pengumpulan Data Data yang akan digunakan pada penelitian ini yaitu sinopsi buku berkategori fiksi. 3.3.3. Pembuatan Alat Uji Alat uji yang akan dibuat untuk menguji algoritma Agglomerative Hierarchical Clustering dalam mengelompokkan dan merekomendasikan buku dengan mendaptakn akurasi dari sistem. Dalam hal ini juga dibuat perancangan interfacenya.

(58) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 39 3.3.4. Pengujian Pada tahap pengujian, data akan di pre-processing terlebih dahulu, kemudian data di kelompokkan, kemudian hasil pengelompokan tersebut di uji dengan sum of square error. 3.4. Desain Graphical User Interface (GUI) Gambar 3.6 Desain graphical user interface

(59) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 40 3.5. Skenario Sistem 3.5.1 Gambaran Umum Sistem Gambar 3.7 Diagram blok Gambar 3.7 menjelaskan pengelompokan dan rekomendasi buku dengan metode agglomerative hierarchical clustering. Proses pertama data sinopsis buku dibuat dalam 1 file yang ekstensi filenya .xls dan dibaca satu per satu. Apabila data sudah dibaca, maka data di preprocessing, proses preprocessing terdiri dari tokenizing, stopword, stemming, pembobotan kata (TF-IDF), principal component analysis (PCA), kemudian hasil PCA di normalisasi. Tahapan normalisasi menggunakan dua metode yaitu, normalisasi min-max dan z-score. Hasil normalisasi akan dihitung jaraknya dengan euclidean distance dan cosine similarity. Proses normalisasi dan penghitungan jarak menggunakan dua metode bertujuan untuk mencari hasil yang optimal dan proses pengerjaanya dilakukan secara terpisah.

(60) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 41 Apabila sudah selesai dalam menghitung jarak maka data siap diuji untuk menentukan clustering dengan menggunakan agglomerative hierarchical clustering yang memiliki tiga metode, yaitu single linkage, complete linkage dan average linkage. Setiap hasil cluster yang terbentuk akan menghitung error, apabila error semakin kecil maka hasilnya akan menunjukan cluster yang stabil. Tahap akhir dari penulisan ini yaitu uji data tunggal, yang akan menghasilkan pengelompokan data baru dan hasil rekomendasi. 3.5.1.1. Tahap Preprocessing Tahap preprocessing terdapat beberapa bagian yaitu, tokenizing, stopword, stemming, term frequency, weight, principal component analysis, normalisasi (min-max dan z-score) dan penghitungan jarak (euclidean distance dan cosine similarity). Penjelasan untuk tahap preprocessing adalah sebagai berikut : a. Tokenizing Tokenizing adalah proses untuk memotong kalimat menjadi beberapa bagian-bagian kecil (kata), yang disebut dengan token. Walaupun terkadang pada saat bersamaan membuang beberapa karakter tertentu, seperti tanda baca (Manning, dkk, 2009). Langkah-langkah tokenizing : 1. Baca setiap kalimat pada file excel. 2. Potong setiap token pada sinopsi dengan menggunakan jarak spasi sebagai pemisah antara satu token dengan token lain dan hilangkan tanda baca yang ada pada sinopsis tersebut. 3. Simpan tiap kalimat sinopsi yang terdiri dari token penyusun. Untuk contoh tokenizing dapat dilihat pada bab 2 halaman 7 dan pada lampiran halaman 104

(61) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 42 b. Stopword Stopword adalah suatu kata yang sangat sering muncul dalam berbagai dokumen dan tidak berguna dalam pemerolehan informasi. Dalam proses stopword akan menghilangkan kata tidak penting, seperti kata sambung. Dalam hal ini, stopword memiliki kamus sendiri yang sudah tersedia dan dapat digunakan. Sistem akan mengecek dari kata sinopsis ke kamus stopword, jika ada kata yang terkandung di kamus maka kata yang ada di sinopsis akan dihapus. Langkah-langkah stopword: 1. Baca data hasil dari tokenizing 2. Cocokkan setiap kata dari tokenizing dengan kata yang berada di stoplist 3. Jika kata tersebut sama dengan stoplist, maka kata tersebut dihapus. Jika tidak maka disimpan Untuk contoh stopword dapat dilihat pada bab 2 halaman 8 dan pada lampiran halaman 109 c. Stemming Setelah data diubah dari proses tokenizing dan stopword selesai, maka proses selanjutnya menghilangkan kata berimbuhan dan membuat menjadi kata dasar. Langkah-langkah proses stemming : 1. Baca setiap kata kemudian cek dengan kata dasar yang terdapat pada kamus. 2. Jika kata tersebut sama dengan kamus maka kata tersebut adalah kata dasar 3. Jika kata tersebut berbeda dengan kamus maka hapus awalan dan akhiran pada kata tersebut

(62) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 43 4. Lakukan pengecekan dari hasil langkah ke 3 ke kamus, jika tidak ada yang sama atau berbeda maka anggap kata tersebut sebagai kata dasar Untuk contoh stemming dapat dilihat pada bab 2 halaman 9 dan pada lampiran halaman 111 3.5.1.2. Tahap Pembobotan Tahap ini bertujuan unutk mendapatkan term atau nilai dari kata yang sudah melalui beberapa tahap sebelumnya. Bagian ini memiliki beberapa langkah agar data tersebut bisa memiliki bobot, yaitu: menghitung term frequency (tf), menghitung document frequency (df), menghitung inverse document frequency (idf) dan menghitung weight (bobot). Berikut contoh proses dalam pembobotan kata yang sudah di stemming, dapat dilihat pada tabel 3.1 sampai dengan tabel 3.5. • Menghitung term frequency (tf) Tabel 3.1 TF sinopsis confident – percaya diri No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Kata Buku ajak anak paham percaya kembang rasa Hana guru main drama acara pisah sekolah latih koor tf 3 1 1 1 3 1 2 6 1 1 2 1 1 1 2 2 No 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Kata hafal lagu bawa ganti giat anggap bicara orang tua Ayah ibu dorong coba narator hasil atas tf 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 No 17 18 19 20 21 22 Kata diri ikut kisah Tomo jumpa dalam tf 1 1 3 1 1 1

(63) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 44 Tabel 3.2 TF sinopsis precil tetap tinggal di danau No 1 2 3 4 5 6 7 Kata kawan katak putus pergi tingal danau kecuali tf 2 3 1 2 3 2 1 No 8 9 10 11 12 13 Kata ekor nama Precil keras tetap sebab tf 1 1 2 1 1 1 Tabel 3.3 TF sinopsis franklin bermain sepak bola No 1 2 3 4 5 6 7 8 9 10 11 12 13 Kata Franklin senang main sepak bola kadang tidur bawa mimpi cetak gol nyata nendang tf 9 1 4 2 4 1 1 1 1 1 4 1 1 No 14 15 16 17 18 19 20 21 22 23 24 25 26 Kata tim kalah tanding bear menang temu sebab sore latih taman ajar istimewa hari tf 6 2 3 2 2 1 1 1 2 1 1 2 1 No 27 28 29 30 31 32 33 Kata lapang hasil tahan lawan gawang rahasia buku tf 1 1 1 2 1 1 1 Tabel 3.4 TF sinopsis si manis yang banyak tingkah No 1 2 3 4 5 6 7 8 Kata kisah ekor kucing nama manis sayang keluarga satu tf 1 2 1 1 2 4 2 1 No 9 10 11 12 13 14 15 16 Kata hewan pelihara rumah rasa ubah hadir mula beo tf 2 2 1 1 1 1 1 1 No 17 18 19 20 21 22 Kata pusi johan lakukan rebut hal harap tf 1 1 1 1 1 1

(64) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 45 Tabel 3.5 TF sinopsis detektif franklin No 1 2 3 4 5 6 7 8 Kata tf Franklin 4 detektif 3 pakai 1 topi 1 mantel 1 milik 1 temu 2 teman 2 No 9 10 11 12 13 14 15 16 Kata murung bola bisbol hilang tugas hasil ayo baca No 17 18 19 tf 1 2 2 1 1 1 1 1 Kata lanjut cerita buku tf 1 1 1 • Menghitung document frequency (df) Contoh penghitungan document frequency (df) merupakan banyaknya frekuensi yang terdapat dalam seluruh data sinopsis, dan hasilnya dapat dilihat pada tabel 3.6. Tabel 3.6 Penghitungan document frequency (df) No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Kata df 3 Buku 1 ajak 1 anak 1 paham 1 percaya kembang 1 2 rasa 1 Hana 1 guru 2 main 1 drama 1 acara 1 pisah 1 sekolah 2 latih 1 koor 1 hafal 1 lagu 1 bawa 1 ganti No 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Kata giat anggap bicara orang tua Ayah ibu dorong coba narator hasil atas diri ikut kisah Jimi Tomo jumpa dalam kawan df 1 1 1 1 1 1 1 1 1 1 3 1 1 1 2 1 1 1 1 1 No 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Kata katak putus pergi tingal danau kecuali ekor nama Precil keras tetap sebab Franklin senang sepak bola kadang tidur mimpi cetak df 1 1 1 1 1 1 2 2 1 1 1 2 2 1 1 2 1 1 1 1

(65) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 46 No 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 Kata df 1 gol 1 nyata nendang 1 1 tim 1 kalah 1 tanding 1 bear 1 menang 2 temu 1 sore 1 taman 1 ajar istimewa 1 1 hari 1 lapang 1 tahan 1 lawan 1 gawang 1 rahasia 1 kucing 2 manis 1 sayang keluarga 1 1 satu 1 hewan 1 pelihara 1 rumah 1 ubah 1 hadir 1 mula No 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 Kata beo puisi johan lakukan rebut hal harap detektif pakai topi mantel milik teman murung bisbol hilang tugas ayo baca lanjut cerita df 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

(66) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 47 • Menghitung inverse document frequency (idf) Pada bagian ini, untuk total seluruh document (D) sebanyak 5 document. Berikut contoh penghitungan idf, dengan menggunakan rumus pada persamaan (2.1) dan hasilnya dapat dilihat pada tabel 3.7. Tabel 3.7 Penghitungan inverse document frequency (idf) No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Kata df Idf 3 0,221 Buku 1 0,699 ajak 1 0,699 anak 1 0,699 paham 1 0,699 percaya kembang 1 0,699 2 0,398 rasa 1 0,699 Hana 1 0,699 guru 2 0,398 main 1 0,699 drama 1 0,699 acara 1 0,699 pisah 1 0,699 sekolah 2 0,398 latih 1 0,699 koor 1 0,699 hafal 1 0,699 lagu 1 0,699 bawa 1 0,699 ganti 1 0,699 giat 1 0,699 anggap 1 0,699 bicara 1 0,699 orang 1 0,699 tua 1 0,699 Ayah 1 0,699 ibu 1 0,699 dorong 1 0,699 coba 1 0,699 narator 3 0,221 hasil No 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 Kata df Idf 1 0,699 atas 1 0,699 diri 1 0,699 ikut 2 0,398 kisah 1 0,699 Jimi 1 0,699 Tomo 1 0,699 jumpa 1 0,699 dalam 1 0,699 kawan 1 0,699 katak 1 0,699 putus 1 0,699 pergi 1 0,699 tingal 1 0,699 danau 1 0,699 kecuali 2 0,398 ekor 2 0,398 nama 1 0,699 Precil 1 0,699 keras 1 0,699 tetap 2 0,398 sebab Franklin 2 0,398 1 0,699 senang 1 0,699 sepak 2 0,398 bola 1 0,699 kadang 1 0,699 tidur 1 0,699 mimpi 1 0,699 cetak 1 0,699 gol 1 0,699 nyata

(67) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 48 No 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 Kata df Idf nendang 1 0,699 1 0,699 tim 1 0,699 kalah 1 0,699 tanding 1 0,699 bear 1 0,699 menang 2 0,398 temu 1 0,699 sore 1 0,699 taman 1 0,699 ajar istimewa 1 0,699 1 0,699 hari 1 0,699 lapang 1 0,699 tahan 1 0,699 lawan 1 0,699 gawang 1 0,699 rahasia 1 0,699 kucing 2 0,398 manis 1 0,699 sayang keluarga 1 0,699 1 0,699 satu 1 0,699 hewan pelihara 1 0,699 1 0,699 rumah 1 0,699 ubah 1 0,699 hadir 1 0,699 mula 1 0,699 beo 1 0,699 puisi 1 0,699 johan No 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 Kata df Idf lakukan 1 0,699 1 0,699 rebut 1 0,699 hal 1 0,699 harap detektif 1 0,699 pakai 1 0,699 topi 1 0,699 mantel 1 0,699 milik 1 0,699 teman 1 0,699 murung 1 0,699 bisbol 1 0,699 hilang 1 0,699 tugas 1 0,699 ayo 1 0,699 baca 1 0,699 lanjut 1 0,699 cerita 1 0,699

(68) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 49 • Menghitung weight (bobot) Perhitungan untuk bobot didapat dari perkalian antara tf dengan idf. Berikut contoh penghitungan bobot untuk synopsis yang telah dihitung td,idf nya dengan menggunakan rumus pada persamaan (2.2) dan hasilnya dapat dilihat pada tabel 3.8. Tabel 3.8 Bobot sinopsis semua dokumen No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Kata Buku ajak anak paham percaya kembang rasa Hana guru main drama acara pisah sekolah latih koor hafal lagu bawa ganti giat anggap bicara orang tua Ayah ibu dorong coba narator tf 5 1 1 1 3 1 3 6 1 5 2 1 1 1 4 2 1 1 2 1 1 1 1 1 1 1 1 1 1 1 Idf 0,221 0,699 0,699 0,699 0,699 0,699 0,398 0,699 0,699 0,398 0,699 0,699 0,699 0,699 0,398 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 Wij 1,109 0,699 0,699 0,699 2,096 0,699 1,193 4,193 0,699 1,989 1,397 0,699 0,699 0,699 1,591 1,397 0,699 0,699 0,795 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 No 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Kata tf Idf Wij 3 hasil 0,221 0,665 1 0,699 0,699 atas 1 0,699 0,699 diri 1 0,699 0,699 ikut 4 0,398 1,591 kisah 1 0,699 0,699 Jimi 1 0,699 0,699 Tomo 1 0,699 0,699 jumpa 1 0,699 0,699 dalam 2 0,699 1,397 kawan 3 0,699 2,096 katak 1 0,699 0,699 putus 2 0,699 1,397 pergi 3 0,699 2,096 tinggal 2 0,699 1,397 danau 1 0,699 0,699 kecuali 3 0,398 1,193 ekor 2 0,398 0,795 nama 2 0,699 1,397 Precil 1 0,699 0,699 keras 1 0,699 0,699 tetap 2 0,398 0,795 sebab Franklin 13 0,398 5,173 1 0,699 0,699 senang 2 0,699 1,397 sepak 6 0,398 2,387 bola 1 0,699 0,699 kadang 1 0,699 0,699 tidur 1 0,699 0,699 mimpi 1 0,699 0,699 cetak

(69) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 50 No 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 Kata gol nyata nendang tim kalah tanding bear menang temu sore taman ajar istimewa hari lapang tahan lawan gawang rahasia kucing manis sayang keluarga satu hewan pelihara rumah ubah hadir mula tf 4 1 1 6 2 3 2 2 3 1 1 1 2 1 1 1 2 1 1 1 2 4 2 1 2 2 1 1 1 1 Idf 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,398 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,398 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 Wij 2,795 0,699 0,699 4,193 1,397 2,096 1,397 1,397 1193 0,699 0,699 0,699 1,397 0,699 0,699 0,699 1,397 0,699 0,699 0,699 1,397 2,795 1,397 0,699 1,397 1,397 0,699 0,699 0,699 0,699 No 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 Kata beo puisi johan lakukan rebut hal harap detektif pakai topi mantel milik teman murung bisbol hilang tugas ayo baca lanjut cerita tf 1 1 1 1 1 1 1 3 1 1 1 1 1 1 2 1 1 1 1 1 1 Idf 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 0,699 Wij 0,699 0,699 0,699 0,699 0,699 0,699 0,699 2,096 0,699 0,699 0,699 0,699 0,699 0,699 1,397 0,699 0,699 0,699 0,699 0,699 0,699

(70) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 51 3.5.1.3. Principal Component Analysis Principal component analysis (PCA) merupakan teknik yang digunakan untuk mereduksi data multivariable yang mengubah suatu matriks data asli menjadi kombinasi data linear yang lebih sedikit, tetapi tetap menyimpan sebagain besar jumlah varian dari data asli tersebut (Sitanggang, 2011). Tahap penghitungan PCA dilakukan pada matrix X dari hasil matrix bobot atau setelah proses tahap pembobotan. Penghitungan PCA menggunakan rumus dengan persamaan (2.3) sampai (2.7). 3.5.1.4. Tahap Normalisasi Setelah data dihitung tnya maka data selanjutnya di normalisasi. Normalisasi yang digunakan menggunakan normalisasi min-max dan zscore. Dalam hal ini mennggunakan 2 normalisasi agar mengetahui hasil perbandingan dan memilih yang paling optimal Sebagai contoh data pembobotan yang akan digunakan pada normalisasi. Dalam tabel 3.9 terdapat bobot yang lebih dominan atau sering muncul dari pada yang lain. Bobot yang dominan ditunjukkan dengan warna kuning. Dalam hal ini, kata unik sama dengan feature. Tabel 3.9 Contoh pembobotan Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Franklin 0,38764 0 0 0,38764 0 0 0,38764 0 0 0,6655 Manis 0 0 0,6989 0,3876 0 0 0 0,7958 0,7958 0 Kata Unik gol 0 0,3876 0 0 0 0,3876 0 0,3876 0 0 Kucing 0 0 0,6989 0 0,6989 0 0,6989 0 0,3876 0 Kawan 0,6655 0 0 0,6655 0 0 0,3876 0 0 0,6655

(71) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 52 • Normalisasi Min-Max Langkah-langkah dalam pengerjaan nomrlisasi Min-Max: 1. Temukan nilai min dan max dari setiap kata, hasilnya dapat dilihat pada tabel 3.10 Tabel 3.10 Tabel min-max Min Max Franklin 0 0,6655 Tabel min-max Manis gol Kucing 0 0 0 0,7958 0,3876 0,6989 Kawan 0 0,6655 2. Hitung bobot baru, menghitung bobot baru dapat dilihat dari rumus dengan persamaan (2.8) dan untuk langkah-langkah penghitungan dalam mendapatkan normalisasi min-max dapat dilihat pada lampiran halaman 113, untuk hasilnya dapat dilihat pada tabel 3.11. Tabel 3.11 Tabel hasil normalisasi min-max Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Kata Unik Franklin Manis gol Kucing 0,5824 0 0 0 0 0 1 0 0 0,8782 0 1 0,5824 0,4870 0 0 0 0 0 1 0 0 1 0 0,5824 0 0 1 0 1 1 0 0 1 0 0,5545 1 0 0 0 Kawan 1 0 0 1 0 0 0,5824 0 0 1

(72) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 53 • Normalisasi Z-Score Langkah-langkah dalam pengerjaan untuk normalisai z-score : 1. Hitung nilai mean pada setiap synopsis 2. Hitung nilai standard deviation pada setiap synopsis 3. Hitung bobot baru, bobot baru didapat dari bobot lama dikurangi mean lalu dibagi dengan standard deviation Untuk rumus dapat dilihat melalui persamaan (2.7) dan langkahlangkah penghitungan dalam mendapatkan normalisasi z-score dapat dilihat pada lampiran halaman 116, untuk hasilnya dapat dilihat pada tabel 3.12. Tabel 3.12 Tabel hasil normalisasi z-score Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Franklin 0,8214 -0,7334 -0,7334 0,8214 -0,7334 -0,7334 0,8214 -0,7334 -0,7334 1,9361 Manis -0,7371 -0,7371 1,1865 0,3297 -0,7371 -0,7371 -0,7371 1,4532 1,4532 -0,7371 Kata Unik gol -0,6210 1,4491 -0,6210 -0,6210 -0,6210 1,4491 -0,6210 1,4491 -0,6210 -0,6210 Kucing -0,7458 -0,7458 1,3524 -0,7458 1,3524 -0,7458 1,3524 -0,7458 0,4178 -0,7458 Kawan 1,3427 -0,7495 -0,7495 1,3427 -0,7495 -0,7495 0,4690 -0,7495 -0,7495 1,3427

(73) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 54 3.5.1.5. Penghitungan Jarak Penghitungan jarak menggunakan 2 metode, yaitu Euclidean distance dan cosine similarity. o Euclidean Distance Menggunakan data yang telah dinormalisasi dengan min-max. Untuk perhitungan data euclidean distance dengan normalisasi minmax dapat dilihat pada bagian lampiran halaman 121 dan menggunakan rumus dengan persamaan 2.9 atau 2.10, untuk hasilnya dapat dilihat pada tabel 3.13. Tabel 3.13 Hasil matriks jarak euclidean distance dengan normalisasi min-max S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S1 S2 S3 S4 0,00 1,53 1,76 0,49 0,00 1,53 1,76 0,00 1,58 0,00 S5 1,53 0,49 0,88 1,61 0,00 S6 1,53 1,53 1,66 1,61 1,41 0,00 S7 1,08 1,53 1,20 1,19 0,82 1,64 0,00 S8 1,83 1,08 1,42 1,61 1,73 1,00 1,92 0,00 S9 1,63 1,83 0,46 1,38 1,09 1,52 1,37 1,14 0,00 S10 0,42 1,63 1,94 0,64 1,73 1,73 1,16 2,00 1,82 0,00 Menggunakan data yang telah dinormalisasi dengan z-score. Untuk perhitungan data euclidean distance dengan normalisasi zscore dapat dilihat pada bagian lampiran halaman 124 dan menggunakan rumus dengan persamaan 2.9 atau 2.10, untuk hasilnya dapat dilihat pada tabel 3.14.

(74) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 55 Tabel 3.14 Hasil matriks jarak euclidean distance dengan normalisasi z-score S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S1 S2 S3 S4 0,00 3,33 3,86 1,07 0,00 3,52 3,50 0,00 2,75 0,00 S5 3,35 2,95 2,84 3,51 0,00 S6 3,33 0,00 3,52 3,50 2,95 0,00 S7 2,27 3,55 2,47 2,51 1,98 3,55 0,00 S8 3,98 2,19 3,20 3,51 3,67 2,19 4,17 0,00 S9 3,60 3,23 0,97 3,07 2,38 3,23 3,09 2,37 0,00 S10 1,11 3,97 3,90 1,54 3,99 3,97 2,53 4,54 4,20 0,00 o Cosine Similarity Menggunakan data yang telah dinormalisasi dengan min-max. Untuk perhitungan data cosine similarity dengan normalisasi minmax dapat dilihat pada bagian lampiran halaman 127 dan menggunakan rumus pada persamaan 2.11 s/d 2.13, untuk hasilnya dapat dilihat pada tabel 3.15. Tabel 3.15 Hasil matriks jarak cosine similarity dengan normalisasi min-max S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S1 S2 S3 S4 0,00 0,00 0,00 0,92 0,00 0,00 0,00 0,00 0,26 0,00 S5 0,00 0,00 0,75 0,00 0,00 S6 0,00 1,00 0,00 0,00 0,00 0,00 S7 0,61 0,00 0,58 0,57 0,77 0,00 0,00 S8 0,00 0,71 0,47 0,27 0,00 0,71 0,00 0,00 S9 0,00 0,00 0,94 0,34 0,48 0,00 0,37 0,62 0,00 S10 0,97 0,00 0,00 0,89 0,00 0,00 0,64 0,00 0,00 0,00

(75) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 56 Menggunakan data yang telah dinormalisasi dengan z-score. Untuk perhitungan data cosine similarity dengan normalisasi z-score dapat dilihat pada bagian lampiran halaman 130 dan menggunakan rumus pada persamaan 2.11 s/d 2.13, untuk hasilnya dapat dilihat pada tabel 3.16. Tabel 3.16 Hasil matriks jarak cosine similarity dengan normalisasi z-score S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S1 0,00 S5 S6 S7 S8 S9 S2 S3 S4 -0,34 -0,71 0,85 -0,43 -0,34 0,32 -0,62 -0,67 0,00 -0,37 -0,56 -0,06 1,00 -0,58 0,53 -0,29 0,00 -0,45 0,57 -0,37 0,09 0,17 0,89 0,00 -0,67 -0,56 0,12 -0,32 -0,28 0,00 -0,06 0,48 -0,39 0,25 0,00 -0,58 0,53 -0,29 0,00 -0,85 -0,28 0,00 0,42 0,00 S10 0,92 -0,40 -0,68 0,82 -0,48 -0,40 -0,40 -0,59 -0,66 0,00

(76) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 57 3.5.1.6. Agglomerative Hierarchical Clustering Setelah data selesai di preprocessing, data kemudain masuk pada tahap clustering. Pada proses pengelompokkan menggunakan tiga metode yaitu, single linkage, complete linkage dan average linkage. Berikut langkah-langkah dalam pengerjan clustering menggunakan AHC. • Hasil Cluster Pada bagian ini, untuk menunjukan hasil cluster yang terjadi menggunakan dendogram. Penulis hanya menghitung manual untuk data euclidean distance dengan normalisasi min-max dan cluster single linkage. Sedangkan cluster yang lain menggunakan matlab. o Single Linkage Pada bagian single linkage menggunakan rumus pada persmaan 2.14, untuk hitungan manual single linkage dapat dilihat pada lampiran halaman 133, untuk hasilnya dapat dilihat pada gambar 3.8 dan tabel 3.17 Gambar 3.8 Dendogram data min-max single linkage

(77) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 58 Hasil Cluster Data Min-Max Single Linkage Tabel 3.17 Cluster data min-max single linkage Cluster 1 Cluster 2 Cluster 3 Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 9 Sinopsis 10 Sinopsis 7 Sinopsis 6 Sinopsis 8 o Complate Linkage Pada bagian complate linkage menggunakan rumus pada persamaan 2.15, untuk hasilnya dapat dilihat pada gambar 3.9 dan tabel 3.18. Gambar 3.9 Dendogram data min-max complete linkage Hasil Cluster Data Min-Max Complate Linkage Tabel 3.18 Cluster Data Min-Max Complate Linkage Cluster 1 Cluster 2 Cluster 3 Sinopsis 2 Sinopsis 3 Sinopsis 1 Sinopsis 5 Sinopsis 5 Sinopsis 4 Sinopsis 6 Sinopsis 10 Sinopsis 8 Sinopsis 7

(78) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 59 o Average Linkage Pada bagian average linkage menggunakan rumus pada persamaan 2.16, untuk hasilnya dapat dilihat pada gambar 3.10 dan tabel 3.19. Gambar 3.10 Dendogram data min-max average linkage Hasil Cluster Data Min-Max Average Linkage Cluster 1 Cluster 2 Cluster 3 Sinopsis 2 Sinopsis 6 Sinopsis 1 Sinopsis 5 Sinopsis 8 Sinopsis 4 Sinopsis 3 Sinopsis 10 Sinopsis 9 Tabel 3.19 Cluster data min-max average linkage

(79) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 60 3.5.1.7. Uji Data Setelah cluster ditampilkan dalam bentuk dendogram maka untuk mengetahui error setiap clusternya menggunakan metode sum of square error. Dengan banyaknya percobaan dalam pembentukan cluster maka sebanyak itu pula akan dihitung nilai SSE nya. Nilai SSE yang paling rendah akan mengindikasikan bahawa cluster yang terbentuk adalah yang paling baik. Dalam penulisan ini akan terbentuk 3 cluster dari setiap percobaan yang dilakukan dan akan terbentuk juga grafik yang menggambarkan setiap hasil perhitungan dari hasil masing-masing percobaan. 3.5.1.8. Uji Data Tunggal Untuk proses uji data tunggal, penulis akan menguji data baru yang sudah di preprocessing terlebih dahulu bersamaan dengan preprocessing awal. Jadi, terdapat 155 data keseluruhan yang akan di preprocessing. 150 data akan di uji untuk pembentukan cluster dan mencari nilai SSE. Sedagkan 5 data akan dioalah untuk uji data tunggal. Prosesnya dengan cara mencari jarak terpendek dari data baru dengan centroid yang sudah ada kemudian hasil terdekat dengan data baru akan di rekomendasikan. 3.6. Desain Pengujian Pengujian yang akan dilakukan pada tahap penelitian ini menggunakan pendekatan pengujian menggunakan normalisasi min-max dan z-score. Pengujian ini akan dikombinasikan dengan dengan perhitungan jarak menggunakan euclidean distance dan cosine similarity dan akan diuji dengan agglomerative hierarchical clustering. Tujuan dari banyaknya pengujian yang dilakukan dengan berbeda-beda cara agar menemukan hasil yang optimal.

(80) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB IV IMPLEMENTASI DAN ANALISA Bab ini akan membahas implementasi dan hasil dari metode-metode yang sudah dijelaskan pada bab sebelumnya. 4.1. Implementasi Bagian implementasi merupakan proses lanjutan yang berasal dari landasan teori dan metodologi penelitian. Proses dimulai dari pengelolahan data kemudian proses preprocessing yang menggunakan information retrieval, pembobotan kata, menghitung weight dan principal component analysis (PCA). Proses selanjutnya melakukan pengujian sistem dengan mengelompokan data melalui uji agglomerative hierarchical clustering (AHC) dan menghitung akurasi dari hasil pengelompokan dengan sum of squares error (SSE). Proses tahap akhir melakukan uji data tunggal dengan mencari jarak terkecil dari hasil uji data dengan centroid. 4.1.1 Data Data yang digunakan sebanyak 155 data sinopsis buku yang berekstensi .xls (excel). 61

(81) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 62 Gambar 4.1 Data Seluruh data tersebut akan diproses melalui tahap preprocessing. 150 data akan dilakukan pengelompokan dan penghitungan akurasi. 5 data yang lain akan digunakan sebagai pengujian data tunggal. Keseluruhan data tersebut akan dibaca dalam bahasa pemrograman. Berikut potongan source code dalam proses membaca dan mengambil data sinopsis. %Dalam excel semua data berada dalam 3 kolom dan 150 baris %maka dibuat 3 array untuk membaca semua datanya [judul,pengarang,sinopsis]=xlsread(doc); olah=sinopsis(:,end); %yang diambil hanya sinopsis

(82) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 63 4.1.2 Preprocessing Tahap ini merupakan tahap awal dari clustering. Pada tahap ini, data akan diolah satu per satu yang bertujuan untuk menampung informasi kata unik dan bobot setiap kata per sinopsis. 1. Tokenizing Tokenizing adalah proses untuk memotong kalimat menjadi beberapa bagian-bagian kecil (kata), yang disebut dengan token. Walaupun terkadang pada saat bersamaan membuang beberapa karakter tertentu, seperti tanda baca (Manning, dkk, 2009). Implementasi untuk proses tokenizing : coba = lower(dd); [pj lb]=size(coba); for n=1:pj cond = '([^-\w\s]+)'; % memisahkan kata datacond = regexprep(coba(n,:),'\s+',' '); % menghapus spasi > 1 datacond=char(datacond); newDatacond = regexprep(datacond,cond,''); if regexp(newDatacond,'(([a-z]+)([-])([a-z]+)') newDatacond = regexp(newDatacond,'(([a-z]+)([-])([az]+)|(\s)(\w*)|([a-z]+))','match'); newDatacond = regexprep(newDatacond,'\<(\w+)()',''); % Kata berulang hslToken = newDatacond'; else newDatacond = regexp(newDatacond,'([az]+)','match'); hslToken = newDatacond'; end 2. Stopword Stopword merupakan proses kelanjutan dari proses tokenizing. Stopword berguna untuk menghilangkan kata tidak penting, seperti kata sambung. Dalam hal ini, stopword memiliki kamus sendiri yang sudah tersedia dan dapat digunakan.

(83) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 64 Sistem akan mengecek dari kata sinopsis ke kamus stopword, jika ada kata yang terkandung di kamus maka kata yang ada di sinopsis akan dihapus. Potongan kamus stopword : ada adalah adanya adapun agak agaknya agar akan akankah akhir akhiri akhirnya aku akulah amat amatlah anda andalah antar antara antaranya apa apaan apabila apakah apalagi kalaulah kalaupun kalian kami kamilah kamu kamulah kan kapan kapankah kapanpun karena karenanya kasus kata katakan katakanlah katanya ke keadaaan kebetulan kecil kedua keduanya keinginan kelamaan tinggi toh tunjuk turut tutur tuturnya ucap ucapnya ujar ujarnya umum umumnya ungkap ungkapnya untuk usah usai waduh wah wahai waktu waktunya walau walaupun wong yaitu Implementasi untuk proses stopwrod : bant = 1; for i=1:length(hslToken) cmp01 = strcmp(hslToken{i},kmsstpword); if (cmp01 == 1) break elseif (cmp01 == 0) hslstpword{bant,1} = hslToken{i}; bant = bant + 1; end end

(84) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 65 3. Stemming Setelah proses tokenizing dan stopword selesai, maka proses selanjutnya adalah proses menghilangkan kata berimbuhan dan mengembalikan kata tersebut kedalam bentuk kata dasar, proses ini disebut stemming. Proses stemming menggunakan kamus kata dasar sebagai acuan untuk menentukan kata tersebut merupakan kata dasar atau tidak. Potongan kamus stemming : abad abadi abadiah abah abai abaimana abaka abaktinal abakus abal-abal aban abang abangan abangga abar abatoar abdi injak injap injeksi injil inkarnasi inkarserasi inkarsunah inkaso inklaring inklinasi inklinometer inklusif inkognito inkompatibilitas inkompeten inkubasi inkubator zona zonasi zonder zoogani zoologi zoonosis zuama zuhud zuhur zulfikar zulmat zurafah zuriah Implementasi untuk proses stemming : ktadsar = importdata('kataDasar.txt'); iDasar = ubahKataBentukan(hslstpword); bant = 1; for i=1:length(iDasar) for j=1:length(ktadsar) cmp02 = strcmp(iDasar{i},ktadsar{j}); if (cmp02 == 1) nDasar{bant,1} = iDasar{i}; bant = bant + 1; end end end

(85) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 66 bnt = 1; mDasar = ''; for i=1:length(iDasar) if (regexp(iDasar{i},'\<(~)')) mDasar{bnt,1} = iDasar{i}; bnt = bnt + 1; end end if ~isempty(mDasar) hslstemm = sort([nDasar;mDasar]); else hslstemm = sort(nDasar); end Sebelum melanjutkan proses untuk menghitung term setiap kata unik per sinopsis, maka kata unik tersebut dijadikan database. Fungsi dari database ini adalah sebagai label dalam menentukan banyaknya kata unik dari keseluruhan sinopsis. Kata unik per sinopsis tersebut akan digabungkan menjadi 1 baris, kemudian diurutkan seacara abjad dan digabungkan menjadi 1 kata unik. Implementasi untuk membuat database : [x,y]=size(vBaru); Counter=1; for i=1:x for j=1:y if isempty(vBaru{i,j}) else DataBaru(Counter,1) = vBaru(i,j); Counter=Counter+1; end end end DataBaru=DataBaru'; [kataUnik,~,indeksKata]=unique(DataBaru); dbkamusbaru=kataUnik;

(86) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 67 Gambar 4.2 Contoh daftar kata hasil stemming Gambar 4.2 merupakan daftar kata yang sudah diproses melalui tokenizing, stopword, stemming dan sudah disimpan di database. Daftar kata tersebut sama dengan kata unik atau feature. 4. Pembobotan Kata Pembobotan kata adalah proses menghitung term frequency dari setiap kata unik per sinopsis. Implementasi menghitung term frequency: new=zeros(length(vBaru(:,1)),length(dbkamusbaru)); [bar kolm] = size(vBaru); nnbt=1; for aa=1:bar for ii=1:kolm for jj=1:length(dbkamusbaru) if isequal(vBaru(aa,ii),dbkamusbaru(1,jj)) new(nnbt,jj)=new(aa,jj)+1; hasil(aa,jj)=dbkamusbaru(1,jj); else end end end nnbt=nnbt+1; end

(87) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 68 Gambar 4.3 Contoh hasil term frequency Gambar 4.3 merupakan hasil dari penghitungan kata unik per sinopsisnya. Dapat dilihat pada sinopsis 1 dengan kata unik abad hasilnya 0, kemudian pada synopsis 8 dengan kata unik abul hasilnya 1, dan pada sinopsis 12 dengan kata unik ajak hasilnya 3. Hasil 0 mengartikan bahawa kata unik tersebut tidak ada pada sinopsis tersebut, sedangkan hasil yang lebih dari 1 mengartikan bahwa kata unik tersebut ada pada sinopsis tersebut dengan jumlah tertentu. 5. Menghitung weight Setelah proses penghitungan term frequency selesai maka proses selanjutnya adalah menghitung weight setiap kata unik per sinopsis. Implementasi untuk menghitung weight : new=cell2mat(new); countkataUnik=sum(new); [m,n]=size(new); matrixBobot=zeros(m,n); for xx=1:m for yy=1:n matrixBobot(xx,yy)=(new(xx,yy))*log10(m/new(xx,yy)); end end matrixBobot(isnan(matrixBobot))=0;

(88) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 69 Gambar 4.4 Contoh hasil menghitung weight Gambar 4.4 merupakan hasil dari penghitungan bobot per sinopsisnya. Pada sinopsis 1 dengan kata unik abad memiliki bobotnya 0, kemudian pada synopsis 8 dengan kata unik abul bobotnya 2.1903, dan pada sinopsis 12 dengan kata unik ajak bobotnya 5.1396. Hasil 0 mengartikan bahawa kata unik tersebut tidak memiliki bobot pada sinopsis tersebut, sedangkan hasil yang lebih dari 1 mengartikan bahwa kata unik tersebut memiliki bobot pada sinopsis tersebut dengan jumlah tertentu. Untuk rumus dan cara penghitungan bobot dapat dilihat pada persamaan 2.1 atau pada halaman 43-50. 6. Principal Component Analysis (PCA) Tahap selanjutnya melakukan PCA untuk seluruh dokumen. Pengujian PCA dilakukan secara berulang dengan mengubah dimensi dari panjang matrix, tujuannya untuk mendapatkan hasil yang optimal. Pengujian untuk pengubahan dimensi dari panjang matrix dilakukan sebanyak 7x pengulangan yang terdiri dari 150x50, 150x100, 150x150, 150x300, 150x500, 150x700, 150x900. Implementasi untuk proses Principal Component Analysis: %Mencari rata-rata dari Matrix [Baris Kolom] = size(matrixBobot); rtadata = mean(matrixBobot); VarBar=matrixBobot; for i=1:Baris

(89) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 70 for j=1:Kolom VarBar(i,j)=matrixBobot(i,j)-rtadata(j); end end % hitung covarience Cov=cov(VarBar); % hitung eigenvector dan eigenvalue dari covarience [eigenvector,eigenvalue]=eig(Cov); % memilih dan mengambil nilai yg paling besar dari eigenvector dan % eigenvalue eigenvalue=diag(eigenvalue); [~, index]=sort(eigenvalue,'descend'); fiturVector=eigenvector(:,index); % membuat satu set data baru daBar = VarBar*fiturVector; % jumlahPCA, digunakan untuk pemotongan data if jumPCA==0 [jumIndex,~]=size(index); indexPCA=index; dtaHslPCA=daBar(:,1:jumIndex); else indexPCA=index(1:jumPCA); dtaHslPCA=daBar(:,1:jumPCA); end Gambar 4.5 Contoh hasil principal component analysis dengan covariance 150x150 Gambar 4.5 merupakan hasil penghitungan PCA dengan covariance 150x150. Hasilnya tersebut akan menunjukan, untuk baris merupakan data sinopsis 1 sampai data sinopsis 150 sedangkan untuk kolom dari kolom 1 sampai 150 merupakan hasil reduksi yang telah terurut berdasarkan data yang terpenting sampai data yang tidak terpenting. Pengubahan dimensi atau covariance tersebut dilakukan pada bagian kolom, tujuannya untuk mecari hasil yang paling optimal.

(90) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 71 7. Normalisasi Proses selanjutnya adalah melakukan normalisasi. Metode normalisasi yang akan digunakan yaitu normalisasi min-max dan zscore. Penghitungan normalisasi dilakukan secara terpisah. 7.1. Normalisasi Min-Max Implementasi normalisasi Min-Max : dtabarNormMinMax=data; [n,d]=size(dtabarNormMinMax); normdtaminmax=zeros(n,d); normdataMin=min(dtabarNormMinMax,1); normdataMax=max(dtabarNormMinMax,1); for i=1:d if normdataMax(i)<=normdataMin(i) normdtaminmax(:,i)=0; else normdtaminmax(:,i)=(dtabarNormMinMax(:,i)normdataMin(i))/(normdataMax(i)-normdataMin(i)); end end Gambar 4.6 Contoh hasil implementasi normalisasi min-max 7.2. Normalisasi Z-Score Implementasi normalisasi Z-Score : normZScore=data; Mean=mean(normZScore(:)); STD=std(normZScore(:)); mod=mode(normZScore(:)); A=mod-Mean; A=A/STD; loc=find(normZScore==mod); normZScore(loc)=A;

(91) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 72 Gambar 4.7 Contoh hasil implementasi normalisasi z-score Gambar 4.6 dan gambar 4.7 merupakan hasil proses normalisasi yang dilakukan secara terpisah. Data yang digunakan untuk normalisasi didapat setelah melalui proses PCA. Pemotongan 5 data yang akan digunakan sebagai data uji tunggal, dilakukan ketika proses normalisasi sudah selesai. Implementasi untuk pengambilan 5 data uji : %Ambil 5 data terbawah dari 155 data Data5=Norm(151:155,(1:end)); %Ambil 150 data Data150=Norm(1:150,(1:end)); 8. Jarak Hasil data yang sudah dinormalisasi, selanjutnya akan dilakukan proses penghitungan jarak. Penghitungan jarak dilakukan terpisah dengan menggunakan menggunakan 2 metode Euclidean Distance dan Cosine Similarity. Untuk hasil penghitungan jarak dari masing-masing metode dapat dilihat pada Gambar 4.8 sampai 4.9 8.1. Penghitungan jarak euclidean distance Implementasi jarak euclidean distance : DataEuc=Data150; x_len=size(DataEuc,1); y_len=size(DataEuc,1); for i=1:x_len diff=repmat(DataEuc(i,:),y_len,1)-DataEuc; dist_i=sqrt(sum((diff.^2),2)); HasilEuc(i,:)=dist_i; End

(92) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 73 Gambar 4.8 Contoh hasil implementasi dari jarak euclidean distance 8.2. Penghitungan jarak cosine similarity Implementasi jarak cosine similarity : DataCos=Data150; [m1,n1]=size(DataCos); [m2,n2]=size(DataCos); if n1 ~= n2, error('Matrix tidak sama'); end HasilCos=zeros(m1,m2); for i=1:m1 for j=1:m2 if sqrt((DataCos(i,:)*DataCos(i,:)')*(DataCos(j,:)*DataC os(j,:)'))==0 HasilCos(i,j)=acos(0); else HasilCos(i,j)=acos((DataCos(i,:)*DataCos(j,:)')/ sqrt((DataCos(i,:)*DataCos(i,:)')*(DataCos(j,:)*DataC os(j,:)'))); end end end Gambar 4.9 Contoh hasil implementasi dari jarak cosine similarity

(93) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 74 4.1.3 Pengujian Sistem 4.1.3.1 Agglomerative Hierarchical Clustering Setelah hasil jarak diperoleh, maka sinopsis akan dikelompokkan menggunakan tiga metode dari agglomerative hierarchical clustering yaitu single linkage, complete linkage, average linkage. Proses pengelompokan juga dilakukan secara terpisah. 1. Single Linkage Implementasi single linkage : dataahcsingle=dataahc; kolom=size(dataahcsingle,2); baris=(1+sqrt(1+8*kolom))/2; dataHasilSingle=zeros(baris-1,3); jlhpoindicluster=zeros(1,2*baris-1); jlhpoindicluster(1:baris)=1; kolom=baris; vekindks=1:kolom; loop=1; while loop ~= kolom [v,k] = min(dataahcsingle); [ hasilDataSing,i,j,I,J ] = olahdatahasilSingle( loop,baris,v,k,vekindks ); dataHasilSingle(loop,:)=hasilDataSing(loop,:); dataahcsingle(I)=min(dataahcsingle(I),dataahcsingle(J )); [ dataahcsingle,~,baris,jlhpoindicluster,vekindks ] = updateMatrixSingle ( dataahcsingle,J,baris,jlhpoindicluster,kolom,loop,vek indks,i,j ); loop=loop+1; end 2. Complete Linkage Implementasi complete linkage : dataahccomplete=dataahc; kolom=size(dataahccomplete,2); baris=(1+sqrt(1+8*kolom))/2; dataHasilComplete=zeros(baris-1,3); jlhpoindicluster=zeros(1,2*baris-1); jlhpoindicluster(1:baris)=1; kolom=baris; vekindk=1:kolom; loop=1;

(94) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 75 while loop ~= kolom [v,k] = min(dataahccomplete); [ hasilDataComp,i,j,I,J ] = olahdatahasilComplete( loop,baris,v,k,vekindk ); dataHasilComplete(loop,:)=hasilDataComp(loop,:); dataahccomplete(I)=max(dataahccomplete(I),dataahccomp lete(J)); [ dataahccomplete,~,baris,jlhpoindicluster,vekindk ] = updateMatrixComplete ( dataahccomplete,J,baris,jlhpoindicluster,kolom,loop,v ekindk,i,j ); loop=loop+1; end 3. Average Linkage Implementasi average linkage : dataahcave=dataahc; kolom=size(dataahcave,2); baris=(1+sqrt(1+8*kolom))/2; dataHasilAverage=zeros(baris-1,3); jlhpoindicluster=zeros(1,2*baris-1); jlhpoindicluster(1:baris)=1; kolom=baris; vekindk=1:kolom; loop=1; while loop ~= kolom [ v,k ] = average( dataahcave, baris, jlhpoindicluster, vekindk); [ hasilDataAve,i,j,I,J ] = olahdatahasilAverage( loop,baris,v,k,vekindk ); dataHasilAverage(loop,:)=hasilDataAve(loop,:); dataahcave(I)=dataahcave(I)+dataahcave(J); [ dataahcave,~,baris,jlhpoindicluster,vekindk ] = updateMatrixAverage ( dataahcave,J,baris,jlhpoindicluster,kolom,loop,vekind k,i,j ); loop=loop+1; end

(95) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 76 4.1.3.2 Output Hasil dari setiap cluster akan ditampilkan berupa tabel hasil akhir pengelompokan, dendrogram, hasil cluster dan sum of squre error (SSE) dari setiap metode. Gambar 4.10 Output hasil cluster setiap metode 4.1.3.3 Error Setelah semua data tercluster maka proses selanjutnya adalah melakukan perhitungan error yang menggunakan internal validation dengan metode sum of squre error. Error yang paling kecil dan kestabilan dari setiap cluster akan dipilih menjadi clustering terbaik dan akan dihitung centroidnya. Implementasi sum of square error : reratataAHC=mean(dataHasilAHC,2); [m,n]=size(dataHasilAHC); nilaiSSEtemp=zeros(m,n); for i=1:m for j=1:n nilaiSSEtemp(i,j)=power(((dataHasilAHC(i,j)reratataAHC(i,1))),2);

(96) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 77 end end nilaiSSEtemp2=sum(nilaiSSEtemp,2); nilaiSSEAverage=double(sum(nilaiSSEtemp2)); 4.1.4 Uji Data Tunggal Uji data tunggal adalah pengujian terhadap data yang diperoleh dari proses normaliasi, gambar 4.10 merupakan hasil potongan untuk melakukan uji data, prosesnya dilakukan setelah normalisasi. Penentuan akan dilakukan berdasarkan jarak kedekatan antara data baru dengan centroid dari setiap cluster yang sudah ditentukan. Jarak terkecil yang diperoleh akan dipilih menjadi cluster untuk data uji tersebut. Masing-masing dari cluster yang terpilih akan menampilkan hasil rekomendasi oleh sistem. Proses ini dilakukan terhadap seluruh elemen pada data uji. Gambar 4.11 Hasil potongan data baru untuk uji data Implementasi pecah 5 data %Pisah data untuk Uji1-Uji5 dari 5 data normalisasi yang sudah dipotong Uji1=Data5(1,(1:end)); Uji2=Data5(2,(1:end)); Uji3=Data5(3,(1:end)); Uji4=Data5(4,(1:end)); Uji5=Data5(5,(1:end)); Gambar 4.12 Hasil uji data Gambar 4.13 Hasil Rekomendasi

(97) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 78 4.2. Hasil dan Analisa Setelah melakukan pengujian menggunakan program, proses selanjutnya adalah menganalisis hasil pengelompokan sinopsis dan pengujian data tunggal. Analisis dilakukan terhadap keseluruhan data sinopsis, untuk mengetahui pengelompokan dan merekomendasikan buku berdasarkan sinopsis. Tahapan yang dilakukan dalam pengujian data ini terbagi atas 3 bagian. Bagian pertama yakni tahapan preprocessing, yang terdiri dari : 1. Tokenizing yakni memisahkan kata dari kalimat dan mneghilangkan tanda baca. 2. Stopword yakni menghilangkan kata yang tidak mempunyai arti dan kata sambung. 3. Stemming yakni menghilangkan kata berhimbuhan dan mengembalikan kata tersebut kedalam bentuk kata dasar 4. Membuat database dari kata unik per sinopsis yang sudah di stemming. Kata unik per sinopsis tersebut akan digabungkan menjadi 1 baris, kemudian diurutkan seacara abjad dan digabungkan menjadi 1 kata unik. Fungsi dari database ini adalah sebagai label dalam menentukan banyaknya kata unik dari keseluruhan sinopsis. 5. Menghitung term setiap kata unik dan menghitung bobot (weight) dari setiap kata unik per sinopsis. Penghitungan bobot penting dilakukan agar dapat mengetahui kata yang lebih sering muncul atau kata yang memiliki frekuensi kemunculan tertinggi. 6. Melakukan penghitungan menggunakan personal component analysis (PCA). Fungsi kegunaan dari PCA sangat bermanfaat karena dapat mengurutkan data yang terpenting sampai data yang tidak terpenting. 7. Melakukan normalisasi terhadap data dengan menggunakan 2 metode yaitu min-max dan z-score.

(98) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 79 8. Menghitng jarak antar kata yang telah dinormalisasi. Menghitung jarak menggunakan 2 metode, yaitu euclidean dan cosine similarity. Penggunaan 2 metode pada tahapan proses normalisasi maupun penghitungan jarak antar kata yang telah dinormalisasi dilakukan untuk mengetahui metode mana yang lebih optimal. Bagian kedua, yakni pengelompokan data yang menggunakan metode Agglomerative Hierarchical Clustering (AHC). Metode AHC menawarkan tiga metode yang dapat digunakan, yakni metode single linkage, complete linkage dan average linkage. Setelah proses AHC selesai, maka hasil clustering diuji dengan menggunakan sum of squre error. Hal yang dilakukan selanjutnya menentukan hasil cluster yang stabil dan merata dengan error terkecil. Hal tersebut akan menjadi penentu untuk menentukan centroid. Bagian ketiga, melakukan pengujian data tunggal. Data tunggal diperoleh dari potongan data yang sudah dinormalisasi. Masing-masing elemen pada data uji dihitung jaraknya dengan seluruh centroid. Jarak terkecil yang diperoleh akan dipilih menjadi cluster untuk data uji tersebut. Masing-masing cluster yang terpilih akan menampilkan hasil rekomendasi oleh sistem. Proses ini dilakukan terhadap seluruh elemen pada data uji.

(99) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 80 4.2.1 Hasil Percobaan 1. Single Linkage Tabel 4.1 Tabel percobaan single linkage Sum of squere Error Single Linkage 4,01 3,97 3,93 3,89 3,85 3,81 3,77 3,73 3,69 3,65 3,61 3,57 3,53 3,49 3,45 NO PCA 150x50 Min-Max Euclidean 3,7375 3,5506 Z-Score Euclidean 3,7192 Min-Max Cosine 3,7071 Z-Score Cosine 3,753 3,6381 150x100 150x150 150x300 150x500 150x700 150x900 3,6042 3,5439 3,5439 3,5439 3,5439 3,5439 3,703 3,7458 3,7369 3,7369 3,7369 3,7369 3,7369 3,9116 3,9583 3,926 3,7778 3,7703 3,7703 3,7703 3,745 3,6109 3,6109 3,6109 3,6109 3,6109 Gambar 4.14 Grafik percobaan single linkage Tabel 4.1 merupakan hasil cluster yang terbentuk beserta error dari setiap masing-masing metode yang menggunakan pengelompokan single linkage, sedangkan pada gambar 4.14 merupakan grafik yang terbentuk dari hasil error setiap masing-masing metode pada pengelompokan average linkage.

(100) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 81 2. Complete Linkage Tabel 4.2 Tabel percobaan complete linkage Sum of Square Error Complete Linkage 3,55 3,5 3,45 3,4 3,35 3,3 3,25 3,2 3,15 3,1 3,05 3 2,95 2,9 2,85 2,8 NO PCA 150x50 150x10 0 150x15 0 150x30 0 150x50 0 150x70 0 150x90 0 Min-Max Euclidean 2,9508 3,0103 3,0113 2,9997 2,9997 2,9997 2,9997 2,9997 Z-Score Euclidean 2,9352 3,0505 2,9351 2,9705 2,9705 2,9705 2,9705 2,9705 Min-Max Cosine 3,2345 3,508 3,3961 3,398 3,4719 3,4653 3,4653 3,4653 Z-Score Cosine 3,2539 3,2188 3,1697 3,174 3,174 3,174 3,174 3,174 Gambar 4.15 Grafik percobaan average linkage Tabel 4.2 merupakan hasil cluster yang terbentuk beserta error dari setiap masing-masing metode yang menggunakan pengelompokan average linkage, sedangkan pada gambar 4.15 merupakan grafik yang terbentuk dari hasil error setiap masing-masing metode pada pengelompokan average linkage.

(101) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 82 3. Average Linkage Tabel 4.3 Tabel percobaan average linkage Sum of Square Error Average Linkage 3,62 3,58 3,54 3,5 3,46 3,42 3,38 3,34 3,3 3,26 3,22 3,18 3,14 3,1 NO PCA 150x50 150x100 150x150 150x300 150x500 150x700 150x900 Min-Max Euclidean 3,3791 3,1735 3,2505 3,241 3,241 3,241 3,241 3,241 Z-Score Euclidean 3,3534 3,3993 3,4277 3,379 3,379 3,379 3,379 3,379 Min-Max Cosine 3,3356 3,5983 3,5698 3,5763 3,6002 3,5922 3,5922 3,5922 Z-Score Cosine 3,299 3,3048 3,3016 3,2519 3,2519 3,2519 3,2519 3,2519 Gambar 4.16 Grafik percobaan average linkage Tabel 4.3 merupakan hasil cluster yang terbentuk beserta error dari setiap masing-masing metode yang menggunakan pengelompokan average linkage, sedangkan pada gambar 4.16 merupakan grafik yang terbentuk dari hasil error setiap masing-masing metode pada pengelompokan average linkage.

(102) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 83 Dari 96 kali hasil percobaan, maka didapat hasil berikut : 1. Error terkecil pertama didapat 2.9351 pada percobaan ke-32 Hasil clustering (138, 11, 1), clustering yang tidak stabil dan merata PCA dengan covariance 150 x 100 Metode yang digunakan : Normalisasi z-score Penghitungan jarak euclidean distance AHC complete linkage. JARAK KEDEKATAN Untuk hasilnya dapat dilihat pada gambar 4.17 dan tabel 4.4 KELOMPOK Gambar 4.17 Dendrogram PCA 150x100 normalisasi z-score jarak euclidean cluster complete Hasil pengelompkan untuk error terkecil pertama dapat dilihat pada tabel 4.4 Tabel 4.4 Tabel hasil pengelompokan error terkecil pertama Cluster 1 (Merah) Total Cluster Hasil Cluster 4 9 14 62 1 116 145 6 21 35 25 132 71 74 77 80 83 86 19 117 121 125 129 133 137 26 31 130 134 138 142 146 150 91 22 42 95 97 33 141 55 8 58 149 28 76 109 61 139 147 70 101 18 138 Cluster 2 (Biru) Hasil Total Cluster Cluster 29 34 39 44 65 11 68 89 92 115 Cluster 3 (Hitam) Hasil Total Cluster Cluster 60 1

(103) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 84 145 11 90 81 84 102 87 16 40 111 127 5 79 119 123 131 148 10 45 82 100 124 128 140 15 30 93 96 135 143 50 20 63 69 36 41 46 112 51 104 106 108 110 113 118 49 53 56 59 122 126 66 72 75 57 2 37 47 7 17 13 136 24 85 88 43 67 94 23 78 52 73 103 114 27 38 54 99 3 12 32 96 64 105 48 120 107 2. Error terkecil kedua didapat 3.0103 pada percobaan ke-14 Hasil clustering (65, 50, 35), clustering stabil dan merata PCA dengan covariance 150x50 Metode yang digunakan Normalisasi min-max Penghitungan jarak euclidean distance AHC complete linkage. JARAK KEDEKATAN Untuk hasilnya dapat dilihat pada gambar 4.18 dan tabel 4.5 KELOMPOK Gambar 4.18 Dendrogram PCA 150x50 normalisasi min-max jarak euclidean cluster complete

(104) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 85 Hasil pengelompkan untuk error terkecil kedua dapat dilihat pada tabel 4.5 Tabel 4.5 Tabel hasil pengelompokan error terkecil kedua Cluster 1 (Hijau) Cluster 2 (Biru) Total Hasil Total Hasil Cluster Cluster Cluster Cluster 4 11 127 2 30 9 143 147 37 88 62 24 122 15 64 14 123 126 90 42 38 63 130 93 76 55 85 142 87 17 58 91 8 124 131 121 66 149 26 89 125 72 20 31 92 129 78 67 36 115 133 141 23 41 120 137 49 46 39 95 53 112 44 65 50 97 56 101 65 60 59 70 68 114 103 139 27 1 94 3 35 16 5 7 50 21 148 146 51 119 135 150 47 102 84 40 116 6 144 43 132 117 33 136 96 69 28 19 145 12 57 111 54 81 140 Cluster 3 (Merah) Hasil Total Cluster Cluster 10 61 128 32 73 71 52 74 99 77 13 80 79 83 82 86 104 108 110 113 118 35 48 75 109 22 25 100 45 29 34 98 105 107 18

(105) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 86 3. Error terkecil ketiga didapat 3,1740 pada percobaan ke-47 Hasil clustering (43, 41, 66), clustering stabil dan merata. PCA dengan covariance 150x150 Metode yang digunakan Normalisasi z-score, Penghitungan jarak cosine similarity AHC complete linkage JARAK KEDEKATAN Untuk hasilnya dapat dilihat pada gambar 4.19 dan tabel 4.6 KELOMPOK Gambar 4.19 Dendrogram PCA 150x150 normalisasi z-score jarak cosine cluster complete Hasil pengelompkan untuk error terkecil ketiga dapat dilihat pada tabel 4.6 Tabel 4.6 Tabel hasil pengelompokan error terkecil ketiga Cluster 1 (Merah) Cluster 2 (Biru) Total Hasil Total Hasil Cluster Cluster Cluster Cluster 65 113 43 1 5 68 118 67 16 23 39 2 27 11 20 44 7 109 66 145 38 43 29 17 114 116 127 34 22 57 144 96 56 42 60 143 135 Cluster 3 (Hijau) Hasil Total Cluster Cluster 10 132 45 35 98 50 82 40 41 124 11 128 71 140 74

(106) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 87 59 53 51 146 150 19 26 31 36 41 46 112 89 92 115 120 104 106 108 110 32 37 100 122 126 130 134 138 142 3 12 3 12 84 87 93 8 24 15 55 63 69 66 72 75 78 85 88 148 33 141 28 64 58 149 94 95 97 119 123 4 9 14 62 81 102 6 21 91 117 121 125 129 133 137 90 105 13 18 79 73 70 101 136 48 131 76 139 147 52 54 99 61 107 25 77 80 83 86 30 47 103 Melalui hasil ini dapat disimpulkan bahwa pengelompokan yang paling optimal berada pada percobaan ke-14 dengan menggunakan PCA 150x50. Hasil tersebut merupakan error terkecil kedua 3.0103. Hasil cluster 65, 50, 35. Pengujian data tersebut menggunakan normalisasi min-max, perhitungan jarak euclidean dan metode AHC complete linkage. Untuk melihat percobaan lainnya dapat dilihat pada lampiran halaman 146

(107) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 88 4.3. User Interface Dalam pembuatan user interface, penulis menggunakan aplikasi matlab. Bagian ini, berguna sebagai implementasi untuk melakukan preprocessing sampai pengujian data tunggal. Gambar dibawah ini merupakan tampilan dari keseluruhan sistem. Gambar 4.20 Tampilan sebelum melakukan pengujian

(108) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 89 Gambar 4.21 Tampilan setelah melakukan pengujian

(109) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 90 Penggunaan user interface ini dimulai menekan button input dapat dilihat pada gambar 4.22, yang berguna untuk mengambil data. Gambar 4.23 berguna untuk memilih data, data yang akan diproses berekstensi .xls atau excel. Gambar 4.22 Input data Gambar 4.23 Memilih data Apabila proses pengambilan data sudah selesai maka, tahap selanjutnya adalah menekan button proses, seperti pada gambar 4.24. Gambar 4.24 Proses pengambilan data sudah selesai Hal ini sistem akan melakukan proses information retrieval sampai menghitung bobot. Apabila proses sudah selesai, maka kata unik dan bobot akan muncul di tabel, seperti pada gambar 4.25. Gambar 4.25 Hasil kata unik dan bobot Tahap selanjutnya, memilih proses PCA yang memiliki 2 radio button. Jika radio button PCA tidak dipilih maka sistem akan menutup proses ini seperti pada gambar 4.26. Jika radio button PCA dipilih maka sistem meminta untuk memasukan

(110) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 91 jumlah PCA seperti pada gambar 4.27. Jumlah PCA berguna untuk mengubah dimensi panjang matrix, lalu menekan button proses. Gambar 4.26 Proses tidak memilih PCA Gambar 4.27 Proses memilih dan memasukkan jumlah PCA Proses selanjutnya, memilih normalisasi dan penghtiungan jarak yang akan digunakan, sedangkan untuk memilih proses metode AHC yang akan digunakan dapat memilih salah satu metode atau memilih semuanya, lalu menekan proses, seperti pada gambar 4.28. Gambar 4.28 Proses memilih normalisasi, penghitungan jarak dan AHC Jika proses normalisasi, penghitungan jarak dan clustering sudah selesai maka hasil akhir dari perhitungan cluster, dendrogam, hasil cluster dan SSE masing-masing cluster akan tampil pada tabel dan diagram, seperti pada gambar 4.29. Gambar 4.29 Hasil proses setelah memilih normalisasi, penghitungan jarak dan AHC

(111) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 92 Bagian data uji akan memiliki button pecah data yang berfungsi untuk memecah 5 data uji menjadi masing-masing bagian, seperti pada gambar 4.30. Gambar 4.30 Tabel 5 data uji Gambar 4.31 merupakan bagian uji data tunggal, ada button cari centroid, yang berguna untuk mencari centroid dari cluster yang sudah ditentukan dengan ketentuan SSE terkecil dan hasil cluster yang stabil dan merata. Jika proses cari centroid sudah selesai, maka untuk pengujian data tunggal sudah dapat dilakukan. Untuk pemilihan centroid dapat memilih salah satu centroid atau memilih semua centroid. Sedangkan untuk data uji hanya dapat memilih salah satu. Dalam hal ini, penulis menggunakan uji 1 sama dengan sinopsis 1 dan seterusnya. Jika sudah selesai, maka proses selanjutnya menekan button uji data. Hasil perhitungan akan tampil pada bagian hasil dan sistem akan menampilkan hasil jarak yang terdekat. Sedangkan untuk hasil rekomendasi pada gambar 4.32 harus menekan button hasil rekomendasi. Gambar 4.31 Uji data tunggal Gambar 4.32 Hasil rekomendasi

(112) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB V PENUTUP Bab ini berisi tentang hasil kesimpulan dan saran. Kesimpulan berisikan tentang hal-hal yang berkaitan dengan pengelompokan buku berdasarkan sinopsis buku, sedangkan saran berisikan hal-hal yang berkaitan dalam pengembangan sistem. 5.1. Kesimpulan Pengelompokan dan merekomendasikan buku di dalam tulisan ini menggunakan metode agglomerative hierarchical clustering. Data yang diolah mengunakan sinopsis sebanyak 155 data berekstensi .xls (excel). Seluruh data tersebut akan diperoses melalui tahap preprocessing yang terdiri dari tokenizing, stopword, stemming, pembobotan kata, penghitungan weight, PCA dan normalisasi data. Proses selanjutnya pemotongan 5 data untuk data uji, dan 150 data akan dilakukan penghitungan jarak setiap data dan pengelompokan data menggunakan AHC dengan 3 metode yaitu single linkage, average linkage dan complete linkage. Dalam proses pengelompokkan data tersebut akan dihitung sum of squere error dari setiap masing-masing percobaan dalam tahap pembentukan kelompoknya. Maka, dapat disimpulkan dari seluruh proses pengelompokan dan merekomendasikan buku ini adalah sebagai berikut : 1. Dari 96 kali percobaan pengelompokan dan penghitungan nilai sum of square error maka ditemukan hasil percobaan yang paling optimal pada percobaan ke-14 dengan error terkecil yaitu 3.0103 dengan hasil pengelompokan yang stabil dan merata yaitu 65, 50 dan 35. Percobaan tersebut menggunakan metode PCA dengan covariance 150x50 dan menggunakan metode normalisasi min-max, penghitungan jarak menggunakan euclidean distance serta metode AHC complete linkage. 93

(113) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 94 2. Metode principal component analysis dapat digunakan dalam pengelompokan dan merekomendasikan buku dengan memberikan hasil error yang terkecil dan pengelompokan yang merata dan stabil. Melalui hasil indeks yang terbentuk dapat dilihat dan menunjukan hasil secara berurutan melalui atribut/fitur yang paling penting sampai tidak penting. Pengunaan PCA dalam pengelompokan dan merekomendasikan buku ini menggunakan percobaan sebanyak 7 kali perubahan covariance. Percobaan dimulai dari 150x50, 150x100, 150x150, 150x300, 150x500, 150x700, 150x900. 3. Agglomerative hierarchical clustering dapat mengelompokkan dan merekomendasikan buku berdasarkan sinopsis buku dengan memberikan nilai sum of square error terendah/terkecil dalam percobaan pengelompokannya. 5.2. Saran Berikut ini adalah saran yang bisa membantu penelitian ini agar lebih baik dan berkembang nanatinya, yaitu : 1. Data yang digunakan diperbanyak dan pengelohan buku tidak hanya menggunakan kategori fiksi saja, bisa menggunakan kategori lain, sehingga dapat mencakup lebih banyak kosakata. 2. Metode penggunaan normalisasi data dapat dicoba dengan menggunkan metode lain 3. Metode penghitungan jarak dapat dicoba dengan menggunakan metode lain 4. Metode agglomerative hierarchical clustering dapata dicoba dengan menggunakan metode lain 5. Penghitungan akurasi dapat dicoba dengan metode lain

(114) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR PUSTAKA Agusta, L. (2009), Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. Konferensi Nasional Sistem dan Informatika 2009; Bali, November 14, 2009, [Online] 196-201 Available form https://yudiagusta.files.wordpress.com/2009/11/196-201-knsi09-036 perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief-adrianiuntuk-stemming-dokumen-teks-bahasa-indonesia.pdf, [akses 04 November 2017] Ardyan, dkk. (2016) Sistem Pemerolehan Informasi Karya Ilmiah Berbasis Cluster Dengan G-Means Clustering. Seminar Riset Teknologi Informasi (SRITI) tahun 2016, [Online] 359-361 Available form https://repository.usd.ac.id/6929/2/125314109_full.pdf, [akses 05 Juni 2017] Budianto T., & Hermawan, G. (2013) Rancang Bangun Music Recommender System Dengan Metode User-Based Collaborative Filtering. Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) tahun 2013, [Online] 1-10 Vol.2, No.02 Availabe form http://elib.unikom.ac.id/download.php?id=300314, [akses 13 Agustus 2017] Frost & Sullivan (2013) Pertumbuhan Pasar E-Commerce Indonesia Lampaui Amerika Serikat, [Online] Available form https://www.liputan6.com/tekno/read/631288/pertumbuhan-pasar-ecommerce-indonesia-lampaui-amerika-serikat, [akses 10 September 2018] Hartanto, J.D. (2017) Penerapan Face Recognition untuk Pemerolehan Identias Mahasiswa Universitas Sanata Dharma Menggunakan Metode Eigenface dan Euclidean Distance. Skripsi. Universitas Sanata Dharma 95

(115) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 96 Kohavi, & Provost. (1998) Confusion Matrix, [Online] Available form http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_mat rix.html, [akse 05 November 2017] Kurniawan, A.A. (2017) Implementasi Algoritma Agglomerative Hierarchical Clustering Untuk Mengelompokkan Capaian Belajar Siswa SD. Skripsi. Universitas Sanata Dharma Prasetyo, E. (2012), Data Mining: Konsep dan Aplikasi Menggunakan Matlab. Andi Yogyakarta Prasetyo, E. (2014), Data Mining: Pengelolahan Data Menjadi Informasi Menggunakan Matlab. Andi Yogyakarta Putri, A.P., Ridok, A., Indriati. (2013) Implementasi Metode Improved K-Nearest Neighbor Pada Analisis Sentimen Twitter Berbahasa Indonesia. Jurnal Mahasiswa PTIIK UB, 2013, [Online] 2(2), 1-8 Available form http://filkom.ub.ac.id/doro/archives/detail/DR00013201312#, [akses 04 November 2017] Manning, dkk. (2009) Introduction to Information Retrieval , Cambridge University Press. 2009. [Online] Available form https://nlp.stanford.edu/IRbook/pdf/irbookonlinereading.pdf, [akses 04 November 2017] Mustaffa, Z., & Yusof, Y. (2011) A Comparison of Normalization Techiques in Predicting Dengue Outbreak. International Conference on Business and Economic Reasearch 2010 (IACSIT 2011) Press, Kuala Lumpur, Malaysia, [Online] vol.1 Available form http://www.ipedr.com/vol1/74-G10007.pdf, [akses 05 November 2017]

(116) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 97 Nazief, B., & Adriani, M., (2007) Confix-Stripping: Approach to Stemming algorithm for bahasa Indonesia, Faculty of computer science university of Indonesia., [Online] Available from https://www.researchgate.net/profile/Jelita_Asian/publication/220316701_Ste mming_Indonesian_A_confixstripping_approach/links/5badcaff299bf13e6051ef4b/Stemming-IndonesianA-confix-stripping-approach.pdf, diakses 04 November 2017 Nugraha, C.D.D., Naimah, Z., Fahmi, M., & Setiani, N. (2014) Klasterisasi Judul Buku dengan Menggunakan Metode K-Means. Prosiding Seminar Nasional Aplikasi Teknologi Informasi (SMATI), [Online] G-1 s/d G-4 Available from http://jurnal.uii.ac.id/index.php/Snati/article/download/3282/2959, diakses 23 Agustus 2017 Nugroho, G.A.P. (2016) Analisis Sentimen Twitter menggunakan K-Means. Skripsi. Universitas Sanata Dharma Pertumbuhan Pasar E-Commerce Indonesia Lampaui Amerika Serikat, [Online] Available form http://tekno.liputan6.com/read/631288/pertumbuhan-pasar-ecommerce-indonesia-lampaui-amerika-serikat, [akses 22 Oktober 2017] Pratomo, B.Y. (2017) Pengelompokan Peran Pemain Dota 2 dalam Pertandingan Profesional dengan Metode Agglomerative Hierarchical Clustering. Skripsi. Universitas Sanata Dharma Rarasati, D.B. (2015) Pengelompokkan Tema Lirik Lagu Menggunakan Metode KMeans Clustering. Skripsi. Universitas Sanata Dharma Rokach, L. (2005), Data Mining and Knowledge Discovery Handbook, Chapter 15: Clustering Methods. [Online] Availabe form

(117) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 98 http://www.ise.bgu.ac.il/faculty/liorr/hbchap15.pdf, 2018] [akses 02 November Situmorang, P.A. (2015) Pengenalan Pola Keberhasilan Seminaris dengan Menggunakan Agglomerative Hierarchical Clustering Sebuah Studi Kasus atas Keberhasilan para Seminaris di Seminari Menengah St. Petrus, Canisius, Mertoyudan, Magelang. Skripsi. Universitas Sanata Dharma Smith, L.I. (2002), A tutorial on Principal Components Analysis, [Online] Availabe form http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/pca_tutorial.pd f, [akses 02 November 2018] Supianto, A. (2014) Pengenalan Pola Hierarchical Clustering. PTIIK – 2014, [Online] Available form http://afif.lecture.ub.ac.id/files/2014/05/Slide-12-KlasterisasiHierarchical-Clustering.pdf, [akses 04 November 2017] Tresnawati, Y. (2017) Analisis Sentimen Pada Twitter Menggunakan Pendekatan Agglomerative Hierarchical Clustering. Skripsi. Universitas Sanata Dharma Wibisono, A.R. (2012) Pengenalan Wajah Manusia Menggunakan Principal Component Analysis dan Linera Discriminant Analysis Berbasis Neural Network. Skripsi. Universitas Sanata Dharma

(118) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI LAMPIRAN • Data o Pengarang Janine Amos 99

(119) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 100 o Pengarang Donny Kurniawan

(120) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 101 o Pengarang Paulette Bourgeois & Brenda Clark

(121) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 102 o Pengarang Edy Supangkat

(122) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 103 o Pengarang Sharon Jennings

(123) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 104 • Tokenizing o Tokenizing synopsis buku dari Janine Amos Buku ini mengajak anak memahami rasa percaya diri dan bagaimana cara mengembangkan perasaan tersebut. ;Hana diminta gurunya untuk bermain drama dalam acara perpisahan di sekolah. Padahal selama ini, dia sudah berlatih koor dan merasa sudah hafal dengan semua lagu yang akan dibawakan. Ia menjadi tidak percaya diri karena harus berganti kegiatan. Ia merasa dianggap tidak mampu dalam koor. Hana kemudian membicarakan hal ini dengan kedua orang tuanya. Ayah dan ibu Hana mendorong Hana untuk mencoba dan mau berlatih menjadi narator dalam drama. Berhasilkah Hana mengatasi rasa percaya dirinya? Ikuti kisahnya dalam buku ini. Tidak hanya kisah Hana, namun juga kisah Jimi dan Tomi bisa dijumpai di dalamnya. o Hasil Tokenizing dari buku Janine Amos Buku ini mengajak anak memahami rasa percaya diri dan bagaimana cara mengembangkan perasaan tersebut Hana diminta gurunya untuk bermain dalam perpisahan di sekolah Padahal selama ini dia sudah berlatih koor dan merasa sudah hafal dengan semua lagu yang akan dibawakan Ia menjadi tidak percaya diri karena harus berganti kegiatan Ia merasa dianggap tidak mampu dalam koor Hana kemudian membicarakan hal ini dengan kedua orang tuanya Ayah dan ibu Hana mendorong Hana untuk mencoba dan mau berlatih menjadi narator dalam drama Berhasilkah Hana mengatasi rasa percaya dirinya Ikuti kisahnya dalam buku ini Tidak hanya kisah Hana namun juga kisah Jimi dan Tomi bisa dijumpai di dalamnya

(124) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 105 o Tokenizing synopsis buku dari Donny Kurniawan Sekawanan katak memutuskan untuk pergi meninggalkan danau, kecuali seekor katak kecil bernama Precil yang bersikeras tetap tinggal di sana. Apa yang menyebabkan kawanan katak itu pergi dari danau, dan bagaimanakah di Precil setelah ditinggal sendiri? Hasil Tokenizing dari buku Donny Kurniawan Sekawanan katak memutuskan untuk pergi meninggalkan danau, kecuali seekor katak kecil bernama Precil yang bersikeras tetap tinggal di sana. Apa yang menyebabkan kawanan katak itu pergi dari danau, dan bagaimanakah di Precil setelah ditinggal sendiri? o Tokenizing synopsis buku dari Paulette Bourgeois, Brenda Clark Franklin sangat senang bermain sepak bola. Kadang-kadang Franklin tidur sambil membawa bolanya. Bahkan, Franklin sering bermimpi mencetak gol. Kenyataannya Franklin belum bisa menendang bola dengan baik. Franklin juga belum pernah membuat gol. Begitu juga dengan tim sepak bolanya, sehingga mereka selalu kalah dalam pertandingan. Tim Bearlah yang selalu menjadi pemenang. Akhirnya Franklin bisa menemukan penyebab kekalahan mereka. Setiap sore sampai hari pertandingan tiba, Franklin dan timnya berlatih di taman. Pelatih mengajari mereka bermain dalam suatu permainan istimewa. Hari pertandingan tiba. Tim Franklin menunjukkan permainan istimewa mereka di lapangan. Mereka berhasil menahan gol lawan dan membuat gol ke gawang lawan. Meskipun pada akhirnya tim Bear yang menjadi pemenang, tim Franklin tetap merasa gembira. Mengapa demikian? Rahasianya ada dalam buku ini.

(125) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 106 Hasil Tokenizing dari buku Paulette Bourgeois, Brenda Clark Franklin sangat senang bermain sepak bola Kadang-kadang Franklin tidur sambil membawa bolanya. Bahkan Franklin sering bermimpi mencetak gol Kenyataannya Franklin belum bisa menendang bola dengan baik Franklin juga belum pernah membuat gol Begitu juga dengan tim sepak bolanya sehingga mereka selalu kalah dalam pertandingan. Tim Bearlah yang selalu menjadi pemenang Akhirnya Franklin bisa menemukan penyebab kekalahan mereka Setiap sore sampai hari pertandingan tiba, Franklin dan timnya berlatih di taman Pelatih mengajari mereka bermain dalam suatu permainan istimewa Hari pertandingan tiba Tim Franklin menunjukkan permainan istimewa mereka di lapangan Mereka berhasil menahan gol lawan dan membuat gol ke gawang lawan Meskipun pada akhirnya tim Bear yang menjadi pemenang tim Franklin tetap merasa gembira Mengapa demikian Rahasianya ada dalam buku ini

(126) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 107 o Tokenizing synopsis buku dari Eddy Supangkat Ini kisah tentang seekor kucing bernama si Manis. Selama ini dia sangat disayangi oleh keluarga majikannya. Ia satu-satunya hewan peliharaan dalam rumah itu. Perasaan disayang itu menjadi berubah dengan kehadiran hewan peliharaan yang lain. Mula-mula si Beo, kemudian si Pusi. Manis merasa keluarga Johan tidak menyayanginya lagi. Banyak hal dia lakukan untuk merebut rasa sayang itu kembali. Namun yang terjadi justru hal-hal yang tidak ia harapkan. o Hasil Tokenizing dari buku Eddy Supangkat Ini kisah tentang seekor kucing bernama si Manis Selama ini dia sangat disayangi oleh keluarga majikannya Ia satu-satunya hewan peliharaan dalam rumah itu Perasaan disayang itu menjadi berubah dengan kehadiran hewan peliharaan yang lain Mula-mula si Beo kemudian si Pusi Manis merasa keluarga Johan tidak menyayanginya lagi Banyak hal dia lakukan untuk merebut rasa sayang itu kembali yang terjadi justru hal-hal yang tidak ia harapkan

(127) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 108 o Tokenizing synopsis buku dari Sharon Jennings Franklin ingin menjadi detektif. Ia memakai topi dan mantel detektif miliknya. Suatu hari, Franklin menemui teman-temannya. Mereka tampak murung. Ternyata bola bisbol mereka hilang. Lalu Franklin melakukan tugasnya sebagai detektif. Berhasilkah Franklin menemukan bola bisbol teman-temannya? Ayo baca kelanjutan ceritanya dalam buku ini. Hasil Tokenizing dari buku Sharon Jennings Franklin ingin menjadi detektif Ia memakai topi dan mantel detektif miliknya Suatu hari Franklin menemui teman-temannya Mereka tampak murung. bola bisbol mereka hilang Lalu Franklin melakukan tugasnya sebagai detektif Berhasilkah Franklin menemukan bola bisbol teman-temannya Ayo baca kelanjutan dalam buku ini

(128) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 109 • Stopword o Hasil stopword dari tokenizing buku Janine Amos Buku mengajak anak memahami percaya mengembangkan perasaan Hana gurunya bermain drama acara perpisahan sekolah berlatih koor hafal lagu dibawakan percaya berganti kegiatan merasa dianggap koor Hana membicarakan orang tuanya Ayah ibu Hana mendorong Hana mencoba berlatih narator drama Berhasilkah Hana mengatasi percaya dirinya Ikuti kisahnya buku kisah Hana kisah Jimi Tomi dijumpai dalamnya o Hasil stopword dari tokenizing buku Donny Kurniawan Sekawanan katak memutuskan pergi meninggalkan danau, kecuali seekor katak bernama danau Precil Precil bersikeras ditinggal tetap tinggal menyebabkan kawanan katak pergi

(129) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 110 o Hasil stopword dari tokenizing buku Paulette Bourgeois & Brenda Clark Franklin senang bermain sepak bola Kadang-kadang Franklin tidur membawa bolanya Franklin bermimpi mencetak gol Kenyataannya Franklin menendang bola Franklin gol tim sepak bolanya kalah pertandingan Tim Bearlah pemenang Franklin menemukan penyebab kekalahan sore pertandingan Franklin timnya berlatih taman Pelatih mengajari bermain permainan istimewa Hari pertandingan Tim Franklin permainan istimewa lapangan berhasil menahan gol lawan gol gawang lawan tim Bear pemenang tim Franklin gembira Rahasianya buku o Hasil stopword dari tokenizing buku Eddy Supangkat kisah seekor kucing bernama Manis disayangi keluarga seekor satu-satunya hewan peliharaan rumah Perasaan disayang berubah kehadiran hewan peliharaan Mula-mula Beo Pusi Manis keluarga Johan menyayanginya lakukan merebut sayang hal-hal harapkan o Hasil Stopword dari Tokenizing buku Sharon Jennings Franklin detektif. memakai topi mantel detektif miliknya. Franklin menemui teman-temannya murung bola bisbol hilang Franklin tugasnya detektif Berhasilkah Franklin menemukan bola bisbol teman-temannya Ayo baca kelanjutan ceritanya buku

(130) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 111 • Stemming o Hasil stemming dari stopword buku Janine Amos Buku ajak anak paham percaya kembang rasa Hana guru main drama acara pisah sekolah latih koor hafal lagu bawa percaya ganti giat rasa anggap koor Hana bicara orang tua Ayah ibu Hana dorong Hana coba latih narator drama hasil Hana atas percaya diri ikut kisah buku kisah Hana kisah Jimi Tomo jumpa dalam o Hasil Stemming dari Stopword buku Donny Kurniawan kawan katak putus pergi tinggal danau kecuali ekor katak nama Precil keras tetap tinggal sebab kawan katak pergi danau Precil tinggal o Hasil stemming dari stopword buku Paulette Bourgeois & Brenda Clark Franklin senang main sepak bola kadang Franklin tidur bawa bola Franklin mimpi cetak gol nyata Franklin nendang bola Franklin gol tim sepak bola kalah tanding tim bear menang Franklin temu sebab kalah sore tanding Franklin tim latih taman latih ajar main main istimewa hari tanding tim franklin main istimewa lapang hasil tahan gol lawan gol gawang lawan tim bear menang tim franklin rahasia buku

(131) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 112 o Hasil stemming dari stopword Eddy Supangkat kisah ekor kucing nama manis sayang keluarga ekor satu hewan pelihara rumah rasa sayang ubah hadir hewan pelihara mula sayang beo hal pusi harap manis keluarga johan sayang lakukan rebut o Hasil stemming dari stopword buku Sharon Jennings Franklin detektif pakai topi mantel detektif milik Franklin temu teman murung bola bisbol hilang Franklin tugas detektif hasil Franklin temu bola bisbol teman ayo baca lanjut cerita buku

(132) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 113 • Hitungan Normalisasi Min-Max Sinopsis 1 Min Sinopsis 1 - Min Pengurangan Hasil Normalisasi Min-Max Kata Unik Franklin Manis gol Kucing Kawan 0.38764 0 0 0 0.665546 0 0 0 0 0 0.38764 0 0 0 0.665546 0.665546 0.79588 0.38764 0.69897 0.665546 Sinopsis 1 - Min / Pengurangan 0.582439 0 Sinopsis 2 Min Sinopsis 2 - Min Pengurangan 0 0 0 0.665546 0 0 0 0.79588 0.38764 0 0.38764 0.38764 0 0 0 0.69897 0 0 0 0.665546 Sinopsis 2 - Min / Pengurangan 0 0 1 0 0 0 0 1

(133) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 114 Sinopsis 3 Min Sinopsis 3 - Min Pengurangan 0 0 0 0.665546 0.69897 0 0.69897 0.79588 0 0 0 0.38764 0.69897 0 0.69897 0.69897 0 0 0 0.665546 Sinopsis 3 - Min / Pengurangan 0 0.878235 0 1 0 Sinopsis 4 Min Sinopsis 4 - Min Pengurangan 0.38764 0 0.38764 0.665546 0.38764 0 0.38764 0.79588 0 0 0 0.38764 0 0 0 0.69897 0.665546 0 0.665546 0.665546 0 0 1 Sinopsis 4 - Min / Pengurangan 0.582439 0.487058 Sinopsis 5 Min Sinopsis 5 - Min Pengurangan 0 0 0 0.665546 0 0 0 0.79588 0 0 0 0.38764 0.69897 0 0.69897 0.69897 0 0 0 0.665546 Sinopsis 5 - Min / Pengurangan 0 0 0 1 0 Sinopsis 6 Min Sinopsis 6 - Min Pengurangan 0 0 0 0.665546 0 0 0 0.79588 0.38764 0 0.38764 0.38764 0 0 0 0.69897 0 0 0 0.665546 Sinopsis 6 - Min / Pengurangan 0 0 1 0 0 Sinopsis 7 Min Sinopsis 7 - Min Pengurangan 0.38764 0 0.38764 0.665546 0 0 0 0.79588 0 0 0 0.38764 0.69897 0 0.69897 0.69897 0.38764 0 0.38764 0.665546 Sinopsis 7 - Min / Pengurangan 0.582439 0 0 1 0.582439 Sinopsis 8 0 0.79588 0.38764 0 0

(134) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 115 Min Sinopsis 8 - Min Pengurangan 0 0 0.665546 0 0.79588 0.79588 0 0.38764 0.38764 0 0 0.69897 0 0 0.665546 Sinopsis 8 - Min / Pengurangan 0 1 1 0 0 Sinopsis 9 Min Sinopsis 9 - Min Pengurangan 0 0 0 0.665546 0.79588 0 0.79588 0.79588 0 0 0 0.38764 0.38764 0 0.38764 0.69897 0 0 0 0.665546 Sinopsis 9 - Min / Pengurangan 0 1 0 0.554587 0 Sinopsis 10 0.665546 0 0 0 0.665546 Min 0 0 0 0 0 Sinopsis 10 - Min 0.665546 0 0 0 0.665546 Pengurangan 0.665546 0.79588 0.38764 0.69897 0.665546 Sinopsis 10 - Min / Pengurangan 1 0 0 0 1 Kata Unik Franklin Manis gol Kucing Kawan Sinopsis 1 0.582439 0 0 0 1 Sinopsis 2 0 0 1 0 0 Sinopsis 3 0 0.878235 0 1 0 Sinopsis 4 0.582439 0.487058 0 0 1 Sinopsis 5 0 0 0 1 0 Sinopsis 6 0 0 1 0 0 Sinopsis 7 0.582439 0 0 1 0.58243908 Sinopsis 8 0 1 1 0 0 Sinopsis 9 0 1 0 0.554587464 0 Sinopsis 10 1 0 0 0 1

(135) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 116 • Hitungan Normalisasi Z-Score Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Franklin 0.38764 0 0 0.38764 0 0 0.38764 0 0 0.665546 Manis 0 0 0.69897 0.38764 0 0 0 0.79588 0.79588 0 Kata Unik gol 0 0.38764 0 0 0 0.38764 0 0.38764 0 0 Kucing Kawan 0 0.665546 0 0 0.69897 0 0 0.665546 0.69897 0 0 0 0.69897 0.38764 0 0 0.38764 0 0 0.665546 o Menghitung rata-rata / mean setiap synopsis - Jumlahkan semua kata unik per synopsis - Bagi dengan jumlah sinopsis Contoh: Franklin Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Jumlahkan Sinop 1 s/d 10 0.38764 0 0 0.38764 0 0 0.38764 0 0 0.665546 1.828466 Jumlah / 10 0.182847

(136) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 117 o Menghitung Standard Deviasi - Kurangkan kata unik per synopsis dengan rata-rata per kata unik Contoh: Kata Unik Franklin Sinopsis 1 Rata-rata Franklin Sinopsis 1 – Rata-rata Franklin 0.38764 0.18285 0.20479

(137) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 118 - Pangkatkan semua kata unik – rata-rata Contoh: Kata Unik Franklin Sinopsis 1 Rata-rata Franklin Sinopsis 1 – Rata-rata Franklin Pangkatkan Hasil Sinopsis 1 – rata-rata Franklin - 0.38764 0.18285 0.20479 0.04194 Hitung varian - (𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑎𝑛𝑔𝑘𝑎𝑡 𝑝𝑒𝑟 𝑠𝑖𝑛𝑜𝑝𝑠𝑖𝑠) (𝑛 − 1) n = 10 n-1 = 9 Jumlahkan hasil pangkat 2 dari kata unik-rata” Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Jumlahkan Sinop 1 s/d 10 Varian Franklin 0.04194 0.03343 0.03343 0.04194 0.03343 0.03343 0.04194 0.03343 0.03343 0.233 0.55942 0.55942/9 0.06216

(138) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 119 - Kemudian menghitung standard deviation, dengan mengakarkan hasil dari varian Sinopsis 1 Sinopsis 2 Sinopsis 3 Sinopsis 4 Sinopsis 5 Sinopsis 6 Sinopsis 7 Sinopsis 8 Sinopsis 9 Sinopsis 10 Jumlahkan Sinop 1 s/d 10 Varian STD Franklin 0.04194 0.03343 0.03343 0.04194 0.03343 0.03343 0.04194 0.03343 0.03343 0.233 0.55942 0.55942/9 0.06216 √𝟎. 𝟎𝟔𝟐𝟏𝟔 0.24931

(139) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 120 o Hitung bobot baru, bobot baru didapat dari bobot lama dikurangi mean lalu dibagi dengan standard deviation Kata Unik Franklin Sinopsis 1 0.38764 Rata-rata Franklin 0.18285 STD 0.24931 Sinopsis 1 – Rata-rata Franklin / STD 0.82143

(140) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 121 • Euclidean Distance Normalisasi Min-Max o Menghitung Jarak Matriks dari tiap synopsis Contoh :

(141) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 122

(142) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 123 Hasil dari Euclidean Distance Normalisasi Min-Max

(143) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 124 • Euclidean Distance Normalisasi Z-Score o Menghitung Jarak Matriks dari tiap synopsis Contoh :

(144) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 125

(145) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 126 Hasil dari Euclidean Distance Normalisasi Z-Score

(146) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 127 • Cosine Similarity Normalisasi Min-Max o Menghitung Jarak Matriks dari tiap synopsis Contoh:

(147) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 128

(148) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 129 Hasil Matrix Cosine Similartiy Min-Max

(149) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 130 Cosine Similarity Normalisasi Z-Score o Menghitung Jarak Matriks dari tiap synopsis Contoh :

(150) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 131

(151) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 132 Hasil Matriks Cosine Similarity Z-Score

(152) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 133 • Cluster o Euclidean Distance Normalisasi Min-Max ✓ Single Linkage

(153) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 134

(154) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 135

(155) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 136 JARAK Data : 150 1. Normalisasi Min-Max A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Cluster Error : 3.7375 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 40 111 102 116 145 84 87 81 16 144 79 90 127 119 51 132 5 88 131 128 82 95 100 45 124 25 30 72 96 121 125 129 133 137 123 15 97 135 138 35 49 56 59 53 93 140 26 31 36 41 46 112 10 117 104 106 108 110 113 118 85 24 71 74 77 83 86 66 91 75 50 2 43 146 150 122 126 130 134 138 142 48 37 143 69 136 20 98 19 47 42 63 13 94 7 76 141 67 22 57 12 17 29 34 39 44 65 68 78 33 105 73 32 139 147 64 149 55 3 61 8 23 18 109 27 54 52 101 58 103 28 114 70 89 92 115 120 38 99 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(156) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 137 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 2.9508 Cluster 1 (Biru) Cluster 2 (Merah) Total Cluster Hasil Cluster 4 9 14 62 1 11 116 145 16 144 6 21 127 5 81 102 90 79 119 123 131 40 111 84 148 15 30 93 82 100 96 82 100 96 135 35 10 45 25 132 124 128 140 143 50 71 74 77 80 83 86 20 63 69 19 117 121 125 129 133 137 26 31 36 41 46 112 51 104 106 108 110 113 118 49 56 59 53 122 126 130 134 138 142 146 150 91 57 2 37 42 7 47 17 13 136 24 85 43 67 33 141 94 95 95 97 149 8 55 58 28 52 73 99 27 114 103 3 12 32 64 105 22 48 76 109 61 139 147 70 101 18 131 Hasil Cluster 23 66 72 75 78 38 54 29 34 39 44 65 68 89 92 115 120 107 Total Cluster 18 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(157) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 138 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3791 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 116 145 102 40 111 16 84 87 144 127 90 81 5 119 79 88 135 123 131 82 148 96 30 93 25 132 100 5 124 128 35 140 10 45 117 121 125 129 133 137 26 31 36 41 46 112 51 104 106 108 110 113 118 49 56 59 53 95 97 85 71 74 77 80 83 86 66 72 75 24 50 20 143 91 19 2 37 42 47 7 122 126 130 134 138 142 146 150 63 69 98 136 43 67 22 48 57 141 13 17 94 3 13 33 78 76 29 34 39 44 65 68 149 32 55 64 139 147 8 73 27 105 61 52 54 101 23 58 109 103 28 70 99 89 92 115 120 38 114 18 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(158) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 139 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7071 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 39 44 65 68 34 29 2 7 22 72 75 109 48 131 139 76 32 37 42 123 102 47 66 78 147 81 84 87 6 51 146 150 122 126 130 134 138 142 21 19 26 31 36 41 46 112 104 106 108 110 113 118 117 121 125 129 133 137 25 45 111 131 100 40 124 128 30 17 89 92 115 120 10 107 98 3 12 61 5 91 23 49 56 59 53 93 63 69 13 18 79 43 67 73 145 90 105 85 88 94 95 97 144 114 116 119 136 127 38 82 15 55 27 54 140 103 52 70 57 60 101 96 135 35 64 11 24 58 20 149 50 33 141 71 74 77 80 83 86 99 4 9 14 62 1 8 16 148 148 Hasil Cluster 28 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 143 Total Cluster 1

(159) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 140 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2345 Cluster 1 (Merah) Total Cluster Hasil Cluster 39 44 65 68 29 34 19 117 26 31 36 41 46 112 104 106 108 110 113 118 89 92 115 120 49 56 59 53 51 146 150 6 21 91 4 9 14 62 71 74 77 80 83 86 25 132 116 30 47 103 63 69 66 72 75 102 81 84 2 7 17 22 42 32 37 27 35 50 11 24 119 123 145 5 38 127 48 131 Cluster 2 (Biru) 139 147 20 28 64 58 149 15 55 96 135 121 125 129 133 137 94 95 97 114 144 99 Hasil Cluster 3 12 8 16 148 143 85 88 23 78 57 60 33 141 Total Cluster 14 Cluster 3 (Hijau) Hasil Cluster 1 90 105 61 107 10 76 109 40 45 111 98 82 87 124 128 140 93 100 122 126 130 134 138 142 13 Total Cluster 18 79 73 43 67 70 101 136 52 54 99 37

(160) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 141 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3356 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 39 44 65 68 29 34 49 56 59 53 6 21 51 146 150 100 122 126 130 134 142 19 26 31 36 41 46 112 104 106 108 113 118 89 92 115 120 117 121 125 129 133 137 91 2 22 42 32 37 7 17 27 63 69 66 72 75 102 78 81 84 25 132 116 103 3 12 30 47 93 15 55 57 60 4 9 14 62 71 74 77 80 83 86 5 23 38 127 48 131 139 76 109 147 70 20 94 95 97 114 144 96 135 10 98 40 45 111 124 128 82 87 140 90 105 61 107 64 101 136 13 18 79 73 43 67 145 119 123 85 88 52 54 99 35 50 1 16 148 8 11 24 144 Hasil Cluster 33 141 Total Cluster 2 Cluster 3 (Hijau) Hasil Cluster 28 58 149 143 Total Cluster 4

(161) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 142 Tabel Pengujian Menggunakan 150 Data No 1 2 3 4 5 6 Normalisasi Min-Max Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7375 2.9508 3.3791 3.7071 3.2345 3.3356 Hasil Cluster 1 2 3 148 1 1 131 18 1 148 1 1 148 1 1 99 14 37 144 2 4 Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean Sum of Square Error 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Cosine Average Linkage Linkage

(162) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 143 JARAK KEDEKATAN 2. Normalisasi Z-Score A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7192 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 111 40 102 116 145 84 87 81 16 144 79 90 127 119 51 5 132 88 131 128 82 95 45 100 124 25 30 72 135 121 125 129 133 137 96 123 97 15 148 35 140 49 56 59 53 26 31 36 41 46 112 93 10 117 104 106 108 110 113 118 85 24 71 74 77 80 83 86 66 91 75 50 2 48 43 146 150 122 126 130 134 138 142 37 143 69 20 136 98 19 47 42 63 94 141 7 13 76 67 22 57 12 17 78 29 34 39 44 65 68 33 105 32 73 139 147 64 149 3 55 8 61 23 18 109 27 52 101 54 58 103 28 38 114 70 89 92 115 120 107 148 Hasil Cluster 99 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(163) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 144 JARAK b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 2.9352 Cluster 1 (Biru) Cluster 2 (Merah) Total Cluster Hasil Cluster 4 9 14 62 1 11 111 116 145 6 21 16 40 84 87 90 5 81 102 127 144 96 135 79 119 123 131 148 35 10 45 15 30 93 82 88 100 25 132 124 128 140 26 31 36 41 46 112 51 104 106 108 110 113 118 49 56 59 53 50 71 74 77 78 80 83 86 143 20 63 69 19 117 121 125 129 133 137 91 122 126 130 134 138 142 146 150 57 2 37 42 7 47 17 13 136 24 85 43 67 33 141 94 95 97 149 8 55 58 23 66 72 75 78 52 73 28 103 114 27 38 54 99 3 12 32 64 105 22 48 98 76 109 61 139 147 70 101 18 29 138 Hasil Cluster 29 34 39 44 65 68 89 92 115 120 107 Total Cluster 11 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(164) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 145 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3534 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 111 116 145 16 144 81 102 84 87 127 40 90 5 119 79 88 135 82 123 131 148 100 96 30 93 25 132 124 128 15 35 140 10 45 117 121 125 129 133 137 49 56 59 53 26 31 36 41 46 112 51 104 106 108 110 113 118 95 97 85 71 47 77 80 83 86 666 72 75 50 24 20 143 91 19 2 37 42 47 7 122 126 130 134 138 142 150 63 69 136 98 43 67 22 48 57 141 13 17 94 33 3 12 78 76 29 34 44 65 68 32 149 55 64 8 139 147 27 105 73 61 52 54 101 23 58 109 103 70 28 38 114 89 92 115 120 99 18 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(165) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 146 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7530 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 2 22 48 131 72 75 109 139 32 37 42 123 76 102 47 66 78 81 84 87 7 17 6 21 51 146 150 122 126 130 134 138 142 25 132 40 111 45 124 128 100 19 26 31 36 41 46 112 104 106 108 110 113 118 117 121 125 129 133 137 30 10 147 5 107 29 34 39 44 65 68 91 98 61 63 69 3 12 23 93 116 89 92 115 120 85 88 119 82 49 56 59 53 11 136 13 18 79 43 67 73 145 90 105 15 94 95 97 144 127 114 140 35 55 27 38 24 96 135 54 57 60 101 20 52 103 70 50 64 16 148 58 149 58 149 33 141 71 74 77 80 83 86 99 8 148 Hasil Cluster 143 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 28 Total Cluster 1

(166) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 147 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2539 Cluster 1 (Merah) Hasil Cluster 4 9 14 62 71 74 77 80 83 86 33 141 1 16 148 11 24 119 123 145 35 50 85 40 111 45 98 82 87 124 128 140 93 100 122 126 130 134 138 142 3 12 8 28 58 149 143 20 81 84 127 38 96 135 94 95 97 114 5 23 48 131 139 147 15 55 43 67 Cluster 2 (Biru) Total Cluster 70 Hasil Cluster 10 76 109 70 101 136 13 18 79 73 61 107 64 90 105 52 54 99 Total Cluster 18 Cluster 3 (Hijau) Hasil Cluster 2 7 17 22 42 32 37 27 6 21 91 26 31 36 41 46 112 104 106 108 110 113 118 51 146 150 19 117 29 34 39 44 65 68 89 92 115 120 49 56 59 53 121 125 129 133 137 25 132 116 30 47 Total Cluster 47 103 63 69 66 72 75 102 78 57 60 62

(167) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 148 JARAK c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2990 Cluster 1 (Hijau) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 14 62 71 74 77 80 83 86 1 116 145 16 148 11 24 35 50 2 22 42 32 37 7 17 27 63 69 66 72 75 102 78 81 84 87 6 21 19 26 31 36 41 46 112 104 106 108 110 113 118 51 146 150 100 122 126 130 134 138 142 29 34 39 44 65 68 49 56 59 53 89 92 115 120 117 121 125 129 133 137 91 57 60 3 12 43 67 114 15 55 13 18 79 73 119 123 70 10 98 82 25 132 40 111 45 124 45 124 128 140 90 105 30 47 93 103 61 107 85 88 101 136 5 23 48 131 139 76 109 147 20 38 127 96 135 94 95 97 144 52 54 99 142 Hasil Cluster 33 141 Total Cluster 2 Cluster 3 (Merah) Hasil Cluster 8 28 64 58 149 143 Total Cluster 6

(168) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 149 Tabel Pengujian Menggunakan 150 Data No Normalisasi 1 2 3 4 5 6 Z-Score Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7192 2.9352 3.3534 3.7530 3.2539 3.2990 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 148 1 1 70 18 62 142 2 6 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Average Linkage Linkage Cosine Complete Linkage Cosine Average Linkage Gabungan Uji Coba 150 Data 3,85 3,75 Sum of Sqaure Error Sum of Sqaure Error Normalisasi ZScore Menggunakan Jarak Cosine dan Euclidean 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min-Max 3,7375 2,9508 3,3791 3,7071 3,2345 3,3356 Normalisasi Z-Score 3,7192 2,9352 3,3534 3,753 3,2539 3,299

(169) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 150 JARAK KEDEKATAN Covariance : 150x50 1. Normalisasi Min-Max A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5506 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 62 14 1 16 21 6 119 102 117 69 11 143 5 84 144 148 135 24 123 66 72 81 127 85 78 63 91 35 47 50 96 145 116 132 51 49 53 56 59 57 147 141 12 33 122 126 130 134 138 142 20 67 103 54 39 44 65 68 8 94 28 149 27 23 2 15 90 87 124 93 19 30 111 140 88 136 37 131 64 26 31 36 41 46 112 40 43 146 150 101 10 128 13 79 82 104 106 108 110 113 118 48 75 17 7 42 76 22 25 100 45 70 3 73 52 29 139 109 99 89 92 115 120 34 55 58 95 97 121 125 129 133 137 60 38 98 105 107 140 Hasil Cluster 18 61 71 74 77 80 83 86 32 Total Cluster 9 Cluster 3 (Hitam) Hasil Cluster 114 Total Cluster 1

(170) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 151 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.0103 Cluster 1 (Hijau) Hasil Cluster 4 9 62 14 38 55 58 121 125 129 133 137 95 97 60 114 1 16 21 119 102 6 117 69 12 54 11 143 24 123 63 85 91 66 72 78 141 49 53 56 59 103 94 5 148 135 84 144 33 28 57 81 Cluster 2 (Biru) Total Cluster 127 147 122 126 130 142 8 149 20 67 23 65 Hasil Cluster 2 30 37 88 15 64 90 42 93 76 87 17 124 131 26 89 31 92 36 115 41 120 46 39 112 44 101 65 70 68 139 27 3 35 7 50 146 51 150 47 40 116 43 132 136 96 19 145 111 140 Total Cluster 50 Cluster 3 (Merah) Hasil Cluster 10 61 128 32 73 71 52 74 99 77 13 80 79 83 82 86 104 108 110 113 118 48 75 109 22 25 100 45 29 34 98 105 107 18 Total Cluster 35

(171) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 152 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.1735 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 62 14 38 55 58 95 97 121 125 129 133 137 60 1 16 21 119 102 6 117 69 12 54 135 84 144 148 11 143 24 123 85 63 66 72 91 78 141 49 53 56 59 103 94 33 8 149 20 67 23 28 57 81 127 147 122 126 130 134 138 142 2 37 15 90 93 87 124 101 70 19 30 111 140 88 26 31 36 41 46 112 139 3 40 43 136 146 150 42 76 64 17 131 89 92 115 120 27 35 50 51 47 96 145 116 132 39 44 65 68 7 13 79 82 104 106 108 110 113 118 10 128 48 75 73 109 52 99 22 25 100 45 29 34 137 Hasil Cluster 114 Total Cluster 1 Cluster 3 (Biru) Hasil Cluster 18 61 32 71 74 77 80 83 86 98 105 107 Total Cluster 12

(172) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 153 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.9116 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 11 16 145 6 21 148 5 127 81 84 144 72 102 95 97 116 135 24 123 121 125 129 133 137 119 85 114 96 66 67 20 117 143 91 57 63 35 7 149 58 49 53 56 59 69 147 51 8 60 55 141 122 126 130 134 138 142 50 23 38 33 28 47 54 12 103 94 27 131 39 44 65 68 15 90 87 2 17 124 93 89 92 115 120 37 101 3 7 10 25 45 100 32 71 74 77 80 83 86 61 98 18 22 105 128 82 79 107 29 34 40 75 48 73 13 104 106 108 110 113 118 52 99 109 43 146 150 111 140 136 76 19 30 88 64 42 36 31 41 46 112 148 Hasil Cluster 139 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 70 Total Cluster 1

(173) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 154 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.508 Cluster 1 (Merah) Hasil Cluster 3 52 7 99 10 40 100 79 25 82 45 104 105 106 18 108 32 110 71 113 74 118 77 146 80 150 83 43 86 109 61 19 98 111 22 140 107 136 128 64 29 42 34 76 48 139 75 13 73 Total Cluster 46 Cluster 2 (Biru) Hasil Cluster 42 76 139 Cluster 3 (Hijau) Total Cluster 3 Total Cluster Hasil Cluster 4 9 14 62 148 121 125 129 133 137 1 11 16 145 6 21 24 119 123 67 85 135 143 60 5 127 81 84 144 72 102 66 57 20 95 97 114 149 147 49 53 56 59 28 8 55 58 78 141 23 63 69 38 122 126 130 134 138 142 54 103 12 33 35 116 132 96 47 27 39 44 65 68 50 51 117 91 94 131 2 17 89 92 115 120 15 90 87 93 124 37 70 26 31 36 41 46 112 88 30 101 101

(174) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 155 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5983 Cluster 1 (Merah) Total Cluster Hasil Cluster 4 9 14 62 148 121 125 129 133 137 1 11 16 145 6 21 119 123 24 5 127 81 84 144 72 102 85 135 143 117 20 67 66 147 95 97 114 149 63 69 35 116 132 96 91 8 55 58 49 53 56 59 78 141 57 60 51 28 23 38 122 126 130 134 138 142 47 54 50 12 33 103 94 27 39 44 65 68 Cluster 2 (Hitam) 131 2 17 89 92 115 120 15 90 87 93 124 37 101 70 26 31 36 41 46 112 88 30 139 101 Hasil Cluster 139 Total Cluster 1 Cluster 3 (Biru) Hasil Cluster 3 7 10 25 45 100 32 71 74 77 80 83 86 61 98 18 105 22 107 79 82 128 29 34 13 48 75 73 40 52 99 104 106 108 110 113 118 146 150 43 109 19 111 140 136 64 42 76 Total Cluster 48

(175) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 156 Tabel Pengujian Covariance 150 x 50 No 1 2 3 4 5 6 Normalisasi Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5506 3.0103 3.1735 3.9116 3.5080 3.5983 Hasil Cluster 1 2 3 140 9 1 65 50 35 137 1 12 148 1 1 46 3 10 101 1 48 Sum of square error Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 3,95 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Cosine Average Linkage Linkage

(176) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 157 JARAK KEDEKATAN 2. Normalisasi Z-Score A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.703 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 11 16 145 116 144 132 6 21 40 82 111 140 87 148 84 102 10 119 81 90 51 5 127 96 79 124 128 135 72 93 35 123 45 131 15 30 100 88 25 95 97 85 50 24 66 19 117 121 125 129 133 137 48 91 143 2 37 98 43 69 75 94 42 20 47 26 31 36 41 46 112 63 67 7 49 53 56 59 71 74 77 80 83 86 146 150 104 106 108 110 113 118 22 76 57 136 78 12 122 122 126 130 134 138 142 13 32 141 17 3 55 33 139 147 29 34 39 44 65 68 73 105 149 61 109 23 18 64 101 8 54 27 52 38 58 60 103 114 70 28 89 92 115 120 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 99 Total Cluster 1

(177) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 158 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.0505 Cluster 1 (Biru) Cluster 2 (Merah) Total Cluster Hasil Cluster 4 9 14 62 1 11 16 145 144 5 127 96 135 35 81 84 102 90 116 132 6 21 51 79 119 123 131 24 85 88 148 50 143 71 74 77 80 83 86 20 63 69 66 72 57 43 67 2 37 42 7 47 19 117 26 31 36 41 46 112 91 104 106 108 110 113 118 49 53 56 59 121 125 129 133 137 94 95 97 13 136 17 122 126 130 138 142 146 150 3 12 32 105 64 61 73 139 147 52 54 99 8 33 141 55 58 149 28 70 101 103 114 10 45 25 100 124 128 15 40 82 111 87 140 30 93 98 22 48 75 76 109 27 23 78 38 18 137 Hasil Cluster 18 29 34 39 44 65 68 89 92 115 120 107 Total Cluster 12 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(178) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 159 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3993 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 11 16 145 116 144 6 21 5 127 119 81 84 102 90 132 148 96 135 35 10 40 82 111 87 140 124 128 100 25 45 15 30 93 79 123 131 51 85 88 50 143 24 20 63 66 72 69 98 71 74 77 80 83 86 19 117 121 125 129 133 137 2 37 42 47 7 91 94 95 97 49 53 56 59 26 31 36 41 46 112 104 106 108 110 113 118 22 48 75 43 67 57 136 122 126 130 134 138 142 146 150 13 3 12 17 76 33 141 78 32 29 34 39 44 65 68 149 147 73 61 64 105 8 52 27 54 101 109 23 58 103 70 28 38 114 89 92 115 120 18 99 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(179) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 160 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.6381 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 26 31 36 41 46 112 19 117 121 125 129 133 137 1 11 16 145 148 94 95 97 144 116 132 96 135 18 79 119 24 10 82 111 140 40 87 45 124 128 25 48 131 98 5 127 123 43 67 139 35 50 72 102 78 81 76 63 69 73 100 66 75 85 88 90 105 6 21 51 146 150 91 84 15 55 30 93 143 2 37 42 32 47 7 22 109 147 136 20 23 17 13 61 33 141 38 54 107 114 57 60 122 126 130 134 138 142 149 3 12 101 29 34 39 44 65 68 8 64 58 70 28 27 103 49 53 56 59 104 106 108 110 113 118 52 4 9 14 62 89 92 115 120 143 Hasil Cluster 71 74 77 80 83 86 Total Cluster 6 Cluster 3 (Hitam) Hasil Cluster 99 Total Cluster 1

(180) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 161 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2188 Cluster 1 (Merah) Hasil Cluster 26 31 36 41 46 112 19 117 89 92 115 120 121 125 129 133 137 29 34 39 44 65 68 49 53 56 59 51 146 150 104 106 108 110 113 118 122 126 130 134 138 142 22 75 109 32 98 61 107 48 131 139 147 76 Cluster 2 (Biru) Total Cluster 70 71 74 77 80 83 86 61 Hasil Cluster 10 45 40 82 111 124 128 140 25 100 13 18 79 73 23 78 94 95 97 114 57 60 63 69 66 72 102 Total Cluster 27 Cluster 3 (Hijau) Hasil Cluster 1 11 16 145 148 143 84 87 35 50 116 132 33 141 4 9 14 62 24 119 123 5 127 20 144 81 6 21 91 38 96 135 2 37 42 7 47 17 27 28 64 58 149 90 105 103 52 54 99 3 12 8 15 55 Total Cluster 43 67 30 93 85 88 101 136 62

(181) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 162 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3048 Cluster 1 (Hijau) Hasil Cluster 26 138 31 142 36 29 41 34 46 39 112 44 104 65 106 68 108 49 110 53 113 56 118 59 89 19 92 117 115 121 120 125 6 129 21 133 91 137 51 146 150 122 126 130 134 Cluster 2 (Merah) Total Cluster 45 Hasil Cluster 1 11 16 145 148 144 24 119 123 143 35 50 116 132 85 88 5 127 20 81 38 96 135 94 95 97 114 33 141 4 9 14 62 28 64 58 149 103 3 12 8 10 45 40 82 111 140 124 128 87 98 25 100 30 93 90 105 15 55 101 136 22 75 109 32 23 48 131 139 76 147 13 18 79 43 67 70 61 Cluster 3 (Biru) Total Cluster 107 52 54 99 2 37 42 7 47 17 27 57 60 63 69 66 72 102 84 78 99 Hasil Cluster 71 74 77 80 83 86 Total Cluster 6

(182) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 163 Tabel Pengujian Covariance 150x50 No Normalisasi 1 2 3 4 5 6 Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage Z-Score 3.7030 3.0505 3.3993 3.6381 3.2188 3.3048 Hasil Cluster 1 2 3 148 1 1 137 12 1 148 1 1 143 6 1 27 61 62 99 6 45 Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Gabungan Uji Coba Data Covariance 150x50 4,1 Sum of Square Error Sum of Sqaure Error 3,8 3,9 3,7 3,5 3,3 3,1 2,9 2,7 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 3,5506 3,0103 3,1735 Normalisasi Z-Score 3,703 3,0505 3,3993 3,9116 3,508 3,5983 3,6381 3,2188 3,3048

(183) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 164 JARAK KEDEKATAN Covariance : 150x100 1. Normalisasi Min-Max A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.6042 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 62 14 1 16 21 6 102 119 117 11 96 116 145 49 53 56 59 69 72 123 51 47 85 24 81 84 144 148 135 147 132 127 35 78 141 143 57 66 122 126 130 134 138 142 54 103 12 91 63 39 44 65 68 28 33 8 20 67 149 94 50 27 23 5 55 58 95 97 121 125 129 133 137 2 15 93 87 90 131 124 19 26 31 36 41 46 112 64 88 111 140 136 37 70 17 43 101 42 40 146 150 76 7 13 79 82 104 106 108 110 113 118 75 48 30 3 139 109 73 10 52 29 22 45 100 25 99 128 89 92 115 120 60 34 38 98 105 107 140 Hasil Cluster 18 61 71 74 77 80 83 86 32 Total Cluster 9 Cluster 3 (Hitam) Hasil Cluster 114 Total Cluster 1

(184) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 165 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.0113 Cluster 1 (Biru) Hasil Cluster 4 9 62 14 38 55 58 121 125 129 133 137 95 97 60 114 Cluster 2 (Merah) Total Cluster 16 Total Cluster Hasil Cluster 1 16 6 21 102 119 117 69 12 27 96 116 145 35 132 47 51 50 17 89 92 115 39 44 65 68 5 33 84 144 148 135 11 85 24 72 123 78 141 63 49 53 56 59 143 66 91 54 103 94 8 149 23 20 67 28 57 81 147 127 122 126 130 134 138 142 2 37 15 93 87 90 131 26 31 36 41 46 112 124 101 70 88 111 140 139 30 3 40 146 150 43 136 19 64 42 76 7 13 79 82 104 106 108 Cluster 3 (Hijau) 110 113 118 48 75 109 10 52 73 99 29 128 117 Hasil Cluster 18 61 71 74 77 80 83 86 32 22 45 100 25 34 98 105 107 Total Cluster 17

(185) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 166 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2505 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 62 14 95 38 8 149 20 67 23 28 57 122 126 130 134 138 142 127 147 55 58 97 121 125 129 133 137 60 1 16 6 21 102 119 117 11 69 49 53 56 59 143 54 12 103 91 94 24 85 72 123 141 78 81 84 144 148 135 66 63 33 5 17 89 92 115 120 27 35 132 47 51 96 116 145 50 39 44 65 68 2 90 131 15 93 87 19 64 26 31 36 41 46 112 88 111 140 124 101 70 30 42 76 139 3 136 7 13 79 82 104 106 108 110 113 118 40 146 150 48 75 109 10 52 99 73 128 22 45 100 25 29 34 137 Hasil Cluster 114 Total Cluster 1 Cluster 3 (Biru) Hasil Cluster 18 32 61 71 74 77 80 83 86 98 105 107 Total Cluster 12

(186) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 167 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.9583 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 121 125 129 133 137 81 84 144 95 97 114 102 72 127 123 8 11 67 1 16 21 145 116 148 49 53 56 59 58 135 119 149 57 24 55 147 20 85 122 126 130 134 138 142 66 23 117 38 96 78 28 60 141 69 63 91 143 33 54 103 51 12 132 5 94 47 35 27 39 44 65 68 50 131 17 90 89 92 115 120 2 124 93 15 37 87 3 7 10 18 32 71 74 77 80 83 86 61 98 105 100 107 45 29 34 22 25 82 79 128 104 106 108 110 113 118 75 13 52 73 48 99 146 150 109 40 111 43 136 64 140 30 88 101 26 31 36 41 46 112 76 19 42 148 Hasil Cluster 139 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 70 Total Cluster 1

(187) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 168 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3961 Cluster 1 (Biru) Total Cluster Hasil Cluster 4 9 14 62 121 125 129 133 137 81 84 144 135 85 11 119 148 123 57 72 102 28 49 53 56 59 127 95 97 114 149 147 60 8 58 55 23 141 20 67 78 38 122 126 130 134 138 142 54 103 33 91 5 132 51 94 1 16 21 145 116 24 117 143 69 63 66 96 12 35 47 50 27 39 44 65 68 17 Cluster 2 (Merah) 89 92 115 120 87 15 90 131 93 101 89 Hasil Cluster 2 37 70 26 31 36 41 46 112 124 30 88 140 42 76 139 Total Cluster 16 Cluster 3 (Hijau) Hasil Cluster 3 80 43 83 7 86 146 61 150 98 48 105 75 45 109 100 10 107 82 22 13 25 73 29 79 34 104 128 106 19 108 40 110 111 113 136 118 64 52 99 18 32 71 74 77 Total Cluster 45

(188) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 169 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5698 Cluster 1 (Biru) Total Cluster Hasil Cluster 4 9 14 62 121 125 129 133 137 81 84 144 95 97 114 67 148 8 58 149 72 102 85 135 123 55 57 20 49 53 56 59 147 1 16 6 21 145 116 127 11 119 24 117 28 23 38 122 126 130 134 138 142 78 141 60 66 143 63 69 54 91 103 33 96 51 12 47 94 5 13 35 27 50 29 44 65 68 Cluster 2 (Merah) 17 89 92 115 120 2 90 131 15 93 87 89 Hasil Cluster 19 26 31 36 41 46 112 30 88 124 140 101 37 139 70 Total Cluster 15 Cluster 3 (Hijau) Hasil Cluster 3 13 43 73 7 79 10 82 18 104 32 106 71 108 74 110 77 113 80 118 83 48 86 146 61 150 98 109 105 40 100 111 45 136 107 64 22 42 25 76 29 34 75 128 52 99 Total Cluster 46

(189) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 170 Tabel Pengujian Covariance 150 x 100 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.6042 3.0113 3.2505 3.9583 3.3961 3.5698 Hasil Cluster 1 2 3 140 9 1 117 16 17 137 1 12 148 1 1 89 16 45 89 15 46 Sum of Square Error Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 3,95 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Cosine Complete Cosine Average Average Linkage Linkage Linkage Linkage

(190) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 171 JARAK KEDEKATAN 2. Normalisasi Z-Score A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7458 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 62 1 6 21 116 145 102 84 40 111 87 79 81 11 144 127 90 16 119 51 95 131 100 5 132 128 25 30 82 45 72 97 124 135 121 125 129 133 137 96 148 15 49 53 56 59 35 26 31 36 41 46 112 93 140 71 74 77 80 83 86 104 106 108 110 113 118 10 117 85 75 24 91 66 50 2 122 126 130 134 138 142 37 43 146 150 69 143 48 20 136 98 47 42 63 19 141 67 7 13 22 76 29 34 39 44 65 66 68 57 17 12 94 78 33 105 73 64 139 149 147 32 3 55 8 61 23 18 52 27 109 58 101 54 103 28 114 70 38 92 115 120 107 148 Hasil Cluster 99 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(191) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 172 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 2.9351 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 14 62 1 116 145 6 21 145 11 90 81 84 102 87 16 40 111 127 5 79 119 123 131 148 35 25 132 71 74 77 80 83 86 10 45 82 100 124 128 140 15 30 93 96 135 143 50 20 63 69 19 117 121 125 129 133 137 26 31 36 41 46 112 51 104 106 108 110 113 118 49 53 56 59 122 126 130 134 138 142 146 150 91 22 42 66 72 75 57 2 37 47 7 17 13 136 24 85 88 43 67 94 95 97 33 141 55 8 58 149 28 23 78 52 73 103 114 27 38 54 99 3 12 32 96 64 105 48 76 109 61 139 147 70 101 18 138 Hasil Cluster 29 34 39 44 65 68 89 92 115 120 107 Total Cluster 11 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(192) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 173 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.4277 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 116 145 40 111 11 81 84 102 127 144 90 87 16 79 119 5 123 131 88 30 135 100 82 148 96 25 132 93 124 128 15 45 35 140 71 74 77 80 83 86 10 117 121 125 129 133 137 49 53 56 59 26 31 36 41 46 112 51 104 106 108 110 113 118 95 97 85 66 72 75 24 50 20 143 91 2 37 42 47 19 122 126 130 134 138 142 146 150 7 63 69 98 43 67 136 22 48 57 141 13 17 94 3 12 94 3 12 33 76 78 29 34 39 44 65 68 149 32 55 64 139 147 8 73 105 27 61 52 54 101 23 58 109 103 70 28 89 92 115 120 38 114 99 18 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(193) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 174 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7450 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 1 18 79 145 116 6 21 51 11 40 111 128 124 16 45 119 43 67 72 75 81 84 87 102 109 48 123 131 139 76 94 95 97 144 90 105 25 35 73 91 132 146 150 136 30 82 127 147 69 24 2 32 37 42 47 7 23 100 13 15 17 22 85 88 63 140 10 148 98 66 122 126 130 134 138 142 114 5 61 107 141 50 55 96 135 33 64 3 12 93 19 117 121 125 129 133 137 26 31 36 41 46 112 104 106 108 110 113 118 29 34 39 44 65 68 20 70 52 54 49 53 56 59 57 60 101 58 149 143 89 92 115 120 27 38 99 8 28 103 140 Hasil Cluster 4 9 14 62 Total Cluster 4 Cluster 3 (Hitam) Hasil Cluster 71 74 77 80 83 66 Total Cluster 6

(194) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 175 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.1697 Cluster 1 (Merah) Hasil Cluster 2 61 7 107 17 27 22 42 32 37 25 132 35 50 71 74 77 80 83 86 30 47 103 3 12 93 52 54 99 Total Cluster 29 Cluster 2 (Hijau) Hasil Cluster 6 110 21 113 91 118 51 29 146 34 140 39 100 44 122 65 126 68 130 49 134 53 138 56 142 59 19 26 31 36 41 46 112 89 92 115 120 104 106 108 Total Cluster 40 Cluster 3 (Biru) Hasil Cluster 4 9 14 62 23 78 5 127 20 81 102 38 96 135 117 121 125 129 133 137 15 55 43 67 48 139 76 109 70 28 64 58 149 94 95 97 114 57 60 63 60 66 72 75 1 16 11 116 144 84 87 143 8 24 85 88 148 33 141 10 98 82 40 111 45 124 128 140 90 105 13 18 73 101 79 145 119 123 131 147 Total Cluster 81

(195) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 176 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.3016 Cluster 1 (Merah) Total Cluster Hasil Cluster 4 9 14 62 1 16 116 148 143 35 50 85 88 8 24 5 127 20 81 102 84 87 94 95 97 144 114 33 141 38 96 135 3 12 15 55 30 47 103 93 10 98 40 111 45 124 128 82 140 25 132 90 105 101 136 13 18 79 145 73 43 67 70 23 48 139 76 109 123 131 147 61 107 28 64 58 149 2 32 37 42 Cluster 2 (Biru) 7 17 27 22 66 72 75 78 63 69 57 60 52 54 99 98 Hasil Cluster 71 74 77 80 83 86 Total Cluster 6 Cluster 3 (Hijau) Hasil Cluster 6 92 21 115 91 120 51 29 146 34 150 39 122 44 126 65 130 68 134 49 138 53 142 56 100 59 19 117 26 121 31 125 36 129 41 133 46 137 112 104 106 108 110 113 118 89 Total Cluster 46

(196) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 177 Tabel Pengujian Covariance 150x100 No Normalisasi 1 2 3 4 5 6 Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage Z-Score 3.7458 2.9351 3.4277 3.7450 3.1697 3.3016 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 140 4 6 29 40 81 98 6 46 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Average Linkage Linkage Cosine Complete Linkage Cosine Average Linkage Gabungan Uji Coba Data Covariance 150x100 Sum of Square Error Sum of Square Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 4,2 4,1 4 3,9 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 3,6042 3,0113 3,2505 3,9583 3,3961 3,5698 Normalisasi Z-Score 3,7458 2,9351 3,4277 3,745 3,1697 3,3016

(197) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 178 JARAK KEDEKATAN Covariance : 150x150 1. Normalisasi Min-Max A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5439 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 62 14 1 16 119 117 11 49 53 56 59 72 123 85 24 145 81 84 144 148 135 47 51 96 116 132 147 78 141 35 69 143 66 57 103 54 91 63 12 122 126 130 134 142 33 28 94 50 39 44 65 68 8 20 67 149 6 21 102 27 23 5 55 58 97 121 125 129 133 137 2 37 90 131 19 26 31 36 41 46 112 64 88 111 140 136 124 70 101 15 93 87 43 42 76 30 17 3 139 7 13 79 82 104 106 108 110 113 118 75 146 150 48 109 73 10 52 29 22 45 100 25 99 128 89 92 115 120 127 95 60 40 34 38 98 105 107 140 Hasil Cluster 18 61 71 74 77 80 83 86 32 Total Cluster 9 Cluster 3 (Hitam) Hasil Cluster 114 Total Cluster 1

(198) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 179 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 2.9997 Cluster 1 (Merah) Hasil Cluster 1 16 119 117 69 12 27 6 21 102 17 89 92 115 120 39 44 65 68 35 47 132 51 96 116 145 50 5 11 85 24 72 123 78 141 63 49 53 56 59 143 66 91 54 103 94 28 57 81 147 122 126 130 134 138 142 127 33 84 144 148 135 2 37 15 93 87 90 131 26 31 36 41 46 112 124 101 70 88 111 140 139 30 3 7 146 150 19 64 42 76 43 136 40 48 109 10 52 73 99 29 13 79 82 Cluster 2 (Biru) Total Cluster 104 106 108 110 113 118 75 128 112 Hasil Cluster 4 9 62 14 38 95 8 149 23 20 67 55 58 97 121 125 129 133 137 60 114 Total Cluster 21 Cluster 3 (Hijau) Hasil Cluster 18 61 71 74 77 80 83 86 32 22 45 100 25 34 98 105 Total Cluster 17

(199) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 180 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.241 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 62 14 95 38 8 149 20 67 23 55 58 97 121 125 129 133 137 60 1 16 119 117 69 12 11 85 24 72 123 49 53 56 59 78 141 143 66 103 63 54 91 94 6 21 102 5 28 57 122 126 130 134 138 142 81 147 84 144 148 135 127 33 2 37 90 131 15 93 87 101 124 19 26 31 36 41 46 112 88 111 140 70 139 30 3 42 76 43 136 64 40 17 89 92 115 120 27 35 47 132 51 96 116 145 50 39 44 65 68 7 13 79 82 104 106 108 110 113 118 75 146 150 109 128 48 10 52 99 73 29 22 45 100 25 34 137 Hasil Cluster 114 Total Cluster 1 Cluster 3 (Biru) Hasil Cluster 18 32 61 71 74 77 80 83 86 98 105 107 Total Cluster 12

(200) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 181 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.926 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 26 31 36 41 46 112 64 88 111 136 140 30 1 16 4 9 14 62 121 125 129 133 137 84 144 81 97 8 95 114 67 72 11 49 53 56 59 58 123 148 135 149 55 119 147 20 85 57 23 24 116 96 38 122 126 130 134 138 142 127 28 60 117 78 145 141 143 33 66 69 63 103 54 91 6 21 102 12 51 132 5 94 47 35 27 39 44 65 68 50 17 90 131 2 89 92 115 120 124 15 37 93 87 19 101 3 7 10 18 32 71 74 77 80 83 86 61 98 105 107 29 34 45 100 22 25 79 82 128 104 `06 108 110 113 118 75 13 52 73 99 48 146 150 109 43 40 76 42 148 Hasil Cluster 70 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 139 Total Cluster 1

(201) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 182 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.398 Cluster 1 (Merah) Total Cluster Hasil Cluster 26 31 36 41 46 112 124 101 2 90 131 37 15 93 87 1 16 116 11 119 24 117 66 143 69 143 69 12 4 9 14 62 121 125 129 133 137 67 81 148 85 135 72 123 84 144 97 147 28 49 53 56 59 78 141 54 103 8 58 55 23 20 95 114 119 38 122 126 130 134 138 142 57 60 63 33 91 27 5 132 51 Cluster 2 (Hijau) 94 35 47 96 127 145 50 6 21 102 17 39 44 65 68 89 92 115 120 98 Hasil Cluster 3 43 136 19 64 42 76 30 88 111 140 70 139 Total Cluster 13 Cluster 3 (Biru) Hasil Cluster 7 128 146 13 150 73 48 79 75 82 109 104 10 106 25 108 22 110 45 113 100 118 18 40 32 71 74 77 80 83 86 61 98 105 107 29 34 52 99 Total Cluster 39

(202) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 183 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5763 Cluster 1 (Hijau) Total Cluster Hasil Cluster 1 16 116 11 119 24 117 96 66 4 9 14 62 121 125 129 133 137 81 84 144 97 67 8 58 148 95 114 149 20 55 85 135 72 123 49 53 56 59 147 28 57 60 23 38 122 126 130 134 138 142 78 141 143 63 54 103 91 69 33 127 145 12 51 94 5 132 6 21 102 35 47 27 50 39 44 65 68 17 89 92 Cluster 2 (Merah) 115 120 2 90 131 37 124 15 93 87 101 70 93 Hasil Cluster 26 31 36 41 46 112 88 111 140 30 19 64 136 42 76 139 Total Cluster 16 Cluster 3 (Biru) Hasil Cluster 3 79 43 82 7 104 10 106 22 108 45 110 100 113 18 118 32 73 71 48 74 146 77 150 80 109 83 40 86 61 98 105 107 25 29 34 128 75 52 99 13 Total Cluster 41

(203) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 184 Tabel Pengujian Covariance 150 x 150 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5439 2.9997 3.2410 3.9260 3.3980 3.5763 Hasil Cluster 1 2 3 140 9 1 11 21 17 137 1 12 148 1 1 13 39 98 41 16 93 Sum of Square Error Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 4 3,9 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Cosine Complete Cosine Average Average Linkage Linkage Linkage Linkage

(204) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 185 JARAK KEDEKATAN 2. Normalisasi Z-Score (150x150 s/d 150x900 sama hasilnya) A. Jarak Euclidean a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7369 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 40 111 102 116 145 84 87 81 16 79 144 90 127 119 51 132 5 88 131 128 82 100 45 95 124 25 30 72 121 125 129 133 137 96 123 135 97 15 148 35 49 56 59 53 93 140 26 31 36 41 46 112 10 117 104 106 108 110 113 118 85 24 71 74 77 80 83 86 66 91 75 50 2 43 146 150 122 126 130 134 138 142 48 37 143 69 136 20 98 19 47 42 63 13 7 76 94 141 67 22 57 12 17 29 34 39 44 65 68 78 105 33 73 32 139 147 64 149 3 55 61 8 23 18 109 27 54 52 101 58 103 28 114 70 89 92 115 120 38 107 148 Hasil Cluster 99 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(205) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 186 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 2.9705 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 14 62 1 11 116 145 16 21 127 5 81 102 90 79 119 123 131 40 111 84 87 88 148 15 30 93 82 100 96 135 35 10 45 25 132 124 128 140 143 50 71 74 77 80 83 86 20 63 69 19 117 121 125 129 133 137 26 31 36 41 46 112 51 104 106 108 110 113 118 49 56 59 53 122 126 130 134 138 142 146 140 91 57 42 7 47 17 33 141 13 136 24 85 43 67 94 95 97 8 55 58 149 28 23 66 72 75 78 52 73 103 114 27 38 54 99 3 12 32 64 105 22 48 98 76 109 61 139 147 70 101 18 138 Hasil Cluster 29 34 39 44 65 68 89 92 115 120 107 Total Cluster 11 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(206) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 187 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.379 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 4 9 14 62 1 6 21 11 116 145 102 40 111 16 84 87 144 127 90 81 5 119 79 88 135 123 131 82 148 96 30 93 25 132 100 124 128 15 35 140 10 45 117 121 125 129 133 137 26 31 36 41 46 112 51 104 106 108 110 113 118 49 56 59 53 95 97 85 71 74 77 80 83 66 72 75 24 50 20 143 91 19 2 37 42 47 7 122 126 130 134 138 142 146 150 63 69 98 136 43 67 22 48 57 141 13 17 94 3 12 33 78 76 29 34 39 44 65 68 149 32 55 64 139 147 8 73 27 105 61 52 54 101 23 58 109 103 70 28 89 92 115 120 38 114 99 18 148 Hasil Cluster 107 Total Cluster 1 Cluster 3 (Hitam) Hasil Cluster 60 Total Cluster 1

(207) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 188 JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.6109 Cluster 1 (Merah) Cluster 2 (Hitam) Total Cluster Hasil Cluster 65 68 39 44 34 29 19 117 121 125 133 137 26 31 36 41 46 112 104 106 108 110 113 118 6 21 51 146 150 122 126 130 134 138 142 91 1 16 148 2 32 37 42 47 7 48 131 139 123 76 72 75 109 147 78 17 119 22 23 102 10 11 40 111 124 128 45 18 79 43 67 145 73 24 13 25 132 5 116 90 105 81 84 87 61 107 82 66 136 63 69 85 88 98 94 95 97 144 114 30 127 35 3 12 15 55 140 100 93 96 135 20 70 52 54 50 57 60 101 58 149 33 141 89 92 115 120 27 64 38 99 8 49 56 59 53 143 103 4 9 14 62 143 Hasil Cluster 28 Total Cluster 1 Cluster 3 (Biru) Hasil Cluster 71 74 77 80 83 86 Total Cluster 6

(208) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 189 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.174 Cluster 1 (Merah) Hasil Cluster 65 68 39 44 29 34 56 59 53 51 146 150 19 26 31 36 41 46 112 89 92 115 120 104 106 108 110 113 118 2 7 17 22 42 32 37 100 122 126 130 134 138 142 3 12 3 12 84 87 93 8 24 15 55 Cluster 2 (Biru) Total Cluster 43 67 27 109 114 57 60 63 69 66 72 75 78 66 Hasil Cluster 1 5 16 23 11 20 145 38 116 127 144 96 143 135 85 6 88 21 148 91 33 117 141 121 28 125 64 129 58 133 149 137 94 95 97 119 123 4 9 14 62 81 102 Total Cluster 43 Cluster 3 (Hijau) Hasil Cluster 10 132 45 35 98 50 82 40 124 11 128 71 140 74 90 77 105 80 13 83 18 86 79 30 73 47 70 103 101 136 48 131 76 139 147 52 54 99 61 107 25 Total Cluster 41

(209) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 190 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.2519 Cluster 1 (Hijau) Hasil Cluster 65 36 68 41 39 46 44 112 29 104 34 106 49 108 56 110 59 113 53 118 6 89 21 92 91 115 51 120 146 117 150 121 122 125 126 129 130 133 134 137 138 142 100 19 26 31 Cluster 2 (Merah) Total Cluster 46 Hasil Cluster 1 16 11 145 116 119 123 85 88 148 143 35 50 8 24 94 95 97 144 33 141 3 12 109 114 15 55 5 23 48 131 139 76 147 20 38 127 96 135 10 45 98 82 40 111 124 128 140 90 105 101 136 13 18 79 73 43 67 70 61 107 28 64 58 149 52 54 99 2 32 37 42 7 17 27 22 66 72 Cluster 3 (Biru) Total Cluster 75 78 63 69 81 102 84 87 57 60 25 132 30 47 103 93 94 Hasil Cluster 4 9 14 62 71 74 77 80 83 86 Total Cluster 10

(210) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 191 Tabel Pengujian Covariance 150x150 No 1 2 3 4 5 6 Normalisasi Z-Score Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7369 2.9705 3.3790 3.6109 3.1740 3.2519 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 143 1 6 43 41 66 94 10 46 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Cosine Average Linkage Linkage Gabungan Uji Coba Data Covariance 150x150 Sum of Sqaure Error Sum of Square Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 3,95 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage 3,241 3,926 3,398 3,5763 3,379 3,6109 3,174 3,2519 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Normalisasi Min Max 3,5439 2,9997 Normalisasi Z-Score 3,7369 2,9705

(211) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 192 Covariance : 150x300 1. Normalisasi Min-Max A. Jarak Euclidean Normalisasi Min-Max dengan Jarak Euclidean (150x300 s/d 150x900 sama hasilnya) JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7778 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 65 68 39 44 1 16 119 117 11 49 53 56 59 72 123 85 24 145 81 84 144 148 135 47 51 96 116 132 147 78 141 35 69 143 66 57 103 54 91 63 12 22 122 126 130 134 138 142 33 28 94 50 8 20 67 149 6 21 102 27 23 5 55 58 97 121 125 129 133 137 2 37 90 131 19 26 31 36 41 46 112 64 88 111 140 136 124 70 101 15 93 87 43 42 76 30 17 3 139 7 13 79 82 104 106 108 110 113 118 75 146 150 48 109 73 10 52 29 22 45 100 25 99 128 89 92 115 120 127 95 60 40 34 4 9 62 14 38 98 105 107 140 Hasil Cluster 18 61 71 74 77 80 83 86 32 Total Cluster 9 Cluster 3 (Hitam) Hasil Cluster 114 Total Cluster 1

(212) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 193 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.4719 Cluster 1 (Merah) Hasil Cluster 65 68 39 44 17 89 92 115 120 35 47 132 51 96 116 145 50 1 16 119 117 69 12 27 6 21 102 5 11 85 24 72 123 78 141 63 49 52 56 59 143 66 91 54 103 94 28 57 81 147 122 126 130 134 138 142 127 33 84 144 148 135 2 37 15 93 87 90 131 26 31 36 41 46 112 124 101 70 88 111 140 139 30 3 7 146 150 19 64 42 76 43 136 40 48 109 10 52 73 99 29 13 79 82 Cluster 2 (Biru) Total Cluster 104 106 108 110 113 118 75 128 112 Hasil Cluster 4 9 62 14 38 95 8 149 23 20 67 55 58 97 121 125 129 133 137 60 114 Total Cluster 21 Cluster 3 (Hijau) Hasil Cluster 18 61 71 74 77 80 83 86 32 22 45 100 25 34 98 105 107 Total Cluster 17

(213) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 194 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.6002 Cluster 1 (Biru) Hasil Cluster 65 68 39 44 35 47 132 51 96 116 145 50 27 17 89 92 115 120 2 37 90 131 15 93 87 101 124 19 26 31 36 41 46 112 88 111 140 70 139 30 3 42 76 43 136 64 40 7 13 79 82 104 106 108 110 113 118 75 146 150 109 128 48 10 52 99 73 29 22 45 100 25 34 Cluster 2 (Merah) Total Cluster 73 Hasil Cluster 1 16 119 117 69 12 11 85 24 72 123 49 53 56 59 78 141 143 66 63 103 54 91 94 6 21 102 5 28 57 122 126 130 134 138 142 81 147 84 144 148 135 127 33 4 9 62 14 95 38 8 149 20 67 23 55 58 97 121 125 129 133 137 60 114 Cluster 3 (Hijau) Total Cluster 65 Hasil Cluster 18 32 61 71 74 77 80 83 86 98 105 107 Total Cluster 12

(214) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 195 Tabel Pengujian Covariance 150 x 300 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5439 2.9997 3.2410 3.7778 3.4719 3.6002 Hasil Cluster 1 2 3 140 9 1 112 21 17 137 1 12 140 9 1 112 21 17 65 73 12 Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 3,85 Sum of Square Error 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Average Linkage Linkage Cosine Complete Linkage Cosine Average Linkage

(215) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 196 2. Normalisasi Z-Score (150x150 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150x150 No Normalisasi 1 2 3 4 5 6 Z-Score Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7369 2.9705 3.3790 3.6109 3.1740 3.2519 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 143 1 6 43 41 66 94 10 46 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Cosine Complete Cosine Average Linkage Linkage Linkage Gabungan Uji Coba Data Covariance 150x300 Sum of Square Error Sum of Square Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 3,5439 2,9997 3,241 3,7778 3,4719 3,6002 Normalisasi Z-Score 3,7369 2,9705 3,379 3,6109 3,174 3,2519

(216) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 197 Covariance : 150x500 1. Normalisasi Min-Max A. Jarak Euclidean Normalisasi Min-Max dengan Jarak Euclidean (150x300 s/d 150x900 sama hasilnya) JARAK KEDEKATAN B. Jarak Cosine a. Single Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.7703 Cluster 1 (Merah) Cluster 2 (Biru) Total Cluster Hasil Cluster 4 9 62 14 1 16 119 117 11 49 53 56 59 72 123 85 24 145 81 84 144 148 135 47 51 96 116 132 147 78 141 35 69 143 66 57 103 54 91 63 12 122 126 130 134 138 142 33 28 94 50 39 44 65 68 8 20 67 149 6 21 102 27 23 5 55 97 121 125 129 133 137 2 37 90 131 19 26 31 36 41 46 112 64 88 111 140 136 124 70 101 15 93 87 43 42 76 30 17 3 139 7 13 79 82 104 106 108 110 113 118 75 146 150 48 109 73 10 52 29 22 45 100 25 99 128 89 92 115 120 127 95 60 40 34 38 98 105 107 140 Hasil Cluster 18 61 71 74 77 80 83 86 32 Total Cluster 9 Cluster 3 (Hitam) Hasil Cluster 114 Total Cluster 1

(217) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 198 JARAK KEDEKATAN b. Complete Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.4653 Cluster 1 (Merah) Hasil Cluster 1 16 119 69 12 27 102 17 89 92 115 120 39 44 65 68 35 47 132 51 96 116 145 50 5 11 85 24 72 123 78 141 63 49 53 56 59 143 66 91 54 103 94 28 57 81 147 122 126 130 134 138 142 127 33 84 144 148 135 2 37 15 93 87 90 131 26 31 36 41 46 112 124 101 70 88 111 140 139 30 3 7 146 150 19 64 42 76 43 136 40 48 109 10 52 73 99 29 13 79 82 104 106 108 Cluster 2 (Biru) Total Cluster 110 113 118 75 128 112 Hasil Cluster 4 9 62 14 38 95 8 149 23 20 67 55 58 97 121 125 129 133 137 60 114 Total Cluster 21 Cluster 3 (Hijau) Hasil Cluster 18 61 71 74 77 80 83 86 32 22 45 100 25 34 98 105 107 Total Cluster 17

(218) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 199 JARAK KEDEKATAN c. Average Linkage - Dendrogram KELOMPOK - Hasil Cluster Error : 3.5922 Cluster 1 (Merah) Hasil Cluster 4 9 62 14 95 38 8 149 20 67 23 55 58 97 121 125 129 133 137 60 1 16 119 117 69 12 11 85 24 72 123 49 53 56 59 78 141 143 66 63 103 54 91 94 6 21 102 5 28 57 122 126 130 134 138 142 81 147 84 144 148 135 127 33 114 Cluster 2 (Biru) Total Cluster 65 Hasil Cluster 2 37 90 131 15 93 87 101 124 19 26 31 36 41 46 112 88 111 140 70 139 30 42 76 43 136 64 40 17 89 92 115 120 27 35 47 132 51 96 116 145 50 39 44 65 68 7 13 79 82 104 106 108 110 113 118 75 146 150 109 128 48 10 52 99 73 29 22 45 100 25 34 Cluster 3 (Hijau) Total Cluster 73 Hasil Cluster 18 32 61 71 74 77 80 83 86 98 105 107 Total Cluster 12

(219) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 200 Tabel Pengujian Covariance 150 x 500 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5439 2.9997 3.2410 3.7703 3.4653 3.5922 Hasil Cluster 1 2 3 140 9 1 112 21 17 137 1 12 140 9 1 112 21 17 65 73 12 Sum of SquareError Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Cosine Complete Cosine Average Average Linkage Linkage Linkage Linkage

(220) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 201 2. Normalisasi Z-Score (150x150 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150x500 No Normalisasi 1 2 3 4 5 6 Z-Score Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7369 2.9705 3.3790 3.6109 3.1740 3.2519 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 143 1 6 43 41 66 94 10 46 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Cosine Complete Cosine Average Average Linkage Linkage Linkage Linkage Gabungan Uji Coba Data Covariance 150x500 Sum of Square Error Sum of Sqaure Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 3,5439 2,9997 3,241 3,7778 3,4719 3,6002 Normalisasi Z-Score 3,7369 2,9705 3,379 3,6109 3,174 3,2519

(221) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 202 Covariance : 150x700 1. Normalisasi Min-Max A. Jarak Euclidean Normalisasi Min-Max dengan Jarak Euclidean (150x300 s/d 150x900 sama hasilnya) B. Jarak Cosine Normalisasi Min-Max dengan Jarak Cosine (150x500 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150 x 700 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5439 2.9997 3.2410 3.7703 3.4653 3.5922 Hasil Cluster 1 2 3 140 9 1 112 21 17 137 1 12 140 9 1 112 21 17 65 73 12 Sum of Square Error Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 3,85 3,75 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage

(222) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 203 2. Normalisasi Z-Score (150x150 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150x700 No Normalisasi 1 2 3 4 5 6 Z-Score Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage 3.7369 2.9705 3.3790 3.6109 3.1740 3.2519 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 143 1 6 43 41 66 94 10 46 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Average Linkage Linkage Cosine Complete Linkage Cosine Average Linkage Gabungan Uji Coba Data Covariance 150x700 3,85 3,75 Sum of Square Error Sum of Square Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 3,65 3,55 3,45 3,35 3,25 3,15 3,05 2,95 2,85 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 3,5439 2,9997 3,241 3,7703 3,4653 3,5922 Normalisasi Z-Score 3,7369 2,9705 3,379 3,6109 3,174 3,2519

(223) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 204 Covariance : 150x900 1. Normalisasi Min-Max A. Jarak Euclidean Normalisasi Min-Max dengan Jarak Euclidean (150x300 s/d 150x900 sama hasilnya) B. Jarak Cosine Normalisasi Min-Max dengan Jarak Cosine (150x500 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150 x 900 No Normalisasi 1 2 3 4 5 6 Jarak Euclidean Min-Max Cosine AHC Error Single Linkage Complete Linkage Average Linkage Single Linkage Complete Linkage Average Linkage 3.5439 2.9997 3.2410 3.7703 3.4653 3.5922 Hasil Cluster 1 2 3 140 9 1 112 21 17 137 1 12 140 9 1 112 21 17 65 73 12 Normalisasi Min Max Menggunakan Jarak Cosine dan Euclidean 4,3 Sum of Square Error 4,2 4,1 4 3,9 3,8 3,7 3,6 3,5 3,4 3,3 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Cosine Single Cosine Complete Cosine Average Average Linkage Linkage Linkage Linkage

(224) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 205 2. Normalisasi Z-Score (150x150 s/d 150x900 sama hasilnya) Tabel Pengujian Covariance 150x900 No Normalisasi 1 2 3 4 5 6 Jarak AHC Error Single Linkage Euclidean Complete Linkage Average Linkage Single Linkage Cosine Complete Linkage Average Linkage Z-Score 3.7369 2.9705 3.3790 3.6109 3.1740 3.2519 Hasil Cluster 1 2 3 148 1 1 138 11 1 148 1 1 143 1 6 43 41 66 94 10 46 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Cosine Complete Cosine Average Linkage Linkage Linkage Gabungan Uji Coba Data Covariance 150x900 Sum of Sqaure Error Sum of Square Error Normalisasi Z-Score Menggunakan Jarak Cosine dan Euclidean 4,3 4,2 4,1 4 3,9 3,8 3,7 3,6 3,5 3,4 3,3 3,2 3,1 3 2,9 2,8 Euclidean Single Linkage Euclidean Complete Linkage Euclidean Average Linkage Cosine Single Linkage Cosine Complete Linkage Cosine Average Linkage Normalisasi Min Max 4,1261 3,3526 4,0999 4,209 3,5164 4,176 Normalisasi Z-Score 3,6155 2,8883 3,1939 3,7829 3,2776 3,3696

(225)

Dokumen baru

Download (224 Halaman)
Gratis

Tags

Dokumen yang terkait

PENGELOMPOKAN DESCRIPTOR SURF UNTUK PEMBENTUKAN BAG OF VISUAL WORDS PADA CITRA SIDIK JARI DENGAN MENGGUNAKAN K-MEANS DAN HIERARCHICAL AGGLOMERATIVE CLUSTERING.
0
3
5
PENGELOMPOKAN CITRA KUPU-KUPU MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING.
3
14
10
PENGELOMPOKAN CITRA RAMBU LALU LINTAS DENGAN HIERARCHICAL AGGLOMERATIVE CLUSTERING BERBASIS SCALE INVARIANT FEATURE TRANSFORM.
0
7
7
PEMBANGUNAN SISTEM REKOMENDASI PENELUSURAN BUKU MENGGUNAKAN METODE PROBABILITAS BERBASIS WEB PEMBANGUNAN SISTEM REKOMENDASI PENELUSURAN BUKU MENGGUNAKAN METODE PROBABILITAS BERBASIS WEB.
0
4
8
PENGEMBANGAN REKOMENDASI PEMINJAMAN BUKU PERPUSTAKAAN MENGGUNAKAN ALGORITMA FP
0
0
1
PENGELOMPOKAN KINERJA DOSEN BERDASARKAN PENILAIAN MAHASISWA MENGGUNAKAN ALGORITMA CLUSTERING HIERARCHICAL
0
0
1
SISTEM REKOMENDASI PENGADAAN BUKU PADA BADAN ARSIP DAN PERPUSTAKAAN DAERAH PROVINSI JAWA TENGAH MENGGUNAKAN METODE FUZZY C-MEANS CLUSTERING - UDiNus Repository
0
0
8
SISTEM REKOMENDASI PENGADAAN BUKU PADA BADAN ARSIP DAN PERPUSTAKAAN DAERAH PROVINSI JAWA TENGAH MENGGUNAKAN METODE FUZZY C-MEANS CLUSTERING - UDiNus Repository
0
0
1
SISTEM REKOMENDASI PENGADAAN BUKU PADA BADAN ARSIP DAN PERPUSTAKAAN DAERAH PROVINSI JAWA TENGAH MENGGUNAKAN METODE FUZZY C-MEANS CLUSTERING - UDiNus Repository
0
0
1
SISTEM REKOMENDASI PENGADAAN BUKU PADA BADAN ARSIP DAN PERPUSTAKAAN DAERAH PROVINSI JAWA TENGAH MENGGUNAKAN METODE FUZZY C-MEANS CLUSTERING - UDiNus Repository
0
0
2
BUKU PROSIDING DAN REKOMENDASI DIALOG CE
0
0
14
OPTIMALISASI PENGELOMPOKAN KECAMATAN BERDASARKAN INDIKATOR PENDIDIKAN MENGGUNAKAN METODE CLUSTERING DAN DAVIES BOULDIN INDEX
0
0
5
ANALISIS DAN IMPLEMENTASI ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING UNTUK DETEKSI KOMUNITAS PADA MEDIA SOSIAL FACEBOOK ANALYSIS AND IMPLEMENTATION OF AGGLOMERATIVE HIERARCHICAL CLUSTERING ALGORITHM FOR COMMUNITY DETECTION IN SOCIAL MEDIA FACEBOOK
0
2
9
RANCANG BANGUN KLASTERISASI DATA CUACA DENGAN MENGGUNAKAN METODE HIERARCHICAL CLUSTERING DEVELOPMENT WEATHER DATA CLUSTERING USING METHODS HIERARCHICAL CLUSTERING
0
0
113
PENGELOMPOKAN KABUPATENKOTA DI JAWA TIMUR BERDASARKAN INDIKATOR PEMBANGUNAN EKONOMI MENGGUNAKAN MODEL-BASED CLUSTERING
0
0
95
Show more