Analisis Novel Bulan Tere Liye dan Cerpen Karangan Sendiri
Analisis Novel Bulan Tere Liye dan Cerpen Karangan Sendiri
Disusun Untuk Memenuhi Tugas Mata Kuliah Bibliometrika
BAB II
KAJIAN PUSTAKA
2.1 Data Mining
Suatu proses pencarian-penentuan pola yang menarik dan tersembunyi dengan cara menganalisis adanya hubungan keterkaitan tertentu dari sejumlah kumpulan data yang tersimpan dalam suatu basis data. Proses analisa data mining antara lain klastering, asosiasi, pengklasifikasian dan prediksi, Anbarasi, dkk (2010). Hal ini bertujuan untuk efisiensi menentukan keputusan bisnis yang tepat. Maka dari itu, data mining dapat menemukan pengetahuan yang dapat digunakan oleh para penulis novel agar meningkatkan pangsa pasar (pembaca) dalam ekonomi global.2.2 Klastering
Suatu langkah-langkah untuk melakukan pengelompokkan data yang memungkinkan memiliki kemiripan tersendiri (similarity) dari satu data dengan data yang lain dalam suatu basis data, Santosa (2007). Prinsip utama metode ini adalah pengelompokan data-data atau kumpulan obyek ke dalam cluster sehingga dalam setiap cluster memungkinkan dapat berisi data yang mirip. Dengan metode ini berusaha untuk memposisikan data/obyek yang memungkinkan mirip (hampir berdekatan) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Oleh karena itu dapat diartikan bahwa data/obyek dalam satu cluster sangat mirip antara satu dengan lain dan bisa menunjukkan ketidaksamaan dengan data/obyek dalam beberapa cluster yang lain, Santosa (2007).Metode dalam data mining kali ini menggunakan metode hierarchical clustering dimulai dengan memperoleh cluster yang memiliki varians internal cluster yang sekecil mungkin.Biasanya metode ini biasa disebut dengan metode Ward, akan lanjut ke proses cluster dilakukan. Hasil cluster ini dengan menggunakan metode hierarchical clustering divisualisasikan dalam bentuk dendogram. Visualisasi dari metode hierarchical clustering dalam analisis cluster yang menunjukkan bagaimana cluster terbentuk dan nilai koefisien jarak pada setiap langkah disebut Dendogram. Angka disebelah kanan mendeskripsikan data/obyek penelitian. Saat data/objek tersebut dihubungkan oleh garis dengan obyek yang lain maka akan membentuk satu cluster, Simamora (2005).
Gambar 1. Contoh Dendogram Average Linkage (Between Group)
2.2.1 Metode Ward
Metode Ward memperhitungkan rata-rata untuk setiap cluster. Selanjutnya dihitung jarak Euclidean antara setiap data/obyek dan nilai rata-rata itu sendiri, lalu jarak itu dihitung semua. Metode Ward adalah suatu langkah pembentukan cluster yang berlandaskan dari proses cleaning informasi akibat penggabungan data/obyek menjadi cluster. Dua obyek ini akan digabungkan jika mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada. Jarak Euclidean yang dirumuskan sebagai berikut:
Xi j : Nilai untuk objek ke-I pada cluster ke j
P : Banyaknya variabel yang diukur
n : Banyaknya objek dalam cluster yang dibentuk
1. Unduh file dalam format pdf
2. Bagi chapter novel ke dalam satu file pdf, satu chapter menjadi satu file. Dalam novel Bulan terdapat 27 chapter sehingga file pdf berjumlah 27 file.
3. Masukan file pdf ke dalam satu folder "BULAN PDF"
4. Pada Orange tambahkan icon import document
5. Klik icon import dokumen lalu pilih folder berisi file pdf yang akan dianalis
P : Banyaknya variabel yang diukur
n : Banyaknya objek dalam cluster yang dibentuk
BAB III
METODE
3.1 Text Preprocessing
Dalam melakukan analisis text preprocessing kami menggunakan software Orange untuk membantu menemukan kata yang paling sering muncul dalam novel Bulan karya Tere Liye. Langkah-langkah yang dilakukan adalah :1. Unduh file dalam format pdf
2. Bagi chapter novel ke dalam satu file pdf, satu chapter menjadi satu file. Dalam novel Bulan terdapat 27 chapter sehingga file pdf berjumlah 27 file.
3. Masukan file pdf ke dalam satu folder "BULAN PDF"
4. Pada Orange tambahkan icon import document
5. Klik icon import dokumen lalu pilih folder berisi file pdf yang akan dianalis
6. Tarik garis dari icon import document lalu hubungkan dengan prepocess text
7. Klik prepocess text untuk mengatur stopwords pada file yang akan dianalisis Stopwords kita atur ke Bahasa Indonesia karena text yang akan kita analisis berbahasa Indonesia, jika hasil analisa masih memuncul kata yang dirasa tidak perlu ditampilkan maka dapat memasukan file txt yang berisi kata yang ingin dihilangkan dalam perhitungan.
7. Klik prepocess text untuk mengatur stopwords pada file yang akan dianalisis Stopwords kita atur ke Bahasa Indonesia karena text yang akan kita analisis berbahasa Indonesia, jika hasil analisa masih memuncul kata yang dirasa tidak perlu ditampilkan maka dapat memasukan file txt yang berisi kata yang ingin dihilangkan dalam perhitungan.
8. Kemudian tarik garis dari icon prepocess text lalu hubungkan dengan icon words cloud untuk menampilkan hasil analisa
1. Unduh file dalam format pdf
2. Bagi chapter novel ke dalam satu file pdf, satu chapter menjadi satu file. Dalam novel Bulan terdapat 27 chapter sehingga file pdf berjumlah 27 file.
3. Masukan file pdf ke dalam satu folder "Bulan PDF"
4. Pada Orange tambahkan icon import document
5. Klik icon import dokumen lalu pilih folder berisi file pdf yang akan dianalisis
3.2 Hierarki Clustering
Pada makalah ini metode yang akan digunakan adalah metode Ward. Alasan menggunakan metode Ward karena metode Ward adalah metode yang berdasarkan pada sum square error (SSE) dengan ukuran kehomogenan antara dua objek berdasarkan pada jumlah kuadrat kesalahan yang paling minimal. Metode Ward merupakan metode terbaik pada analisis cluster dengan metode hierarki karena metode ini dapat meminimumkan jumlah kuadrat (SSE). Langkah-langkah yang dilakukan adalah :1. Unduh file dalam format pdf
2. Bagi chapter novel ke dalam satu file pdf, satu chapter menjadi satu file. Dalam novel Bulan terdapat 27 chapter sehingga file pdf berjumlah 27 file.
3. Masukan file pdf ke dalam satu folder "Bulan PDF"
4. Pada Orange tambahkan icon import document
5. Klik icon import dokumen lalu pilih folder berisi file pdf yang akan dianalisis
6. Tarik garis dari icon import document lalu hubungkan dengan corpus viewer jika ingin melihat text. Jika tidak langsung saja hubungankan dengan icon prepocess text
7. Tarik garis dari icon prepocess text lalu hubungkan dengan icon bag of words
8. Tarik garis dari icon bag of words lalu hubungkan dengan icon distance
9. Tarik garis dari icon distance lalu hubungkan dengan icon hierarchical clustering untuk menampilkan analisa cluster
10. Klik icon hierarchical clustering untuk mengubah metode clustering ke metode ward dan mengubah notasi berdasarkan nama sehingga mudah untuk melihat pembagian cluster
Hasil dari pemrosesan text dengan stopwords menunjukkan bahwasannya kata yang paling sering muncul dalam novel adalah Ali dimana kata Ali berjumlah 798 kali tertulis dalam novel Bulan, selanjutnya kata Seli berjumlah 722 dan Ily berjumlah 507. Banyaknya kata yang paling sering muncul dalam novel dapat pula dilihat dari ukuran dalam words cloud.
Sedangkan hasil untuk gabungan ketiga cerpen karya penulis menunjukkan kata yang paling sering muncul adalah lebaran sebanyak 17 kali. Dapat juga dilihat pada words cloud bahwasannya kata yang paling sering muncul terletak di tengah dengan ukuran yang paling besar.
Hasil cluster novel Bulan menunjukan dua cluster besar. Dimana cluster pertama (C1) berisi chapter 6,7,8,9,11,16,17,24,25,26, dan 27 sedangkan cluster kedua (C2) berisi chapter 1,2,3,4,5,10,12,13,14,15,18,19,20,21,22, dan 23. Kedua cluster besar berisi cluster-cluster kecil yang saling berhubungan dimana chapterchapter tersebut memiliki hubungan yang lebih erat dengan tingkat kehomogenan yang lebih banyak seperti chapter 19 yang memiliki hubungan yang lebih erat dengan chapter 20 yang kemudian masih memiliki tingkat kehomogenan dengan hasil cluster kecil lainnya. Untuk cluster-cluster yang lebih spesifik dapat dilihat pada gambar di bawah.
8. Tarik garis dari icon bag of words lalu hubungkan dengan icon distance
9. Tarik garis dari icon distance lalu hubungkan dengan icon hierarchical clustering untuk menampilkan analisa cluster
10. Klik icon hierarchical clustering untuk mengubah metode clustering ke metode ward dan mengubah notasi berdasarkan nama sehingga mudah untuk melihat pembagian cluster
BAB IV
HASIL
4.1 Teks Preprocessing
4.1.1 Novel Bulan Tere Liye
Hasil dari pemrosesan text dengan stopwords menunjukkan bahwasannya kata yang paling sering muncul dalam novel adalah Ali dimana kata Ali berjumlah 798 kali tertulis dalam novel Bulan, selanjutnya kata Seli berjumlah 722 dan Ily berjumlah 507. Banyaknya kata yang paling sering muncul dalam novel dapat pula dilihat dari ukuran dalam words cloud.
4.1.2 Cerpen Karangan Sendiri
Sedangkan hasil untuk gabungan ketiga cerpen karya penulis menunjukkan kata yang paling sering muncul adalah lebaran sebanyak 17 kali. Dapat juga dilihat pada words cloud bahwasannya kata yang paling sering muncul terletak di tengah dengan ukuran yang paling besar.
4.1 Hierarki Clustering
4.2.1 Novel Bulan Tere Liye
Hasil cluster novel Bulan menunjukan dua cluster besar. Dimana cluster pertama (C1) berisi chapter 6,7,8,9,11,16,17,24,25,26, dan 27 sedangkan cluster kedua (C2) berisi chapter 1,2,3,4,5,10,12,13,14,15,18,19,20,21,22, dan 23. Kedua cluster besar berisi cluster-cluster kecil yang saling berhubungan dimana chapterchapter tersebut memiliki hubungan yang lebih erat dengan tingkat kehomogenan yang lebih banyak seperti chapter 19 yang memiliki hubungan yang lebih erat dengan chapter 20 yang kemudian masih memiliki tingkat kehomogenan dengan hasil cluster kecil lainnya. Untuk cluster-cluster yang lebih spesifik dapat dilihat pada gambar di bawah.
4.2.2 Cerpen Karangan Sendiri
Untuk hasil cluster gabungan ketiga cerpen penulis juga menunjukan dua cluster. Dimana Cerpen tulisan Wahyu tidak memiliki hubungan dengan cerpen karangan Risma dan Syifa. Sedangkan cerpen karangan Risma dan Syifa memiliki hubungan sehingga berada dalam satu cluster yang sama. Hal ini dikarenakan cerpen Wahyu tidak memiliki kesamaan atau tidak ada kehomogenan dengan cerpen Risma dan Syifa karena di dalamnya cerpen Wahyu berisi konten puasa ramdhan sedangkan cerpen Risma dan Syifa memiliki kehomogenan isi dimana berisi mengenai hari lebaran.
BAB V
PENUTUP
5.1 Kesimpulan
Dalam menganalisa dua referensi, kelompok kami menggunakan aplikasi Orange. Kedua referensi tersebut kami bandingkan dan ada dua hal yang ditampilkan, yaitu analisa antar cluster dan juga kata yang sering muncul dalam referensi. Referensi yang kita gunakan adalah novel Bulan Tere Liye dan cerpen karangan sendiri. Hasilnya pada novel Bulan kata yang sering muncul adalah Ali dimana kata Ali berjumlah 798 kali tertulis dalam novel Bulan, selanjutnya kata Seli berjumlah 722 dan Ily berjumlah 507. Sedangkan pada cerpen karangan sendiri, kata yang sering muncul adalah lebaran sebanyak 17 kali. Banyaknya kata yang sering muncul berdasarkan words cloud. Selanjutnya, hasil cluster novel Bulan menunjukan dua cluster besar. Dimana cluster pertama (C1) berisi chapter 6,7,8,9,11,16,17,24,25,26, dan 27 sedangkan cluster kedua (C2) berisi chapter 1,2,3,4,5,10,12,13,14,15,18,19,20,21,22, dan 23. Dalam cerpen karangan sendiri hasil clusternya adalah cluster gabungan ketiga cerpen karangan sendiri juga menunjukan dua cluster, yaitu adanya hubungan antara cerpen biblio lebaran (syifa) dan cerpen risma (risma) namun tidak dengan cerpen wahyu (wahyu).
Tag: Aplikasi Orange, bibliometrika, Data mining, Ilmu perpustakaan, klustering
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis.Yogyakarta: Graha Ilmu.
Bilson Simamora. (2005). Analisis Multivariat Pemasaran Edisi Pertama. Jakarta: PT. Gramedia Pustaka Utama.
Referensi
Anbarasi, M. Anupriya, E. & Iyengar, N. (2010). Enchaced Prediction of Heart Disease with Feature Subset Selection using Genetic Algorithm. International Journal of engineering Science and Technology, 5370-5376.
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis.Yogyakarta: Graha Ilmu.
Bilson Simamora. (2005). Analisis Multivariat Pemasaran Edisi Pertama. Jakarta: PT. Gramedia Pustaka Utama.