Teknik Nearest Neighbor
Teknik prediksi clustering dan nearest neighbor adalah teknik-teknik yang paling lama digunakan diantara teknik-teknik lainnya dalam Data Mining. Nearest neighbor adalah teknik prediksi untuk memprediksi nilai dugaan apa yang terdapat di dalam sebuah record, mencari record dengan nilai penduga yang sama di dalam basis data historis dan menggunakan nilai dugaannya dari record yang "mendekati" de!lgl!!l record yang belurn diklasifikasikan.
Algoritma yang digunakan dalam prediksi nearest neighbor dapat dijelaskan sebagai, obyek-obyek yang "berdekatan" satu sama lain akan memiliki nilai perkiraan yang mirip. Dengan demikian, jika diketahui nilai perkiraan dari salah satu obyeknya, maka akan bisa memperkirakannya untuk obyek disekitarnya (nearest neighbor) (Berson, et a!., 2000, p136).
Dalam penerapannya pada dunia bisnis adalah, teknik prediksi ini digunakan untuk mencari dokumen lain yang membagi karakteristik-karakteristik penting dengan dokumen-dokumen lainnya yang sudah ditandai.
Aspek penting lainnya dari sistem yang digunakan untuk membuat prediksi adalah bahwa pengguna tidak hanya disediakan prediksinya saja, tetapi juga rasa kepercayaan dari hasil prediksinya. Nearest neighbor memberikan dua cara, yaitu:
I. Jarak yang dekat dengan objek disekitarnya dapat memberikan tingkat kepercayaan yang lebih, daripada jarak yang jauh dengan objek disekitarnya.
2. Tingkat persamaan diantara prediksi-prediksinya di dalam K nearest neighbor tinggi untuk semua objek disekitarnya merniliki prediksi yang sama merniliki tingkat kepercayaan yang sama, daripada prediksi setengahnya berbeda dengan setengah yang lain.
Teknik Clustering
Metode ini hampir sama dengan metode nearest neighbor, dimana metode ini melakukan pengelompokan pada beberapa record (clustering), dan biasanya diberikan kepada pengguna akhir untuk memberikan gambaran tentang apa yang teljadi di dalam basis data.
Clustering juga seringkali digunakan untuk mencari rata-rata (mean) dari segmentasi, dimana kebanyakan orang-orang pemasaran akan memberikan hal-hal yang
berguna untuk yang akan datang dengan sudut pandang yang luas dari bisnis.
Sebagai contoh pemakaian metode clustering pada dua sistem yang beljalan pada masing-masing perusahaan, yaitu sistem PRIZM pada Claritas Corporation, dan MicroVision pada Equifax Corporation.
Disini metode tersebut dipakai untuk melakukan pengelompokan pelanggan berdasarkan kategori profilnya ke dalam segmen-segmen yang diberi namanya sendiri sendiri yang mudah diingat, sehingga memudahkan pemakainya untuk dapat membaca situasi bisnisnya, dan menjalankan strategi direct marketing dan penjualan yang tepat.
Teknik Generasi Selanjutnya
Teknik yang digunakan dalam Data Mining pada generasi selanjutnya adalah teknik-teknik decision tree, neural networks dan rule induction.
Ketiga teknik ini adalah teknik-teknik yang paling sering dipakai dan dikembangkan selama dua dekade terakhir, dan bisa digunakan untuk menemukan informasi yang barn di dalam basis data yang besar, atau untuk membangun predictive model.
Decision Tree
Teknik ini adalah predictive model yang bisa dilihat dalam bentuk pohon. Secara spesifik, tiap cabangnya merupakan klasifikasi pertanyaan, dan daunnya merupakan pembagian-pembagian dari dataset dengan klasifikasinya.
Sebagai contohnya, untuk mengklasifrkasikan pelanggan yang tidak akan memeperbaharui kontrak telepon selulemya, maka decision tree-nya akan nampak
seperti pada Gambar 2.1 di bawah ini.
Teknologi telepon baru
50% tertarik
50% tidak tertarik
Lama berlangganan < 2.3 tabun Y-a-ng-la-in---
30% tertarik 20% tertarik
50% tidak tertarik 0% tidak tertarik
/
Usia pelanggan <55 tabun Yang lain
25% tertarik 5% tertarik
I 0% tidak tertarik 40% tidak tertarik
Gambar 2.1 Penggambaran Teknik Decision Trees
(Sumber: Berson, et a!., 2000, p157)
Pada tree diatas terdapat beberapa hal yang menarik, seperti:
1. Membagi data di setiap titik cabangnya tanpa kehilangan datanya Gum1ah dari total banyaknya record pada node parent yang sama dengan jumlah dari record yang terkandung di dalam kedua anaknya).
2. Jumlah dari orang-orang yang tidak tertarik dan yang tertarik berbanding terbalik pada saat naik atau turun tree-nya.
3. Memudahkan untuk mengerti bagaimana modelnya sedang dibangun (kontras dengan model dari neural network atau dari statistika yang standar).
4. Memudahkan untuk menggunakan modelnya, jika sudah mentargetkan pelanggannya yang sepertinya tidak tertarik dengan penawaran pemasaran.
5. Teknik Decision Trees ini juga dapat membangun beberapa intuisi tentang basis pelanggannya (sebagai contohnya, pelanggan yang sudah bersama selama dua tahun dan memiliki telepon selular yang up-to-date adalah pelanggan yang cukup loyal).
Decision tree ini akan berhenti berkembang pada saat sudah menemukan salah satu dari ketiga kriterianya:
1. Segmennya hanya memiliki satu record (tidak ada pertanyaan lain yang bisa ditanyakan nntuk mendaur sebuah segmen lebih lanjut yang hanya satu.).
2. Semua record di dalam segmen memiliki karakteristik yang serupa (tidak ada alasan untuk melanjutkan pertanyaan lebihjauh, karena semua record-nya adalah sama).
3. Pengembangannya tidak cukup penting untuk perlu menanyakan pertanyaan.
Penerapannya pada bisnis adalah, dengan struktur pohon dan kemampuannya untuk menghasilkan rule secara mudah, teknik ini merupakan teknik yang disukai dalam membangun model-model yang bisa dimengerti.
Selain itu juga, dengan automatisasi tingkat tingginya dan kemudahan dalam menerjemahkan model decision tree ke dalam SQL untuk menjalankannya di dalam basis data relasional. Hal ini hanya membutuhkan sedikit preprocessing dan cleansing dari data, atau extraction dari sebuah file dengan tujuan tertentu yang secara spesifik untuk Data Mining.