Data Mining menurut definisinya oleh William Frawley dan Gregory Piatetsk Shapiro pada pemyataannya di MIT Press tahun 1991, adalah sebagai sekumpulan teknik dalam menemukan po1a yang tersirat, dari suatu data yang be1um diketahui sebelumnya, yang mungkin bermanfaat (Berson, et a!., 2000, pp16-pp17).
Pengertian lain yang diambil dari buku Building Data Mining Aplications for CRM, mendefinisikan Data Mining sebagai proses yang efesien dari penemuan pola pola berharga yang tersirat atau tidak jelas dari sejumlah besar data. Data Mining itu sendiri, mengekstraksi informasi dari dalam basis data, yang bahkan pengguna sendiri pun tidak mengetahui akan keberadaannya (Berson, et a!., 2000, p487).
Data Mining itu sendiri bukan statistika. Jika dilihat dari sudut pandang statistika, walaupun menggunakan algoritma dasar yang dituruukan secara langsung dari statistika ataupun memiliki teknik dasar yang sama yang digunakan di dalam statistika.
Masih dari sudut pandang statistika, Data Mining dikemas dengan user interface, dan hasil keluarannya lebih kepada pengguna akhir yang menggunakan tools tersebut dengan pelatihan yang minimum, tetapi mengerti tentang data dan masalah bisnis secara baik. Berbeda dengan statistika, dimana hasil yang dihasilkan tersebut mungkin hanya dapat dimengerti oleh analis statistika saja (Berson, eta!., 2000, p91).
Data Mining berbeda dengan Data Mart, karena Data Mart itu sendiri lebih menjadi tempat yang penting untuk semua data dikumpulkan dan diorganisasikan sebanyak mungkin, dan kemudian harus dilakukan proses clean up sehingga tidak akan ada kesalahan-kesalahan di dalam datanya. Data-data yang sudah dilakukan proses clean up tersebut di dalam Data Mart akan sangat membantu di dalam menemukan potensi berharga apa yang harus dicari.
Data Mart memungkinkan untuk membangun gunung datanya, dan Data Mining memungkinkan untuk mengayak gunungnya hingga didapatkan informasi esensial yang berguna di dalam bisnis (Berson, et a!., 2000, p92).
Teknik Data Mining
Teknik-teknik yang digunakan Data Mining dalam memecahkan masalah bisnis yang dihadapi terbagi menjadi dua jenis teknik, teknik klasik dan teknik generasi selanjutnya (Berson, et a!., 2000).
Teknik Klasik
Teknik klasik di dalamnya terdapat tiga teknik yang berbeda, yaitu statistika, nearest neighbor, clustering.
Teknik Statistika
Teknik ini sudah lama digunakan dalam analisis masalah bisnis. Statistika dikendalikan oleh data dan digunakan untuk menemukan pola-pola dan membangun predictive model. Sebagai cabang dari ilmu matematika yang mengurusi koleksi dan
Mining tidak bergantung pada statistik, walaupun "menambang" data itu sendiri untuk mencari pola-pola dan prediksi sebenamya merupakan hal-hal yang dikerjakan oleh statistika.
Berdasarkan kondisi sekarang ini, dimana data-data yang dimiliki sudah sampai berukuran terabyte, dan harus bisa mengumpulkan sedikit demi sedikit pola-pola yang penting. Statistika bisa sangat membantu dalam proses ini dengan membantu memberikan jawaban pada beberapa pertanyaan penting tentang data:
1. Pola-pola apa saja yang ada di dalam basis data?
2. Seberapa besarkah peluang untuk suatu kejadian akan teljadi?
3. Pola-pola mana saja yang signifikan?
4. Rangkuman data tingkat tinggi apa sajakah yang dapat memberikan beberapa ide dari yang terkandung di dalam basis data?
ADS HERE !!!