Pembersihan Data Atau Data Cleansing Jilid 2
Kualitas data
Data berkualitas tinggi harus lulus satu set kriteria kualitas, antara lain :
1. Validitas:
Tingkat di mana ukurannya sesuai dengan hukum atau batasan bisnis yang ditetapkan (lihat juga Validitas (statistik)). Ketika teknologi database modern dipakai untuk merancang sistem pengambilan data, validitas cukup gampang untuk memastikan: data yang tidak valid muncul terutama dalam konteks warisan (di mana hambatan tidak diimplementasikan dalam perangkat lunak) atau di mana teknologi pengambilan data yang tidak pantas dipakai (misalnya, spreadsheet, di mana sangat sulit untuk membatasi apa yang pengguna pilih untuk masuk ke dalam sel, jikalau validasi sel tidak digunakan).
Kendala data masuk ke dalam kategori berikut:
a) Batasan Tipe Data
mis., Nilai dalam kolom tertentu harus berupa tipe data tertentu, misalnya, Boolean, numerik (bilangan lingkaran atau nyata), tanggal, dll.
b) Kendala Rentang
biasanya, angka atau tanggal harus berada dalam kisaran tertentu. Artinya, mereka mempunyai nilai minimum dan / atau maksimum yang diizinkan.
c) Batasan Wajib
Kolom tertentu dihentikan kosong.
d) Batasan Unik
Bidang, atau kombinasi bidang, harus unik di seluruh kumpulan data. Misalnya, tidak ada dua orang yang sanggup mempunyai nomor jaminan sosial yang sama.
e) Batasan Set-Keanggotaan
Nilai untuk kolom berasal dari satu set nilai atau aba-aba yang berbeda. Misalnya, jenis kelamin seseorang mungkin Wanita, Pria atau Tidak Dikenal (tidak direkam).
f) Batasan asing-kunci
Ini ialah kasus yang lebih umum dari keanggotaan yang ditetapkan. Kumpulan nilai dalam kolom didefinisikan dalam kolom tabel lain yang berisi nilai unik. Sebagai contoh, dalam database wajib pajak Indonesia, kolom "provinsi" diharapkan untuk menjadi pecahan dari negara yang ditetapkan oleh Indonesia: kumpulan provinsi yang diizinkan dicatat dalam tabel Provinsi yang terpisah. Istilah kunci abnormal dipinjam dari terminologi basis data relasional.
g) Pola mulut reguler
Terkadang, bidang teks harus divalidasi dengan cara ini. Misalnya, nomor telepon mungkin perlu ired untuk mempunyai pola (999) 999-9999.
2. Validasi lintas-bidang
Kondisi tertentu yang memanfaatkan beberapa bidang harus dipegang. Misalnya, dalam kedokteran laboratorium, jumlah komponen sel darah putih diferensial harus sama dengan 100 (karena semuanya persentase). Dalam database rumah sakit, tanggal pasien pulang dari rumah sakit dihentikan lebih awal dari tanggal penerimaan.
3. Keaslian
Tingkat kesesuaian ukuran untuk standar atau nilai yang sebetulnya - lihat juga Akurasi dan presisi. Keakuratan sangat sulit dicapai melalui pencucian data dalam kasus umum, sebab memerlukan saluran ke sumber data eksternal yang mengandung nilai yang sebenarnya: data "standar emas" menyerupai itu sering tidak tersedia.
Akurasi telah dicapai dalam beberapa konteks pembersihan, khususnya data kontak pelanggan, dengan memakai basis data eksternal yang cocok dengan aba-aba pos ke lokasi geografis (kota dan negara bagian), dan juga membantu memverifikasi bahwa alamat jalan dalam aba-aba pos ini benar-benar ada.
4. Lengkap
Derajat yang semua langkah yang diharapkan diketahui. Ketidaklengkapan hampir mustahil untuk diperbaiki dengan metodologi pencucian data: seseorang tidak sanggup menyimpulkan fakta-fakta yang tidak ditangkap ketika data yang dipertanyakan pada awalnya direkam. (Dalam beberapa konteks, misalnya, data wawancara, dimungkinkan untuk memperbaiki ketidaklengkapan dengan kembali ke sumber orisinil data, yaitu, mewawancara ulang subjek, tetapi bahkan ini tidak menjamin keberhasilan sebab duduk kasus penarikan - misalnya, dalam wawancara untuk mengumpulkan data ihwal konsumsi makanan, tidak ada yang mungkin ingat persis apa yang dimakan enam bulan yang lalu.
Dalam kasus sistem yang mengharuskan kolom tertentu dihentikan kosong, orang sanggup mengatasi duduk kasus dengan menunjuk nilai yang menunjukkan "tidak diketahui" atau "hilang", tetapi penyediaan nilai-nilai default tidak menyiratkan bahwa data telah dibentuk lengkap.
5. Konsistensi
Tingkat di mana satu set langkah-langkah yang setara di seluruh sistem (lihat juga Konsistensi). Inkonsistensi terjadi ketika dua item data dalam kumpulan data saling berkontradiksi: misalnya, pelanggan dicatat dalam dua sistem yang berbeda sebagai mempunyai dua alamat yang berbeda ketika ini, dan hanya satu dari mereka yang sanggup benar. Memperbaiki inkonsistensi tidak selalu mungkin: ia memerlukan banyak sekali f taktik - misalnya, memutuskan data mana yang direkam baru-baru ini, sumber data mana yang paling sanggup dipercaya (pengetahuan terakhir mungkin khusus untuk organisasi tertentu), atau hanya mencoba menemukan kebenaran dengan menguji kedua item data (misalnya, memanggil pelanggan) .
6. Uniformity
Tingkat yang memutuskan ukuran data ditetapkan memakai satuan ukuran yang sama di semua sistem (lihat juga Satuan ukuran). Dalam kumpulan data yang dikumpulkan dari lokal yang berbeda, berat sanggup dicatat dalam pound atau kilo, dan harus dikonversi ke ukuran tunggal memakai transformasi aritmatika. Integritas istilah meliputi akurasi, konsistensi dan beberapa aspek validasi (lihat juga integritas data) tetapi jarang dipakai dengan sendirinya dalam konteks pencucian data sebab tidak cukup spesifik. (Misalnya, "integritas referensial" ialah istilah yang dipakai untuk merujuk pada penegakan batasan foreign-key di atas.)
References
Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021
Nigrini, M. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations, Wiley. 2011
The importance of data cleansing user-generated-content
Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5