Pembersihan Data Atau Data Cleansing Jilid 1


Pembersihan data atau Data Cleansing yaitu proses mendeteksi dan mengoreksi (atau menghapus) catatan yang korup atau tidak akurat dari satu set catatan, tabel, atau basis data dan mengacu pada pengidentifikasian bagian-bagian data yang tidak lengkap, salah, tidak akurat atau tidak relevan dan kemudian menggantikan, memodifikasi, atau menghapus data yang kotor atau kasar. Pembersihan data sanggup dilakukan secara interaktif dengan alat pengatur data, atau sebagai pemrosesan batch melalui scripting.

Setelah pembersihan, satu set data harus konsisten dengan set data lain yang serupa dalam sistem. Ketidakkonsistenan yang terdeteksi atau dihapus mungkin awalnya disebabkan oleh kesalahan entri pengguna, oleh korupsi dalam transmisi atau penyimpanan, atau oleh definisi kamus data yang berbeda dari entitas yang sama di toko yang berbeda. Pembersihan data berbeda dari validasi data dalam validasi itu hampir selalu berarti data ditolak dari sistem ketika masuk dan dilakukan pada ketika masuk, daripada pada batch data.

Proses pencucian data yang bergotong-royong mungkin melibatkan abolisi kesalahan tipografi atau memvalidasi dan mengoreksi nilai terhadap daftar entitas yang dikenal. Validasi mungkin ketat (seperti menolak alamat apa pun yang tidak mempunyai isyarat pos yang valid) atau fuzzy (seperti mengoreksi catatan yang sebagian sesuai dengan catatan yang sudah ada dan dikenal).

Beberapa solusi pencucian data akan membersihkan data dengan pemeriksaan silang dengan kumpulan data yang divalidasi. Praktik pencucian data umum yaitu peningkatan data, di mana data dibentuk lebih lengkap dengan menambahkan warta terkait. Misalnya, menambahkan alamat dengan nomor telepon yang terkait dengan alamat itu.

Pembersihan data juga sanggup melibatkan acara seperti, harmonisasi data, dan standardisasi data. Misalnya, harmonisasi isyarat pendek (jl, kec, kab, dll.) Dengan kata-kata yang bergotong-royong (jalan, kecamatan, kabupaten, dan sebagainya). Standarisasi data yaitu sarana untuk mengubah kumpulan data acuan menjadi standar baru, misalnya, penggunaan isyarat standar.

Secara administratif, data yang salah atau tidak konsisten sanggup mengarah pada kesimpulan yang salah dan investasi yang salah arah pada skala publik dan pribadi. Misalnya, pemerintah mungkin ingin menganalisis angka sensus penduduk untuk tetapkan tempat mana yang membutuhkan pengeluaran dan investasi lebih lanjut untuk infrastruktur dan layanan. Dalam hal ini, penting untuk mempunyai kanal ke data yang sanggup mendapatkan amanah untuk menghindari keputusan fiskal yang salah.

Di dunia bisnis, data yang salah sanggup mahal. Banyak perusahaan memakai basis data warta pelanggan yang mencatat data menyerupai warta kontak, alamat, dan preferensi. Misalnya, kalau alamat tidak konsisten, perusahaan akan menanggung biaya pengiriman ulang atau bahkan kehilangan pelanggan.

Profesi akuntansi forensik dan pemeriksaan penipuan memakai pencucian data dalam mempersiapkan datanya dan biasanya dilakukan sebelum data dikirim ke gudang data untuk penyelidikan lebih lanjut. Ada paket yang tersedia sehingga Anda sanggup membersihkan / mencuci data alamat ketika Anda memasukkannya ke dalam sistem Anda. Ini biasanya dilakukan melalui antarmuka pemrograman aplikasi (API).

References Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021 Nigrini, M. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations, Wiley. 2011 The importance of data cleansing user-generated-content Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5 Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5



Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel