Database

Pendahuluan

Dalam manajemen basis data, memastikan bahwa data dinormalisasi dan terstruktur dengan benar adalah hal yang sangat penting untuk menjaga integritas dan kegunaan data. Terkadang, Anda mungkin menemui tabel yang kurang memiliki hubungan yang diperlukan antara titik data, yang mengarah pada struktur basis data yang tidak terorganisir. Salah satu skenario umum melibatkan tabel yang mencatat lokasi pelanggan tanpa kolom khusus untuk nama perusahaan.

Posting ini bertujuan untuk menangani contoh spesifik di mana seseorang telah diberikan sebuah tabel yang terdiri dari sekitar 18.000 baris dengan satu kolom untuk “Nama Lokasi,” dan tidak ada kolom untuk “Nama Perusahaan.” Situasi ini menghadirkan tantangan karena tidak adanya penunjukan perusahaan yang tepat untuk beberapa lokasi yang dioperasikan oleh perusahaan yang sama, yang berpotensi menyebabkan komplikasi dalam pengambilan dan analisis data.

Dalam blog ini, kita akan mengeksplorasi pendekatan sistematis untuk menormalkan tabel semacam itu, menghasilkan daftar perusahaan berdasarkan deskripsi lokasi yang berbeda, dan membuat basis data menjadi efisien lagi.

Memahami Struktur Tabel Saat Ini

Tabel lokasi yang ada memiliki struktur sederhana:

 ID  Nama_Lokasi     
 1   TokoKota#1        
 2   Toko Kota - Lok 2 
 3   Toko Kota       
 4   TTS - Suatu Tempat   
 5   Toko Kota, yang 3   
 6   TokoKota4

Apa yang kita harapkan adalah keluaran yang lebih terstruktur yang mencakup “ID_Perusahaan” untuk setiap lokasi:

 ID  ID_Perusahaan   Nama_Lokasi     
 1   1               Toko Kota#1       
 2   1               Toko Kota - Lok 2 
 3   1               Toko Kota       
 4   1               TTS - Suatu Tempat   
 5   1               Toko Kota, yang 3   
 6   1               TokoKota4

Bersamaan dengan tabel lokasi ini, kita juga akan membuat tabel perusahaan terpisah:

 ID_Perusahaan  Nama_Perusahaan  
 1               Toko Kota

Menghasilkan Nama Perusahaan

Karena tidak ada daftar nama perusahaan yang ada, kita perlu menghasilkannya dari nama lokasi yang diberikan. Berikut adalah pendekatan langkah demi langkah untuk melakukannya:

Langkah 1: Mengidentifikasi Nama Perusahaan yang Kandidat

Ekstrak Nama Lokasi: Buat daftar Nama Lokasi yang terdiri terutama dari karakter alfabet.
Gunakan Ekspresi Reguler: Untuk memfilter entri yang tidak relevan (seperti lokasi dengan karakter numerik atau khusus), gunakan ekspresi reguler untuk mengurai data.

Langkah 2: Tinjauan Manual

Urutkan Daftar: Urutkan daftar nama lokasi yang telah difilter secara alfabetis.
Pilih Nama Perusahaan: Tinjau daftar yang disortir secara manual untuk menentukan lokasi mana yang paling baik dijadikan nama perusahaan yang representatif.

Langkah 3: Penilaian Pencocokan

Algoritma Perangkat Lunak untuk Pencocokan: Gunakan jarak Levenshtein atau algoritma perbandingan string serupa untuk menilai kedekatan antara setiap Nama Perusahaan yang potensial dengan berbagai Nama Lokasi.
Buat Sistem Skor: Simpan hasil ini dalam tabel baru yang mencerminkan NamaPerusahaan, NamaLokasi, dan SkorPencocokan mereka yang sesuai.

Langkah 4: Terapkan Ambang Batas

Filter Pencocokan: Tentukan skor ambang; setiap pencocokan yang jatuh di bawah skor yang telah ditentukan ini akan dikesampingkan dari pertimbangan lebih lanjut.

Langkah 5: Verifikasi Manual

Tinjau Data: Periksa secara manual setiap entri yang terdaftar berdasarkan NamaPerusahaan, NamaLokasi, dan SkorPencocokan dan finalisasi nama mana yang benar-benar mewakili setiap perusahaan.
Atur untuk Efisiensi: Urutkan hasil berdasarkan SkorPencocokan untuk memperlancar proses tinjauan dan mengurangi beban kerja.

Kesimpulan

Meskipun proses yang dijelaskan mungkin tampak memakan waktu, metode ini memanfaatkan otomatisasi dan teknik algoritmik untuk mengelola kompleksitas penanganan sekitar 18.000 catatan. Pendekatan terstruktur ini tidak hanya menghemat waktu tetapi juga membantu dalam mengkategorikan data dengan percaya diri, yang pada akhirnya mengarah pada integritas basis data yang lebih baik dan analisis bermakna di masa depan.

Dengan menerapkan metode ini, Anda seharusnya merasa jauh lebih mudah untuk menormalkan tabel dengan integritas rendah dan meningkatkan kegunaan basis data Anda. Selalu ingat: tujuan normalisasi bukan hanya untuk menyusun data tetapi juga untuk meningkatkan aksesibilitas dan keandalannya.