Berbagi pengetahuan, dari mana saja, dari siapa saja, untuk semua

Hukum Benford: Mendeteksi Keaslian Suatu Data

Bila kita membaca koran atau suatu kumpulan data di internet, bagaimana kita menentukan keaslian data tersebut? Apakah data tersebut asli berdasarkan hasil pengukuran ataukah hasil karangan semata? Di dalam matematika terdapat metode-metode untuk menentukan keaslian suatu data. Salah satu metode ini didasarkan pada frekuensi kemunculan digit pertama. Pada tahun 1938, seorang fisikawan bernama Frank Benford menemukan bahwa kemunculan angka 1 pada digit pertama suatu data acak lebih sering dari angka 2, angka 2 lebih sering dari angka 3 dan seterusnya. Frekuensi kemunculan suatu angka akan mengecil seiring bertambah besarnya angka di digit pertama.

ed66-matematika-1

Secara umum dapat dirumuskan, bahwa frekuensi kemunculan F(d) untuk suatu angka d di dalam suatu data acak memenuhi persamaan: F(d) = log[(d + 1)/d]

Sekarang mari kita menguji hukum Benford ini. Kita ambil contoh data penduduk di 249 negara per September 2016 dari Wikipedia. Contoh data mentah dari Wikipedia seperti ditunjukkan pada tabel.

ed66-matematika-2

Kemudian kita membuat tabel digit awal dan frekuensi kemunculannya seperti berikut.

ed66-matematika-3

Kita dapat membandingkan persentase kemunculan digit awal terhadap persentase Benford seperti ditunjukkan pada grafik.

ed66-matematika-4

Kita dapat melihat bahwa kedua grafik tersebut menghasilkan tren yang serupa yang menunjukkan bahwa prediksi Benford sangat jitu. Untuk kondisi yang lebih umum, kita dapat melihat beberapa contoh kumpulan data yang dihimpun oleh laman http://www.testingbenfordslaw.com.

ed66-matematika-5

Bar kuning merupakan jumlah persentase data yang terkumpul, sedangkan segitiga merah muda merupakan prediksi dari hukum Benford. Kita melihat bahwa keseluruhan data yang ditampilkan di atas memiliki tren yang mirip dengan hukum Benford asalkan sampel yang kita miliki bersifat acak. Lebih menarik lagi, hukum Benford tetap berlaku walaupun satuan yang kita gunakan berbeda, misalnya pada bangunan-bangunan tertinggi dari yang datanya dirangkum Wikipedia pada tabel di bawah.

ed66-matematika-6

Perhatikan bahwa tren persentase digit awal tidak menyimpang terlalu jauh dari persentase Benford walaupun satuan berubah dari meter ke kaki. Lalu, mengapa data-data acak memenuhi hukum Benford?

Misalkan kita memiliki tabungan 1 rupiah di bank dan bank memberi bunga 10% per bulan. Kita akan melihat nilai tabungan kita dari bulan ke bulan sebagai berikut:

1,0|1,1|1,2|1,3|1,5|1,6|1,8|1,9|2,1|2,4|2,6|2,9|3,1|3,5|3,8|4,2|4,6|5,1|5,6|6,1|6,7|7,4|8,1|
9,0|9,8|10,8|11,9|13,1|14,4|15,9|17,4|19,2|21,1|23,2|25,5|28,1|30,9|34,0|37,4|41,1|45,3|
49,8|54,8|60,2|66,3|72,9|80,2|88,2|97,0|106,7|…

Perhatikan bahwa evolusi perubahan digit awal cukup lambat di angka 1 kemudian ketika mencapai angka 2, dengan cepat digit awal berubah ke angka 3, kemudian 4 dan seterusnya sampai 9 dan kemudian melambat lagi di angka belasan. Itulah yang menyebabkan data-data dengan digit awal 1 muncul lebih sering daripada data lainnya.

Terdapat pula beberapa kriteria yang menyebabkan hukum Benford tidak berlaku, misalnya pada data berurutan seperti nomor halaman. Hukum Benford tidak berlaku pula pada bilangan yang dipengaruhi oleh pemikiran manusia seperti pada penentuan harga baju. Contoh, ada harga baju senilai Rp 1.999.999,00, tetapi bukan Rp 2.000.000,00.

Bahan bacaan:

Penulis:
Evelyn Pratami Sinaga, mahasiswa S2 Fisika, Tohoku University, Jepang.
Kontak: evelynpratami(at)gmail(dot)com.