Hukum Zipf: fenomena sosial dan matematika yang aneh
Kami menggunakan ribuan kata setiap hari, dengan berbagai arti dan termasuk dalam kategori tata bahasa yang sangat bervariasi. Namun, tidak semuanya digunakan dengan frekuensi yang sama. Tergantung pada seberapa penting mereka untuk struktur kalimat, ada kata-kata yang lebih berulang daripada yang lain.
Hukum Zipf adalah postulat yang memperhitungkan fenomena ini dan menentukan seberapa besar kemungkinan sebuah kata akan digunakan berdasarkan posisinya dalam peringkat semua kata yang digunakan dalam suatu bahasa. Selanjutnya kita akan membahas lebih detail tentang undang-undang ini.
- Artikel terkait: "12 jenis bahasa (dan karakteristiknya)"
Hukum Zipf
George Kingsley Zipf (1902–1950) adalah seorang ahli bahasa Amerika, lahir di Freeport, Illinois, yang menemukan fenomena aneh dalam studinya tentang filologi komparatif. Dalam karyanya, di mana dia melakukan analisis statistik, dia menemukan bahwa kata-kata yang paling sering digunakan tampaknya memiliki pola penampilan, ini menjadi kelahiran hukum yang menerima nama keluarganya.
Menurut hukum Zipf, di sebagian besar waktu, jika tidak selalu, kata-kata yang digunakan dalam teks tertulis atau percakapan lisan akan mengikuti pola berikut:: kata yang paling sering digunakan, yang akan menempati posisi pertama dalam peringkat, akan dua kali lebih sering digunakan daripada yang kedua paling banyak digunakan, tiga kali lebih banyak dari yang ketiga, empat kali lebih banyak dari yang keempat, dan seterusnya berturut-turut.
Dalam istilah matematika, hukum ini akan menjadi:
Pn 1⁄na
Di mana 'Pn' adalah frekuensi kata dalam urutan 'n' dan eksponen 'a' kira-kira 1.
Harus dikatakan bahwa George Zipf bukan satu-satunya yang mengamati keteraturan ini dalam frekuensi kata-kata yang paling sering digunakan dari banyak bahasa, baik alami maupun buatan. Bahkan, diketahui ada orang lain, seperti steganographer Jean-Baptiste Estoup dan fisikawan Felix Auerbach.
Zipf mempelajari fenomena ini dengan teks-teks dalam bahasa Inggris dan, ternyata, memang benar. Jika kita mengambil versi asli dari Asal Usul Spesies oleh Charles Darwin (1859) kita melihat bahwa kata yang paling sering digunakan dalam bab pertama adalah "the", dengan tampilan tentang 1.050, sedangkan yang kedua adalah "dan", muncul sekitar 400 kali, dan yang ketiga adalah "ke", muncul sekitar 300. Meskipun tidak persis, Anda dapat melihat bahwa kata kedua muncul setengah kali lebih banyak daripada kata pertama dan ketiga sepertiga.
Hal yang sama terjadi di Spanyol. Jika kita mengambil artikel yang sama sebagai contoh, kita dapat melihat bahwa kata "dari" digunakan 85 kali, karena paling banyak digunakan, sedangkan kata "la", yang merupakan kedua paling banyak digunakan, dapat dihitung hingga 57 waktu.
Melihat fenomena ini terjadi pada bahasa lain, menjadi menarik untuk direnungkan bagaimana otak manusia memproses bahasa. Meskipun ada banyak fenomena budaya yang mengukur penggunaan dan makna banyak kata, bahasa yang dimaksud adalah a faktor budaya itu sendiri, cara kita menggunakan kata-kata yang paling sering digunakan tampaknya menjadi faktor independen dari budaya.
- Anda mungkin tertarik: "Apa itu Psikologi Budaya?"
Frekuensi kata fungsi
Mari kita lihat sepuluh kata berikut: 'apa', 'dari', 'tidak', 'ke', 'yang', 'itu', 'adalah', 'dan', 'dalam' dan 'apa'. apa kesamaan mereka semua? Yang merupakan kata-kata yang tidak berarti tetapi ironisnya adalah 10 kata yang paling sering digunakan dalam bahasa Spanyol.
Dengan mengatakan bahwa mereka tidak memiliki makna, kami bermaksud bahwa, jika sebuah kalimat dikatakan tanpa kata benda, kata sifat, kata kerja atau kata keterangan, kalimat tersebut tidak memiliki arti. Sebagai contoh:
… Dan…… di…… satu… dari…… ke… dari……
Di sisi lain, jika kita mengganti titik-titik dengan kata-kata dengan makna, kita dapat memiliki frasa seperti berikut.
Miguel dan Ana memiliki meja cokelat di samping tempat tidur mereka di rumah.
Kata-kata yang sering digunakan ini adalah kata-kata fungsi yang dikenal, dan Mereka bertugas memberikan struktur gramatikal pada kalimat. Mereka bukan hanya 10 yang telah kita lihat, sebenarnya ada lusinan dari mereka, dan semuanya termasuk di antara seratus kata yang paling banyak digunakan dalam bahasa Spanyol.
Meskipun mereka sendiri tidak berarti, tidak mungkin dihilangkan dalam kalimat apa pun yang ingin Anda pahami. Adalah perlu bahwa manusia, untuk mengirimkan pesan secara efisien, kita menggunakan kata-kata yang membentuk struktur kalimat. Untuk alasan ini mereka, anehnya, yang paling banyak digunakan.
Penyelidikan
Terlepas dari apa yang diamati George Zipf dalam studinya tentang filsafat komparatif, sampai relatif baru-baru ini tidak mungkin untuk membahas postulat hukum secara empiris. Bukan karena secara materi tidak mungkin untuk menganalisis semua percakapan atau teks dalam bahasa Inggris, atau bahasa lain apa pun, tetapi karena tugas yang berat dan upaya besar yang terlibat.
Untungnya, dan berkat keberadaan komputasi dan perangkat lunak modern, telah Dimungkinkan untuk menyelidiki apakah undang-undang ini diberikan dengan cara yang diusulkan Zipf pada awalnya atau jika ada variasi.
Satu kasus adalah penelitian yang dilakukan oleh Pusat Penelitian Matematika (CRM, di Catalan Center de Recerca Matemàtica) terkait dengan Universitas Otonomi Barcelona. Peneliti lvaro Corral, Isabel Moreno García dan Francesc Font Clos melakukan analisis yang komprehensif skala di mana mereka menganalisis ribuan teks digital dalam bahasa Inggris untuk melihat seberapa benar hukum Zipf itu.
Karyanya, di mana korpus luas sekitar 30.000 volume dianalisis, memungkinkan dia untuk mendapatkan hukum yang setara dengan Zipf., di mana terlihat bahwa kata yang paling banyak digunakan adalah dua kali lebih banyak daripada kata kedua, dan seterusnya.
Hukum Zipf dalam konteks lain
Meskipun hukum Zipf pada awalnya digunakan untuk menjelaskan frekuensi kata yang digunakan dalam setiap bahasa, membandingkan jangkauan penampilannya dengan frekuensi sebenarnya dalam teks dan percakapan, itu juga telah diekstrapolasi ke yang lain situasi.
Kasus yang agak mencolok adalah jumlah orang yang tinggal di ibu kota AS. Menurut hukum Zipf, ibu kota Amerika yang paling padat penduduknya memiliki dua kali ukuran ibu kota terpadat kedua, dan tiga kali ukuran ibu kota terpadat ketiga.
Jika Anda melihat sensus penduduk 2010, ini setuju. New York memiliki total populasi 8.175.133 orang, dengan ibukota terpadat berikutnya adalah Los Angeles, dengan 3.792.621 dan ibu kota berikut dalam peringkat, Chicago, Houston dan Philadelphia dengan 2.695.598, 2.100.263 dan 1.526.006, masing-masing
Ini juga dapat dilihat dalam kasus kota-kota terpadat di Spanyol, meskipun hukum Zipf tidak berlaku. Itu sepenuhnya sesuai, tetapi itu sesuai, pada tingkat yang lebih besar atau lebih kecil, dengan peringkat yang ditempati setiap kota di peringkat. Madrid, dengan populasi 3.266.126, memiliki dua kali lipat dari Barcelona, dengan 1.636.762, sementara Valencia memiliki sekitar sepertiga dengan 800.000 penduduk.
Kasus lain yang dapat diamati dari hukum Zipf adalah dengan halaman web. Dunia maya sangat luas, dengan hampir 15 miliar halaman web dibuat. Mempertimbangkan bahwa di dunia ada sekitar 6.800 juta orang, secara teori untuk masing-masing dari mereka akan ada dua halaman web yang dikunjungi setiap hari, padahal tidak demikian.
Sepuluh halaman yang paling banyak dikunjungi saat ini adalah: Google (60,49 juta kunjungan bulanan), Youtube (24,31 juta), Facebook (19,98 juta), Baidu (9,77 juta), Wikipedia (4,69 juta), Twitter (3,92 juta), Yahoo (3,74 juta), Pornhub (3,36 juta), Instagram (3,21 juta) dan Xvideos (3, 19 jutaan). Melihat angka-angka ini, Anda dapat melihat bahwa Google dua kali lebih banyak dikunjungi daripada YouTube, tiga kali lebih banyak dari Facebook, lebih dari empat kali lebih banyak dari Baidu ...
Referensi bibliografi:
- Font-Clos, F., Boleda, G. dan Corral, (2013) Hukum penskalaan di luar hukum Zipf dan hubungannya dengan hukum Heaps. Jurnal Fisika Baru, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. UNTUK. (2001). Beyond the Zipf – hukum Mandelbrot dalam linguistik kuantitatif. Fisika A: Mekanika Statistik dan Aplikasinya 300: 567-578.