Zipfov zakon: znatiželjan društveni i matematički fenomen
Svakodnevno koristimo tisuće riječi, sa značenjima svih vrsta i koje pripadaju vrlo različitim gramatičkim kategorijama. Međutim, ne koriste se svi s istom frekvencijom. Ovisno o tome koliko su važne za strukturu rečenice, postoje riječi koje se ponavljaju od drugih.
Zipfov zakon postulat je koji uzima u obzir ovu pojavu i određuje koliko je vjerojatno da će se riječ upotrijebiti na temelju njenog položaja u rangiranju svih riječi koje se koriste u jeziku. Dalje ćemo detaljnije objasniti ovaj zakon.
- Povezani članak: "12 vrsta jezika (i njihove karakteristike)"
Zipfov zakon
George Kingsley Zipf (1902–1950) bio je američki lingvist, rođen u Freeportu u državi Illinois, koji se susreo sa neobičnom pojavom u studijama komparativne filologije. U svom radu, u kojem je provodio statističke analize, utvrdio je da činilo se da najčešće korištene riječi imaju obrazac izgleda, ovo je rođenje zakona koji prima njegovo prezime.
Prema Zipfovom zakonu, u velikoj većini vremena, ako ne i uvijek, riječi koje se koriste u pisanom tekstu ili u usmenom razgovoru slijedit će sljedeći obrazac
: najčešće korištena riječ koja bi zauzela prvo mjesto na ljestvici bila bi dvostruko češća kao druga najčešće korištena, tri puta više od treće, četiri puta više od četvrte, i tako dalje sukcesivno.Matematički gledano, ovaj bi zakon bio:
Pn ≈ 1⁄na
Gdje je 'Pn' frekvencija riječi u redoslijedu 'n', a eksponent 'a' je približno 1.
Treba to reći George Zipf nije bio jedini koji je uočio ovu pravilnost u učestalosti najčešće korištenih riječi mnogih jezika, i prirodnih i umjetnih. Zapravo je poznato da je bilo i drugih, poput steganografa Jean-Baptistea Estoupa i fizičara Felixa Auerbacha.
Zipf je proučavao ovaj fenomen tekstovima na engleskom jeziku i, čini se, to je istina. Ako uzmemo izvornu verziju Podrijetlo vrsta Charlesa Darwina (1859.) vidimo da je riječ koja se najčešće koristi u prvom poglavlju "the", s pojavom oko 1.050, dok je drugo "i", pojavljuje se oko 400 puta, a treće je "do" oko 300. Iako ne baš točno, možete vidjeti da se druga riječ pojavljuje upola onoliko puta koliko prva i treća jedna trećina.
Ista se stvar događa na španjolskom. Ako uzmemo ovaj isti članak kao primjer, možemo vidjeti da se riječ "od" koristi 85 puta, budući da je najviše se koristi, dok se riječ "la", koja je druga po upotrebi, može brojati do 57 puta.
Vidjevši da se ova pojava javlja u drugim jezicima, postaje zanimljivo razmišljati o tome kako ljudski mozak obrađuje jezik. Iako postoje mnogi kulturni fenomeni koji su mjerili upotrebu i značenje mnogih riječi, jezik o kojem je riječ jest kulturni čimbenik sam po sebi, način na koji koristimo najčešće korištene riječi čini se neovisnim čimbenikom Kultura.
- Možda vas zanima: "Što je kulturna psihologija?"
Učestalost funkcijskih riječi
Pogledajmo sljedećih deset riječi: ‘što’, ‘od’, ‘ne’, ‘do’, ‘ono’, ‘ono’, ‘jest’, ‘i’, ‘u’ i ‘što’. što je svima zajedničko? Što su same po sebi besmislene riječi, ali ironično su 10 najčešće korištenih riječi u španjolskom jeziku.
Govoreći da im nedostaje značenje, mislimo na to da je, ako se kaže rečenica u kojoj nema imenice, pridjeva, glagola ili priloga, rečenica besmislena. Na primjer:
… I …… u …… jedan… od …… do… od ……
S druge strane, ako točkice zamijenimo riječima sa značenjem, možemo dobiti frazu poput sljedeće.
Miguel i Ana kod kuće imaju smeđi stol pored kreveta.
Ove su često korištene riječi ono što su poznate funkcionalne riječi, i Oni su zaduženi za davanje gramatičke strukture rečenici. Nisu samo deset koje smo vidjeli, zapravo ima ih na desetke i sve su među stotinu najčešće korištenih riječi na španjolskom.
Iako su sami po sebi besmisleni, nemoguće izostaviti u bilo kojoj rečenici koju želite razumjeti. Potrebno je da se ljudi, kako bi učinkovito prenijeli poruku, pribjegavaju riječima koje čine strukturu rečenice. Iz tog su razloga, neobično, najviše korišteni.
Istraga
Unatoč onome što je George Zipf primijetio u svojim studijama komparativne filozofije, donedavno nije bilo moguće empirijski se pozabaviti postulatima zakona. Ne zato što je bilo materijalno nemoguće analizirati sve razgovore ili tekstove na engleskom ili bilo kojem drugom jeziku, već zbog zastrašujućeg zadatka i velikog napora.
Srećom, i zahvaljujući postojanju modernog računanja i softvera, i jest Moguće je istražiti je li taj zakon dan na način na koji ga je Zipf predložio na početku ili je postojao varijacije.
Jedan je slučaj istraživanje koje je proveo Centar za matematička istraživanja (CRM, u katalonskom Centru de Recerca Matemàtica) povezan s Autonomnim sveučilištem u Barceloni. Istraživači Álvaro Corral, Isabel Moreno García i Francesc Font Clos proveli su sveobuhvatnu analizu skali u kojoj su analizirali tisuće digitaliziranih tekstova na engleskom kako bi vidjeli koliko je istinit Zipfov zakon.
Njegov rad, u kojem je analiziran opsežni korpus od oko 30 000 svezaka, omogućio mu je da dobije zakon jednak zakonu Zipfa, u kojem se vidjelo da se najčešće upotrebljavana riječ dvostruko koristi od druge, i tako dalje.
Zipfov zakon u drugim kontekstima
Iako se Zipfov zakon izvorno koristio za objašnjenje učestalosti riječi koje se koriste u svakom jeziku, uspoređujući njegov raspon pojavljivanja sa stvarnom učestalošću u tekstovima i razgovorima, također je ekstrapoliran na druge situacijama.
Prilično upečatljiv slučaj je broj ljudi koji žive u glavnim gradovima SAD-a. Prema Zipfovom zakonu, najmnogoljudniji glavni grad Amerike imao je dvostruko veću veličinu od drugog, a tri puta veći od trećeg po broju stanovnika.
Ako pogledate popis stanovništva iz 2010. godine, ovo se slaže. New York je imao ukupno 8.175.133 stanovnika, a sljedeći najmnogoljudniji glavni grad bio je Los Angeles sa 3.792.621 i sljedeći glavni gradovi na ljestvici, Chicago, Houston i Philadelphia s 2.695.598, 2.100.263 i 1.526.006, odnosno
To se može vidjeti i u slučaju najnaseljenijih gradova u Španjolskoj, iako Zipfov zakon ne vrijedi. Potpuno je usklađen, ali u većoj ili manjoj mjeri odgovara rangu koji svaki grad zauzima u regiji rangiranje. Madrid s 3.266.126 stanovnika ima dvostruko više od Barcelone, sa 1.636.762, dok Valencia ima oko trećinu s 800.000 stanovnika.
Još jedan vidljiv slučaj Zipfovog zakona su web stranice. Cyberspace je vrlo opsežan, s gotovo 15 milijardi web stranica stvorenih. Uzimajući u obzir da u svijetu živi oko 6.800 milijuna ljudi, u teoriji bi za svakog od njih postojale dvije web stranice koje bi se svakodnevno posjećivalo, što nije slučaj.
Trenutno je deset najposjećenijih stranica: Google (60,49 milijuna posjeta mjesečno), Youtube (24,31 milijuna), Facebook (19,98 milijuna), Baidu (9,77 milijuna), Wikipedia (4,69 milijuna), Twitter (3,92 milijuna), Yahoo (3,74 milijuna), Pornhub (3,36 milijuna), Instagram (3,21 milijuna) i Xvideos (3, 19 milijuna). Gledajući ove brojke, možete vidjeti da je Google dvostruko posjećeniji od YouTubea, tri puta više od Facebooka, više od četiri puta više od Baidua ...
Bibliografske reference:
- Font-Clos, F., Boleda, G. i Corral, Á. (2013) Zakon o skaliranju izvan Zipfova zakona i njegov odnos prema zakonu Heaps. Novi časopis za fiziku, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. DO. (2001). Izvan Zipf - Mandelbrotovog zakona u kvantitativnoj lingvistici. Physica A: Statistička mehanika i njene primjene 300: 567-578.