Zipfov zakon: nenavaden družbeni in matematični pojav
Vsak dan uporabimo na tisoče besed, ki pomenijo vse vrste in spadajo v zelo raznolike slovnične kategorije. Vendar se ne uporabljajo vsi z enako frekvenco. Glede na to, kako pomembne so za strukturo stavka, obstajajo besede, ki se bolj ponavljajo kot druge.
Zipfov zakon je postulat, ki upošteva ta pojav in določa, kako verjetno bo beseda uporabljena na podlagi njenega položaja na lestvici vseh besed, uporabljenih v jeziku. V nadaljevanju bomo podrobneje preučili ta zakon.
- Povezani članek: "12 vrst jezika (in njihove značilnosti)"
Zipfov zakon
George Kingsley Zipf (1902–1950) je bil ameriški jezikoslovec, rojen v Freeportu v zvezni državi Illinois, ki je pri študijah primerjalne filologije naletel na nenavaden pojav. Pri svojem delu, v katerem je opravljal statistične analize, je to ugotovil zdi se, da imajo najbolj uporabljene besede vzorec videza, to je rojstvo zakona, ki dobi njegov priimek.
Po Zipfovem zakonu v veliki večini časa, če ne vedno, besede, uporabljene v pisnem besedilu ali ustnem pogovoru, bodo sledile naslednjemu vzorcu
: najbolj uporabljena beseda, ki bi zasedla prvo mesto na lestvici, bi bila dvakrat pogosteje uporabljena drugi najbolj uporabljeni, trikrat toliko kot tretji, štirikrat toliko kot četrti itd zaporedoma.V matematičnem smislu bi bil ta zakon:
Pn ≈ 1⁄na
Kjer je 'Pn' pogostost besede v vrstnem redu 'n' in je eksponent 'a' približno 1.
To je treba reči George Zipf ni bil edini, ki je opazil to pravilnost pogostosti najpogosteje uporabljenih besed mnogih jezikov, tako naravnih kot umetnih. Pravzaprav je znano, da so obstajali tudi drugi, na primer steganograf Jean-Baptiste Estoup in fizik Felix Auerbach.
Zipf je ta pojav preučeval z besedili v angleščini in očitno je res. Če vzamemo izvirno različico Izvor vrst Charlesa Darwina (1859) vidimo, da je beseda, ki se v prvem poglavju najpogosteje uporablja, "the", z videzom približno 1.050, drugi pa je "in", ki se prikaže približno 400-krat, tretji pa "do" približno 300. Čeprav ne ravno, lahko vidite, da se druga beseda pojavi pol tolikokrat kot prva, tretja pa tretjina.
Enako se zgodi v španščini. Če vzamemo za primer ta isti članek, lahko vidimo, da je beseda "od" uporabljena 85-krat, pri čemer najbolj uporabljena, medtem ko lahko besedo "la", ki je druga najpogosteje uporabljena, štejemo do 57 krat.
Ko vidimo, da se ta pojav pojavlja v drugih jezikih, postane zanimivo razmišljati o tem, kako človeški možgani obdelujejo jezik. Čeprav obstaja veliko kulturnih pojavov, ki so merili uporabo in pomen številnih besed, je zadevni jezik a kulturni dejavnik sam po sebi, se zdi, da je način, na katerega uporabljamo najpogosteje uporabljene besede, neodvisen dejavnik kulture.
- Morda vas zanima: "Kaj je kulturna psihologija?"
Pogostost funkcijskih besed
Oglejmo si naslednjih deset besed: „kaj“, „od“, „ne“, „do“, „the“, „the“, „is“, „in“, „in“ in „what“. kaj je vsem skupnega? Kar so same po sebi nesmiselne besede, a ironično je 10 najpogosteje uporabljenih besed v španskem jeziku.
Če rečemo, da jim manjka pomen, mislimo, da če je poved, v kateri ni samostalnika, pridevnika, glagola ali prislova, stavek brez pomena. Na primer:
… In …… v …… enem… od …… do… od ……
Če pa pike zamenjamo z besedami s pomenom, imamo lahko besedno zvezo, kot je naslednja.
Miguel in Ana imata doma rjavo mizo ob postelji.
Te pogosto uporabljene besede so tiste, ki so znane funkcijske besede, in Zadolženi so za dajanje slovnične zgradbe stavku. Niso le deset, ki smo jih videli, pravzaprav jih je na desetine in vsi so med sto najpogosteje uporabljenimi besedami v španščini.
Čeprav so sami po sebi brez pomena, ni mogoče izpustiti v nobenem stavku, ki ga želite razumeti. Nujno je, da se ljudje, da bi učinkovito prenašali sporočilo, zatečemo k besedam, ki tvorijo stavčno strukturo. Zaradi tega so nenavadno najbolj uporabljeni.
Preiskava
Kljub temu, kar je George Zipf opazil v svojih študijah primerjalne filozofije, do nedavnega empirično ni bilo mogoče obravnavati zakonskih postulatov. Ne zato, ker je bilo nemogoče analizirati vse pogovore ali besedila v angleščini ali katerem koli drugem jeziku, ampak zaradi zastrašujoče naloge in velikega truda.
Na srečo in zahvaljujoč obstoju sodobnega računalništva in programske opreme je bilo Možno je raziskati, ali je bil ta zakon podan na način, kot ga je predlagal Zipf na začetku, ali je bil spremembe.
En primer je raziskava, ki jo je izvedel Center za matematične raziskave (CRM, v katalonskem Centru de Recerca Matemàtica), povezan z Avtonomno univerzo v Barceloni. Raziskovalci Álvaro Corral, Isabel Moreno García in Francesc Font Clos so izvedli obsežno analizo skali, v kateri so analizirali na tisoče digitaliziranih besedil v angleščini, da bi ugotovili, kako resničen je Zipfov zakon.
Njegovo delo, v katerem je bil analiziran obsežen korpus s približno 30.000 zvezki, mu je omogočilo, da je dobil zakon, enakovreden Zipfovemu, v katerem se je videlo, da je bila najbolj uporabljena beseda dvakrat bolj uporabljena kot druga itd.
Zakon Zipf v drugih okoliščinah
Čeprav je bil Zipfov zakon prvotno uporabljen za razlago pogostosti besed, ki se uporabljajo v posameznem jeziku, Če primerjamo njegov obseg videza z njegovo resnično pogostostjo v besedilih in pogovorih, je bil tudi ekstrapoliran na druge situacijah.
Precej presenetljiv primer je število ljudi, ki živijo v prestolnicah ZDA. Po Zipfovem zakonu je imela največja ameriška prestolnica dvakrat večjo velikost kot druga po številu prebivalcev in trikrat večja od tretje po številu prebivalcev.
Če pogledate popis prebivalstva leta 2010, se to strinja. V New Yorku je živelo 8.175.133 prebivalcev, naslednja najbolj naseljena prestolnica pa je bila Los Angeles, s 3.792.621 in naslednje prestolnice na lestvici, Chicago, Houston in Philadelphia z 2.695.598, 2.100.263 in 1.526.006, oz
To lahko vidimo tudi v primeru najbolj poseljenih mest v Španiji, čeprav Zipfov zakon ne velja. Je popolnoma skladen, vendar v večji ali manjši meri ustreza rangu, ki ga zaseda vsako mesto v regiji razvrstitev. Madrid s 3.266.126 prebivalci ima dvakrat več kot Barcelona s 1.636.762 prebivalci, Valencia pa približno tretjino z 800.000 prebivalci.
Še en primeren primer Zipfovega zakona so spletne strani. Kibernetski prostor je zelo obsežen, saj je bilo ustvarjenih skoraj 15 milijard spletnih strani. Če upoštevamo, da je na svetu približno 6.800 milijonov ljudi, bi teoretično za vsakega od njih vsak dan obiskali dve spletni strani, kar pa ne drži.
Trenutno je deset najbolj obiskanih strani: Google (60,49 milijona obiskov mesečno), Youtube (24,31 milijona), Facebook (19,98 milijona), Baidu (9,77 milijona), Wikipedia (4,69 milijona), Twitter (3,92 milijona), Yahoo (3,74 milijona), Pornhub (3,36 milijona), Instagram (3,21 milijona) in Xvideos (3, 19 milijonov). Če pogledamo te številke, lahko vidimo, da je Google dvakrat bolj obiskan kot YouTube, trikrat več kot Facebook, več kot štirikrat več kot Baidu ...
Bibliografske reference:
- Font-Clos, F., Boleda, G. in Corral, Á. (2013) Zakon o merilu, ki presega Zipfov zakon in njegov odnos do zakona Heaps. Nov časopis za fiziko, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. TO. (2001). Onkraj Zipf - Mandelbrotovega zakona v kvantitativni lingvistiki. Physica A: Statistična mehanika in njene aplikacije 300: 567-578.