Education, study and knowledge

Zipfo dėsnis: kurioziškas socialinis ir matematinis reiškinys

Mes kasdien vartojame tūkstančius žodžių, turinčių įvairiausių reikšmių ir priklausančių labai įvairioms gramatinėms kategorijoms. Tačiau ne visi jie naudojami tuo pačiu dažniu. Atsižvelgiant į tai, kiek jie yra svarbūs sakinio struktūrai, yra žodžių, kurie kartojasi labiau nei kiti.

Zipfo įstatymas yra postulatas, kuriame atsižvelgiama į šį reiškinį ir nurodo žodžio vartojimo tikimybę, atsižvelgiant į jo vietą visų kalboje vartojamų žodžių reitinge. Toliau mes išsamiau aptarsime šį įstatymą.

  • Susijęs straipsnis: "12 kalbų tipų (ir jų ypatybės)"

Zipfo dėsnis

George'as Kingsley'is Zipfas (1902–1950) - amerikiečių kalbininkas, gimęs Freeporte, Ilinojaus valstijoje, kurio įdomiu reiškiniu susidūrė studijuodamas lyginamąją filologiją. Savo darbe, kuriame jis atliko statistinę analizę, jis tai nustatė atrodė, kad dažniausiai vartojami žodžiai turi išvaizdos modelį, tai yra jo pavardę gaunančio įstatymo gimimas.

Pagal Zipfo įstatymą, didžiąją laiko dalį, jei ne visada, žodžiai, kurie naudojami rašytiniame tekste ar žodiniame pokalbyje, bus tokie

: dažniausiai naudojamas žodis, kuris užimtų pirmąją vietą reitinge, būtų naudojamas dvigubai dažniau nei antras dažniausiai naudojamas, tris kartus tiek kartų, kiek trečias, keturis kartus tiek, kiek ketvirtas, ir pan iš eilės.

Matematiniu požiūriu šis dėsnis būtų:

Pn ≈ 1⁄na

Kur „Pn“ yra žodžio „n“ eilės dažnis, o rodiklis „a“ yra maždaug 1.

Reikėtų pasakyti taip George'as Zipfas nebuvo vienintelis, kuris pastebėjo šį dažniausiai vartojamų žodžių dažnumo dėsningumą iš daugelio natūralių ir dirbtinių kalbų. Tiesą sakant, žinoma, kad buvo ir kitų, tokių kaip steganografas Jeanas-Baptiste'as Estoupas ir fizikas Felixas Auerbachas.

Zipfas tyrinėjo šį reiškinį su tekstais anglų kalba ir, matyt, tai tiesa. Jei paimsime originalų Charleso Darwino rūšies kilmė (1859) matome, kad pirmajame skyriuje dažniausiai naudojamas žodis yra „the“, kurio išvaizda yra apie 1050, o antrasis yra „ir“, pasirodo apie 400 kartų, o trečiasis - „iki“ apie 300. Nors ir ne visai tiksliai, galite pastebėti, kad antrasis žodis pasirodo perpus tiek kartų, kiek pirmasis, o trečiasis - trečdalis.

Tas pats nutinka ispanų kalba. Jei paimsime tą patį straipsnį kaip pavyzdį, galime pastebėti, kad žodis „of“ yra vartojamas 85 kartus dažniausiai vartojamas, tuo tarpu žodį „la“, kuris yra antras pagal dažnumą, galima suskaičiuoti iki 57 laikai.

Matant, kad šis reiškinys pasitaiko kitomis kalbomis, tampa įdomu pagalvoti apie tai, kaip žmogaus smegenys apdoroja kalbą. Nors yra daugybė kultūrinių reiškinių, kurie matavo daugelio žodžių vartojimą ir reikšmę, nagrinėjama kalba yra a kultūrinis faktorius pats savaime atrodo, kad būdas, kuriuo naudojame dažniausiai vartojamus žodžius, yra nepriklausomas kultūra.

  • Galbūt jus domina: "Kas yra kultūrinė psichologija?"

Funkcijos žodžių dažnis

Pažvelkime į šiuos dešimt žodžių: „kas“, „nuo“, „ne“, „į“, ​​„the“, „the“, „is“, „and“, „in“ ir „what“. ką jie visi turi bendro? Kurie patys yra beprasmiai žodžiai, bet ironiški yra 10 dažniausiai vartojamų žodžių ispanų kalba.

Sakydami, kad jiems trūksta prasmės, turime omenyje, kad jei sakoma sakinys, kuriame nėra daiktavardžio, būdvardžio, veiksmažodžio ar prieveiksmio, sakinys yra beprasmis. Pavyzdžiui:

… Ir………… viename…………………

Kita vertus, jei taškus pakeisime žodžiais su prasme, galime turėti tokią frazę kaip toliau.

Migelis ir Ana namuose prie lovos turi rudą stalą.

Šie dažnai vartojami žodžiai yra žinomi funkciniai žodžiai ir Jie yra atsakingi už sakinio gramatinės struktūros suteikimą. Jie yra ne tik 10, kuriuos matėme, iš tikrųjų jų yra dešimtys, ir visi jie yra tarp šimto dažniausiai vartojamų žodžių ispanų kalba.

Nors jie vieni beprasmiai, neįmanoma praleisti nė viename sakinyje, kurį norite suprasti. Būtina, kad žmonės, norėdami efektyviai perduoti pranešimą, griebtųsi žodžių, kurie sudaro sakinio struktūrą. Dėl šios priežasties įdomu, kad jie dažniausiai naudojami.

Tyrimas

Nepaisant to, ką George'as Zipfas pastebėjo atlikdamas lyginamosios filosofijos tyrimus, dar palyginti neseniai nebuvo įmanoma empiriškai spręsti įstatymo postulatų. Ne todėl, kad materialiai buvo neįmanoma išanalizuoti visų pokalbių ar tekstų anglų kalba ar bet kuria kita kalba, bet dėl ​​nelengvos užduoties ir didelių pastangų.

Laimei, ir dėl šiuolaikinės skaičiavimo ir programinės įrangos egzistavimo taip buvo Galima ištirti, ar šis įstatymas buvo pateiktas taip, kaip „Zipf“ jį pasiūlė pradžioje, ar buvo variacijos.

Vienas atvejis yra matematinių tyrimų centro (CRM, Katalonijos centre de Recerca Matemàtica) atlikti tyrimai, susiję su Barselonos autonominiu universitetu. Tyrėjai Álvaro Corral, Isabel Moreno García ir Francesc Font Clos atliko išsamią analizę masto, kuriame jie išanalizavo tūkstančius suskaitmenintų tekstų anglų kalba, kad pamatytų, koks teisingas buvo Zipfo įstatymas.

Jo darbas, kuriame buvo išanalizuotas platus apie 30 000 tomų korpusas, leido jam gauti įstatymą, lygiavertį „Zipf“ įstatymui., kuriame buvo matyti, kad dažniausiai naudojamas žodis buvo dvigubai dažniau nei antrasis ir t.

Zipf įstatymas kituose kontekstuose

Nors iš pradžių Zipfo įstatymas buvo naudojamas aiškinant kiekvienoje kalboje vartojamų žodžių dažnumą, lyginant jo išvaizdos diapazoną su realiu dažniu tekstuose ir pokalbiuose, jis taip pat buvo ekstrapoliuojamas kitiems situacijose.

Gana ryškus atvejis yra žmonių, gyvenančių JAV sostinėse, skaičiaus. Pagal Zipfo įstatymą, daugiausiai gyventojų turinti Amerikos sostinė buvo dvigubai didesnė už antrą pagal gyventojų skaičių ir tris kartus didesnė už trečią pagal gyventojų skaičių.

Jei pažvelgsite į 2010 m. Gyventojų surašymą, tai sutiks. Niujorke iš viso gyveno 8 175 133 žmonės, o kita pagal gyventojų skaičių sostinė yra Los Andželas 3 792 621 ir šios reitingo sostinės, Čikaga, Hiustonas ir Filadelfija su 2 695 598, 2 100 263 ir 1 526 006, atitinkamai

Tai galima pastebėti ir labiausiai apgyvendintų Ispanijos miestų atveju, nors Zipf įstatymai netaikomi. Tai visiškai atitinka reikalavimus, tačiau didesniu ar mažesniu mastu atitinka kiekvieno miesto užimamą rangą reitingą. Madride, kuriame gyvena 3 266 126 gyventojai, dvigubai daugiau nei Barselonoje - 1636 762, o Valensijoje - maždaug trečdalis su 800 000 gyventojų.

Kitas pastebimas Zipf dėsnio atvejis yra tinklalapiai. Internetinė erdvė yra labai plati, sukurta beveik 15 milijardų tinklalapių. Atsižvelgiant į tai, kad pasaulyje yra apie 6800 milijonų žmonių, teoriškai kiekvienam iš jų kiekvieną dieną būtų po du tinklalapius, kurių nėra.

Dešimt šiuo metu lankomiausių puslapių yra: „Google“ (60,49 mln. Apsilankymų per mėnesį), „Youtube“ (24,31 mln.), „Facebook“ (19,98 mln.), „Baidu“ (9,77 mln.), „Wikipedia“ (4,69 mln.), „Twitter“ (3,92 mln.), „Yahoo“ (3,74 mln.), „Pornhub“ (3,36 mln.), „Instagram“ (3,21 mln.) Ir „Xvideos“ (3, 19). milijonai). Pažvelgus į šiuos skaičius, galima pastebėti, kad „Google“ yra dvigubai daugiau nei „YouTube“, tris kartus daugiau nei „Facebook“, daugiau nei keturis kartus daugiau nei „Baidu“ ...

Bibliografinės nuorodos:

  • Font-Clos, F., Boleda, G. ir Corral, Á. (2013) Didesnio dydžio įstatymas, viršijantis Zipfo įstatymą ir jo ryšį su Heapso įstatymu. Naujas fizikos žurnalas, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. Į. (2001). Už Zipfo - Mandelbroto įstatymas kiekybinėje kalbotyroje. „Physica A“: Statistinė mechanika ir jos taikymai 300: 567-578.
Koks yra romantizmo ir nacionalizmo santykis?

Koks yra romantizmo ir nacionalizmo santykis?

yra gana gerai žinomas santykiai, kurie egzistuoja tarp Romantizmas ir nacionalizmas. Tiesą sakan...

Skaityti daugiau

Kokie yra viduramžių meno grožio kanonai?

Tamsus laikas. Maža erudicijos. Grubus ir gremėzdiškas menas. Labai religingos būtybės, kurios vi...

Skaityti daugiau

25 mokslo populiarinimo straipsnių pavyzdžiai

25 mokslo populiarinimo straipsnių pavyzdžiai

Pastaraisiais šimtmečiais mokslas pažengė į priekį šuoliais.. Nauji atradimai nenustoja daryti ir...

Skaityti daugiau

instagram viewer