Education, study and knowledge

Zipfův zákon: zvláštní sociální a matematický jev

Používáme tisíce slov každý den, s významy všeho druhu a patřícími do velmi rozmanitých gramatických kategorií. Ne všechny jsou však používány se stejnou frekvencí. V závislosti na tom, jak jsou pro strukturu věty důležité, existují slova, která se opakují více než ostatní.

Zipfův zákon je postulát, který tento jev bere v úvahu a určuje pravděpodobnost použití slova na základě jeho pozice v žebříčku všech slov použitých v jazyce. Dále se budeme podrobněji zabývat tímto zákonem.

  • Související článek: „12 typů jazyků (a jejich charakteristika)"

Zipfův zákon

George Kingsley Zipf (1902–1950) byl americký lingvista, narozený ve Freeportu ve státě Illinois, který se ve studiích srovnávací filologie setkal se zvláštním fenoménem. Ve své práci, ve které prováděl statistické analýzy, to zjistil nejpoužívanější slova vypadala, že mají vzorový vzhled, což je zrození zákona, který přijímá jeho příjmení.

Podle Zipfova zákona ve velké většině případů, ne-li vždy, slova, která jsou použita v psaném textu nebo v ústní konverzaci, budou následovat následující vzorec

instagram story viewer
: nejpoužívanější slovo, které by zaujímalo první místo v žebříčku, by bylo použito dvakrát častěji než druhý nejpoužívanější, třikrát tolik jako třetí, čtyřikrát tolik jako čtvrtý atd postupně.

Z matematického hlediska by tento zákon byl:

Pn ≈ 1⁄na

Kde „Pn“ je frekvence slova v pořadí „n“ a exponent „a“ je přibližně 1.

Je třeba říci, že George Zipf nebyl jediný, kdo sledoval tuto pravidelnost ve frekvenci nejpoužívanějších slov mnoha jazyků, přírodních i umělých. Ve skutečnosti je známo, že existovali i další, například steganograf Jean-Baptiste Estoup a fyzik Felix Auerbach.

Zipf studoval tento fenomén s texty v angličtině a je to zjevně pravda. Vezmeme-li původní verzi Původ druhů Charles Darwin (1859) vidíme, že nejpoužívanějším slovem v první kapitole je „the“ se vzhledem asi 1 050, zatímco druhý je „a“, objevuje se přibližně 400krát a třetí je „do“ asi 300. I když tomu tak není, můžete vidět, že druhé slovo se objevuje napůl tolikrát jako první a třetí třetina.

Totéž se děje ve španělštině. Vezmeme-li tentýž článek jako příklad, vidíme, že slovo „of“ je použito 85krát nejpoužívanější, zatímco slovo „la“, které je druhým nejpoužívanějším, lze počítat až 57 krát.

Vzhledem k tomu, že se tento jev vyskytuje v jiných jazycích, je zajímavé přemýšlet o tom, jak lidský mozek jazyk zpracovává. Ačkoli existuje mnoho kulturních jevů, které měřily použití a význam mnoha slov, dotyčný jazyk je a kulturní faktor sám o sobě, způsob, jakým používáme nejpoužívanější slova, se zdá být nezávislým faktorem kultura.

  • Mohlo by vás zajímat: "Co je kulturní psychologie?"

Frekvence funkčních slov

Podívejme se na následujících deset slov: „co“, „od“, „ne“, „do“, „the“, „the“, „is“, „and“, „in“ a „what“. co mají všichni společného? Což jsou samy o sobě nesmyslná slova, ale ironicky je 10 nejpoužívanějších slov ve španělském jazyce.

Tím, že říkáme, že jim chybí význam, máme na mysli, že pokud se řekne věta, ve které není podstatné jméno, přídavné jméno, sloveso nebo příslovce, nemá věta smysl. Například:

… A …… v …… jeden… z …… až… ze ……

Na druhou stranu, pokud nahradíme tečky slovy s významem, můžeme mít frázi jako následující.

Miguel a Ana mají doma hnědý stůl vedle své postele.

Tato často používaná slova jsou známá funkční slova a Jsou odpovědní za poskytnutí gramatické struktury věty. Není to jen 10, které jsme viděli, ve skutečnosti jich jsou desítky a všechna patří mezi stovku nejpoužívanějších slov ve španělštině.

Ačkoli samy o sobě nemají smysl, nelze vynechat v žádné větě, kterou chcete dát smysl. Je nutné, aby se lidé k efektivnímu přenosu zprávy uchýlili ke slovům, která tvoří strukturu věty. Z tohoto důvodu jsou kupodivu nejpoužívanější.

Vyšetřování

Navzdory tomu, co George Zipf pozoroval ve svých studiích srovnávací filozofie, donedávna nebylo možné empiricky řešit postuláty zákona. Ne proto, že bylo hmotně nemožné analyzovat všechny rozhovory nebo texty v angličtině nebo jiném jazyce, ale kvůli náročnému úkolu a vynaloženému velkému úsilí.

Naštěstí a díky existenci moderních výpočetních prostředků a softwaru tomu tak bylo Je možné prozkoumat, zda byl tento zákon vydán tak, jak jej Zipf navrhoval na začátku, nebo zda ano variace.

Jedním z příkladů je výzkum prováděný Centrem pro matematický výzkum (CRM, v Katalánském centru de Recerca Matemàtica) spojený s Autonomní univerzitou v Barceloně. Vědci Álvaro Corral, Isabel Moreno García a Francesc Font Clos provedli komplexní analýzu měřítku, ve kterém analyzovali tisíce digitalizovaných textů v angličtině, aby zjistili, jak pravdivý byl Zipfův zákon.

Jeho práce, ve které byl analyzován rozsáhlý korpus asi 30 000 svazků, mu umožnila získat zákon rovnocenný zákonu Zipf, ve kterém bylo vidět, že nejpoužívanější slovo bylo dvakrát tak použito jako druhé atd.

Zipfův zákon v jiných kontextech

Ačkoli Zipfův zákon byl původně používán k vysvětlení četnosti slov používaných v každém jazyce, při srovnání rozsahu jeho vzhledu se skutečnou frekvencí v textech a konverzacích byl také extrapolován na jiné situacích.

Docela zarážející případ je počet lidí žijících v hlavních městech USA. Podle Zipfova zákona bylo nejlidnatější hlavní město Ameriky dvakrát větší než druhé nejlidnatější a třikrát větší než třetí nejlidnatější.

Pokud se podíváte na sčítání lidu z roku 2010, souhlasí to. New York měl celkovou populaci 8,175,133 lidí, přičemž dalším nejlidnatějším hlavním městem je Los Angeles, s 3,792,621 a následující hlavní města v pořadí, Chicago, Houston a Philadelphia s 2,695,598, 2,100,263 a 1,526,006, resp

To lze vidět také v případě nejlidnatějších měst ve Španělsku, ačkoli Zipfův zákon neplatí. Je plně v souladu, ale ve větší či menší míře odpovídá pořadí, ve kterém každé město zaujímá hodnocení. Madrid s 3 266 126 obyvateli má dvakrát více než Barcelona s 1 636 762 obyvateli, zatímco Valencia má asi třetinu s 800 000 obyvateli.

Dalším pozorovatelným případem Zipfova zákona jsou webové stránky. Kyberprostor je velmi rozsáhlý a je vytvořeno téměř 15 miliard webových stránek. Vezmeme-li v úvahu, že na světě žije asi 6 800 milionů lidí, teoreticky by pro každou z nich byly každý den k dispozici dvě webové stránky, což není tento případ.

Mezi deset nejnavštěvovanějších stránek v současnosti patří: Google (60,49 milionu návštěv měsíčně), Youtube (24,31 milionu), Facebook (19,98 milionu), Baidu (9,77 milionu), Wikipedia (4,69 milionu), Twitter (3,92 milionu), Yahoo (3,74 milionu), Pornhub (3,36 milionu), Instagram (3,21 milionu) a Xvideos (3, 19 miliony). Při pohledu na tato čísla můžete vidět, že Google je dvakrát tak navštěvovaný než YouTube, třikrát více než Facebook, více než čtyřikrát více než Baidu ...

Bibliografické odkazy:

  • Font-Clos, F., Boleda, G. and Corral, Á. (2013) A scaleing law beyond Zipf's law and its relationship to Heaps 'law. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. NA. (2001). Beyond the Zipf - Mandelbrot zákon v kvantitativní lingvistice. Physica A: Statistická mechanika a její aplikace 300: 567-578.

Environmentální determinismus: co to je, vlastnosti a příklady

Když se snažili vysvětlit rozdíly mezi kulturami a stupeň vývoje mezi národy, vzali v úvahu zohle...

Přečtěte si více

Iberové: vlastnosti a kultura těchto předřímských národů

Než Pyrenejský poloostrov dobyli Římané, byli v tomto regionu hlavně dva kultur, které na území d...

Přečtěte si více

Románské umění: jeho původ a charakteristika

Románské umění: jeho původ a charakteristika

Mluvíme-li o románském umění, jistě nám bude všem zcela jasné, o jakém období máme na mysli. Opra...

Přečtěte si více