Education, study and knowledge

Законът на Zipf: любопитен социален и математически феномен

Ние използваме хиляди думи всеки ден, със значения от всякакъв вид и принадлежащи към много разнообразни граматически категории. Не всички от тях обаче се използват с еднаква честота. В зависимост от това колко важни са те за структурата на изречението, има думи, които се повтарят по-често от други.

Законът на Zipf е постулат, който взема предвид това явление и указва колко вероятно е дадена дума да бъде използвана въз основа на нейната позиция в класирането на всички думи, използвани в даден език. След това ще навлезем по-подробно за този закон.

  • Свързана статия: "12-те типа език (и техните характеристики)"

Законът на Zipf

Джордж Кингсли Зипф (1902–1950) е американски лингвист, роден във Фрипорт, Илинойс, който се сблъсква с любопитен феномен в изследванията си по сравнителна филология. В своята работа, в която той извършва статистически анализи, той открива това изглежда, че най-използваните думи имат външен вид, това е раждането на закона, който получава неговото фамилно име.

Според закона на Zipf, в по-голямата част от времето, ако не винаги,

instagram story viewer
думите, използвани в писмен текст или в устен разговор, ще следват следния модел: най-използваната дума, която би заела първата позиция в класацията, ще бъде два пъти по-често използвана от втората най-използвана, три пъти повече от третата, четири пъти повече от четвъртата и т.н. последователно.

В математически план този закон би бил:

Pn ≈ 1⁄na

Където „Pn“ е честотата на думата в реда „n“, а степента „a“ е приблизително 1.

Трябва да се каже, че Джордж Цип не беше единственият, който спазва тази закономерност в честотата на най-често използваните думи на много езици, както естествени, така и изкуствени. Всъщност е известно, че е имало и други, като стеганографът Жан-Батист Еступ и физикът Феликс Ауербах.

Zipf изучава това явление с текстове на английски език и очевидно е вярно. Ако вземем оригиналната версия на Произходът на видовете от Чарлз Дарвин (1859) виждаме, че думата, която най-често се използва в първата глава, е "the", с вид около 1050, докато второто е "и", появява се около 400 пъти, а третото е "до" около 300. Макар и не точно, можете да видите, че втората дума се появява наполовина толкова пъти, колкото първата и третата една трета.

Същото се случва и на испански. Ако вземем същата тази статия като пример, можем да видим, че думата "на" се използва 85 пъти, като най-използваната, докато думата "la", която е втората най-използвана, може да се брои до 57 пъти.

Виждайки, че това явление се среща на други езици, става интересно да се мисли как човешкият мозък обработва езика. Въпреки че има много културни феномени, които измерват употребата и значението на много думи, въпросният език е a културен фактор сам по себе си начинът, по който използваме най-използваните думи, изглежда е независим фактор на култура.

  • Може да се интересувате: "Какво е културна психология?"

Честота на функционалните думи

Нека разгледаме следните десет думи: „какво“, „от“, „не“, „до“, „на“, „на“, „е“, „и“, „в“ и „какво“. какво е общото между всички тях? Които са безсмислени думи сами по себе си, но по ирония на съдбата са 10-те най-използвани думи в испанския език.

Като казваме, че им липсва значение, имаме предвид, че ако се казва изречение, в което няма съществително, прилагателно, глагол или наречие, изречението е безсмислено. Например:

… И …… в …… един… от …… до… от ……

От друга страна, ако заменим точките с думи със значение, можем да получим фраза като следната.

Мигел и Ана имат кафява маса до леглото си у дома.

Тези често използвани думи са това, което са известни функционални думи, и са отговорни за придаване на граматическа структура на изречението. Те са не само 10-те, които сме виждали, всъщност има десетки от тях и всички те са сред стоте най-използвани думи на испански.

Въпреки че са безсмислени сами по себе си, е невъзможно да се пропуснат в нито едно изречение, което искате да осмислите. Необходимо е хората, за да предадат ефективно съобщение, да прибягваме до думи, които съставляват структурата на изречението. Поради тази причина те, странно, са най-използваните.

Разследване

Въпреки това, което Джордж Цип наблюдава в изследванията си по сравнителна философия, до относително наскоро не беше възможно да се разгледат емпирично постулатите на закона. Не защото беше материално невъзможно да се анализират всички разговори или текстове на английски или който и да е друг език, а поради обезсърчителната задача и големите усилия.

За щастие и благодарение на съществуването на съвременни изчисления и софтуер, това беше така Възможно е да се разследва дали този закон е даден по начина, по който го е предложил Zipf в началото, или е имало вариации.

Един от случаите е изследването, проведено от Центъра за математически изследвания (CRM, в Каталунския център de Recerca Matemàtica), свързано с Автономния университет в Барселона. Изследователите Álvaro Corral, Isabel Moreno García и Francesc Font Clos извършиха изчерпателен анализ мащаб, в който те анализираха хиляди дигитализирани текстове на английски, за да видят колко верен е законът на Zipf.

Неговата работа, в която е анализиран обширен корпус от около 30 000 тома, му позволява да получи закон, еквивалентен на този на Zipf, в която се видя, че най-използваната дума е два пъти по-използвана от втората и т.н.

Законът Zipf в други контексти

Въпреки че законът на Zipf първоначално се използва за обяснение на честотата на думите, използвани във всеки език, сравнявайки обхвата на появата му с реалната му честота в текстове и разговори, той също е екстраполиран на други ситуации.

Доста поразителен случай е броят на хората, живеещи в столиците на САЩ. Според закона на Zipf най-многолюдната столица на Америка е била два пъти по-голяма от втората по население и три пъти по-голяма от третата по население.

Ако погледнете преброяването на населението през 2010 г., това се съгласява. Ню Йорк имаше общо население от 8 175 133 души, като следващата по население столица беше Лос Анджелис, с 3 792 621 и следните столици в класацията, Чикаго, Хюстън и Филаделфия с 2 695 598, 2 100 263 и 1,526 006, съответно

Можете да видите това и в случая с най-населените градове в Испания, въпреки че законът на Zipf не е такъв Той е напълно съвместим, но отговаря в голяма или по-малка степен на ранга, който всеки град заема в класиране. Мадрид, с население от 3 266 126, има два пъти повече от Барселона, с 1 636 762, докато Валенсия има около една трета с 800 000 жители.

Друг наблюдаем случай на закона на Zipf е с уеб страниците. Киберпространството е много обширно, със създадени близо 15 милиарда уеб страници. Като се има предвид, че в света има около 6800 милиона души, на теория за всеки от тях ще има две уеб страници, които да се посещават всеки ден, което не е така.

Десетте най-посещавани страници в момента са: Google (60,49 милиона посещения месечно), Youtube (24,31 милиона), Facebook (19,98 милиона), Baidu (9,77 милиона), Уикипедия (4,69 милиона), Twitter (3,92 милиона), Yahoo (3,74 милиона), Pornhub (3,36 милиона), Instagram (3,21 милиона) и Xvideos (3, 19 милиони). Разглеждайки тези цифри, можете да видите, че Google е два пъти по-посещаван от YouTube, три пъти повече от Facebook, повече от четири пъти повече от Baidu ...

Библиографски справки:

  • Font-Clos, F., Boleda, G. и Corral, Á. (2013) Закон за мащабиране извън закона на Zipf и връзката му със закона на Heaps. Нов вестник по физика, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Монтемуро, М. ДА СЕ. (2001). Отвъд закона на Zipf - Mandelbrot в количествената лингвистика. Physica A: Статистическа механика и нейните приложения 300: 567-578.
4-те клона на християнството (и как се различават)

4-те клона на християнството (и как се различават)

Християнството е религията с най-голям брой последователи в света, факт, който е свързан с появат...

Прочетете още

Какво е логото във философията?

Какво е логото във философията?

Философията е дисциплина на знанието, която е насочена към изучаването на първите причини, послед...

Прочетете още

Какво е класическа философия и какви са нейните характеристики?

Какво е класическа философия и какви са нейните характеристики?

Философията е академична дисциплина, която се състои от набор от знания и разсъждения, развити въ...

Прочетете още