Education, study and knowledge

Закон Зіпфа: дивне соціальне та математичне явище

click fraud protection

Ми щодня використовуємо тисячі слів із різними значеннями, що належать до дуже різноманітних граматичних категорій. Однак не всі вони використовуються з однаковою частотою. Залежно від того, наскільки вони важливі для структури речення, існують слова, які частіше повторюються, ніж інші.

Закон Ципфа - це постулат, який враховує це явище і визначає, наскільки ймовірним буде використання слова на основі його позиції в рейтингу всіх слів, що використовуються в мові. Далі ми детальніше розглянемо цей закон.

  • Пов’язана стаття: "12 типів мови (та їх характеристики)"

Закон Зіпфа

Джордж Кінгслі Зіпф (1902–1950) - американський лінгвіст, який народився у Фріпорті, штат Іллінойс, і зіткнувся з дивним явищем у своїх дослідженнях порівняльної філології. У своїй роботі, в якій він проводив статистичний аналіз, він виявив це здавалося, найбільш вживані слова мали вигляд, це народження закону, який отримує його прізвище.

Згідно із законом Зіпфа, у переважній більшості випадків, якщо не завжди, слова, використані в письмовому тексті або в усній бесіді, матимуть такий зразок

instagram story viewer
: найбільш вживане слово, яке посідало б перше місце в рейтингу, було б удвічі частіше вживане, ніж другий за частотою вживання, втричі більше, ніж третій, у чотири рази більше, ніж четвертий тощо послідовно.

У математичному плані цей закон буде таким:

Pn ≈ 1⁄на

Де 'Pn' - це частота слова у порядку 'n', а показник степеня 'a' дорівнює приблизно 1.

Слід сказати, що Джордж Ципф був не єдиним, хто дотримувався цієї закономірності в частоті найбільш вживаних слів багатьох мов, як природних, так і штучних. Насправді відомо, що існували й інші, такі як стеганограф Жан-Батіст Еступ та фізик Фелікс Ауербах.

Ціп вивчав це явище текстами англійською мовою, і, мабуть, це правда. Якщо взяти оригінальну версію Походження видів Чарльза Дарвіна (1859) ми бачимо, що в першій главі найчастіше вживається слово "the", із виглядом приблизно 1050, тоді як друге - це «і», що з’являється приблизно в 400 разів, а третє - «до» близько 300. Хоча не зовсім так, ви можете помітити, що друге слово з’являється вдвічі частіше, ніж перше, а третє - третє.

Те саме відбувається в іспанській мові. Якщо взяти за приклад цю саму статтю, то можна побачити, що слово "з" вживається 85 разів, будучи найбільш вживані, тоді як слово "la", яке є другим за вживанням, можна зарахувати до 57 разів.

Побачивши, що це явище зустрічається в інших мовах, стає цікаво думати про те, як мозок людини обробляє мову. Хоча існує багато культурних явищ, які вимірювали вживання та значення багатьох слів, мова, про яку йде мова, є культурний фактор сам по собі спосіб, яким ми використовуємо найбільш вживані слова, здається незалежним фактором культури.

  • Вас може зацікавити: "Що таке культурна психологія?"

Частота функціональних слів

Давайте розглянемо наступні десять слів: „що”, „від”, „ні”, „до”, „той”, „той”, „є”, „та”, „у” та „що”. що спільного у всіх? Які самі по собі є безглуздими словами, але за іронією долі - це 10 найбільш вживаних слів в іспанській мові.

Сказавши, що їм бракує значення, ми маємо на увазі, що, якщо сказано речення, у якому немає іменника, прикметника, дієслова чи прислівника, речення позбавлене сенсу. Наприклад:

... І …… в …… один… з …… до… з ……

З іншого боку, якщо замінити крапки словами зі значенням, ми можемо мати таку фразу, як наведена нижче.

Мігель та Ана вдома мають біля свого ліжка коричневий стіл.

Ці часто вживані слова - це те, що є відомими функціональними словами, та Вони відповідають за надання граматичної структури реченню. Це не лише 10, які ми бачили, насправді їх десятки, і всі вони входять до ста найбільш вживаних слів іспанською.

Хоча вони самі по собі безглузді, неможливо пропустити в жодному реченні, яке ви хочете осмислити. Необхідно, щоб люди, щоб ефективно передавати повідомлення, вдавались до слів, що становлять структуру речення. З цієї причини вони, як не дивно, є найбільш використовуваними.

Розслідування

Незважаючи на те, що Джордж Зіпф спостерігав у своїх дослідженнях порівняльної філософії, до порівняно недавнього часу не було можливості емпірично розглянути постулати закону. Не тому, що було матеріально неможливо проаналізувати всі розмови чи тексти англійською мовою чи будь-якою іншою мовою, а через страшне завдання та великі зусилля.

На щастя, і завдяки існуванню сучасних обчислювальних та комп’ютерних програм це було Можна дослідити, чи був цей закон таким, яким його спочатку пропонував Зіпф, чи він був варіації.

Одним із випадків є дослідження, проведене Центром математичних досліджень (CRM, у Каталонському центрі де Recerca Matemàtica), пов’язаному з Автономним університетом Барселони. Дослідники Альваро Коррал, Ізабель Морено Гарсія та Франческа Фонт Кло провели всебічний аналіз масштабу, в якому вони проаналізували тисячі оцифрованих текстів англійською мовою, щоб побачити, наскільки правдивим був закон Ципфа.

Його робота, в якій було проаналізовано обширний корпус близько 30000 томів, дозволила йому отримати закон, еквівалентний закону Зіпфа, в якому було видно, що найбільш вживане слово вдвічі частіше вживається, ніж друге тощо.

Закон Zipf в інших контекстах

Хоча закон Зіпфа спочатку використовувався для пояснення частоти слів, що вживаються в кожній мові, порівнюючи діапазон його появи з реальною частотою в текстах та розмовах, його також екстраполювали на інші ситуації.

Досить разюча справа кількість людей, що проживають у столицях США. Згідно із законом Зіпфа, найбільш густонаселена американська столиця мала розмір удвічі більший за другий за чисельністю населення та втричі більший за розмір третьої за чисельністю населення.

Якщо поглянути на перепис населення 2010 року, це погоджується. У Нью-Йорку проживало 8 175 133 людей, наступною за чисельністю столицею був Лос-Анджелес, с 3 792 621 та наступні столиці рейтингу, Чикаго, Х'юстон та Філадельфія з 2 695 598, 2100 263 та 1526 006, відповідно

Це можна побачити і у випадку найбільш населених міст Іспанії, хоча закон Ципфа не застосовується. Він повністю відповідає вимогам, але більшою чи меншою мірою відповідає рангу, яке кожне місто займає в рейтинг. У Мадриді, де проживає 3266126 мешканців, удвічі більше, ніж у Барселоні - 1636762, тоді як у Валенсії - близько третини з 800000 жителів.

Інший спостережуваний випадок закону Зіпфа - веб-сторінки. Кіберпростір дуже великий, на ньому створено близько 15 000 мільйонів веб-сторінок. Беручи до уваги, що у світі налічується близько 6800 мільйонів людей, теоретично для кожного з них було б щодня відвідувати дві веб-сторінки, що не так.

На сьогодні десять найбільш відвідуваних сторінок: Google (60,49 млн відвідувань щомісяця), Youtube (24,31 млн), Facebook (19,98 млн), Baidu (9,77 млн), Вікіпедія (4,69 млн), Twitter (3,92 млн), Yahoo (3,74 млн), Pornhub (3,36 млн), Instagram (3,21 млн) та Xvideos (3, 19 мільйони). Дивлячись на ці цифри, ви можете побачити, що Google вдвічі більше відвідуваних, ніж YouTube, втричі більше, ніж Facebook, більше ніж в чотири рази, ніж Baidu ...

Бібліографічні посилання:

  • Шрифт-Клос, Ф., Боледа, Г. та Corral, Á. (2013) Закон масштабування поза законом Ципфа та його відношення до закону Хіпса. Новий фізичний журнал, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Монтемурро, М. ДО. (2001). Поза законом Зіпфа - Мандельброта в кількісній лінгвістиці. Physica A: Статистична механіка та її застосування 300: 567-578.
Teachs.ru

Генетичний детермінізм: що це таке і що він означає в науці

За останні сто років у галузі біології було зроблено важливі відкриття, які дозволили зрозуміти, ...

Читати далі

Похоронні ритуали в кам'яному віці: якими вони були і що вони нам показують

Смерть є аспектом, який розглядається в усіх культурах. У всьому світі мить присвячується тим, хт...

Читати далі

Реалізм у мистецтві: ознаки, походження та приклади

Реалізм у мистецтві: ознаки, походження та приклади

Мистецтво — це внутрішньо людське вираження. Саме з цієї причини та через надзвичайне культурне р...

Читати далі

instagram viewer