Prawo Zipfa: ciekawe zjawisko społeczne i matematyczne
Każdego dnia używamy tysięcy słów o wszelkiego rodzaju znaczeniach i należących do bardzo różnych kategorii gramatycznych. Jednak nie wszystkie z nich są używane z tą samą częstotliwością. W zależności od tego, jak ważne są dla struktury zdania, istnieją słowa, które powtarzają się częściej niż inne.
Prawo Zipfa to postulat uwzględniający to zjawisko i określa prawdopodobieństwo użycia danego słowa na podstawie jego pozycji w rankingu wszystkich słów używanych w danym języku. Następnie omówimy bardziej szczegółowo to prawo.
- Powiązany artykuł: „12 rodzajów języka (i ich cechy)"
Prawo Zipfa
George Kingsley Zipf (1902–1950) był amerykańskim językoznawcą, urodzonym w Freeport w stanie Illinois, który w swoich studiach nad filologią porównawczą napotkał ciekawe zjawisko. W swojej pracy, w której przeprowadzał analizy statystyczne, stwierdził, że najczęściej używane słowa wydawały się mieć pewien wzór, to jest narodziny prawa, które otrzymuje jego nazwisko.
Zgodnie z prawem Zipfa, w zdecydowanej większości, jeśli nie zawsze,
słowa użyte w tekście pisanym lub w rozmowie ustnej będą miały następujący wzór: najczęściej używane słowo, które zajęłoby pierwsze miejsce w rankingu, byłoby dwa razy częściej używane niż drugi najczęściej używany, trzy razy więcej niż trzeci, cztery razy więcej niż czwarty i tak dalej sukcesywnie.W kategoriach matematycznych to prawo byłoby następujące:
Pn ≈ 1⁄na⁄
Gdzie „Pn” to częstotliwość słowa w porządku „n”, a wykładnik „a” wynosi w przybliżeniu 1.
Należy powiedzieć, że George Zipf nie był jedynym, który zaobserwował tę prawidłowość w częstotliwości najczęściej używanych słów wielu języków, zarówno naturalnych, jak i sztucznych. W rzeczywistości wiadomo, że byli inni, tacy jak steganograf Jean-Baptiste Estoup i fizyk Felix Auerbach.
Zipf badał to zjawisko za pomocą tekstów w języku angielskim i najwyraźniej to prawda. Jeśli weźmiemy oryginalną wersję Pochodzenie gatunków Karola Darwina (1859) widzimy, że słowo najczęściej używane w pierwszym rozdziale to „the”, z wyglądem około 1050, podczas gdy druga to „i”, pojawiająca się około 400 razy, a trzecia to „to”, pojawiająca się około 300. Chociaż nie do końca, widać, że drugie słowo pojawia się o połowę mniej niż pierwsze, a trzecie jedną trzecią.
To samo dzieje się po hiszpańsku. Jeśli weźmiemy ten sam artykuł jako przykład, zobaczymy, że słowo „z” zostało użyte 85 razy, będąc najczęściej używane, podczas gdy słowo „la”, które jest drugim najczęściej używanym, można liczyć do 57 czasy.
Widząc, że zjawisko to występuje w innych językach, warto zastanowić się, jak ludzki mózg przetwarza język. Chociaż istnieje wiele zjawisk kulturowych, które mierzyły użycie i znaczenie wielu słów, język, o którym mowa, jest czynnik kulturowy sam w sobie, sposób, w jaki używamy najczęściej używanych słów, wydaje się być niezależnym czynnikiem kultura.
- Możesz być zainteresowany: "Czym jest psychologia kulturowa?"
Częstotliwość słów funkcyjnych
Przyjrzyjmy się następującym dziesięciu słowom: „co”, „od”, „nie”, „do”, „ten”, „ten”, „jest”, „i”, „w” i „co”. Co oni wszyscy mają ze sobą wspólnego? Które same w sobie są bezsensownymi słowami, ale jak na ironię to 10 najczęściej używanych słów w języku hiszpańskim.
Mówiąc, że brak im znaczenia, mamy na myśli to, że jeśli wypowiedziane jest zdanie, w którym nie ma rzeczownika, przymiotnika, czasownika ani przysłówka, to zdanie jest pozbawione znaczenia. Na przykład:
… I…… w…… jednym… z…… do… z……
Z drugiej strony, jeśli zastąpimy kropki słowami o znaczeniu, możemy otrzymać frazę podobną do poniższej.
Miguel i Ana mają w domu brązowy stół obok łóżka.
Te często używane słowa są znanymi słowami funkcyjnymi i Są odpowiedzialni za nadanie zdaniu struktury gramatycznej. To nie tylko 10, które widzieliśmy, w rzeczywistości są ich dziesiątki, a wszystkie należą do stu najczęściej używanych słów w języku hiszpańskim.
Chociaż same w sobie są bez znaczenia, są niemożliwe do pominięcia w żadnym zdaniu, które chcesz zrozumieć. Niezbędne jest, aby człowiek, aby skutecznie przekazać wiadomość, odwoływał się do słów, które składają się na strukturę zdania. Z tego powodu są, co ciekawe, najczęściej używane.
Dochodzenie
Pomimo tego, co George Zipf zaobserwował w swoich badaniach nad filozofią porównawczą, do niedawna nie było możliwe empiryczne odniesienie się do postulatów prawa. Nie dlatego, że analiza wszystkich rozmów czy tekstów w języku angielskim czy innym języku była materialnie niemożliwa, ale z powodu trudnego zadania i dużego wysiłku.
Na szczęście, dzięki istnieniu nowoczesnych komputerów i oprogramowania, udało się: Możliwe jest zbadanie, czy prawo to zostało nadane w sposób, w jaki Zipf zaproponował je na początku, czy też istniały odmiany.
Jednym z przypadków są badania przeprowadzone przez Centrum Badań Matematycznych (CRM, w katalońskim Centre de Recerca Matemàtica) powiązane z Uniwersytetem Autonomicznym w Barcelonie. Naukowcy Álvaro Corral, Isabel Moreno García i Francesc Font Clos przeprowadzili kompleksową analizę skalę, w której przeanalizowali tysiące zdigitalizowanych tekstów w języku angielskim, aby zobaczyć, jak prawdziwe jest prawo Zipfa.
Jego praca, w której przeanalizowano obszerny korpus liczący około 30 000 tomów, pozwoliła mu uzyskać prawo równoważne prawu Zipfa, w którym stwierdzono, że najczęściej używane słowo było dwa razy częściej używane niż drugie i tak dalej.
Prawo Zipf w innych kontekstach
Chociaż prawo Zipfa było pierwotnie używane do wyjaśnienia częstotliwości słów używanych w każdym języku, porównując jego zasięg występowania z jego rzeczywistą częstotliwością w tekstach i rozmowach, został również ekstrapolowany na inne sytuacje.
Dość uderzającym przypadkiem jest: liczba osób mieszkających w stolicach USA. Zgodnie z prawem Zipfa, najludniejsza stolica Ameryki była dwukrotnie większa od drugiej pod względem zaludnienia i trzykrotnie większa od trzeciej pod względem zaludnienia.
Jeśli spojrzysz na spis ludności z 2010 r., to się zgadza. Łączna populacja Nowego Jorku wynosiła 8 175 133 osób, a kolejną najbardziej zaludnioną stolicą było Los Angeles, z 3.792.621 i kolejne stolice w rankingu, Chicago, Houston i Filadelfia z 2.695.598, 2.100.263 i 1.526.006, odpowiednio
Widać to również w przypadku najbardziej zaludnionych miast w Hiszpanii, chociaż prawo Zipfa nie ma zastosowania. Jest w pełni zgodny, ale odpowiada, w większym lub mniejszym stopniu, pozycji, jaką każde miasto zajmuje w zaszeregowanie. Madryt, z populacją 3 266 126, ma dwa razy więcej niż Barcelona, z 1 636 762, podczas gdy Walencja ma około jedną trzecią z 800 000 mieszkańców.
Innym obserwowalnym przypadkiem prawa Zipfa są strony internetowe. Cyberprzestrzeń jest bardzo rozległa, utworzono prawie 15 miliardów stron internetowych. Biorąc pod uwagę, że na świecie żyje około 6800 milionów ludzi, teoretycznie na każdą z nich przypadałyby dwie strony internetowe do odwiedzenia każdego dnia, co nie jest prawdą.
Dziesięć najczęściej odwiedzanych obecnie stron to: Google (60,49 mln odwiedzin miesięcznie), Youtube (24,31 mln), Facebook (19,98 mln), Baidu (9,77 mln), Wikipedia (4,69 mln), Twitter (3,92 mln), Yahoo (3,74 mln), Pornhub (3,36 mln), Instagram (3,21 mln) i Xvideos (3, 19 miliony). Patrząc na te liczby widać, że Google jest dwukrotnie częściej odwiedzane niż YouTube, trzy razy więcej niż Facebook, ponad cztery razy więcej niż Baidu…
Odniesienia bibliograficzne:
- Font-Clos, F., Boleda, G. and Corral, (2013) Prawo skalowania wykraczające poza prawo Zipfa i jego związek z prawem Heapsa. Nowy Dziennik Fizyki, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. DO. (2001). Beyond the Zipf – prawo Mandelbrota w lingwistyce ilościowej. Physica A: Mechanika statystyczna i jej zastosowania 300: 567-578.