Zipfs lov: et nysgerrig socialt og matematisk fænomen
Vi bruger tusindvis af ord hver dag med betydninger af alle slags og tilhører meget forskellige grammatiske kategorier. Imidlertid bruges ikke alle med samme frekvens. Afhængigt af hvor vigtige de er for sætningens struktur, er der ord, der er mere tilbagevendende end andre.
Zipfs lov er et postulat, der tager højde for dette fænomen og specificerer, hvor sandsynligt et ord skal bruges baseret på dets position i placeringen af alle ord, der bruges på et sprog. Dernæst vil vi gå nærmere ind på denne lov.
- Relateret artikel: "De 12 sprogtyper (og deres karakteristika)"
Zipfs lov
George Kingsley Zipf (1902–1950) var en amerikansk sprogforsker, født i Freeport, Illinois, der stødte på et nysgerrig fænomen i sine studier af komparativ filologi. I sit arbejde, hvor han gennemførte statistiske analyser, fandt han det de mest brugte ord syntes at have et mønster af udseende, dette er fødslen af loven, der modtager hans efternavn.
Ifølge Zipfs lovgivning, i langt størstedelen af tiden, hvis ikke altid,
de ord, der bruges i en skriftlig tekst eller i en mundtlig samtale, følger følgende mønster: det mest brugte ord, som ville indtage den første position i placeringen, ville være dobbelt så ofte brugt som den næstmest anvendte, tre gange så mange gange som den tredje, fire gange så mange gange som den fjerde osv successivt.I matematiske termer ville denne lov være:
Pn ≈ 1⁄na
Hvor 'Pn' er hyppigheden af et ord i rækkefølgen 'n', og eksponenten 'a' er cirka 1.
Det skal siges George Zipf var ikke den eneste, der observerede denne regelmæssighed i hyppigheden af de mest brugte ord af mange sprog, både naturlige og kunstige. Faktisk er det kendt, at der var andre, såsom steganografen Jean-Baptiste Estoup og fysikeren Felix Auerbach.
Zipf studerede dette fænomen med tekster på engelsk, og tilsyneladende er det sandt. Hvis vi tager den originale version af Arternes oprindelse af Charles Darwin (1859) ser vi, at det mest anvendte ord i det første kapitel er "the" med et udseende på ca. 1.050, mens det andet er "og", vises omkring 400 gange, og det tredje er "til", vises omkring 300. Selvom det ikke er nøjagtigt, kan du se, at det andet ord vises halvt så mange gange som det første og det tredje tredjedel.
Det samme sker på spansk. Hvis vi tager den samme artikel som et eksempel, kan vi se, at ordet "af" bruges 85 gange, værende det mest anvendte, mens ordet "la", som er det næstmest anvendte, kan tælles op til 57 gange.
Når dette fænomen forekommer på andre sprog, bliver det interessant at tænke på, hvordan den menneskelige hjerne behandler sprog. Selv om der er mange kulturelle fænomener, der måler brugen og betydningen af mange ord, er det pågældende sprog et kulturel faktor i sig selv, den måde, hvorpå vi bruger de mest anvendte ord, synes at være en uafhængig faktor for kultur.
- Du kan være interesseret: "Hvad er kulturpsykologi?"
Hyppighed af funktionsord
Lad os se på følgende ti ord: 'hvad', 'fra', 'ikke', 'til', 'den', 'den', 'er', 'og', 'i' og 'hvad'. hvad har de alle til fælles? Hvilket er meningsløse ord alene, men ironisk nok er de 10 mest brugte ord på det spanske sprog.
Ved at sige, at de mangler mening, mener vi, at hvis en sætning siges, hvor der ikke er substantiv, adjektiv, verb eller adverb, er sætningen meningsløs. For eksempel:
… Og …… i …… en… af …… til… af ……
På den anden side, hvis vi erstatter prikkerne med ord med betydning, kan vi have en sætning som følgende.
Miguel og Ana har et brunt bord ved siden af deres seng derhjemme.
Disse hyppigt anvendte ord er, hvad der er kendte funktionsord, og De har ansvaret for at give grammatisk struktur til sætningen. De er ikke kun de 10, vi har set, der er faktisk snesevis af dem, og alle er blandt de hundrede mest brugte ord på spansk.
Selvom de er meningsløse alene, er umulige at udelade i nogen sætning, som du vil give mening. Det er nødvendigt, at mennesker, for at overføre en besked effektivt, griber til ord, der udgør sætningens struktur. Af denne grund er de mærkeligt nok de mest anvendte.
Efterforskning
På trods af hvad George Zipf observerede i sine studier af komparativ filosofi, indtil relativt nylig havde det ikke været muligt empirisk at adressere lovens postulater. Ikke fordi det var materielt umuligt at analysere alle samtaler eller tekster på engelsk eller noget andet sprog, men på grund af den skræmmende opgave og den store indsats.
Heldigvis og takket være eksistensen af moderne computer- og computerprogrammer har det været Det er muligt at undersøge, om denne lov var på den måde, Zipf oprindeligt foreslog, eller om der var variationer.
Én sag er den forskning, der er udført af Center for Matematisk Forskning (CRM, i Catalansk Center de Recerca Matemàtica), der er knyttet til det autonome universitet i Barcelona. Forskerne Álvaro Corral, Isabel Moreno García og Francesc Font Clos gennemførte en omfattende analyse skala, hvor de analyserede tusinder af digitaliserede tekster på engelsk for at se, hvor sand Zipfs lov var.
Hans arbejde, hvor et omfattende korpus på omkring 30.000 bind blev analyseret, tillod ham at opnå en lov svarende til Zipf, hvor det blev set, at det mest brugte ord var dobbelt så brugt som det andet osv.
Zipf-loven i andre sammenhænge
Selvom Zipfs lov oprindeligt blev brugt til at forklare hyppigheden af ord, der blev brugt på hvert sprog, når man sammenligner sit udseende med sin virkelige hyppighed i tekster og samtaler, er det også blevet ekstrapoleret til andre situationer.
En ret slående sag er antallet af mennesker, der bor i amerikanske hovedstæder. Ifølge Zipfs lov havde den mest folkerige amerikanske hovedstad dobbelt så stor som den næstmest befolkede og tre gange størrelsen af den tredje mest befolkede.
Hvis man ser på folketællingen fra 2010, er dette enig. New York havde en samlet befolkning på 8.175.133 mennesker, hvor den næststørste hovedstad var Los Angeles med 3.792.621 og de følgende hovedstæder i rangordningen, Chicago, Houston og Philadelphia med 2.695.598, 2.100.263 og 1.526.006, henholdsvis
Dette kan også ses i de mest befolkede byer i Spanien, selvom Zipfs lov ikke finder anvendelse. Det er fuldt ud kompatibelt, men det svarer i større eller mindre grad til den rang, som hver by indtager i placering. Madrid, med en befolkning på 3.266.126, har dobbelt så mange som Barcelona, med 1.636.762, mens Valencia har omkring en tredjedel med 800.000 indbyggere.
Et andet observerbart tilfælde af Zipfs lov er med websider. Cyberspace er meget omfattende med næsten 15 milliarder websider oprettet. Under hensyntagen til, at der i verden er omkring 6.800 millioner mennesker, ville der i teorien for hver af dem være to websider at besøge hver dag, hvilket ikke er tilfældet.
De ti mest besøgte sider på nuværende tidspunkt er: Google (60,49 millioner månedlige besøg), Youtube (24,31 millioner), Facebook (19,98 millioner), Baidu (9,77 millioner), Wikipedia (4,69 millioner), Twitter (3,92 millioner), Yahoo (3,74 millioner), Pornhub (3,36 millioner), Instagram (3,21 millioner) og Xvideos (3, 19 millioner). Når man ser på disse tal, kan man se, at Google er dobbelt så besøgt som YouTube, tre gange så meget som Facebook, mere end fire gange så meget som Baidu ...
Bibliografiske referencer:
- Font-Clos, F., Boleda, G. og Corral, Á. (2013) En skaleringslov ud over Zipfs lov og dens forhold til Heaps 'lov. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. TIL. (2001). Beyond the Zipf - Mandelbrot-lov i kvantitativ lingvistik. Physica A: Statistisk mekanik og dens anvendelser 300: 567-578.