Education, study and knowledge

De wet van Zipf: een merkwaardig sociaal en wiskundig fenomeen

We gebruiken elke dag duizenden woorden, met allerlei betekenissen en die tot zeer uiteenlopende grammaticale categorieën behoren. Ze worden echter niet allemaal met dezelfde frequentie gebruikt. Afhankelijk van hoe belangrijk ze zijn voor de structuur van de zin, zijn er woorden die vaker voorkomen dan andere.

De wet van Zipf is een postulaat dat rekening houdt met dit fenomeen en specificeert hoe waarschijnlijk het is dat een woord wordt gebruikt op basis van zijn positie in de rangorde van alle woorden die in een taal worden gebruikt. Vervolgens gaan we dieper in op deze wet.

  • Gerelateerd artikel: "De 12 soorten taal (en hun kenmerken)"

Wet van Zipff

George Kingsley Zipf (1902-1950) was een Amerikaanse taalkundige, geboren in Freeport, Illinois, die een merkwaardig fenomeen tegenkwam in zijn studies van vergelijkende filologie. In zijn werk, waarin hij statistische analyses uitvoerde, ontdekte hij dat: de meest gebruikte woorden leken een patroon van uiterlijk te hebben, dit is de geboorte van de wet die zijn achternaam ontvangt.

instagram story viewer

Volgens de wet van Zipf, in de overgrote meerderheid van de tijd, zo niet altijd, de woorden die in een geschreven tekst of in een mondeling gesprek worden gebruikt, volgen het volgende patroon:: het meest gebruikte woord, dat de eerste positie in de rangschikking zou innemen, zou twee keer zo vaak worden gebruikt als de op één na meest gebruikte, drie keer zo vaak als de derde, vier keer zo vaak als de vierde, enzovoort achtereenvolgens.

In wiskundige termen zou deze wet zijn:

Pn ≈ 1⁄na

Waar 'Pn' de frequentie is van een woord in de volgorde 'n' en de exponent 'a' is ongeveer 1.

Het moet gezegd worden dat George Zipf was niet de enige die deze regelmaat zag in de frequentie van de meest gebruikte woorden van vele talen, zowel natuurlijke als kunstmatige. Het is zelfs bekend dat er anderen waren, zoals de steganograaf Jean-Baptiste Estoup en de natuurkundige Felix Auerbach.

Zipf bestudeerde dit fenomeen met teksten in het Engels en blijkbaar is het waar. Als we de originele versie van Het ontstaan ​​van soorten door Charles Darwin (1859) zien we dat het woord dat het meest wordt gebruikt in het eerste hoofdstuk "de", met een uiterlijk van ongeveer appearance 1.050, terwijl de tweede "en" is en ongeveer 400 keer verschijnt, en de derde "aan", verschijnt ongeveer 300. Hoewel niet precies, kun je zien dat het tweede woord half zo vaak voorkomt als het eerste en het derde een derde.

Hetzelfde gebeurt in het Spaans. Als we hetzelfde artikel als voorbeeld nemen, kunnen we zien dat het woord "van" 85 keer wordt gebruikt, namelijk: het meest gebruikte woord, terwijl het woord "la", het op één na meest gebruikte woord, kan worden geteld tot 57 keer.

Aangezien dit fenomeen zich ook in andere talen voordoet, wordt het interessant om na te denken over hoe het menselijk brein taal verwerkt. Hoewel er veel culturele fenomenen zijn die het gebruik en de betekenis van veel woorden hebben gemeten, is de taal in kwestie een culturele factor op zich, lijkt de manier waarop we de meest gebruikte woorden gebruiken een onafhankelijke factor te zijn van de cultuur.

  • Misschien ben je geïnteresseerd: "Wat is culturele psychologie?"

Frequentie van functiewoorden

Laten we eens kijken naar de volgende tien woorden: 'wat', 'van', 'niet', 'naar', 'de', 'de', 'is', 'en', 'in' en 'wat'. wat hebben ze allemaal gemeen? Wat op zichzelf betekenisloze woorden zijn, maar ironisch genoeg? zijn de 10 meest gebruikte woorden in de Spaanse taal.

Door te zeggen dat ze geen betekenis hebben, bedoelen we dat, als een zin wordt gezegd waarin geen zelfstandig naamwoord, bijvoeglijk naamwoord, werkwoord of bijwoord staat, de zin zinloos is. Bijvoorbeeld:

… En…… in…… één… van… tot… van…

Aan de andere kant, als we de punten vervangen door woorden met betekenis, kunnen we een zin als de volgende hebben.

Miguel en Ana hebben thuis een bruine tafel naast hun bed.

Deze veelgebruikte woorden zijn de bekende functiewoorden, en Ze zijn verantwoordelijk voor het geven van grammaticale structuur aan de zin. Het zijn niet alleen de 10 die we hebben gezien, er zijn er zelfs tientallen, en ze behoren allemaal tot de honderd meest gebruikte woorden in het Spaans.

Hoewel ze op zichzelf nietszeggend zijn, zijn onmogelijk weg te laten in een zin die je wilt begrijpen. Het is noodzakelijk dat mensen, om een ​​boodschap efficiënt over te brengen, onze toevlucht nemen tot woorden die de structuur van de zin vormen. Om deze reden zijn ze, merkwaardig genoeg, het meest gebruikt.

Onderzoek

Ondanks wat George Zipf opmerkte in zijn studies van vergelijkende filosofie, tot voor kort was het niet mogelijk om de postulaten van de wet empirisch te onderzoeken. Niet omdat het materieel onmogelijk was om alle gesprekken of teksten in het Engels of een andere taal te analyseren, maar vanwege de gigantische taak en de grote inspanning die het met zich meebracht.

Gelukkig, en dankzij het bestaan ​​van moderne computers en software, is het Het is mogelijk om te onderzoeken of deze wet werd gegeven op de manier waarop Zipf het in het begin voorstelde, of dat die er waren variaties.

Een voorbeeld hiervan is het onderzoek dat is uitgevoerd door het Centrum voor Wiskundig Onderzoek (CRM, in het Catalaans Centre de Recerca Matemàtica) verbonden aan de Autonome Universiteit van Barcelona. Onderzoekers Álvaro Corral, Isabel Moreno García en Francesc Font Clos voerden een uitgebreide analyse uit schaal waarin ze duizenden gedigitaliseerde teksten in het Engels analyseerden om te zien hoe waar de wet van Zipf was.

Zijn werk, waarin een uitgebreid corpus van ongeveer 30.000 volumes werd geanalyseerd, stelde hem in staat een wet te verkrijgen die gelijkwaardig is aan die van Zipf, waarin werd gezien dat het meest gebruikte woord twee keer zo vaak werd gebruikt als het tweede, enzovoort.

De Zipf-wet in andere contexten

Hoewel de wet van Zipf oorspronkelijk werd gebruikt om de frequentie van woorden in elke taal uit te leggen, door zijn verschijningsbereik te vergelijken met zijn werkelijke frequentie in teksten en gesprekken, is het ook geëxtrapoleerd naar andere situaties.

Een nogal opvallend geval is case het aantal mensen dat in Amerikaanse hoofdsteden woont. Volgens de wet van Zipf was de dichtstbevolkte hoofdstad van Amerika twee keer zo groot als de op één na dichtstbevolkte en drie keer zo groot als de op twee na dichtstbevolkte hoofdstad.

Als je naar de volkstelling van 2010 kijkt, klopt dit. New York had een totale bevolking van 8.175.133 mensen, met als volgende meest bevolkte hoofdstad Los Angeles, met 3.792.621 en de volgende hoofdsteden in de ranglijst, Chicago, Houston en Philadelphia met 2.695.598, 2.100.363 en 1.526.006, respectievelijk

Dit is ook te zien in het geval van de meest bevolkte steden in Spanje, hoewel de wet van Zipf niet van toepassing is. Het is volledig conform, maar het komt in meer of mindere mate overeen met de rang die elke stad inneemt in de rangschikking. Madrid, met een bevolking van 3.266.126, heeft twee keer zoveel als Barcelona, ​​​​met 1.636.762, terwijl Valencia ongeveer een derde heeft met 800.000 inwoners.

Een ander waarneembaar geval van de wet van Zipf is met webpagina's. Cyberspace is zeer uitgebreid, met bijna 15 miljard webpagina's gemaakt. Rekening houdend met het feit dat er in de wereld ongeveer 6.800 miljoen mensen zijn, zouden er in theorie voor elk van hen twee webpagina's zijn om elke dag te bezoeken, wat niet het geval is.

De tien meest bezochte pagina's op dit moment zijn: Google (60,49 miljoen maandelijkse bezoeken), Youtube (24,31 miljoen), Facebook (19,98 miljoen), Baidu (9,77 miljoen), Wikipedia (4,69 miljoen), Twitter (3,92 miljoen), Yahoo (3,74 miljoen), Pornhub (3,36 miljoen), Instagram (3,21 miljoen) en Xvideos (3, 19 miljoenen). Als je naar deze cijfers kijkt, kun je zien dat Google twee keer zoveel wordt bezocht als YouTube, drie keer zoveel als Facebook, meer dan vier keer zoveel als Baidu ...

Bibliografische referenties:

  • Font-Clos, F., Boleda, G. en Corral,. (2013) Een schaalwet die verder gaat dan de wet van Zipf en de relatie met de wet van Heaps. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. NAAR. (2001). Voorbij de Zipf - Mandelbrot-wet in kwantitatieve taalkunde. Physica A: statistische mechanica en zijn toepassingen 300: 567-578.
De 23 bekendste Colombiaanse legendes

De 23 bekendste Colombiaanse legendes

Bekend als een van de plaatsen met de grootste culturele traditie en geografische diversiteit, Co...

Lees verder

De 25 beste gedichten van Pablo Neruda

Pablo Neruda Het is de naam waaronder de grote Chileense dichter Ricardo Eliezer Neftalí Reyes Ba...

Lees verder

De 18 belangrijkste Argentijnse legendes

De 18 belangrijkste Argentijnse legendes

Argentinië staat bekend om zijn ongelooflijke partner, het geweldige voetbalteam en zijn sensuele...

Lees verder