Zipfs lag: ett nyfiket socialt och matematiskt fenomen

Vi använder tusentals ord varje dag, med betydelser av alla slag och tillhör mycket varierade grammatiska kategorier. Men inte alla används med samma frekvens. Beroende på hur viktigt de är för meningsstrukturen finns det ord som är mer återkommande än andra.

Zipfs lag är ett postulat som tar hänsyn till detta fenomen och specificerar hur sannolikt ett ord ska användas baserat på dess position i rangordningen av alla ord som används på ett språk. Därefter kommer vi att gå in i mer detaljer om denna lag.

Relaterad artikel: "De 12 språktyperna (och deras egenskaper)"

Zipfs lag

George Kingsley Zipf (1902–1950) var en amerikansk lingvist, född i Freeport, Illinois, som stötte på ett märkligt fenomen i sina studier av jämförande filologi. I sitt arbete, där han utförde statistiska analyser, fann han det de mest använda orden verkade ha ett mönster av utseende, detta är födelsen av lagen som får hans efternamn.

Enligt Zipfs lag, i de allra flesta fall, om inte alltid, orden som används i en skriftlig text eller i en muntlig konversation följer följande mönster

instagram story viewer

: det mest använda ordet, som skulle inta den första positionen i rankningen, skulle vara dubbelt så ofta som den näst mest använda, tre gånger så många som den tredje, fyra gånger så många som den fjärde, och så vidare successivt.

I matematiska termer skulle denna lag vara:

Pn ≈ 1⁄na

Där 'Pn' är frekvensen för ett ord i ordningen 'n' och exponenten 'a' är ungefär 1.

Det bör sägas att George Zipf var inte den enda som observerade denna regelbundenhet i frekvensen av de mest använda orden på många språk, både naturliga och konstgjorda. Det är faktiskt känt att det fanns andra, som steganografen Jean-Baptiste Estoup och fysikern Felix Auerbach.

Zipf studerade detta fenomen med texter på engelska och tydligen är det sant. Om vi tar originalversionen av Species Origin av Charles Darwin (1859) ser vi att det mest använda ordet i det första kapitlet är "the", med ett utseende på ungefär 1 050, medan den andra är "och", dyker upp cirka 400 gånger, och den tredje är "till" cirka 300. Även om inte exakt, kan du se att det andra ordet visas hälften så många gånger som det första och det tredje.

Samma sak händer på spanska. Om vi tar samma artikel som ett exempel kan vi se att ordet "of" används 85 gånger, dvs. det mest använda, medan ordet "la", som är det näst mest använda, kan räknas upp till 57 gånger.

Med tanke på att detta fenomen förekommer på andra språk blir det intressant att tänka på hur den mänskliga hjärnan bearbetar språk. Även om det finns många kulturella fenomen som mäter användningen och betydelsen av många ord, är språket i fråga a kulturell faktor i sig, det sätt på vilket vi använder de mest använda orden verkar vara en oberoende faktor för kultur.

Du kanske är intresserad: "Vad är kulturpsykologi?"

Frekvens av funktionsord

Låt oss titta på följande tio ord: 'vad', 'från', 'inte', 'till', 'den', 'den', 'är', 'och', 'in' och 'vad'. vad har de alla gemensamt? Vilka är meningslösa ord på egen hand men ironiskt nog är de 10 mest använda orden på det spanska språket.

Genom att säga att de saknar mening menar vi att, om en mening sägs där det inte finns något substantiv, adjektiv, verb eller adverb, är meningen meningslös. Till exempel:

… Och …… i …… en… av …… till… av ……

Å andra sidan, om vi ersätter punkterna med ord med betydelse, kan vi ha en fras som följande.

Miguel och Ana har ett brunt bord bredvid sin säng hemma.

Dessa ofta använda ord är vad som är kända funktionsord, och De har ansvaret för att ge grammatisk struktur till meningen. De är inte bara de 10 som vi har sett, det finns faktiskt dussintals av dem, och alla är bland de hundra mest använda orden på spanska.

Även om de är meningslösa på egen hand, är omöjliga att utelämna i någon mening som du vill förstå. Det är nödvändigt att människor, för att överföra ett meddelande effektivt, tillgriper ord som utgör strukturen i meningen. Av denna anledning är de, märkligt nog, de mest använda.

Undersökning

Trots vad George Zipf observerade i sina studier av jämförande filosofi, tills relativt nyligen hade det inte varit möjligt att empiriskt ta itu med lagens postulat. Inte för att det var materiellt omöjligt att analysera alla konversationer eller texter på engelska eller något annat språk, utan på grund av den skrämmande uppgiften och den stora ansträngningen.

Lyckligtvis, och tack vare förekomsten av modern databehandling och programvara har det varit Det är möjligt att undersöka om denna lag gavs på det sätt som Zipf föreslog i början eller om det fanns variationer.

Ett fall är den forskning som utförts av Center for Mathematical Research (CRM, i Catalan Center de Recerca Matemàtica) kopplat till det autonoma universitetet i Barcelona. Forskarna Álvaro Corral, Isabel Moreno García och Francesc Font Clos genomförde en omfattande analys skala där de analyserade tusentals digitaliserade texter på engelska för att se hur sann Zipfs lag var.

Hans arbete, i vilket en omfattande grupp av cirka 30 000 volymer analyserades, gjorde det möjligt för honom att få en lag motsvarande Zipfs, där man såg att det mest använda ordet var dubbelt så använt som det andra, och så vidare.

Zipf-lagen i andra sammanhang

Även om Zipfs lag ursprungligen användes för att förklara frekvensen av ord som används på varje språk, genom att jämföra sitt utseendemässiga utseende med dess verkliga frekvens i texter och konversationer har det också extrapolerats till andra situationer.

Ett ganska slående fall är antalet människor som bor i amerikanska huvudstäder. Enligt Zipfs lag hade Amerikas mest folkrika huvudstad dubbelt så stor som den näst folkrikaste och tre gånger större än den tredje folkrikaste.

Om man tittar på folkräkningen från 2010 stämmer detta överens. New York hade en total befolkning på 8,175,133 personer, med den näst folkrikaste huvudstaden Los Angeles med 3 792 621 och följande huvudstäder i rankningen, Chicago, Houston och Philadelphia med 2 695 598, 2 100 263 och 1 526 006, respektive

Detta kan också ses i fallet med de mest befolkade städerna i Spanien, även om Zipfs lag inte gäller. Det överensstämmer helt, men det motsvarar, i mer eller mindre utsträckning, den rang varje stad upptar i ranking. Madrid, med en befolkning på 3 266 126, har dubbelt så många som Barcelona, med 1 636 762, medan Valencia har ungefär en tredjedel med 800 000 invånare.

Ett annat observerbart fall av Zipfs lag är med webbsidor. Cyberspace är mycket omfattande, med nästan 15 miljarder webbsidor skapade. Med tanke på att det finns cirka 6800 miljoner människor i världen, i teorin för varje av dem skulle det finnas två webbsidor att besöka varje dag, vilket inte är fallet.

De tio mest besökta sidorna för närvarande är: Google (60,49 miljoner månatliga besök), Youtube (24,31 miljoner), Facebook (19,98 miljoner), Baidu (9,77 miljoner), Wikipedia (4,69 miljoner), Twitter (3,92 miljoner), Yahoo (3,74 miljoner), Pornhub (3,36 miljoner), Instagram (3,21 miljoner) och Xvideos (3, 19 miljoner). Om man tittar på dessa siffror kan man se att Google är dubbelt så besökt som YouTube, tre gånger så många som Facebook, mer än fyra gånger så mycket som Baidu ...

Bibliografiska referenser:

Font-Clos, F., Boleda, G. och Corral, Á. (2013) En skalningslag utöver Zipfs lag och dess relation till Heaps lag. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
Montemurro, M. TILL. (2001). Beyond the Zipf - Mandelbrot-lag inom kvantitativ lingvistik. Physica A: Statistical Mechanics and its Applications 300: 567-578.

Zipfs lag: ett nyfiket socialt och matematiskt fenomen

Zipfs lag

Frekvens av funktionsord

Undersökning

Zipf-lagen i andra sammanhang

Bibliografiska referenser:

"Den märkliga händelsen med hunden vid midnatt" (Mark Haddon)

De 8 filosofiska disciplinerna: vad de är, typer och vad de studerar

Medeltida litteratur: kännetecken och huvudverk