Education, study and knowledge

Zipfs lov: et nysgjerrig sosialt og matematisk fenomen

Vi bruker tusenvis av ord hver dag, med betydninger av alle slag og tilhører veldig varierte grammatiske kategorier. Imidlertid er ikke alle av dem brukt med samme frekvens. Avhengig av hvor viktige de er for setningens struktur, er det ord som er mer tilbakevendende enn andre.

Zipfs lov er et postulat som tar hensyn til dette fenomenet og spesifiserer hvor sannsynlig et ord skal brukes basert på dets posisjon i rangeringen av alle ord som brukes på et språk. Deretter vil vi gå nærmere inn på denne loven.

  • Relatert artikkel: "De 12 typene språk (og deres egenskaper)"

Zipfs lov

George Kingsley Zipf (1902–1950) var en amerikansk språkforsker, født i Freeport, Illinois, som møtte et nysgjerrig fenomen i sine studier av komparativ filologi. I sitt arbeid, der han gjennomførte statistiske analyser, fant han det de mest brukte ordene så ut til å ha et mønster av utseende, dette er fødselen av loven som mottar etternavnet hans.

I følge Zipfs lov, i de aller fleste tidene, om ikke alltid, ordene som brukes i en skriftlig tekst eller i en muntlig samtale vil følge følgende mønster

instagram story viewer
: det mest brukte ordet, som ville innta den første posisjonen i rangeringen, ville være dobbelt så ofte brukt som den nest mest brukte, tre ganger så mange ganger som den tredje, fire ganger så mange ganger som den fjerde, og så videre suksessivt.

I matematiske termer vil denne loven være:

Pn ≈ 1⁄na

Hvor 'Pn' er frekvensen av et ord i rekkefølgen 'n' og eksponenten 'a' er omtrent 1.

Det skal sies det George Zipf var ikke den eneste som observerte denne regelmessigheten i hyppigheten av de mest brukte ordene av mange språk, både naturlige og kunstige. Det er faktisk kjent at andre har vært, som steganografen Jean-Baptiste Estoup og fysikeren Felix Auerbach.

Zipf studerte dette fenomenet med tekster på engelsk, og tilsynelatende er det sant. Hvis vi tar den originale versjonen av The Origin of Species av Charles Darwin (1859) ser vi at ordet som er mest brukt i første kapittel er "the", med et utseende på omtrent 1.050, mens det andre er "og", vises omtrent 400 ganger, og det tredje er "til", vises ca 300. Selv om det ikke er akkurat, kan du se at det andre ordet vises halvparten så mange ganger som det første og det tredje.

Det samme skjer på spansk. Hvis vi tar den samme artikkelen som et eksempel, kan vi se at ordet "av" brukes 85 ganger, blir det mest brukte, mens ordet "la", som er det nest mest brukte, kan telles opp til 57 ganger.

Å se at dette fenomenet forekommer på andre språk, blir det interessant å tenke på hvordan den menneskelige hjerne behandler språk. Selv om det er mange kulturfenomener som målte bruken og betydningen av mange ord, er det aktuelle språket et kulturell faktor i seg selv, synes måten vi bruker de mest brukte ordene på å være en faktor uavhengig av kultur.

  • Du kan være interessert: "Hva er kulturpsykologi?"

Frekvens av funksjonsord

La oss se på følgende ti ord: 'hva', 'fra', 'ikke', 'til', 'den', 'den', 'er', 'og', 'i' og 'hva'. hva har de alle til felles? Som er meningsløse ord alene, men ironisk er de 10 mest brukte ordene på det spanske språket.

Ved å si at de mangler mening, mener vi at setningen er meningsløs, hvis det ikke sies en setning der det ikke er substantiv, adjektiv, verb eller adverb. For eksempel:

… Og …… i …… en… av …… til… av ……

På den annen side, hvis vi erstatter prikkene med ord med betydning, kan vi ha en setning som følgende.

Miguel og Ana har et brunt bord ved siden av sengen hjemme.

Disse ofte brukte ordene er det som er kjente funksjonsord, og De har ansvaret for å gi grammatisk struktur til setningen. De er ikke bare de 10 vi har sett, det er faktisk dusinvis av dem, og alle av dem er blant de hundre mest brukte ordene på spansk.

Selv om de er meningsløse alene, er umulige å utelate i noen setning du vil være fornuftig med. Det er nødvendig at mennesker, for å overføre en melding effektivt, ty til ord som utgjør setningens struktur. Av denne grunn er de, merkelig nok, de mest brukte.

Etterforskning

Til tross for det George Zipf observerte i sine studier av komparativ filosofi, inntil relativt nylig hadde det ikke vært mulig å empirisk adressere lovens postulater. Ikke fordi det var materielt umulig å analysere alle samtaler eller tekster på engelsk eller noe annet språk, men på grunn av den skremmende oppgaven og den store innsatsen.

Heldigvis, og takket være eksistensen av moderne databehandling og programvare, har det vært Det er mulig å undersøke om denne loven ble gitt på den måten Zipf foreslo den i begynnelsen, eller om det var variasjoner.

En sak er forskningen utført av Center for Mathematical Research (CRM, i Catalan Center de Recerca Matemàtica) knyttet til det autonome universitetet i Barcelona. Forskerne Álvaro Corral, Isabel Moreno García og Francesc Font Clos gjennomførte en omfattende analyse skala der de analyserte tusenvis av digitaliserte tekster på engelsk for å se hvor sann Zipfs lov var.

Hans arbeid, hvor et omfattende korpus på rundt 30.000 bind ble analysert, tillot ham å oppnå en lov som tilsvarer Zipf, der det ble sett at det mest brukte ordet var dobbelt så brukt som det andre, og så videre.

Zipf-loven i andre sammenhenger

Selv om Zipfs lov opprinnelig ble brukt for å forklare hyppigheten av ord som brukes på hvert språk, Sammenligning av sitt utseende med den virkelige frekvensen i tekster og samtaler, har det også blitt ekstrapolert til andre situasjoner.

En ganske slående sak er antall mennesker som bor i amerikanske hovedsteder. I følge Zipfs lov hadde Amerikas mest folkerike hovedstad dobbelt så stor som den nest mest folkerike, og tre ganger størrelsen på den tredje mest folkerike.

Hvis du ser på folketellingen i 2010, er dette enig. New York hadde en total befolkning på 8,175,133 mennesker, med den nest mest folkerike hovedstaden Los Angeles med 3.792.621 og følgende hovedsteder i rangeringen, Chicago, Houston og Philadelphia med 2,695,598, 2,100,263 og 1,526,006, henholdsvis

Dette kan også sees i tilfelle de mest befolkede byene i Spania, selv om Zipfs lov ikke gjelder. Den er fullstendig kompatibel, men samsvarer i større eller mindre grad med rangeringen hver by har i landet rangering. Madrid, med en befolkning på 3 266 126, har dobbelt så mange som Barcelona, ​​med 1 636 762, mens Valencia har omtrent en tredjedel med 800 000 innbyggere.

Et annet observerbart tilfelle av Zipfs lov er med websider. Cyberspace er veldig omfattende, med nesten 15 milliarder nettsider opprettet. Med tanke på at det i verden er rundt 6800 millioner mennesker, vil det i teorien for hver av dem være to nettsider å besøke hver dag, noe som ikke er tilfelle.

De ti mest besøkte sidene for tiden er: Google (60,49 millioner månedlige besøk), Youtube (24,31 millioner), Facebook (19,98 millioner), Baidu (9,77 millioner), Wikipedia (4,69 millioner), Twitter (3,92 millioner), Yahoo (3,74 millioner), Pornhub (3,36 millioner), Instagram (3,21 millioner) og Xvideos (3, 19 millioner). Ser du på disse tallene, kan du se at Google er dobbelt så besøkt som YouTube, tre ganger så mange som Facebook, mer enn fire ganger så mye som Baidu ...

Bibliografiske referanser:

  • Font-Clos, F., Boleda, G. og Corral, Á. (2013) En skaleringslov utover Zipfs lov og dens forhold til Heaps 'lov. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. TIL. (2001). Beyond the Zipf - Mandelbrot-lov i kvantitativ lingvistikk. Physica A: Statistical Mechanics and its Applications 300: 567-578.

21 filmer for å reflektere over livet og kjærligheten

Kino kan også være en kilde til inspirasjon når man reflekterer over personlige relasjoner. Kunst...

Les mer

De 5 viktigste antropologiske skolene: kjennetegn og forslag

Antropologi, som nesten alle vitenskapelige disipliner, har ikke en eneste dominerende skole, men...

Les mer

Psykologi og Westworld: bevissthet, identitet og fortellinger

Westworld-serien er en av de største hitene nylig på TV. Denne kombinasjonen av science fiction o...

Les mer

instagram viewer