Education, study and knowledge

Zipfin laki: utelias sosiaalinen ja matemaattinen ilmiö

Käytämme päivittäin tuhansia sanoja, joilla on kaikenlaisia ​​merkityksiä ja jotka kuuluvat hyvin vaihteleviin kielioppiluokkiin. Kaikkia niitä ei kuitenkaan käytetä samalla taajuudella. Riippuen siitä, kuinka tärkeitä ne ovat lauseen rakenteelle, on sanoja, jotka ovat toistuvampia kuin toiset.

Zipfin laki on postulaatti, joka ottaa tämän ilmiön huomioon ja määrittää, kuinka todennäköisesti sanaa käytetään, sen sijainnin perusteella kaikkien kielessä käytettyjen sanojen rankingissa. Seuraavaksi käsittelemme tarkemmin tätä lakia.

  • Aiheeseen liittyvä artikkeli: "12 kielityyppiä (ja niiden ominaisuudet)"

Zipfin laki

George Kingsley Zipf (1902–1950) oli yhdysvaltalainen kielitieteilijä, syntynyt Freeportissa Illinoisissa, ja hän kohtasi utelias ilmiön vertailevaa filologiaa koskevissa opinnoissaan. Työssään, jossa hän suoritti tilastollisia analyyseja, hän huomasi sen eniten käytetyt sanat näyttivät olevan ulkonäöltään, tästä syntyy laki, joka saa hänen sukunimensä.

Zipfin lain mukaan suurin osa ajasta, ellei aina,

kirjoitetussa tekstissä tai suullisessa keskustelussa käytetyt sanat noudattavat seuraavaa mallia: eniten käytetty sana, joka sijoittuu sijoituksen ensimmäiseen sijaan, käytettäisiin kaksi kertaa niin usein kuin toiseksi eniten käytetty, kolme kertaa niin suuri kuin kolmas, neljä kertaa niin suuri kuin neljäs ja niin edelleen peräkkäin.

Matemaattisesti tämä laki olisi:

Pn ≈ 1⁄na

Jossa 'Pn' on sanan taajuus järjestyksessä 'n' ja eksponentti 'a' on noin 1.

On sanottava, että George Zipf ei ollut ainoa, joka havaitsi tämän säännöllisyyden useimmin käytettyjen sanojen taajuudessa monilla kielillä, sekä luonnollisilla että keinotekoisilla kielillä. Itse asiassa tiedetään, että oli muitakin, kuten steganografi Jean-Baptiste Estoup ja fyysikko Felix Auerbach.

Zipf tutki tätä ilmiötä englanninkielisillä teksteillä, ja se on ilmeisesti totta. Jos otamme alkuperäisen version Charles Darwinin lajien alkuperä (1859) näemme, että eniten käytetty sana ensimmäisessä luvussa on "the", jonka ulkonäkö on noin 1050, kun taas toinen on "ja", esiintyy noin 400 kertaa, ja kolmas on "to", esiintyy noin 300. Vaikka ei aivan, voit nähdä, että toinen sana esiintyy puolet niin monta kertaa kuin ensimmäinen ja kolmas kolmasosa.

Sama tapahtuu espanjaksi. Jos otamme tämän saman artikkelin esimerkkinä, voimme nähdä, että sanaa "of" käytetään 85 kertaa eniten käytetty, kun taas sana "la", joka on toiseksi eniten käytetty, voidaan laskea 57: een ajat.

Nähdessään, että tämä ilmiö esiintyy muilla kielillä, on mielenkiintoista miettiä, miten ihmisen aivot käsittelevät kieltä. Vaikka on olemassa monia kulttuuri-ilmiöitä, jotka mittaavat monien sanojen käyttöä ja merkitystä, kyseinen kieli on a kulttuurinen tekijä itsessään, tapa, jolla käytämme eniten käytettyjä sanoja, näyttää olevan itsenäinen tekijä kulttuuri.

  • Saatat olla kiinnostunut: "Mikä on kulttuuripsykologia?"

Toimintasanojen taajuus

Katsotaanpa seuraavia kymmenen sanaa: 'mitä', 'mistä', 'ei', 'mihin', 'the', 'the', 'on', 'ja', 'sisään' ja 'mitä'. mitä heillä kaikilla on yhteistä? Jotka ovat itsessään merkityksettömiä sanoja, mutta ironisesti ovat kymmenen eniten käytettyä sanaa espanjan kielellä.

Sanomalla, että niillä ei ole merkitystä, tarkoitamme, että jos lause sanotaan, jossa ei ole substantiivia, adjektiivia, verbiä tai adverbiä, lause on merkityksetön. Esimerkiksi:

… Ja ………… yksi………………

Toisaalta, jos korvataan pisteet sanoilla, joilla on merkitys, meillä voi olla seuraavanlainen lause.

Miguelilla ja Analla on ruskea pöytä sängynsä vieressä kotona.

Nämä usein käytetyt sanat ovat tunnettuja funktion sanoja ja He vastaavat lausunnon kieliopillisen rakenteen antamisesta. Ne eivät ole vain kymmenen, jotka olemme nähneet, itse asiassa niitä on kymmeniä, ja ne kaikki kuuluvat sata eniten käytettyyn espanjankieliseen sanaan.

Vaikka ne ovat itsekseen merkityksettömiä, on mahdotonta jättää pois mistään lauseesta, jonka haluat ymmärtää. On välttämätöntä, että ihmiset turvautuvat sanojen tehokkaaseen lähettämiseen sanoihin, jotka muodostavat lauseen rakenteen. Tästä syystä heitä on utelias eniten käytetty.

Tutkinta

Huolimatta siitä, mitä George Zipf havaitsi vertailevan filosofian tutkimuksissaan, vasta suhteellisen äskettäin ei ollut mahdollista empiirisesti käsitellä lain postulaatteja. Ei siksi, että kaikkien keskustelujen tai tekstien analysointi englanniksi tai millä tahansa muulla kielellä oli aineellisesti mahdotonta, vaan pelottavan tehtävän ja siihen liittyvän suuren työn takia.

Onneksi ja nykyaikaisen tietojenkäsittelyn ja ohjelmistojen ansiosta se on ollut On mahdollista tutkia, annettiinko tämä laki tavalla, jonka Zipf ehdotti alussa, vai oliko sellaisia muunnelmat.

Yksi tapaus on matemaattisen tutkimuksen keskuksen (CRM, in Catalan Centre de Recerca Matemàtica) tekemä tutkimus, joka liittyy Barcelonan autonomiseen yliopistoon. Tutkijat Álvaro Corral, Isabel Moreno García ja Francesc Font Clos tekivät kattavan analyysin mittakaavassa, jossa he analysoivat tuhansia digitoituja tekstejä englanniksi saadakseen selville Zipfin lain totta.

Hänen työnsä, jossa analysoitiin laaja noin 30000 nidoksen kokoelma, antoi hänelle mahdollisuuden saada Zipfin vastaava laki, jossa havaittiin, että eniten käytetty sana oli kaksinkertainen kuin toinen, ja niin edelleen.

Zipf-laki muissa yhteyksissä

Vaikka Zipfin lakia käytettiin alun perin selittämään kullakin kielellä käytettyjen sanojen taajuus, Verrattaessa sen ulkonäköä sen todelliseen taajuuteen teksteissä ja keskusteluissa, se on myös ekstrapoloitu muihin tilanteissa.

Melko silmiinpistävä tapaus on Yhdysvaltojen pääkaupungeissa asuvien ihmisten lukumäärä. Zipfin lain mukaan Amerikan väkirikkaimmalla pääomalla oli kaksinkertainen toiseksi väkiluku ja kolme kertaa kolmanneksi väkirikkain.

Jos katsot vuoden 2010 väestölaskentaa, se on samaa mieltä. New Yorkissa asui yhteensä 8175133 ihmistä, ja seuraavaksi väkirikkain pääkaupunki oli Los Angeles 3 792 621 ja seuraavat pääkaupungit rankingissa, Chicago, Houston ja Philadelphia 2695 598, 2100 263 ja 1526 006 kanssa, vastaavasti

Tämä näkyy myös Espanjan väkirikkaimmissa kaupungeissa, vaikka Zipfin lakia ei sovelleta. Se on täysin vaatimusten mukainen, mutta suuremmassa tai pienemmässä määrin se vastaa kunkin kaupungin sijoittumista sijoitus. Madridilla, jonka väkiluku on 3 266 126, on kaksinkertainen Barcelona, ​​1636 762, kun taas Valenciassa on noin kolmasosa 800 000 asukkaalla.

Toinen havaittavissa oleva tapa Zipfin laista on verkkosivut. Kyberavaruus on erittäin laaja, ja siihen on luotu lähes 15 miljardia verkkosivua. Ottaen huomioon, että maailmassa on noin 6800 miljoonaa ihmistä, teoriassa jokaiselle heistä olisi päivittäin kaksi verkkosivua, joita ei ole.

Kymmenen eniten vierailtua sivua tällä hetkellä ovat: Google (60,49 miljoonaa kuukausikäyntiä), Youtube (24,31 miljoonaa), Facebook (19,98 miljoonaa), Baidu (9,77 miljoonaa), Wikipedia (4,69 miljoonaa), Twitter (3,92 miljoonaa), Yahoo (3,74 miljoonaa), Pornhub (3,36 miljoonaa), Instagram (3,21 miljoonaa) ja Xvideos (3, 19) miljoonia). Näitä numeroita tarkasteltaessa näet, että Google on käynyt kaksi kertaa enemmän kuin YouTube, kolme kertaa enemmän kuin Facebook, yli neljä kertaa enemmän kuin Baidu ...

Bibliografiset viitteet:

  • Font-Clos, F., Boleda, G. ja Corral, Á. (2013) Skaalauslaki Zipfin lain ja sen suhteen Heapsin lakiin. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. TO. (2001). Beyond the Zipf - Mandelbrot-laki kvantitatiivisessa kielitieteessä. Physica A: Tilastomekaniikka ja sen sovellukset 300: 567-578.
Katalonian 15 parasta tyypillistä ruokaa (kuvien kanssa)

Katalonian 15 parasta tyypillistä ruokaa (kuvien kanssa)

Kuten useimmilla Espanjan alueilla, Katalonialla on oma historia ja erittäin merkittävät perintee...

Lue lisää

Andalusian 15 parasta tyypillistä ruokaa (kuvien kanssa)

Andalusian 15 parasta tyypillistä ruokaa (kuvien kanssa)

Andalusia on yksi Euroopan paikoista, jolla on suurimmat kulinaariset perinteet, koska sen gastro...

Lue lisää

Galician 8 kuuluisinta perinnettä ja tapaa

Galician 8 kuuluisinta perinnettä ja tapaa

Espanjassa, tarkemmin sanottuna Iberian niemimaan luoteisosassa, on yhteisö täynnä perinteet ja t...

Lue lisää

instagram viewer