Education, study and knowledge

Zipfa likums: kuriozs sociālais un matemātiskais fenomens

Mēs katru dienu lietojam tūkstošiem vārdu ar visdažādākajām nozīmēm un piederam pie ļoti daudzveidīgām gramatiskām kategorijām. Tomēr ne visi no tiem tiek izmantoti vienādā frekvencē. Atkarībā no tā, cik svarīgi tie ir teikuma struktūrai, ir vārdi, kas atkārtojas biežāk nekā citi.

Zipfa likums ir postulāts, kurā ņemta vērā šī parādība un nosaka vārda izmantošanas iespējamību, pamatojoties uz tā pozīciju visu valodā izmantoto vārdu rangā. Tālāk mēs sīkāk aplūkosim šo likumu.

  • Saistītais raksts: "12 valodas veidi (un to raksturojums)"

Zipfa likums

Džordžs Kingslijs Zipfs (1902–1950) bija amerikāņu valodnieks, dzimis Freeportā, Ilinoisas štatā, un salīdzinošās filoloģijas pētījumos saskāries ar kuriozu parādību. Savā darbā, kurā viņš veica statistikas analīzi, viņš to atklāja šķita, ka visbiežāk lietotajiem vārdiem ir izskata paraugs, tas ir likums, kas saņem viņa uzvārdu.

Saskaņā ar Zipf likumu lielākajā daļā gadījumu, ja ne vienmēr, vārdi, kas tiek izmantoti rakstiskā tekstā vai mutvārdu sarunā, sekos šādam paraugam

instagram story viewer
: visbiežāk lietotais vārds, kas ieņemtu pirmo pozīciju reitingā, tiktu izmantots divreiz biežāk nekā otrais visbiežāk izmantotais, trīs reizes vairāk nekā trešais, četras reizes vairāk nekā ceturtais utt secīgi.

Matemātiskā izteiksmē šis likums būtu:

Pn ≈ 1⁄na

Kur 'Pn' ir vārda biežums secībā 'n' un eksponents 'a' ir aptuveni 1.

Jāsaka tā Džordžs Zifs nebija vienīgais, kurš novēroja šo likumsakarību biežāk lietoto vārdu biežumā no daudzām dabiskām un mākslīgām valodām. Faktiski ir zināms, ka bija arī citi, piemēram, steganogrāfs Žans Batists Estupa un fiziķis Fēlikss Auerbahs.

Zipfs pētīja šo parādību ar tekstiem angļu valodā, un, acīmredzot, tā ir taisnība. Ja mēs ņemam sākotnējo versiju Čārlza Darvina sugu izcelsme (1859) mēs redzam, ka visbiežāk lietotais vārds pirmajā nodaļā ir "the", ar izskatu apmēram 1050, kamēr otrais ir "un", parādās apmēram 400 reizes, bet trešais ir "līdz", parādās apmēram 300. Kaut arī ne gluži, jūs varat redzēt, ka otrais vārds parādās uz pusi vairāk reižu nekā pirmais un trešais par vienu trešdaļu.

Tas pats notiek spāņu valodā. Ja mēs ņemam šo piemēru kā piemēru, mēs varam redzēt, ka vārds "of" tiek lietots 85 reizes, tas ir visbiežāk lietotais, savukārt vārdu "la", kas ir otrs visbiežāk lietotais, var saskaitīt līdz 57 reizes.

Redzot, ka šī parādība notiek citās valodās, ir interesanti domāt par to, kā cilvēka smadzenes apstrādā valodu. Lai gan ir daudz kultūras parādību, kas mēra daudzu vārdu lietojumu un nozīmi, attiecīgā valoda ir a kultūras faktors pats par sevi, šķiet, ka veids, kādā mēs lietojam visbiežāk lietotos vārdus, ir neatkarīgs kultūru.

  • Jūs varētu interesēt: "Kas ir kultūras psiholoģija?"

Funkciju vārdu biežums

Apskatīsim šādus desmit vārdus: ‘kas’, ‘no’, ‘nav’, ‘uz’, ‘the’, ‘the’, ‘is’, ‘and’, ‘in’ un ‘what’. kas viņiem visiem ir kopīgs? Kas paši par sevi ir bezjēdzīgi vārdi, bet ironiski ir 10 visbiežāk lietotie vārdi spāņu valodā.

Sakot, ka viņiem nav nozīmes, mēs domājam, ka, ja tiek teikts teikums, kurā nav lietvārda, īpašības vārda, darbības vārda vai darbības vārda, teikumam nav jēgas. Piemēram:

... un... ... vienā... no... no... ... līdz... no... ...

No otras puses, ja punktus aizstājam ar vārdiem ar nozīmi, mums var būt šāda frāze:

Migelam un Anai mājās pie gultas ir brūns galds.

Šie bieži lietotie vārdi ir zināmie funkciju vārdi un Viņi ir atbildīgi par teikuma gramatiskās struktūras piešķiršanu. Tie ir ne tikai 10, ko mēs esam redzējuši, patiesībā to ir desmitiem, un visi no tiem ir starp simts visbiežāk lietotajiem vārdiem spāņu valodā.

Lai gan viņiem pašiem nav jēgas, nav iespējams izlaist nevienā teikumā, kuru vēlaties saprast. Ir nepieciešams, lai cilvēki, lai efektīvi nosūtītu ziņojumu, mēs izmantojam vārdus, kas veido teikuma struktūru. Šī iemesla dēļ tie ir, interesanti, visbiežāk izmantoti.

Izmeklēšana

Neskatoties uz to, ko Džordžs Zifs novēroja salīdzinošās filozofijas pētījumos, vēl salīdzinoši nesen nebija iespējams empīriski pievērsties likuma postulātiem. Nevis tāpēc, ka materiāli nebija iespējams analizēt visas sarunas vai tekstus angļu valodā vai kādā citā valodā, bet gan grūto uzdevumu un lielo pūļu dēļ.

Par laimi, un pateicoties mūsdienu skaitļošanas un programmatūras esamībai, tā ir bijis Ir iespējams izpētīt, vai šis likums tika dots tā, kā Zipf to ierosināja sākumā, vai arī tādi bija variācijas.

Viens no gadījumiem ir Matemātisko pētījumu centra (CRM, Katalonijas Centrā de Recerca Matemàtica) veiktie pētījumi, kas saistīti ar Barselonas autonomo universitāti. Pētnieki Álvaro Corral, Isabel Moreno García un Francesc Font Font Clos veica visaptverošu analīzi mērogā, kurā viņi analizēja tūkstošiem digitalizētu tekstu angļu valodā, lai redzētu, cik patiess ir Zipfa likums.

Viņa darbs, kurā tika analizēts plašs aptuveni 30 000 sējumu korpuss, ļāva viņam iegūt likumu, kas būtu līdzvērtīgs Zipf likumam, kurā bija redzams, ka visbiežāk lietotais vārds ir divreiz vairāk lietots nekā otrais utt.

Zipf likums citos kontekstos

Lai gan sākotnēji Zipfa likums tika izmantots, lai izskaidrotu katrā valodā lietoto vārdu biežumu, salīdzinot tā izskatu diapazonu ar reālo biežumu tekstos un sarunās, tas ir arī ekstrapolēts citiem situācijās.

Diezgan pārsteidzošs gadījums ir cilvēku skaits, kas dzīvo ASV galvaspilsētās. Saskaņā ar Zipfa likumu Amerikas apdzīvotākajam kapitālam bija divas reizes lielāks nekā otrajam apdzīvotajam un trīs reizes lielāks nekā trešajam apdzīvotajam.

Ja paskatās uz 2010. gada tautas skaitīšanu, tas piekrīt. Ņujorkā kopā bija 8 175 133 cilvēki, un nākamā apdzīvotākā galvaspilsēta bija Losandželosa 3 792 621 un nākamās reitinga galvaspilsētas, Čikāga, Hjūstona un Filadelfija ar 2 695 598, 2 100 263 un 1 526 006, attiecīgi

To var redzēt arī attiecībā uz visvairāk apdzīvotajām Spānijas pilsētām, lai gan Zipf likums nav piemērojams. Tā ir pilnībā atbilstoša, taču lielākā vai mazākā mērā atbilst katras pilsētas rangam ranga. Madridē, kurā dzīvo 3 266 126 iedzīvotāji, ir divas reizes vairāk nekā Barselonā ar 1636 762 iedzīvotājiem, savukārt Valensijā ir aptuveni trešdaļa ar 800 000 iedzīvotāju.

Vēl viens novērojams Zipf likuma gadījums ir ar tīmekļa lapām. Kibertelpa ir ļoti plaša, un tajā ir izveidoti gandrīz 15 miljardi tīmekļa lapu. Ņemot vērā to, ka pasaulē ir aptuveni 6800 miljoni cilvēku, teorētiski katram no viņiem katru dienu būtu divas apmeklējamas tīmekļa lapas, kas tā nav.

Desmit visvairāk apmeklētās lapas pašlaik ir: Google (60,49 miljoni apmeklējumu mēnesī), Youtube (24,31 miljoni), Facebook (19,98 miljoni), Baidu (9,77 miljoni), Wikipedia (4,69 miljoni), Twitter (3,92 miljoni), Yahoo (3,74 miljoni), Pornhub (3,36 miljoni), Instagram (3,21 miljoni) un Xvideos (3, 19) miljoniem). Aplūkojot šos skaitļus, jūs varat redzēt, ka Google ir divreiz vairāk apmeklēts nekā YouTube, trīs reizes vairāk nekā Facebook, vairāk nekā četras reizes vairāk nekā Baidu ...

Bibliogrāfiskās atsauces:

  • Font-Clos, F., Boleda, G. un Corral, Á. (2013) Mērogošanas likums, kas pārsniedz Zipfa likumu un tā saistību ar Heap likumu. Jaunais fizikas žurnāls, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. TO. (2001). Aiz Zipf - Mandelbrota likums kvantitatīvajā valodniecībā. Physica A: Statistiskā mehānika un tās pielietojumi 300: 567-578.
10 klimata pārmaiņu cēloņi

10 klimata pārmaiņu cēloņi

Saskaņā ar Spānijas ekoloģiskās pārejas un demogrāfisko izaicinājumu ministrijas (MITECO) teikto,...

Lasīt vairāk

7 stāstu veidi (raksturojums, piemēri un kam tie domāti)

7 stāstu veidi (raksturojums, piemēri un kam tie domāti)

Ja mēs iedomājamies vārdu “stāsts” kā stāstījuma sinonīmu, abus terminus varētu definēt kā stāsta...

Lasīt vairāk

Vai ir karma? 12 Karmas likumi

Vai ir karma? 12 Karmas likumi

Ideja, ka cilvēka darbības (īpaši tās, kas saistītas ar ētiku un morāli), noved pie indivīda pier...

Lasīt vairāk

instagram viewer