La loi de Zipf: un curieux phénomène social et mathématique
Nous utilisons chaque jour des milliers de mots, aux sens de toutes sortes et appartenant à des catégories grammaticales très variées. Cependant, tous ne sont pas utilisés avec la même fréquence. Selon leur importance dans la structure de la phrase, certains mots sont plus récurrents que d'autres.
La loi de Zipf est un postulat qui prend en compte ce phénomène et spécifie la probabilité qu'un mot soit utilisé en fonction de sa position dans le classement de tous les mots utilisés dans une langue. Ensuite, nous allons entrer dans les détails de cette loi.
- Article associé: "Les 12 types de langage (et leurs caractéristiques)"
La loi de Zipf
George Kingsley Zipf (1902-1950) était un linguiste américain, né à Freeport, Illinois, qui a rencontré un phénomène curieux dans ses études de philologie comparée. Dans son travail, dans lequel il effectuait des analyses statistiques, il a constaté que les mots les plus utilisés semblaient avoir un modèle d'apparence, ceci étant la naissance de la loi qui reçoit son nom de famille.
Selon la loi de Zipf, dans la grande majorité du temps, sinon toujours, les mots qui sont utilisés dans un texte écrit ou dans une conversation orale suivront le modèle suivant: le mot le plus utilisé, qui occuperait la première position dans le classement, serait deux fois plus souvent utilisé que le deuxième le plus utilisé, trois fois plus que le troisième, quatre fois plus que le quatrième, et ainsi de suite successivement.
En termes mathématiques, cette loi serait :
Pn 1⁄na
Où 'Pn' est la fréquence d'un mot dans l'ordre 'n' et l'exposant 'a' est approximativement 1.
Il faut dire que George Zipf n'est pas le seul à observer cette régularité dans la fréquence des mots les plus utilisés de nombreuses langues, à la fois naturelles et artificielles. En fait, on sait qu'il y en a eu d'autres, comme le stéganographe Jean-Baptiste Estoup et le physicien Félix Auerbach.
Zipf a étudié ce phénomène avec des textes en anglais et, apparemment, c'est vrai. Si nous prenons la version originale de L'origine des espèces de Charles Darwin (1859) on voit que le mot le plus utilisé dans le premier chapitre est "le", avec une apparence d'environ 1 050, tandis que le second est « et », apparaissant environ 400 fois, et le troisième est « à », apparaissant environ 300. Bien que pas exactement, vous pouvez voir que le deuxième mot apparaît deux fois moins que le premier et le troisième un tiers.
La même chose se passe en espagnol. Si nous prenons ce même article comme exemple, nous pouvons voir que le mot "de" est utilisé 85 fois, étant le plus utilisé, tandis que le mot "la", qui est le deuxième le plus utilisé, peut être compté jusqu'à 57 fois.
Voyant que ce phénomène se produit dans d'autres langues, il devient intéressant de réfléchir à la façon dont le cerveau humain traite le langage. Bien qu'il existe de nombreux phénomènes culturels qui mesurent l'usage et le sens de nombreux mots, la langue en question étant un facteur culturel en soi, la manière dont nous utilisons les mots les plus utilisés semble être un facteur indépendant de la culture.
- Cela peut vous intéresser: "Qu'est-ce que la psychologie culturelle ?"
Fréquence des mots de fonction
Examinons les dix mots suivants: "quoi", "de", "pas", "à", "le", "le", "est", "et", "dans" et "quoi". qu'est-ce qu'ils ont tous en commun? Qui sont des mots sans signification en eux-mêmes mais ironiquement sont les 10 mots les plus utilisés en espagnol.
En disant qu'ils n'ont pas de sens, nous voulons dire que, si une phrase est dite dans laquelle il n'y a pas de nom, d'adjectif, de verbe ou d'adverbe, la phrase n'a pas de sens. Par exemple:
… Et…… dans…… un… de…… à… de……
D'un autre côté, si nous remplaçons les points par des mots ayant un sens, nous pouvons avoir une phrase comme la suivante.
Miguel et Ana ont une table marron à côté de leur lit à la maison.
Ces mots fréquemment utilisés sont des mots de fonction connus, et Ils sont chargés de donner une structure grammaticale à la phrase. Ce ne sont pas seulement les 10 que nous avons vus, en fait il y en a des dizaines, et tous font partie des cent mots les plus utilisés en espagnol.
Bien qu'ils n'aient aucun sens en eux-mêmes, sont impossibles à omettre dans n'importe quelle phrase que vous voulez donner un sens. Il est nécessaire que les êtres humains, pour transmettre efficacement un message, recourent à des mots qui constituent la structure de la phrase. Pour cette raison, ils sont, curieusement, les plus utilisés.
Enquête
Malgré ce que George Zipf a observé dans ses études de philosophie comparée, jusqu'à relativement récemment, il n'avait pas été possible d'aborder empiriquement les postulats de la loi. Non pas parce qu'il était matériellement impossible d'analyser toutes les conversations ou textes en anglais ou dans toute autre langue, mais à cause de la tâche ardue et du grand effort que cela impliquait.
Heureusement, et grâce à l'existence de l'informatique et des logiciels modernes, il a été Il est possible de rechercher si cette loi a été donnée de la manière dont Zipf l'a proposée au départ ou s'il y a eu variantes.
Un cas est la recherche menée par le Centre de recherche mathématique (CRM, en Catalan Centre de Recerca Matemàtica) lié à l'Université autonome de Barcelone. Les chercheurs Álvaro Corral, Isabel Moreno García et Francesc Font Clos ont effectué une analyse complète échelle à laquelle ils ont analysé des milliers de textes numérisés en anglais pour voir à quel point la loi de Zipf était vraie.
Son travail, dans lequel un vaste corpus d'environ 30 000 volumes a été analysé, lui a permis d'obtenir une loi équivalente à celle de Zipf, dans lequel on a vu que le mot le plus utilisé était deux fois plus utilisé que le second, et ainsi de suite.
La loi Zipf dans d'autres contextes
Bien que la loi de Zipf ait été utilisée à l'origine pour expliquer la fréquence des mots utilisés dans chaque langue, comparant sa gamme d'apparition avec sa fréquence réelle dans les textes et les conversations, il a également été extrapolé à d'autres situations.
Un cas assez frappant est le nombre de personnes vivant dans les capitales américaines. Selon la loi de Zipf, la capitale la plus peuplée des États-Unis avait deux fois la taille de la deuxième plus peuplée et trois fois la taille de la troisième la plus peuplée.
Si vous regardez le recensement de la population de 2010, cela concorde. New York avait une population totale de 8 175 133 habitants, la deuxième capitale la plus peuplée étant Los Angeles, avec 3 792 621 et les capitales suivantes dans le classement, Chicago, Houston et Philadelphie avec 2 695 598, 2 100 263 et 1 526 006, respectivement
Cela se voit également dans le cas des villes les plus peuplées d'Espagne, bien que la loi Zipf ne s'applique pas. Elle est parfaitement conforme, mais elle correspond, dans une plus ou moins grande mesure, au rang qu'occupe chaque ville dans le classement. Madrid, avec une population de 3 266 126 habitants, compte le double de Barcelone, avec 1 636 762 habitants, tandis que Valence en compte environ un tiers avec 800 000 habitants.
Un autre cas observable de la loi de Zipf concerne les pages Web. Le cyberespace est très étendu, avec près de 15 milliards de pages Web créées. Compte tenu du fait qu'il y a environ 6 800 millions de personnes dans le monde, il y aurait en théorie pour chacune d'elles deux pages Web à visiter chaque jour, ce qui n'est pas le cas.
Les dix pages les plus visitées actuellement sont: Google (60,49 millions de visites mensuelles), Youtube (24,31 millions), Facebook (19,98 millions), Baidu (9,77 millions), Wikipedia (4,69 millions), Twitter (3,92 millions), Yahoo (3,74 millions), Pornhub (3,36 millions), Instagram (3,21 millions) et Xvideos (3, 19 des millions). En regardant ces chiffres, vous pouvez voir que Google est deux fois plus visité que YouTube, trois fois plus que Facebook, plus de quatre fois plus que Baidu...
Références bibliographiques:
- Font-Clos, F., Boleda, G. et Corral, (2013) Une loi d'échelle au-delà de la loi de Zipf et sa relation avec la loi de Heaps. Nouveau Journal de Physique, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, M. À. (2001). Au-delà de la loi Zipf – Mandelbrot en linguistique quantitative. Physica A: Mécanique statistique et ses applications 300: 567-578.