Ο νόμος του Zipf: ένα περίεργο κοινωνικό και μαθηματικό φαινόμενο
Χρησιμοποιούμε χιλιάδες λέξεις κάθε μέρα, με νοήματα όλων των ειδών και ανήκουν σε πολύ ποικίλες γραμματικές κατηγορίες. Ωστόσο, δεν χρησιμοποιούνται όλα με την ίδια συχνότητα. Ανάλογα με το πόσο σημαντικές είναι για τη δομή της πρότασης, υπάρχουν λέξεις που είναι πιο επαναλαμβανόμενες από άλλες.
Ο νόμος του Zipf είναι ένα αξίωμα που λαμβάνει υπόψη αυτό το φαινόμενο και καθορίζει πόσο πιθανό είναι να χρησιμοποιηθεί μια λέξη με βάση τη θέση της στην κατάταξη όλων των λέξεων που χρησιμοποιούνται σε μια γλώσσα. Στη συνέχεια θα αναφερθούμε σε περισσότερες λεπτομέρειες σχετικά με αυτόν τον νόμο.
- Σχετικό άρθρο: "Οι 12 τύποι γλωσσών (και τα χαρακτηριστικά τους)"
Ο νόμος του Zipf
Ο George Kingsley Zipf (1902–1950) ήταν Αμερικανός γλωσσολόγος, γεννημένος στο Freeport του Ιλλινόις, ο οποίος αντιμετώπισε ένα περίεργο φαινόμενο στις σπουδές του σχετικά με τη συγκριτική φιλολογία. Στο έργο του, στο οποίο διεξήγαγε στατιστικές αναλύσεις, το βρήκε οι πιο χρησιμοποιημένες λέξεις φάνηκαν να έχουν μοτίβο εμφάνισης, αυτό είναι η γέννηση του νόμου που λαμβάνει το επώνυμό του.
Σύμφωνα με το νόμο του Zipf, στη συντριπτική πλειοψηφία του χρόνου, αν όχι πάντα, οι λέξεις που χρησιμοποιούνται σε γραπτό κείμενο ή σε προφορική συνομιλία θα ακολουθήσουν το ακόλουθο μοτίβο: η πιο χρησιμοποιούμενη λέξη, η οποία θα καταλάμβανε την πρώτη θέση στην κατάταξη, θα ήταν διπλάσια από ό, τι συχνά το δεύτερο πιο χρησιμοποιημένο, τρεις φορές περισσότερες φορές το τρίτο, τέσσερις φορές περισσότερες φορές το τέταρτο και ούτω καθεξής διαδοχικώς.
Σε μαθηματικούς όρους, αυτός ο νόμος θα ήταν:
Pn ≈ 1⁄na
Όπου «Pn» είναι η συχνότητα μιας λέξης με τη σειρά «n» και ο εκθέτης «a» είναι περίπου 1.
Πρέπει να ειπωθεί ότι Ο George Zipf δεν ήταν ο μόνος που παρακολούθησε αυτήν την κανονικότητα στη συχνότητα των λέξεων που χρησιμοποιούνται πιο συχνά πολλών γλωσσών, φυσικών και τεχνητών. Στην πραγματικότητα, είναι γνωστό ότι υπήρχαν και άλλοι, όπως ο στιγογράφος Jean-Baptiste Estoup και ο φυσικός Felix Auerbach.
Ο Zipf μελέτησε αυτό το φαινόμενο με κείμενα στα αγγλικά και, προφανώς, είναι αλήθεια. Εάν πάρουμε την αρχική έκδοση του Η προέλευση των ειδών από τον Charles Darwin (1859) βλέπουμε ότι η λέξη που χρησιμοποιείται περισσότερο στο πρώτο κεφάλαιο είναι "το", με εμφάνιση περίπου 1.050, ενώ το δεύτερο είναι "και", εμφανίζεται περίπου 400 φορές, και το τρίτο "to", εμφανίζεται περίπου 300. Αν και δεν είναι ακριβώς, μπορείτε να δείτε ότι η δεύτερη λέξη εμφανίζεται μισή όσες φορές από την πρώτη και την τρίτη τρίτη.
Το ίδιο συμβαίνει και στα Ισπανικά. Εάν πάρουμε αυτό το ίδιο άρθρο ως παράδειγμα, μπορούμε να δούμε ότι η λέξη "of" χρησιμοποιείται 85 φορές, δηλαδή η πιο χρησιμοποιημένη, ενώ η λέξη "la", η οποία είναι η δεύτερη πιο συχνά χρησιμοποιούμενη, μπορεί να μετρηθεί έως και 57 φορές.
Βλέποντας ότι αυτό το φαινόμενο εμφανίζεται σε άλλες γλώσσες, γίνεται ενδιαφέρον να σκεφτούμε πώς ο ανθρώπινος εγκέφαλος επεξεργάζεται τη γλώσσα. Αν και υπάρχουν πολλά πολιτιστικά φαινόμενα που μετρούν τη χρήση και την έννοια πολλών λέξεων, η εν λόγω γλώσσα είναι μια πολιτισμικός παράγοντας από μόνος του, ο τρόπος με τον οποίο χρησιμοποιούμε τις πιο χρησιμοποιούμενες λέξεις φαίνεται να είναι ανεξάρτητος παράγοντας του Πολιτισμός.
- Μπορεί να σας ενδιαφέρει: "Τι είναι η Πολιτιστική Ψυχολογία;"
Συχνότητα λέξεων συνάρτησης
Ας δούμε τις ακόλουθες δέκα λέξεις: "τι", "από", "όχι", "σε", "το", "το", "είναι", "και", "σε" και "τι". τι κοινό έχουν όλοι; Οι λέξεις είναι χωρίς νόημα μόνες τους, αλλά ειρωνικά είναι οι 10 πιο χρησιμοποιούμενες λέξεις στην ισπανική γλώσσα.
Λέγοντας ότι δεν έχουν νόημα, εννοούμε ότι, εάν λέγεται μια πρόταση στην οποία δεν υπάρχει ουσιαστικό, επίθετο, ρήμα ή επίρρημα, η πρόταση δεν έχει νόημα. Για παράδειγμα:
… Και …… σε… ένα… από… έως… από ……
Από την άλλη πλευρά, αν αντικαταστήσουμε τις τελείες με λέξεις με νόημα, μπορούμε να έχουμε μια φράση όπως η ακόλουθη.
Ο Miguel και η Ana έχουν ένα καφέ τραπέζι δίπλα στο κρεβάτι τους στο σπίτι.
Αυτές οι συχνά χρησιμοποιούμενες λέξεις είναι οι γνωστές λέξεις λειτουργίας και Είναι υπεύθυνοι να δώσουν γραμματική δομή στην πρόταση. Δεν είναι μόνο τα 10 που έχουμε δει, στην πραγματικότητα υπάρχουν δεκάδες από αυτά, και όλα αυτά συγκαταλέγονται μεταξύ των εκατό πιο συχνά χρησιμοποιούμενων λέξεων στα ισπανικά.
Αν και δεν έχουν νόημα από μόνα τους, είναι αδύνατο να παραλείψετε σε οποιαδήποτε πρόταση που θέλετε να κατανοήσετε. Είναι απαραίτητο τα ανθρώπινα όντα, προκειμένου να μεταδώσουν ένα μήνυμα αποτελεσματικά, καταφεύγουμε σε λέξεις που αποτελούν τη δομή της πρότασης. Για αυτόν τον λόγο είναι, περιέργως, τα πιο χρησιμοποιημένα.
Ερευνα
Παρά αυτά που ο George Zipf παρατήρησε στις σπουδές του για τη συγκριτική φιλοσοφία, Μέχρι σχετικά πρόσφατα δεν ήταν δυνατό να αντιμετωπιστούν εμπειρικά τα αξιώματα του νόμου. Όχι επειδή ήταν ουσιαστικά αδύνατο να αναλυθούν όλες οι συνομιλίες ή τα κείμενα στα Αγγλικά ή σε οποιαδήποτε άλλη γλώσσα, αλλά λόγω του αποθαρρυντικού έργου και της μεγάλης προσπάθειας.
Ευτυχώς, και χάρη στην ύπαρξη σύγχρονων υπολογιστών και λογισμικού, υπήρξε Είναι δυνατόν να διερευνηθεί εάν αυτός ο νόμος δόθηκε με τον τρόπο που ο Zipf τον πρότεινε στην αρχή ή αν υπήρχε παραλλαγές.
Μία περίπτωση είναι η έρευνα που διεξάγεται από το Κέντρο Μαθηματικής Έρευνας (CRM, στο Catalan Center de Recerca Matemàtica) που συνδέεται με το Αυτόνομο Πανεπιστήμιο της Βαρκελώνης. Οι ερευνητές Álvaro Corral, Isabel Moreno García και Francesc Font Clos πραγματοποίησαν μια ολοκληρωμένη ανάλυση κλίμακα στην οποία ανέλυσαν χιλιάδες ψηφιοποιημένα κείμενα στα Αγγλικά για να δουν πόσο αληθινός ήταν ο νόμος του Zipf.
Το έργο του, στο οποίο αναλύθηκε εκτεταμένο σώμα περίπου 30.000 τόμων, του επέτρεψε να αποκτήσει νόμο ισοδύναμο με αυτόν του Zipf, στην οποία φάνηκε ότι η πιο συχνά χρησιμοποιούμενη λέξη ήταν διπλάσια από τη δεύτερη, και ούτω καθεξής.
Ο νόμος Zipf σε άλλα πλαίσια
Αν και ο νόμος του Zipf χρησιμοποιήθηκε αρχικά για να εξηγήσει τη συχνότητα των λέξεων που χρησιμοποιούνται σε κάθε γλώσσα, Συγκρίνοντας το εύρος εμφάνισής του με την πραγματική συχνότητα σε κείμενα και συνομιλίες, έχει επίσης επεκταθεί σε άλλα καταστάσεις.
Μια μάλλον εντυπωσιακή περίπτωση είναι ο αριθμός των ανθρώπων που ζουν στις πρωτεύουσες των ΗΠΑ. Σύμφωνα με το νόμο του Zipf, η πιο πυκνοκατοικημένη πρωτεύουσα της Αμερικής είχε το διπλάσιο μέγεθος από το δεύτερο πιο πυκνοκατοικημένο και τρεις φορές το μέγεθος του τρίτου πιο πυκνοκατοικημένου
Αν κοιτάξετε την απογραφή πληθυσμού του 2010, αυτό συμφωνεί. Η Νέα Υόρκη είχε συνολικό πληθυσμό 8.175.133 άτομα, με την επόμενη πιο πυκνοκατοικημένη πρωτεύουσα να είναι το Λος Άντζελες, με 3.792.621 και τις ακόλουθες πρωτεύουσες στην κατάταξη, Σικάγο, Χιούστον και Φιλαδέλφεια με 2.695.598, 2.100.263 και 1.526.006, αντίστοιχα
Αυτό μπορεί επίσης να φανεί στην περίπτωση των πιο πυκνοκατοικημένων πόλεων στην Ισπανία, αν και ο νόμος της Zipf δεν ισχύει. Είναι πλήρως συμβατό, αλλά αντιστοιχεί, σε μεγαλύτερο ή μικρότερο βαθμό, στην κατάταξη που καταλαμβάνει κάθε πόλη στο σειρά κατάταξης. Η Μαδρίτη, με πληθυσμό 3.266.126, έχει το διπλάσιο της Βαρκελώνης, με 1.636.762, ενώ η Βαλένθια έχει περίπου το ένα τρίτο με 800.000 κατοίκους.
Μια άλλη παρατηρήσιμη περίπτωση του νόμου του Zipf είναι με ιστοσελίδες. Ο κυβερνοχώρος είναι πολύ εκτεταμένος, με σχεδόν 15 δισεκατομμύρια ιστοσελίδες που έχουν δημιουργηθεί. Λαμβάνοντας υπόψη ότι στον κόσμο υπάρχουν περίπου 6.800 εκατομμύρια άνθρωποι, θεωρητικά για κάθε έναν από αυτούς θα υπάρχουν δύο ιστοσελίδες που θα επισκέπτονται κάθε μέρα, κάτι που δεν ισχύει.
Οι δέκα σελίδες με τις περισσότερες επισκέψεις αυτή τη στιγμή είναι: Google (60,49 εκατομμύρια μηνιαίες επισκέψεις), Youtube (24,31 εκατομμύρια), Facebook (19,98 εκατομμύρια), Baidu (9,77 εκατομμύρια), Wikipedia (4,69 εκατομμύρια), Twitter (3,92 εκατομμύρια), Yahoo (3,74 εκατομμύρια), Pornhub (3,36 εκατομμύρια), Instagram (3,21 εκατομμύρια) και Xvideos (3, 19 εκατομμύρια). Κοιτάζοντας αυτούς τους αριθμούς, μπορείτε να δείτε ότι η Google έχει δύο φορές περισσότερες επισκέψεις από το YouTube, τρεις φορές περισσότερο από το Facebook, περισσότερες από τέσσερις φορές περισσότερο από το Baidu ...
Βιβλιογραφικές αναφορές:
- Font-Clos, F., Boleda, G. and Corral, (. (2013) Ένας νόμος κλιμάκωσης πέραν του νόμου του Zipf και η σχέση του με το νόμο του Heaps. Νέο περιοδικό φυσικής, 15. doi.org/10.1088/1367-2630/15/9/093033.
- Montemurro, Μ. ΠΡΟΣ ΤΗΝ. (2001). Πέρα από το νόμο Zipf - Mandelbrot στην ποσοτική γλωσσολογία. Physica A: Στατιστική Μηχανική και οι Εφαρμογές της 300: 567-578.