Education, study and knowledge

Lei de Zipf: um curioso fenômeno social e matemático

Usamos milhares de palavras todos os dias, com significados de todos os tipos e pertencentes a categorias gramaticais muito variadas. No entanto, nem todos são usados ​​com a mesma frequência. Dependendo da sua importância para a estrutura da frase, existem palavras que são mais recorrentes do que outras.

A lei de Zipf é um postulado que leva em consideração esse fenômeno e especifica a probabilidade de uma palavra ser usada com base em sua posição na classificação de todas as palavras usadas em um idioma. A seguir, entraremos em mais detalhes sobre essa lei.

  • Artigo relacionado: "Os 12 tipos de linguagem (e suas características)"

Lei de Zipf

George Kingsley Zipf (1902–1950) foi um linguista americano, nascido em Freeport, Illinois, que encontrou um fenômeno curioso em seus estudos de filologia comparada. Em seu trabalho, no qual conduzia análises estatísticas, ele descobriu que as palavras mais usadas pareciam ter um padrão de aparência, sendo este o nascimento da lei que recebe seu sobrenome.

instagram story viewer

De acordo com a lei de Zipf, na grande maioria das vezes, senão sempre, as palavras que são usadas em um texto escrito ou em uma conversa oral seguirão o seguinte padrão: a palavra mais usada, que ocuparia a primeira posição no ranking, seria duas vezes mais usada que o segundo mais usado, três vezes mais que o terceiro, quatro vezes mais que o quarto, e assim por diante sucessivamente.

Em termos matemáticos, essa lei seria:

Pn ≈ 1⁄na

Onde 'Pn' é a frequência de uma palavra na ordem 'n' e o expoente 'a' é aproximadamente 1.

Deve ser dito que George Zipf não foi o único que observou essa regularidade na frequência das palavras mais utilizadas de muitas línguas, naturais e artificiais. Na verdade, sabe-se que outros o foram, como o esteganógrafo Jean-Baptiste Estoup e o físico Felix Auerbach.

Zipf estudou esse fenômeno com textos em inglês e, aparentemente, é verdade. Se pegarmos a versão original de A Origem das Espécies de Charles Darwin (1859) vemos que a palavra mais usada no primeiro capítulo é "o", com uma aparência de cerca de 1.050, enquanto o segundo é "e", aparecendo cerca de 400 vezes, e o terceiro é "para", aparecendo cerca de 300. Embora não exatamente, você pode ver que a segunda palavra aparece a metade das vezes que a primeira e a terceira um terço.

A mesma coisa acontece em espanhol. Se tomarmos este mesmo artigo como exemplo, podemos ver que a palavra "de" é usada 85 vezes, sendo a mais utilizada, enquanto a palavra "la", que é a segunda mais utilizada, pode ser contada até 57 vezes.

Vendo que esse fenômeno ocorre em outras línguas, torna-se interessante pensar em como o cérebro humano processa a linguagem. Embora existam muitos fenômenos culturais que medem o uso e o significado de muitas palavras, o idioma em questão é um fator cultural em si, a forma como usamos as palavras mais usadas parece ser um fator independente do cultura.

  • Você pode estar interessado: "O que é psicologia cultural?"

Frequência de palavras funcionais

Vejamos as dez palavras a seguir: ‘o que’, ‘de’, ‘não’, ‘para’, ‘o’, ‘o’, ‘é’, ‘e’, ‘em’ e ‘o que’. o que todos eles têm em comum? Que são palavras sem sentido por si só, mas ironicamente são as 10 palavras mais usadas na língua espanhola.

Ao dizer que eles não têm significado, queremos dizer que, se for dita uma frase na qual não há substantivo, adjetivo, verbo ou advérbio, a frase não tem sentido. Por exemplo:

… E …… em …… um… de …… a… de ……

Por outro lado, se substituirmos os pontos por palavras com significado, podemos ter uma frase como a seguinte.

Miguel e Ana têm uma mesa marrom ao lado da cama em casa.

Essas palavras usadas com frequência são o que são palavras de função conhecidas, e Eles são responsáveis ​​por dar estrutura gramatical à frase. Não são apenas as 10 que vimos, na verdade existem dezenas delas, e todas estão entre as cem palavras mais utilizadas em espanhol.

Embora eles sejam insignificantes por si próprios, são impossíveis de omitir em qualquer frase que você queira entender. É necessário que o ser humano, para transmitir uma mensagem de forma eficiente, recorra às palavras que constituem a estrutura da frase. Por isso são, curiosamente, os mais utilizados.

Investigação

Apesar do que George Zipf observou em seus estudos de filosofia comparada, até há relativamente pouco, não tinha sido possível abordar empiricamente os postulados da lei. Não porque fosse materialmente impossível analisar todas as conversas ou textos em inglês ou qualquer outro idioma, mas por causa da tarefa assustadora e do grande esforço envolvido.

Felizmente, e graças à existência de computação e software modernos, tem sido É possível investigar se essa lei foi dada da forma como Zipf a propôs no início ou se havia variações.

Um caso é a pesquisa realizada pelo Centro de Pesquisas Matemáticas (CRM, no Catalan Centre de Recerca Matemàtica) vinculado à Universidade Autônoma de Barcelona. Os pesquisadores Álvaro Corral, Isabel Moreno García e Francesc Font Clos realizaram uma análise abrangente escala na qual eles analisaram milhares de textos digitalizados em inglês para ver o quão verdadeira era a lei de Zipf.

A sua obra, em que se analisou um extenso corpus de cerca de 30.000 volumes, permitiu-lhe obter uma lei equivalente à de Zipf., no qual foi visto que a palavra mais usada era duas vezes mais usada que a segunda e assim por diante.

A lei Zipf em outros contextos

Embora a lei de Zipf tenha sido usada originalmente para explicar a frequência das palavras usadas em cada idioma, comparando sua amplitude de aparência com sua frequência real em textos e conversas, também foi extrapolado para outros situações.

Um caso bastante marcante é o número de pessoas que vivem nas capitais dos EUA. De acordo com a lei de Zipf, a capital mais populosa da América tinha o dobro do tamanho da segunda mais populosa e três vezes o tamanho da terceira mais populosa.

Se você olhar para o censo populacional de 2010, isso concorda. Nova York tinha uma população total de 8.175.133 pessoas, com a próxima capital mais populosa sendo Los Angeles, com 3.792.621 e as seguintes capitais no ranking, Chicago, Houston e Filadélfia com 2.695.598, 2.100.263 e 1.526.006, respectivamente

Isso também pode ser verificado no caso das cidades mais populosas da Espanha, embora a lei de Zipf não se aplique. É totalmente compatível, mas corresponde, em maior ou menor grau, à posição que cada cidade ocupa no classificação. Madrid, com uma população de 3.266.126, tem o dobro de Barcelona, ​​com 1.636.762, enquanto Valência tem cerca de um terço com 800.000 habitantes.

Outro caso observável da lei de Zipf é com páginas da web. O ciberespaço é muito extenso, com quase 15 bilhões de páginas da web criadas. Levando em consideração que no mundo existem cerca de 6.800 milhões de pessoas, em tese para cada uma delas haveria duas páginas da web para visitar todos os dias, o que não é o caso.

As dez páginas mais visitadas atualmente são: Google (60,49 milhões de visitas mensais), Youtube (24,31 milhões), Facebook (19,98 milhões), Baidu (9,77 milhões), Wikipedia (4,69 milhões), Twitter (3,92 milhões), Yahoo (3,74 milhões), Pornhub (3,36 milhões), Instagram (3,21 milhões) e Xvideos (3, 19 milhões). Olhando para esses números, você pode ver que o Google é duas vezes mais visitado que o YouTube, três vezes mais que o Facebook, mais de quatro vezes mais que o Baidu ...

Referências bibliográficas:

  • Font-Clos, F., Boleda, G. and Corral, Á. (2013) Uma escala de lei além da lei de Zipf e sua relação com a lei de Heaps. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. PARA. (2001). Além do Zipf - Lei de Mandelbrot em linguística quantitativa. Physica A: Statistical Mechanics and its Applications 300: 567-578.
Arte Marginal: o que é e que características tem

Arte Marginal: o que é e que características tem

Talvez você já tenha ouvido falar em "arte de fora", mas não sabe exatamente o que é. Pode soar c...

Consulte Mais informação

A Era de Ouro: o que é e quem são seus autores mais importantes

A Era de Ouro: o que é e quem são seus autores mais importantes

Invocado repetidamente como o palco mais esplêndido das artes e da literatura espanhola, o chamad...

Consulte Mais informação

A Esfinge de Gizé: origens e características deste monumento egípcio

A Esfinge de Gizé: origens e características deste monumento egípcio

Não é a única esfinge que a civilização egípcia nos deixou, mas é a mais espetacular. A Esfinge d...

Consulte Mais informação