Education, study and knowledge

Zipf의 법칙: 기이한 사회적, 수학적 현상

우리는 모든 종류의 의미와 매우 다양한 문법 범주에 속하는 수천 개의 단어를 매일 사용합니다. 그러나 모두 동일한 빈도로 사용되는 것은 아닙니다. 문장 구조에 얼마나 중요한가에 따라 다른 단어보다 반복되는 단어가 있습니다.

Zipf의 법칙은 이러한 현상을 고려한 가정입니다. 한 언어에서 사용되는 모든 단어의 순위에서 해당 단어의 위치를 ​​기반으로 단어가 사용될 가능성을 지정합니다. 다음으로 이 법에 대해 자세히 알아보겠습니다.

  • 관련 기사: "12가지 언어 유형(및 특성)"

Zipf의 법칙

조지 킹슬리 집프(George Kingsley Zipf, 1902-1950)는 일리노이 주 프리포트에서 태어난 미국 언어학자로 비교 문헌학 연구에서 기이한 현상에 직면했습니다. 그가 통계 분석을 수행하던 작업에서 그는 다음과 같은 사실을 발견했습니다. 가장 많이 사용되는 단어는 모양의 패턴을 가지고 있는 것 같았습니다., 이것은 그의 성을 받는 법의 탄생입니다.

Zipf의 법칙에 따르면, 항상은 아니지만 대부분의 경우, 서면 텍스트 또는 구두 대화에서 사용되는 단어는 다음 패턴을 따릅니다.: 순위에서 1위를 차지할 가장 많이 사용되는 단어는 다음보다 2배 더 많이 사용됩니다. 두 번째로 많이 사용, 세 번째보다 3배, 네 번째보다 4배 더 많이 사용되는 등 연속적으로.

수학적으로 이 법칙은 다음과 같습니다.

Pn ≈ 1⁄na

여기서 'Pn'은 'n' 순서의 단어 빈도이고 지수 'a'는 대략 1입니다.

라고 말해야 한다. 가장 많이 사용되는 단어의 빈도에서 이러한 규칙성을 관찰한 사람은 George Zipf만이 아닙니다. 자연 언어와 인공 언어를 모두 포함하는 많은 언어의 사실, 스테가노그래퍼 Jean-Baptiste Estoup와 물리학자 Felix Auerbach와 같은 다른 사람들도 그랬던 것으로 알려져 있습니다.

Zipf는 이 현상을 영어 텍스트로 연구했으며 분명히 사실입니다. 의 원본 버전을 가져오면 찰스 다윈의 종의 기원 (1859) 우리는 첫 번째 장에서 가장 많이 사용된 단어가 "the"라는 것을 알 수 있습니다. 1,050, 두 번째는 "and"로 약 400번, 세 번째는 "to"로 나타납니다. 약 300. 정확하지는 않지만 두 번째 단어가 첫 번째 단어의 절반과 세 번째 단어의 3분의 1로 나타나는 것을 볼 수 있습니다.

instagram story viewer

스페인어에서도 같은 일이 일어납니다.. 이 같은 기사를 예로 들면 "of"라는 단어가 85번 사용되었음을 알 수 있습니다. 가장 많이 사용되는 반면 두 번째로 많이 사용되는 단어 "la"는 최대 57개까지 셀 수 있습니다. 타임스.

이러한 현상이 다른 언어에서도 발생하는 것을 보고 인간의 두뇌가 언어를 처리하는 방식에 대해 생각해 보는 것은 흥미롭습니다. 많은 단어의 용법과 의미를 측정하는 많은 문화적 현상이 있지만, 문제의 언어는 우리가 가장 많이 사용하는 단어를 사용하는 방식은 그 자체로 문화적 요인인 것처럼 보입니다. 문화.

  • 당신은 관심이있을 수 있습니다: "문화심리학이란?"

기능어의 빈도

'무엇', 'from', 'not', 'to', 'to', 'is', 'and', 'in' 및 'what'의 열 가지 단어를 살펴보겠습니다. 그들 모두의 공통점은 무엇입니까? 그 자체로는 의미 없는 말이지만 아이러니하게도 스페인어에서 가장 많이 사용되는 10가지 단어.

의미가 없다는 것은 명사, 형용사, 동사 또는 부사가 없는 문장을 말하면 그 문장은 의미가 없다는 것을 의미합니다. 예:

… 그리고…… 안에…

반면에 의미가 있는 단어로 점을 바꾸면 다음과 같은 구문을 가질 수 있습니다.

Miguel과 Ana는 집에서 침대 옆에 갈색 탁자가 있습니다.

이러한 자주 사용되는 단어는 알려진 기능어이며, 문장에 문법적 구조를 부여하는 역할을 합니다.. 그것들은 우리가 본 10개 뿐만 아니라 실제로 수십 개가 있으며 모두 스페인어에서 가장 많이 사용되는 100개 단어 중 하나입니다.

그 자체로는 무의미하지만, 당신이 이해하고 싶은 어떤 문장에서도 생략이 불가능합니다.. 인간이 메시지를 효율적으로 전달하기 위해서는 문장의 구조를 구성하는 단어에 의존할 필요가 있습니다. 이러한 이유로 그들은 흥미롭게도 가장 많이 사용됩니다.

조사

조지 집프가 비교철학 연구에서 관찰한 것에도 불구하고, 비교적 최근까지 법의 가정을 경험적으로 다루는 것이 불가능했습니다.. 영어나 다른 언어로 된 모든 대화나 텍스트를 분석하는 것이 실질적으로 불가능하기 때문이 아니라 벅찬 작업과 관련된 엄청난 노력 때문입니다.

다행히도 현대 컴퓨팅과 소프트웨어의 존재 덕분에 Zipf가 처음에 제안한 방식으로 이 법률이 제공되었는지 또는 변형.

한 가지 사례는 바르셀로나 자치 대학과 연결된 수학 연구 센터(CRM, Catalan Center de Recerca Matemàtica)에서 수행한 연구입니다. 연구원 Álvaro Corral, Isabel Moreno García 및 Francesc Font Clos가 포괄적인 분석을 수행했습니다. Zipf의 법칙이 얼마나 사실인지 확인하기 위해 영어로 된 수천 개의 디지털화된 텍스트를 분석하는 척도입니다.

약 30,000권에 달하는 방대한 코퍼스를 분석한 그의 작업은 Zipf의 법칙과 동등한 법칙을 얻을 수 있게 해주었습니다., 가장 많이 사용된 단어가 두 번째 단어보다 2배 더 많이 사용되는 것으로 나타났습니다.

다른 상황에서의 Zipf 법칙

Zipf의 법칙은 원래 각 언어에서 사용되는 단어의 빈도를 설명하는 데 사용되었지만, 그것의 출현 범위를 문자 및 대화에서의 실제 빈도와 비교하여 다른 것들에도 외삽되었습니다. 상황.

다소 눈에 띄는 사례는 미국 수도에 사는 사람들의 수. Zipf의 법칙에 따르면 미국에서 가장 인구가 많은 수도는 두 번째로 인구가 많은 수도의 두 배이고 세 번째로 인구가 많은 수도의 세 배입니다.

2010년 인구 조사를 보면 이는 동의합니다. 뉴욕의 총 인구는 8,175,133명이었고 그 다음으로 인구가 많은 수도는 로스앤젤레스였습니다. 3,792,621 및 순위의 다음 수도, 시카고, 휴스턴 및 필라델피아는 2,695,598, 2,100,263 및 1,526,006, 각기

Zipf의 법칙은 적용되지 않지만 이것은 스페인에서 가장 인구가 많은 도시의 경우에서도 볼 수 있습니다. 완전히 준수하지만, 어느 정도는 각 도시가 순위에서 차지하는 순위에 해당합니다. 순위. 마드리드의 인구는 3,266,126명으로 1,636,762명으로 바르셀로나의 두 배인 반면 발렌시아는 800,000명으로 약 3분의 1입니다.

Zipf의 법칙의 또 다른 관찰 가능한 사례는 웹 페이지입니다.. 사이버 공간은 거의 150억 개의 웹 페이지가 생성되어 매우 광범위합니다. 세계에 약 6,800만 명의 사람들이 있다는 점을 고려하면 이론적으로 각 사람에 대해 매일 방문해야 하는 두 개의 웹 페이지가 있지만 그렇지 않습니다.

현재 가장 많이 방문한 페이지는 Google(월간 6,049만 회), Youtube(2,431만 회), Facebook(1,998만 회), Baidu입니다. (977만), Wikipedia(469만), Twitter(392만), Yahoo(374만), Pornhub(336만), Instagram(321만) 및 Xvideos(3, 19) 수백만). 이 수치를 보면 구글이 유튜브보다 2배, 페이스북보다 3배, 바이두보다 4배 더 많이 방문한다는 것을 알 수 있습니다.

참고 문헌:

  • Font-Clos, F., Boleda, G. and Corral, Á. (2013) Zipf의 법칙과 힙스의 법칙과의 관계를 넘어선 스케일링 법칙. 새로운 물리학 저널, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • 몬테무로, M. 에. (2001). Zipf 너머 – 양적 언어학의 Mandelbrot 법칙. Physica A: 통계 역학 및 응용 300: 567-578.
음악이란 무엇입니까?

음악이란 무엇입니까?

"음악은 짐승을 진정시킨다". 분명히 당신은 이 유명한 말을 들어본 적이 있을 것입니다. 과장처럼 보일 수 있습니다. 당신을 잡아먹으려는 굶주린 사자를 마주하게 된다면 음악은...

더 읽어보기

시지프스의 신화와 그의 형벌: 무의미한 삶의 고문

Sisyphus는 고대 그리스 신화의 유명한 캐릭터입니다. 기원전 8세기 경에 만들어진 호메로스 전통에 속합니다. 씨. 그러나 그 역사는 헬레니즘사의 사회문화적 맥락을 초월하...

더 읽어보기

한계 예술: 그것이 무엇이며 어떤 특징을 가지고 있는지

한계 예술: 그것이 무엇이며 어떤 특징을 가지고 있는지

아마도 당신은 "외부 예술"에 대해 들어봤지만 그것이 무엇인지 정확히 알지 못할 것입니다.. 소수자 예술의 정의나 사회에서 배제된 집단의 예술적 표현처럼 들릴 수도 있다.아웃...

더 읽어보기

instagram viewer