ジップの法則:奇妙な社会的および数学的現象
私たちは毎日何千もの単語を使用しており、あらゆる種類の意味を持ち、非常に多様な文法範疇に属しています。 ただし、すべてが同じ頻度で使用されるわけではありません。 文の構造にとってそれらがどれほど重要であるかに応じて、他の単語よりも頻繁に繰り返される単語があります。
ジップの法則は、この現象を考慮に入れた仮説です。 また、言語で使用されるすべての単語のランキングでの位置に基づいて、単語が使用される可能性を指定します。 次に、この法則について詳しく説明します。
- 関連記事: "12種類の言語(およびその特徴)"
ジップの法則
ジョージ・キングズリー・ジップ(1902–1950)は、イリノイ州フリーポートで生まれたアメリカの言語学者であり、比較言語学の研究で奇妙な現象に遭遇しました。 彼が統計分析を行っていた彼の仕事で、彼は次のことを発見しました 最もよく使われる単語は、外観のパターンを持っているようでした、これは彼の名前を受け取る法律の誕生です。
ジップの法則によれば、常にではないにしても、ほとんどの場合、 文章や口頭での会話で使用される単語は、次のパターンに従います:ランキングの最初の位置を占める最もよく使われる単語は、2倍の頻度で使われます 2番目に使用され、3番目の3倍、4番目の4倍というように続きます。 続けて。
数学的には、この法則は次のようになります。
Pn≈1⁄na
ここで、「Pn」は「n」の順序の単語の頻度であり、指数「a」は約1です。
それは言われるべきです 最もよく使われる単語の頻度でこの規則性を観察したのはジョージ・ジップだけではありませんでした 自然と人工の両方の多くの言語の。 実際、ステガノグラファーのジャン・バプティスト・エストウプや物理学者のフェリックス・アウエルバッハなど、他にもいたことが知られています。
Zipfはこの現象を英語のテキストで研究しましたが、明らかにそれは真実です。 元のバージョンを取る場合 チャールズダーウィンによる種の起源 (1859)最初の章で最も使用されている単語は「the」であり、 1,050、2番目は「and」で約400回出現、3番目は「to」で出現 約300。 正確ではありませんが、2番目の単語が最初の単語の半分、3番目の単語が3分の1の回数表示されていることがわかります。
同じことがスペイン語でも起こります. この同じ記事を例にとると、「of」という単語が85回使用されていることがわかります。 最もよく使われているのに対し、2番目によく使われている「la」という単語は最大57まで数えることができます。 回。
この現象が他の言語で発生しているのを見て、人間の脳がどのように言語を処理するかを考えるのは興味深いことです。 多くの単語の使用と意味を測定する多くの文化的現象がありますが、問題の言語は 文化的要因自体、私たちが最もよく使われる言葉を使用する方法は、 文化。
- あなたは興味があるかもしれません: "文化心理学とは何ですか?"
機能語の頻度
次の10語を見てみましょう:「what」、「from」、「not」、「to」、「the」、「the」、「is」、「and」、「in」、「what」。 それらすべてに共通するものは何ですか? それ自体は意味のない言葉ですが、皮肉なことに スペイン語で最もよく使われる10の単語です.
意味がないということは、名詞、形容詞、動詞、副詞がない文を言っても意味がないということです。 例えば:
…そして……in……one…of……to…of……
一方、ドットを意味のある単語に置き換えると、次のようなフレーズになります。
ミゲルとアナは自宅のベッドの横に茶色のテーブルを持っています。
これらの頻繁に使用される単語は、既知の機能語であり、 彼らは文に文法構造を与えることを担当しています. それらは私たちが見た10だけではなく、実際には数十あり、それらはすべてスペイン語で最もよく使われる100の単語の1つです。
それだけでは意味がありませんが、 あなたが理解したい文で省略することは不可能です. 人間は、メッセージを効率的に伝えるために、文の構造を構成する言葉に頼る必要があります。 このため、不思議なことに、それらは最も使用されています。
調査
ジョージ・ジップが比較哲学の研究で観察したことにもかかわらず、 比較的最近まで、法律の仮定に経験的に取り組むことはできませんでした. すべての会話やテキストを英語やその他の言語で分析することが実質的に不可能だったからではなく、大変な作業と多大な労力が必要だったからです。
幸いなことに、そして現代のコンピューティングとコンピュータプログラムの存在のおかげで、 この法律が最初にZipfが提案した方法で与えられたのか、それともあったのかを調査することができます。 バリエーション。
1つのケースは、バルセロナ自治大学にリンクされた数学研究センター(CRM、カタロニア語センターデレセルカマテマティカ)によって実施された研究です。 研究者のアルバロ・コラル、イザベル・モレノ・ガルシア、フランセスク・フォント・クロが包括的な分析を実施しました 彼らが英語でデジタル化された何千ものテキストを分析して、ジップの法則がどれほど真実であるかを確認するスケール。
約3万冊の膨大なコーパスを分析した彼の研究により、彼はジップの法則と同等の法則を得ることができました。、最も使用された単語が2番目の単語の2倍使用されていることがわかりました。
他の文脈でのジップの法則
ジップの法則は元々、各言語で使用される単語の頻度を説明するために使用されていましたが、 その出現範囲をテキストや会話での実際の頻度と比較すると、他の人にも外挿されています 状況。
かなり印象的なケースは 米国の首都に住む人々の数. ジップの法則によれば、最も人口の多いアメリカの首都は、2番目に人口の多い首都の2倍、3番目に人口の多い首都の3倍の大きさでした。
2010年の国勢調査を見ると、これは同意します。 ニューヨークの総人口は8,175,133人で、次に人口の多い首都はロサンゼルスで、 3,792,621とランキングの次の首都、シカゴ、ヒューストン、フィラデルフィア、2,695,598、2,100,263、1,526,006、 それぞれ
これは、スペインで最も人口の多い都市の場合にも見られますが、ジップの法則は適用されません。 完全に準拠していますが、多かれ少なかれ、各都市が占めるランクに対応しています。 ランキング。 マドリッドの人口は3,266,126人で、バルセロナの2倍の1,636,762人ですが、バレンシアの人口は約3分の1で80万人です。
ジップの法則のもう1つの観察可能なケースは、Webページです。. サイバースペースは非常に広範で、150億近くのWebページが作成されています。 世界には約68億人の人々がいることを考慮すると、理論的には、それぞれの人が毎日2つのWebページにアクセスすることになりますが、そうではありません。
現在最も訪問されている10のページは、Google(6,049万の月間訪問)、Youtube(2,431万)、Facebook(19.98百万)、Baiduです。 (977万)、ウィキペディア(469万)、ツイッター(392万)、ヤフー(374万)、ポルノハブ(336万)、インスタグラム(321万)、Xvideos(3、19 数百万)。 これらの数字を見ると、GoogleはYouTubeの2倍、Facebookの3倍、Baiduの4倍以上の訪問者であることがわかります...
書誌参照:
- Font-Clos、F.、Boleda、G。 and Corral、Á。(2013)ジップの法則を超えたスケーリング法則とヒープスの法則との関係。 New Journal of Physics、15。 doi.org/10.1088/1367-2630 / 15/9/093033。
- モンテムロ、M。 に。 (2001). Zipfを超えて–計量言語学におけるマンデルブロの法則。 Physica A:統計力学とその応用300:567-578。