กฎของ Zipf: ปรากฏการณ์ทางสังคมและคณิตศาสตร์ที่น่าสงสัย
เราใช้คำนับพันคำทุกวัน โดยมีความหมายทุกประเภทและเป็นหมวดหมู่ทางไวยากรณ์ที่หลากหลายมาก อย่างไรก็ตาม ไม่ได้ใช้ทั้งหมดที่มีความถี่เท่ากัน ขึ้นอยู่กับว่าคำเหล่านั้นมีความสำคัญต่อโครงสร้างของประโยคเพียงใด มีคำที่ซ้ำกันมากกว่าคำอื่นๆ
กฎของ Zipf เป็นสมมติฐานที่คำนึงถึงปรากฏการณ์นี้ this และระบุแนวโน้มที่จะใช้คำใดคำหนึ่งโดยพิจารณาจากตำแหน่งในการจัดอันดับคำทั้งหมดที่ใช้ในภาษา ต่อไปเราจะพูดถึงรายละเอียดเพิ่มเติมเกี่ยวกับกฎหมายนี้
- บทความที่เกี่ยวข้อง: "ภาษา 12 ประเภท (และลักษณะเฉพาะ)"
กฎของ Zipf
George Kingsley Zipf (1902–1950) เป็นนักภาษาศาสตร์ชาวอเมริกัน เกิดในเมืองฟรีพอร์ต รัฐอิลลินอยส์ เขาได้พบกับปรากฏการณ์ประหลาดในการศึกษาวิชาภาษาศาสตร์เปรียบเทียบของเขา ในงานที่เขาทำการวิเคราะห์ทางสถิติพบว่า คำที่ใช้มากที่สุดดูเหมือนจะมีรูปแบบการปรากฏตัวนี้เป็นการกำเนิดของกฎหมายที่ได้รับนามสกุลของเขา
ตามกฎของ Zipf ส่วนใหญ่แล้ว ถ้าไม่เสมอไป คำที่ใช้ในข้อความที่เป็นลายลักษณ์อักษรหรือในการสนทนาด้วยวาจาจะเป็นไปตามรูปแบบต่อไปนี้: คำที่ใช้มากที่สุดซึ่งจะครองตำแหน่งแรกในการจัดอันดับ จะใช้บ่อยเป็นสองเท่า ครั้งที่สอง ใช้มากที่สุด สามครั้ง สามครั้ง สี่เท่า มากเป็นสี่ เป็นต้น ตามลำดับ
ในทางคณิตศาสตร์ กฎนี้จะเป็น:
Pn ≈ 1⁄na
โดยที่ 'Pn' คือความถี่ของคำในลำดับ 'n' และเลขชี้กำลัง 'a' มีค่าประมาณ 1
ต้องบอกว่า George Zipf ไม่ใช่คนเดียวที่สังเกตความสม่ำเสมอนี้ในความถี่ของคำที่ใช้มากที่สุด หลายภาษา ทั้งธรรมชาติและประดิษฐ์ อันที่จริง เป็นที่ทราบกันดีว่ามีคนอื่นๆ อีกหลายคน เช่น Jean-Baptiste Estoup นักจดชจศาสตร์และนักฟิสิกส์ Felix Auerbach
Zipf ศึกษาปรากฏการณ์นี้ด้วยข้อความภาษาอังกฤษ และเห็นได้ชัดว่ามันเป็นเรื่องจริง ถ้าเราเอาต้นฉบับของ ต้นกำเนิดของสายพันธุ์ โดย Charles Darwin (1859) เราเห็นว่าคำที่ใช้มากที่สุดในบทแรกคือ "the" โดยมีลักษณะเป็น about 1,050 อันที่สองคือ "และ" ปรากฏประมาณ 400 ครั้งและอันที่สามคือ "ถึง" ปรากฏขึ้น ประมาณ 300. แม้ว่าจะไม่ตรงทั้งหมด แต่คุณสามารถเห็นได้ว่าคำที่สองปรากฏขึ้นครึ่งหนึ่งหลายครั้งของคำแรกและคำที่สามหนึ่งในสาม
สิ่งเดียวกันนี้เกิดขึ้นในภาษาสเปน. ถ้าเรานำบทความเดียวกันนี้มาเป็นตัวอย่าง เราจะเห็นได้ว่าคำว่า "ของ" ใช้ 85 ครั้ง คือ ที่ใช้มากที่สุดในขณะที่คำว่า "ลา" ซึ่งใช้มากที่สุดเป็นอันดับสองสามารถนับได้ถึง57 ครั้ง
เมื่อเห็นว่าปรากฏการณ์นี้เกิดขึ้นในภาษาอื่น จึงเป็นเรื่องที่น่าสนใจที่จะคิดว่าสมองของมนุษย์ประมวลผลภาษาอย่างไร แม้ว่าจะมีปรากฏการณ์ทางวัฒนธรรมมากมายที่วัดการใช้และความหมายของคำหลายคำ แต่ภาษาที่เป็นปัญหาคือ a ปัจจัยทางวัฒนธรรมในตัวเอง วิธีที่เราใช้คำที่ใช้มากที่สุดดูเหมือนจะเป็นปัจจัยที่เป็นอิสระของ วัฒนธรรม.
- คุณอาจสนใจ: "จิตวิทยาวัฒนธรรมคืออะไร?"
ความถี่ของคำฟังก์ชัน
ลองดูคำสิบคำต่อไปนี้: 'what', 'from', 'not', 'to', 'the', 'the', 'is', 'and', 'in' และ 'what' พวกเขามีอะไรที่เหมือนกัน? ซึ่งเป็นคำที่ไร้ความหมายในตัวเองแต่น่าขัน คือ 10 คำที่ใช้มากที่สุดในภาษาสเปน.
การพูดว่าไม่มีความหมาย เราหมายความว่า ถ้าประโยคที่พูดโดยไม่มีคำนาม คำคุณศัพท์ กริยา หรือวิเศษณ์ ประโยคนั้นก็ไร้ความหมาย ตัวอย่างเช่น:
… และ…… ใน…… หนึ่ง… ของ…… ถึง… ของ……
ในทางกลับกัน หากเราแทนที่จุดด้วยคำที่มีความหมาย เราสามารถมีวลีดังต่อไปนี้
มิเกลและอานามีโต๊ะสีน้ำตาลข้างเตียงที่บ้าน
คำที่ใช้บ่อยเหล่านี้คือสิ่งที่เรียกว่าคำหน้าที่และ พวกเขามีหน้าที่กำหนดโครงสร้างไวยากรณ์ให้กับประโยค. ไม่ใช่แค่ 10 คำที่เราเคยเห็น แต่จริงๆ แล้วมีอีกหลายสิบคำ และทั้งหมดเป็นหนึ่งในร้อยคำที่ใช้กันมากที่สุดในภาษาสเปน
แม้ว่าพวกเขาจะไร้ความหมายในตัวเอง เป็นไปไม่ได้ที่จะละเว้นในประโยคใด ๆ ที่คุณต้องการทำความเข้าใจ. จำเป็นที่มนุษย์จะต้องใช้คำที่เป็นโครงสร้างของประโยคในการส่งข้อความอย่างมีประสิทธิภาพ ด้วยเหตุนี้จึงเป็นสิ่งที่น่าใช้มากที่สุด
ตรวจสอบ
แม้ว่าสิ่งที่ George Zipf สังเกตเห็นในการศึกษาปรัชญาเปรียบเทียบของเขา จนกระทั่งเมื่อไม่นานมานี้ ก็ยังไม่สามารถระบุข้อสันนิษฐานของกฎหมายได้อย่างเป็นรูปธรรม. ไม่ใช่เพราะว่าการวิเคราะห์บทสนทนาหรือข้อความทั้งหมดเป็นภาษาอังกฤษหรือภาษาอื่น ๆ นั้นเป็นไปไม่ได้อย่างมาก แต่เป็นเพราะงานที่น่ากลัวและความพยายามอย่างมากที่เกี่ยวข้อง
โชคดี และต้องขอบคุณการมีอยู่ของคอมพิวเตอร์และซอฟต์แวร์ที่ทันสมัย ทำให้ เป็นไปได้ที่จะตรวจสอบว่ากฎหมายนี้กำหนดไว้ในลักษณะที่ Zipf เสนอในตอนเริ่มต้นหรือหากมี if รูปแบบต่างๆ
กรณีหนึ่งคือการวิจัยที่ดำเนินการโดยศูนย์วิจัยคณิตศาสตร์ (CRM ใน Catalan Center de Recerca Matemàtica) ที่เชื่อมโยงกับมหาวิทยาลัยอิสระแห่งบาร์เซโลนา นักวิจัย Álvaro Corral, Isabel Moreno García และ Francesc Font Clos ได้ทำการวิเคราะห์อย่างครอบคลุม มาตราส่วนที่พวกเขาวิเคราะห์ข้อความดิจิทัลหลายพันฉบับเป็นภาษาอังกฤษเพื่อดูว่ากฎหมายของ Zipf เป็นอย่างไร
งานของเขาซึ่งมีการวิเคราะห์คลังข้อมูลขนาดใหญ่ประมาณ 30,000 เล่ม ทำให้เขาได้รับกฎหมายที่เทียบเท่ากับกฎหมายของ Zipfซึ่งจะเห็นได้ว่าคำที่ใช้มากที่สุดคือสองเท่าของคำที่สองเป็นต้น
กฎหมาย Zipf ในบริบทอื่น
แม้ว่าเดิมจะใช้กฎของ Zipf เพื่ออธิบายความถี่ของคำที่ใช้ในแต่ละภาษา เมื่อเปรียบเทียบลักษณะที่ปรากฏกับความถี่ที่แท้จริงในข้อความและบทสนทนา ได้มีการคาดการณ์ถึงลักษณะอื่นๆ ด้วย สถานการณ์
กรณีที่ค่อนข้างโดดเด่นคือ จำนวนคนที่อาศัยอยู่ในเมืองหลวงของสหรัฐอเมริกา US. ตามกฎหมายของ Zipf เมืองหลวงที่มีประชากรมากที่สุดของอเมริกามีขนาดเป็นสองเท่าของประชากรที่มีจำนวนมากที่สุดเป็นอันดับสอง และมีขนาดใหญ่เป็นสามเท่าของเมืองหลวงที่มีประชากรมากที่สุดเป็นอันดับสาม
ถ้าคุณดูสำมะโนประชากรปี 2010 จะเห็นด้วย นิวยอร์กมีประชากรทั้งหมด 8,175,133 คน โดยเมืองหลวงที่มีประชากรมากที่สุดรองลงมาคือลอสแองเจลิส โดยมี 3,792,621 และเมืองหลวงต่อไปนี้ในการจัดอันดับชิคาโกฮูสตันและฟิลาเดลเฟียด้วย 2,695,598, 2,100,263 และ 1,526,006, ตามลำดับ
นอกจากนี้ยังสามารถเห็นได้ในกรณีของเมืองที่มีประชากรมากที่สุดในสเปน แม้ว่ากฎหมายของ Zipf จะไม่มีผลบังคับใช้ เป็นไปตามข้อกำหนดอย่างสมบูรณ์ แต่สอดคล้องกับอันดับที่แต่ละเมืองอยู่ใน อันดับ มาดริดมีประชากร 3,266,126 คน มีมากกว่าบาร์เซโลนาถึง 2 เท่า คือ 1,636,762 คน ในขณะที่บาเลนเซียมีประมาณหนึ่งในสามของประชากร 800,000 คน
อีกกรณีที่สังเกตได้ของกฎหมายของ Zipf คือกับหน้าเว็บ with. ไซเบอร์สเปซกว้างขวางมาก โดยมีการสร้างหน้าเว็บเกือบ 15 พันล้านหน้า โดยคำนึงว่าในโลกนี้มีผู้คนประมาณ 6,800 ล้านคน ในทางทฤษฎีสำหรับพวกเขาแต่ละคนจะมีหน้าเว็บสองหน้าให้เข้าชมทุกวัน ซึ่งไม่เป็นเช่นนั้น
10 เพจที่มีผู้เข้าชมมากที่สุดในปัจจุบัน ได้แก่ Google (60.49 ล้านครั้งต่อเดือน), Youtube (24.31 ล้าน), Facebook (19.98 ล้าน), Baidu (9.77 ล้าน), Wikipedia (4.69 ล้าน), Twitter (3.92 ล้าน), Yahoo (3.74 ล้าน), Pornhub (3.36 ล้าน), Instagram (3.21 ล้าน) และ Xvideos (3, 19 ล้าน) เมื่อดูจากตัวเลขเหล่านี้ จะพบว่า Google มีผู้เข้าชมเป็นสองเท่าของ YouTube มากกว่า Facebook สามเท่า มากกว่า Baidu สี่เท่า
การอ้างอิงบรรณานุกรม:
- Font-Clos, F., Boleda, G. และ Corral, Á. (2013) กฎหมายมาตราส่วนที่อยู่เหนือกฎของ Zipf และความสัมพันธ์กับกฎของ Heaps วารสารฟิสิกส์ใหม่ 15. doi.org/10.1088/1367-2630/15/9/093033.
- มอนเตมูโร, เอ็ม. ถึง. (2001). Beyond the Zipf – กฎหมาย Mandelbrot ในภาษาศาสตร์เชิงปริมาณ Physica A: กลศาสตร์สถิติและการประยุกต์ 300: 567-578