Thứ Ba, 28 tháng 3, 2023

Zipf's Law

 Zipf's Law là gì?

Định luật Zipf là một phân phối thống kê trong các tập dữ liệu nhất định, chẳng hạn như các từ trong ngữ liệu ngôn ngữ, trong đó tần suất của một số từ nhất định tỷ lệ nghịch với thứ hạng của chúng.

Định luật Zipf được đặt tên theo nhà ngôn ngữ học George Kingsley Zipf, người đầu tiên chú ý đến hiện tượng này vào khoảng năm 1935. Theo định luật này, tần suất xuất hiện của các từ trong ngôn ngữ tự nhiên và mức độ xuất hiện của từ phổ biến nhất gấp đôi so với từ thường gặp thứ hai, gấp ba lần so với thường là từ tiếp theo và cứ tiếp tục như vậy cho đến từ ít phổ biến nhất. Từ ở vị trí n xuất hiện với tần suất 1/n lần so với từ xuất hiện nhiều nhất.

Từ phổ biến nhất trong tiếng Anh là “the”, xuất hiện khoảng 1/10 lần trong một văn bản điển hình; từ phổ biến tiếp theo (xếp hạng 2) là “of”, xuất hiện khoảng một phần hai mươi thời gian. Trong kiểu phân phối này, tần suất giảm mạnh khi số thứ hạng tăng lên, do đó, một số lượng nhỏ các mục xuất hiện rất thường xuyên và một số lượng lớn hiếm khi xảy ra.

 


(Nguồn: https://www.engati.com/glossary/zipfs-law)

 

Sự phân bố từ kiểu Zipfian rất phổ biến trong ngôn ngữ tự nhiên: Nó có thể được tìm thấy trong bài phát biểu của trẻ em dưới 32 tháng tuổi cũng như trong từ vựng chuyên ngành của sách giáo khoa đại học. Các nghiên cứu cho thấy rằng hiện tượng này cũng xảy ra ở hầu hết mọi ngôn ngữ. Chỉ gần đây, định luật Zipf mới được kiểm tra nghiêm ngặt trên cơ sở dữ liệu đủ lớn để đảm bảo giá trị thống kê. Các nhà nghiên cứu tại Trung tâm Recerca Matematica, một phần của mạng lưới CERCA của Chính phủ Catalonia, trực thuộc Khoa Toán của Đại học Autonoma de Barcelona, đã phân tích bộ sưu tập đầy đủ các văn bản bằng tiếng Anh trong Dự án Gutenberg, một cơ sở dữ liệu miễn phí với hơn 30.000 tác phẩm. Khi những từ hiếm nhất bị loại bỏ, Định luật Zipf áp dụng cho hơn một nửa số từ.

Luật có thể được áp dụng cho các lĩnh vực khác ngoài văn học. Phân phối Zipfian đã được tìm thấy trong thứ hạng dân số của các thành phố ở các quốc gia khác nhau, quy mô công ty, thứ hạng thu nhập và thứ hạng của số người xem cùng một kênh TV..

 


Nguồn: https://www.barstoolsports.com/blog/3380633/free-speech-doesnt-exist-explaining-zipfs-law

Một số ví dụ của định luật Zipf

Ngôn ngữ không phải là trường hợp duy nhất có thể áp dụng định luật Zipf. Định luật này cũng được chứng minh là chính xác khi áp dụng cho dân số thành phố, lưu lượng truy cập trang web, cường độ động đất, họ trong họ tên, thành phần sách nấu ăn, số cuộc gọi điện thoại mà mọi người nhận được, tần suất các nước khai cờ, quy mô công ty, quy mô quỹ tương hỗ, trình tự axit amin, thu nhập, thị trường tài chính, kích thước tệp internet và hành vi của con người. Cũng đã có những mô hình giải thích Định luật Zipf trong từng lĩnh vực này, nhưng những giải thích này thường có xu hướng chuyên biệt dành riêng cho từng lĩnh vực.

 

Tài liệu tham khảo

[1].         https://www.barstoolsports.com/blog/3380633/free-speech-doesnt-exist-explaining-zipfs-law

[2].         https://www.kaggle.com/code/vishynair/zipf-s-law-validation-with-word-frequency/notebook

[3].         https://www.engati.com/glossary/zipfs-law

[4].         https://www.techtarget.com/whatis/definition/Zipfs-Law

[5].         https://www.britannica.com/topic/Zipfs-law

Không có nhận xét nào:

Đăng nhận xét

Sandbox

Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...