Zipf's Law là gì?
Định luật
Zipf là một phân phối thống kê trong các tập dữ liệu nhất định, chẳng hạn như
các từ trong ngữ liệu ngôn ngữ, trong đó tần suất của một số từ nhất định tỷ lệ
nghịch với thứ hạng của chúng.
Định luật
Zipf được đặt tên theo nhà ngôn ngữ học George Kingsley Zipf, người đầu tiên
chú ý đến hiện tượng này vào khoảng năm 1935. Theo định luật này, tần suất xuất
hiện của các từ trong ngôn ngữ tự nhiên và mức độ xuất hiện của từ phổ biến nhất
gấp đôi so với từ thường gặp thứ hai, gấp ba lần so với thường là từ tiếp theo
và cứ tiếp tục như vậy cho đến từ ít phổ biến nhất. Từ ở vị trí n xuất hiện với
tần suất 1/n lần so với từ xuất hiện nhiều nhất.
Từ phổ
biến nhất trong tiếng Anh là “the”, xuất hiện khoảng 1/10 lần trong một
văn bản điển hình; từ phổ biến tiếp theo (xếp hạng 2) là “of”, xuất hiện
khoảng một phần hai mươi thời gian. Trong kiểu phân phối này, tần suất giảm mạnh
khi số thứ hạng tăng lên, do đó, một số lượng nhỏ các mục xuất hiện rất thường
xuyên và một số lượng lớn hiếm khi xảy ra.
(Nguồn: https://www.engati.com/glossary/zipfs-law)
Sự phân
bố từ kiểu Zipfian rất phổ biến trong ngôn ngữ tự nhiên: Nó có thể được
tìm thấy trong bài phát biểu của trẻ em dưới 32 tháng tuổi cũng như trong từ vựng
chuyên ngành của sách giáo khoa đại học. Các nghiên cứu cho thấy rằng hiện tượng
này cũng xảy ra ở hầu hết mọi ngôn ngữ. Chỉ gần đây, định luật Zipf mới được kiểm
tra nghiêm ngặt trên cơ sở dữ liệu đủ lớn để đảm bảo giá trị thống kê. Các nhà
nghiên cứu tại Trung tâm Recerca Matematica, một phần của mạng lưới CERCA của
Chính phủ Catalonia, trực thuộc Khoa Toán của Đại học Autonoma de Barcelona, đã
phân tích bộ sưu tập đầy đủ các văn bản bằng tiếng Anh trong Dự án Gutenberg, một
cơ sở dữ liệu miễn phí với hơn 30.000 tác phẩm. Khi những từ hiếm nhất bị loại
bỏ, Định luật Zipf áp dụng cho hơn một nửa số từ.
Luật có
thể được áp dụng cho các lĩnh vực khác ngoài văn học. Phân phối Zipfian đã được
tìm thấy trong thứ hạng dân số của các thành phố ở các quốc gia khác nhau, quy
mô công ty, thứ hạng thu nhập và thứ hạng của số người xem cùng một kênh TV..
Nguồn: https://www.barstoolsports.com/blog/3380633/free-speech-doesnt-exist-explaining-zipfs-law
Một
số ví dụ của định luật Zipf
Ngôn ngữ
không phải là trường hợp duy nhất có thể áp dụng định luật Zipf. Định luật này
cũng được chứng minh là chính xác khi áp dụng cho dân số thành phố, lưu lượng
truy cập trang web, cường độ động đất, họ trong họ tên, thành phần sách nấu ăn,
số cuộc gọi điện thoại mà mọi người nhận được, tần suất các nước khai cờ, quy
mô công ty, quy mô quỹ tương hỗ, trình tự axit amin, thu nhập, thị trường tài
chính, kích thước tệp internet và hành vi của con người. Cũng đã có những mô
hình giải thích Định luật Zipf trong từng lĩnh vực này, nhưng những giải thích
này thường có xu hướng chuyên biệt dành riêng cho từng lĩnh vực.
Tài liệu tham khảo
[1].
https://www.barstoolsports.com/blog/3380633/free-speech-doesnt-exist-explaining-zipfs-law
[2].
https://www.kaggle.com/code/vishynair/zipf-s-law-validation-with-word-frequency/notebook
[3].
https://www.engati.com/glossary/zipfs-law
Không có nhận xét nào:
Đăng nhận xét