Heaps' law là gì?
Định luật
Heaps nói rằng số lượng từ duy nhất trong một văn bản gồm n từ được xấp xỉ bằng
V(n) = Knβ
trong đó
·
K là hằng số dương
·
β nằm trong khoảng từ 0 đến 1. T
Theo kinh nghiệm, K thường
nằm trong khoảng từ 10 đến 100 và β thường nằm trong khoảng từ 0,4 đến 0,6.
Định luật được đặt theo
tên của Harold Stanley Heaps - người đã xây dựng định luật này trong khuôn khổ
truy xuất thông tin. Tuy nhiên, đúng với luật đặt tên của Stigler, thì định luật
này còn được gọi là luật Herdan – theo đó, Gustav Herdan.
Luật Zipf với luật Heaps có
liên hệ với nhau, chẳng hạn như khi độ dài của tài liệu (độ dài đo bằng số từ
trong tài liệu) tiếp tục tăng lên thì từ một thời điểm nhất định nào đó trở đi,
không có nhiều từ duy nhất được thêm vào danh sách từ vựng.
(Nguồn: https://github.com/ZitRos/edu-texts-analyzer)
Mặc dù
thuật ngữ “gamification” được đặt ra vào năm 2002, nhưng khái niệm này
đã có từ thế kỷ 20, khi các cửa hàng bán lẻ giới thiệu các chương trình phần
thưởng để củng cố lòng trung thành của khách hàng và các nhà quản lý công nghiệp
khuyến khích công nhân nhà máy tự coi mình là người cạnh tranh với nhau.
Năm
1984, Charles Coonradt đã xuất bản The Game of Work, một văn bản quan trọng về
kinh nghiệm của ông khi giúp các công ty trong danh sách Fortune 500 thúc đẩy sự
gắn kết của nhân viên và tăng lợi nhuận của họ bằng cách kết hợp nơi làm việc với
gamification, chẳng hạn như xác định
mục tiêu rõ ràng, ghi điểm tốt hơn và phản hồi thường xuyên.
Ví dụ minh họa luật Heaps trong tiểu thuyết của Jane Austen
(Nguồn: https://www.johndcook.com/blog/2019/08/27/heaps-law/)
Các
tham số trong định luật Heaps tính ra trong tiểu thuyết của Jane Austen là K =
121,3 và β = 0,341.
Dưới đây là so sánh kích thước từ vựng thực tế và dự đoán
trong tiểu thuyết theo luật Heaps.
Nếu một
bản thảo bị nghi ngờ là di cảo của Jane Austen xuất hiện, một cách kiểm tra
tính xác thực khả thi là xem xét kích thước từ vựng của nó để xem liệu nó có nhất
quán với các tác phẩm khác của cô ấy hay không. Người ta cũng có thể nhìn vào số
lượng từ chỉ được sử dụng một lần, khi chúng ta thảo luận tiếp theo.
Tài liệu tham khảo
[1].
https://github.com/ZitRos/edu-texts-analyzer
[2].
https://iq.opengenus.org/heaps-law-in-nlp/
[3]. https://nlp.stanford.edu/IR-book/html/htmledition/heaps-law-estimating-the-number-of-terms-1.html
[4].
https://www.johndcook.com/blog/2019/08/27/heaps-law/
[5].
https://planetmath.org/heapslaw
Không có nhận xét nào:
Đăng nhận xét