Thứ Ba, 4 tháng 4, 2023

Heaps' law

 Heaps' law là gì?

Định luật Heaps nói rằng số lượng từ duy nhất trong một văn bản gồm n từ được xấp xỉ bằng

 

V(n) = Knβ

 

trong đó

·      K là hằng số dương

·      β nằm trong khoảng từ 0 đến 1. T

Theo kinh nghiệm, K thường nằm trong khoảng từ 10 đến 100 và β thường nằm trong khoảng từ 0,4 đến 0,6.

Định luật được đặt theo tên của Harold Stanley Heaps - người đã xây dựng định luật này trong khuôn khổ truy xuất thông tin. Tuy nhiên, đúng với luật đặt tên của Stigler, thì định luật này còn được gọi là luật Herdan – theo đó, Gustav Herdan.

Luật Zipf với luật Heaps có liên hệ với nhau, chẳng hạn như khi độ dài của tài liệu (độ dài đo bằng số từ trong tài liệu) tiếp tục tăng lên thì từ một thời điểm nhất định nào đó trở đi, không có nhiều từ duy nhất được thêm vào danh sách từ vựng.




(Nguồn: https://github.com/ZitRos/edu-texts-analyzer)

 

Mặc dù thuật ngữ “gamification” được đặt ra vào năm 2002, nhưng khái niệm này đã có từ thế kỷ 20, khi các cửa hàng bán lẻ giới thiệu các chương trình phần thưởng để củng cố lòng trung thành của khách hàng và các nhà quản lý công nghiệp khuyến khích công nhân nhà máy tự coi mình là người cạnh tranh với nhau.

Năm 1984, Charles Coonradt đã xuất bản The Game of Work, một văn bản quan trọng về kinh nghiệm của ông khi giúp các công ty trong danh sách Fortune 500 thúc đẩy sự gắn kết của nhân viên và tăng lợi nhuận của họ bằng cách kết hợp nơi làm việc với gamification,  chẳng hạn như xác định mục tiêu rõ ràng, ghi điểm tốt hơn và phản hồi thường xuyên.

Ví dụ minh họa luật Heaps trong tiểu thuyết của Jane Austen

 

(Nguồn: https://www.johndcook.com/blog/2019/08/27/heaps-law/)

 

 

Các tham số trong định luật Heaps tính ra trong tiểu thuyết của Jane Austen là K = 121,3 và β = 0,341.  

 

Dưới đây là so sánh kích thước từ vựng thực tế và dự đoán trong tiểu thuyết theo luật Heaps.

 

(Nguồn: https://www.johndcook.com/blog/2019/08/27/heaps-law/)

 

Nếu một bản thảo bị nghi ngờ là di cảo của Jane Austen xuất hiện, một cách kiểm tra tính xác thực khả thi là xem xét kích thước từ vựng của nó để xem liệu nó có nhất quán với các tác phẩm khác của cô ấy hay không. Người ta cũng có thể nhìn vào số lượng từ chỉ được sử dụng một lần, khi chúng ta thảo luận tiếp theo.

Tài liệu tham khảo

[1].         https://github.com/ZitRos/edu-texts-analyzer

[2].         https://iq.opengenus.org/heaps-law-in-nlp/

[3].   https://nlp.stanford.edu/IR-book/html/htmledition/heaps-law-estimating-the-number-of-terms-1.html

[4].         https://www.johndcook.com/blog/2019/08/27/heaps-law/

[5].         https://planetmath.org/heapslaw

 

 

 

Không có nhận xét nào:

Đăng nhận xét

Sandbox

Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...