Nghịch lý Simpsons - Simpson’s
paradox - là một hiện tượng thống kê xảy ra khi bạn kết hợp các nhóm con thành
một nhóm lớn. Quá trình tổng hợp dữ liệu có thể làm thay đổi hướng rõ ràng và sức
mạnh của mối quan hệ giữa hai biến.
(Nguồn: https://skewthescript.org/data-projects/simpsons-paradox)
Hiện tượng này lần đầu tiên
được chỉ ra trong các bài báo của Karl G. Pearson (1899) và George U. Yule
(1903), nhưng chính bài báo ngắn của Simpson “Việc giải thích sự tương tác
trong các bảng dự phòng” (1951), mới thực sự thảo luận về việc giải thích sự
liên kết đảo ngược như vậy, dẫn đến hiện tượng được gọi là “Nghịch lý của
Simpson”.
Một trong những ví dụ nổi tiếng
nhất về nghịch lý của Simpson là sự phân biệt giới tính đáng ngờ của UC
Berkley. Vào đầu năm học 1973, trường sau đại học của UC Berkeley đã nhận khoảng
44% ứng viên nam và 35% ứng viên nữ. Nhà trường lo sợ một vụ kiện nên họ đã nhờ
nhà thống kê Peter Bickel xem xét dữ liệu. Những gì ông phát hiện ra thật đáng
ngạc nhiên: có sự thiên vị giới tính có ý nghĩa thống kê nghiêng về phụ nữ ở 4
trong số 6 phòng ban và không có sự thiên vị giới tính đáng kể nào ở 2 phòng
ban còn lại. Nhóm của Bickel phát hiện ra rằng phụ nữ có xu hướng nộp đơn vào
các phòng ban có tỷ lệ tiếp nhận thấp hơn. Tổng số người đăng ký và biến ẩn này
ảnh hưởng đến các giá trị biên cho tỷ lệ phần trăm người đăng ký được chấp nhận
theo cách đảo ngược xu hướng tồn tại trong toàn bộ dữ liệu.
Nghịch lý của Simpson rất
quan trọng vì các lý do sau:
·
Thứ
nhất, mọi người thường mong đợi các mối quan hệ thống kê là không thay đổi. Nhưng
thực tế không như vậy. Mối quan hệ giữa hai biến có thể tăng, giảm hoặc thậm
chí thay đổi hướng tùy thuộc vào tập hợp các biến được kiểm soát.
·
Thứ
hai, nghịch lý Simpson không chỉ đơn giản là một hiện tượng mơ hồ chỉ được một
nhóm nhỏ các nhà thống kê quan tâm. Nghịch lý Simpson thực sự là một trong số
nhiều nghịch lý liên kết mà xảy ra khá phổ biến.
·
Thứ
ba, nghịch lý Simpson nhắc nhở các nhà nghiên cứu rằng các suy luận nhân quả, đặc
biệt là trong các nghiên cứu phi thực nghiệm, có thể nguy hiểm. Có thể tồn tại
các biến không được kiểm soát và thậm chí không được quan sát có thể loại bỏ hoặc
đảo ngược mối liên hệ được quan sát giữa hai biến.
Hiểu được Nghịch lý của
Simpson là rất quan trọng vì nó có thể đảo ngược hoàn toàn kết quả của bạn. Nếu
không cẩn thận, bạn có thể vô tình báo cáo những kết quả hoàn toàn không chính
xác!
Tại sao Nghịch lý của Simpson lại xảy ra?
Nghịch lý Simpson xảy ra vì
một biến thứ ba có thể ảnh hưởng đến mối quan hệ giữa một cặp biến. Các nhà thống
kê gọi loại biến thứ ba này là biến gây nhiễu hoặc gây nhiễu. Để hiểu đúng mối
quan hệ giữa hai biến, bạn phải tính đến ảnh hưởng của các yếu tố gây nhiễu.
Tài liệu tham khảo:
https://plato.stanford.edu/entries/paradox-simpson/
https://www.britannica.com/topic/Simpsons-paradox
https://brilliant.org/wiki/simpsons-paradox/
https://statisticsbyjim.com/basics/simpsons-paradox/
Không có nhận xét nào:
Đăng nhận xét