Thứ Ba, 8 tháng 8, 2023

Simpson’s paradox

 

Nghịch lý Simpsons - Simpson’s paradox - là một hiện tượng thống kê xảy ra khi bạn kết hợp các nhóm con thành một nhóm lớn. Quá trình tổng hợp dữ liệu có thể làm thay đổi hướng rõ ràng và sức mạnh của mối quan hệ giữa hai biến.

 

(Nguồn: https://skewthescript.org/data-projects/simpsons-paradox)

 

Hiện tượng này lần đầu tiên được chỉ ra trong các bài báo của Karl G. Pearson (1899) và George U. Yule (1903), nhưng chính bài báo ngắn của Simpson “Việc giải thích sự tương tác trong các bảng dự phòng” (1951), mới thực sự thảo luận về việc giải thích sự liên kết đảo ngược như vậy, dẫn đến hiện tượng được gọi là “Nghịch lý của Simpson”.

Một trong những ví dụ nổi tiếng nhất về nghịch lý của Simpson là sự phân biệt giới tính đáng ngờ của UC Berkley. Vào đầu năm học 1973, trường sau đại học của UC Berkeley đã nhận khoảng 44% ứng viên nam và 35% ứng viên nữ. Nhà trường lo sợ một vụ kiện nên họ đã nhờ nhà thống kê Peter Bickel xem xét dữ liệu. Những gì ông phát hiện ra thật đáng ngạc nhiên: có sự thiên vị giới tính có ý nghĩa thống kê nghiêng về phụ nữ ở 4 trong số 6 phòng ban và không có sự thiên vị giới tính đáng kể nào ở 2 phòng ban còn lại. Nhóm của Bickel phát hiện ra rằng phụ nữ có xu hướng nộp đơn vào các phòng ban có tỷ lệ tiếp nhận thấp hơn. Tổng số người đăng ký và biến ẩn này ảnh hưởng đến các giá trị biên cho tỷ lệ phần trăm người đăng ký được chấp nhận theo cách đảo ngược xu hướng tồn tại trong toàn bộ dữ liệu.

Nghịch lý của Simpson rất quan trọng vì các lý do sau:

·      Thứ nhất, mọi người thường mong đợi các mối quan hệ thống kê là không thay đổi. Nhưng thực tế không như vậy. Mối quan hệ giữa hai biến có thể tăng, giảm hoặc thậm chí thay đổi hướng tùy thuộc vào tập hợp các biến được kiểm soát.

·      Thứ hai, nghịch lý Simpson không chỉ đơn giản là một hiện tượng mơ hồ chỉ được một nhóm nhỏ các nhà thống kê quan tâm. Nghịch lý Simpson thực sự là một trong số nhiều nghịch lý liên kết mà xảy ra khá phổ biến.

·      Thứ ba, nghịch lý Simpson nhắc nhở các nhà nghiên cứu rằng các suy luận nhân quả, đặc biệt là trong các nghiên cứu phi thực nghiệm, có thể nguy hiểm. Có thể tồn tại các biến không được kiểm soát và thậm chí không được quan sát có thể loại bỏ hoặc đảo ngược mối liên hệ được quan sát giữa hai biến.

Hiểu được Nghịch lý của Simpson là rất quan trọng vì nó có thể đảo ngược hoàn toàn kết quả của bạn. Nếu không cẩn thận, bạn có thể vô tình báo cáo những kết quả hoàn toàn không chính xác!

Tại sao Nghịch lý của Simpson lại xảy ra?

Nghịch lý Simpson xảy ra vì một biến thứ ba có thể ảnh hưởng đến mối quan hệ giữa một cặp biến. Các nhà thống kê gọi loại biến thứ ba này là biến gây nhiễu hoặc gây nhiễu. Để hiểu đúng mối quan hệ giữa hai biến, bạn phải tính đến ảnh hưởng của các yếu tố gây nhiễu.

 

Tài liệu tham khảo:

https://plato.stanford.edu/entries/paradox-simpson/

https://www.britannica.com/topic/Simpsons-paradox https://brilliant.org/wiki/simpsons-paradox/

https://statisticsbyjim.com/basics/simpsons-paradox/  

 

 

Không có nhận xét nào:

Đăng nhận xét

Sandbox

Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...