Cook’s distance được đặt theo tên của nhà thống kê người Mỹ R. Dennis Cook, người đầu tiên đã đưa ra khái niệm này vào năm 1977.
- Khoảng cách Cook (Cook’s distance hay Cook’s D) là đại lượng thường được sử dụng để đánh giá ảnh hưởng của một điểm dữ liệu (một quan sát - observation) khi thực hiện phân tích hồi quy bình phương tối thiểu. Cook’s distance rất hữu ích trong việc xác định các giá trị ngoại lệ trong các giá trị biến độc lập. Nó cũng cho thấy ảnh hưởng của từng quan sát đến kết quả ước lượng biến phụ thuộc.
- (Case Deletion Diagnostics) Nếu kết quả dự báo biến phụ thuộc là giống nhau dù có hoặc không có quan sát được xem xét thì quan sát đó không có ảnh hưởng đến mô hình hồi quy. Nếu các dự đoán khác nhau nhiều khi quan sát không được đưa vào phân tích thì quan sát là quan sát có ảnh hưởng.
- Dựa trên ý tưởng này, khoảng cách Cook đo lường tác động của việc xóa một quan sát nhất định. Khoảng cách Cook của từng quan sát được tính toán bằng sự mức chênh lệch được chuẩn hóa (normalized) của vector hệ số hồi quy khi có và không có quan sát đang xem xét.
- Trong phân tích bình phương tối thiểu thông thường, khoảng cách Cook có thể được sử dụng theo nhiều cách: để chỉ ra các điểm dữ liệu đặc biệt cần thiết phải kiểm tra tính hợp lệ; hoặc để chỉ ra các vùng của tổng thể mà cần bổ sung quan sát đại diện trong mẫu.
Cook’s Distance Formula
Trong đó:
- Ŷj : giá trị ước lượng biến phụ thuộc khi tất cả các quan sát được sử dụng, kể cả quan sát cần kiểm tra.
- Ŷ j(i) : là giá trị ước lượng biến phụ thuộc khi không có quan sát thứ i
- MSE: mean squared error.
- p là số tham số trong mô hình hồi quy
Kết quả tính toán khoảng cách Cook của một bộ dữ liệu có thể được biểu diễn bằng đồ thị
(Nguồn: https://help.displayr.com/hc/article_attachments/4402082016143)
(Nguồn: https://www.mathworks.com/help/stats/cooks-distance.html)
Nguồn tham khảo
- https://www.statisticshowto.com/cooks-distance/
- https://www.mathworks.com/help/stats/cooks-distance.html
- https://rpubs.com/DragonflyStats/Cooks-Distance
- https://www.machinelearningplus.com/machine-learning/cooks-distance/
- Cook, R. Dennis (February 1977). “Detection of Influential Observations in Linear Regression”. Technometrics (American Statistical Association)).
Không có nhận xét nào:
Đăng nhận xét