Thứ Bảy, 13 tháng 4, 2024

Mahalanobis Distance

Mahalanobis distance được đặt theo tên nhà thống kê Ấn Độ Prasanta Chandra Mahalanobis. Ông đóng vai trò then chốt trong việc thành lập Viện Thống kê Ấn Độ (ISI) và đóng góp đáng kể vào sự phát triển các phương pháp thống kê ở Ấn Độ. Mahalanobis nhận ra những hạn chế của việc sử dụng khoảng cách Euclide để phân tích dữ liệu đa biến, đặc biệt khi xử lý các biến tương quan. Để giải quyết vấn đề này, ông đã đề xuất một thước đo khoảng cách kết hợp cấu trúc hiệp phương sai của dữ liệu vào năm 1930 và sau đó, thước đo này được đặt tên ông. Khoảng cách Mahalanobis đã trở thành một trong những đóng góp lâu dài nhất của ông cho ngành thống kê.

Khoảng cách Mahalanobis dùng để xác định mức độ khác biệt (dissimilarity) giữa hai điểm dữ liệu trong không gian đa chiều và có tính đến cấu trúc hiệp phương sai của dữ liệu. 

Công thức tính khoảng cách Mahalanobis

Trong đó:

  •  D2 là bình phương khoảng cách Mahalanobis.
  •  x là vectơ giá rrị cụ thể của các quan sát (các dòng trong tập dữ liệu),
  •   m là vectơ giá trị trung bình của các biến độc lập (trung bình mỗi cột),
  • C^(-1) là ma trận hiệp phương sai nghịch đảo của các biến độc lập.


Khoảng cách Mahalanobis khác với khoảng cách Euclide như thế nào?

  • Khoảng cách Mahalanobis thực hiện biến đổi các biến thành các biến không tương quan trước khi tính toán
  • Chuẩn hóa để làm cho phương sai của các biến bằng 1
  • Cuối cùng, tính toán khoảng cách Euclide giữa các biến sau khi chuẩn hóa
(Nguồn: https://www.charlesgauvin.ca/post/distances-and-outlier-detection/)


Nguồn tham khảo:
  • https://www.charlesgauvin.ca/post/distances-and-outlier-detection/
  • https://ouzhang.me/blog/outlier-series/outliers-part4/#model-specific-methods
  • https://core.ac.uk/download/pdf/233075917.pdf

Không có nhận xét nào:

Đăng nhận xét

Fraud Triangle

 Tam giác gian lận, tiếng Anh là fraud triangle , là một mô hình lý thuyết được sử dụng để giải thích hành vi gian lận trong các tổ chức. Mô...