Chủ Nhật, 7 tháng 4, 2024

Finding Outliers in a multivariated way

 An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism.” – D. M. Hawkins


(Nguồn: https://files.codingninjas.in/article_images/handling-outliers-in-data-science-1-1693163435.webp)


Hầu hết các phương pháp phát hiện multivariate outliers đều dựa vào các thước đo khoảng cách. Sau khi tính toán khoảng cách theo thước đo chọn trước, các quan sát nào có quan sát lớn hơn một giá trị ngưỡng nhất định được coi là ngoại lệ.

Tuy nhiên, cần lưu ý rằng, các phương pháp phát hiện multivariate outliers nhằm cung cấp thông tin cho nhà nghiên cứu để cân nhắc xử lý quan sát bất thường chứ không phải là một quy trình tự động hóa mà có thể tùy tiện áp dụng. Việc phát hiện và xử lý các outliers là một quá trình mang tính chủ quan của nhà nghiên cứu. Nó thay đổi dựa trên các mục tiêu, quan điểm và khung lý thuyết nghiên cứu khác nhau.

Các phương pháp pháp hiện multivariate outliers có thể được chia thành các phân loại như sau: 

Model-specific methods

  • Cook’s Distance
  • Pareto

Multivariate methods

  • Mahalanobis Distance
  • Robust Mahalanobis Distance
  • Minimum Covariance Determinant (MCD)
  • robust tolerance ellipsoid (RTE)
  • Invariant Coordinate Selection (ICS)
  • OPTICS
  • Isolation Forest
  • Local Outlier Factor

Nguồn tài liệu:

  • https://ouzhang.me/blog/outlier-series/outliers-part4/ 

Không có nhận xét nào:

Đăng nhận xét

Fraud Triangle

 Tam giác gian lận, tiếng Anh là fraud triangle , là một mô hình lý thuyết được sử dụng để giải thích hành vi gian lận trong các tổ chức. Mô...