Thứ Ba, 9 tháng 4, 2024

Handling Outliers


(Nguồn: https://www.kaggle.com/discussions/general/465639)

 

Loại bỏ các ngoại lệ (Removing outliers)

  • Cách tiếp cận đơn giản nhất là loại bỏ outliers khỏi tập dữ liệu. Tuy nhiên, điều này chỉ nên được thực hiện một cách thận trọng. Một số outliers là do lỗi nhập liệu thì có thể được loại bỏ một cách an toàn. Nhưng những outliers khác có thể là điểm dữ liệu hợp lệ và việc xóa chúng có thể làm sai lệch kết quả. Tốt nhất nên kiểm tra từng trường hợp ngoại lệ để xác định xem nên giữ lại hay nên loại bỏ.

Gán giá trị thay thế (Imputation)

  • Kỹ thuật imputation hàm ý đến việc thay thế các giá trị outliers bằng các giá trị cụ thể, chẳng như giá trị trung bình, trung vị hoặc số mode. Điều này cho phép bạn giữ lại điểm dữ liệu nhưng thay thế giá trị "dự đoán có căn cứ" cho giá trị ngoại lệ. Việc quy kết làm giảm tác động của các ngoại lệ nhưng vẫn giữ được điểm dữ liệu trong phân tích.

Gán giá trị thay thế bằng các phân vị đuôi (Winsorization)

  • Winsorization liên quan đến việc thay thế các outliers bằng giá trị ở các phân vị đuôi nhưng chưa đến mức bất thường. Ví dụ: thay thế các giá trị nhỏ hơn phân vị 0.05 bằng chính giá trị phân vị 0.05 và trên phân vị 0.95 bằng giá trị phân vị 0.95. Việc thay thế này giúp giảm thiểu ảnh hưởng của các ngoại lệ mà không loại bỏ chúng khỏi dữ liệu.


Sử dụng các đại lượng thống kê có tính ổn định (robust statistics)

  • Có một số đại lượng thống kê ít bị ảnh hưởng bởi giá trị outliers hơn những đại lượng thống kê khác. Ví dụ, số trung vị ổn định (ít bị ảnh hưởng bởi outliers) hơn số trung bình. Các kiểm định phi tham số cũng ổn định hơn các kiểmđịnh tham số. 

Gắn cờ (Flagging):
  • Kỹ thuật này yêu cầu tạo ra một biến bổ sung, có thể là biến giả, để cho biết liệu một điểm dữ liệu có phải là một outlier hay không. Tính năng này hữu ích khi bạn muốn giữ lại tất cả thông tin nhưng cho phép xử lý các ngoại lệ khác nhau trong phân tích của mình.

Phân vùng dữ liệu (Data Partitioning):
  • Kỹ thuật liên quan đến việc xem  xét tập dữ liệu trong hai trường hợp: một tập hợp có giá trị outliers và một tập hợp không có. Kết quả xử lý trên hai tập dữ liệu này được so sánh vói nhau. 
Nguồn tài liệu:
  • https://www.naukri.com/code360/library/handling-outliers-in-data-science
  • https://www.kaggle.com/discussions/general/465639

Không có nhận xét nào:

Đăng nhận xét

Fraud Triangle

 Tam giác gian lận, tiếng Anh là fraud triangle , là một mô hình lý thuyết được sử dụng để giải thích hành vi gian lận trong các tổ chức. Mô...