Thứ Tư, 3 tháng 4, 2024

Causes for Outliers

Có thể kể đến 3 nguyên nhân chính dẫn đến các outliers 

Lỗi nhập liệu và sai số trong đo lường

Trong quá trình nhập dữ liệu, lỗi đánh máy hoặc lỗi chính tả có thể tạo ra các giá trị khác biệt.Nếu các giá trị ouliers này được xác định là lỗi đánh máy thì có thể kiểm tra dữ liệu gốc và đánh máy lại. Nếu không thể truy được dữ liệu gốc, thì có thể xem xét loại bỏ quan sát bị nhập liệu sai vì giá trị của nó là không chính xác.


Sai sót trong quá trình chọn mẫu

Thống kê suy luận sử dụng các tính toán trên dữ liệu mẫu để suy luận về tổng thể. Tuy nhiên, trong quá trình chọn mẫu có thể dẫn đến những outliers, Ví dụ: trong thời gian chọn mẫu có những sự việc hoặc biến cố bất thường xảy ra, hoặc vô tình thu thập một quan sát nằm ngoài nhóm đối tượng mục tiêu. Nếu chúng ta có thể chứng minh rằng một quan sát không đại diện cho nhóm đối tượng mục tiêu của bạn thì bạn có thể xóa quan sát đó. Tuy nhiên,cần thiết phải nêu được nguyên nhân hoặc lý do cụ thể giải thích tại sao quan sát đó đó không phù hợp với đối tượng mục tiêu của bạn.


Do tính ngẫu nhiên tạo ra biến động của dữ liệu

Một biến ngẫu nhiên thông thường luôn có khả năng nhận bất kỳ một giá trị nào. Có những giá trị có thể xảy ra với xác suất cao hơn những giá trị khác, hoặc có những giá trị bất thường có xác suất xảy ra thấp. Nhưng một khi giá trị bất thường đó xảy ra và được chọn vào mẫu một cách ngẫu nhiên, thì quan sát ứng với giá trị đó tạo thành outliers. 

Chẳng hạn như,trong phân bố chuẩn, khoảng 1 trong 340 quan sát sẽ cách xa giá trị trung bình ít nhất ba độ lệch chuẩn (3 SD). Tuy nhiên, cơ hội ngẫu nhiên có thể bao gồm các giá trị cực trị trong các tập dữ liệu nhỏ hơn. Nếu giá trị cực trị là một quan sát chính đáng và là một phần tự nhiên của tổng thể mà bạn đang nghiên cứu thì bạn nên để nó trong tập dữ liệu.


(Nguồn: https://www.machinelearningplus.com/machine-learning/how-to-detect-outliers-with-z-score)

Lưu ý:

  • Không phải tất cả các outliers đều xấu và một số không nên xóa. Trên thực tế, các  outliers có thể cung cấp rất nhiều thông tin về chủ đề nghiên cứu và quy trình thu thập dữ liệu. Điều quan trọng là phải hiểu các  outliers xảy ra như thế nào và liệu chúng có thể xảy ra lần nữa như một phần bình thường của quy trình hoặc lĩnh vực nghiên cứu hay không. 
  • Một cách tiếp cận khác là thực hiện phân tích có và không có những quan sát outliers và thảo luận về sự khác biệt. So sánh kết quả theo cách này đặc biệt hữu ích khi bạn không chắc chắn về việc loại bỏ một giá trị  outliers và khi có sự bất đồng đáng kể trong một nhóm về câu hỏi này.

Khi chúng quyết định loại bỏ các outliers, hãy ghi chú lại các điểm dữ liệu bị loại trừ và giải thích lý do. Nghĩa là, chúng ta phải có khả năng giải thích được nguyên nhân cụ thể khi thực hiện loại bỏ các  outliers.

Nguồn tài liệu:

  • https://ouzhang.me/blog/outlier-series/
  • https://www.introspective-mode.org/univariate-outliers/

Không có nhận xét nào:

Đăng nhận xét

Sandbox

Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...