Thứ Sáu, 26 tháng 4, 2024

Data transformations

 Mục đích của việc biến đổi dữ liệu: 

  • Để củng cố các tính chất thống kê (enhancing statistical properties);  
  • Để việc giải thích kết quả được thuận lợi hơn (ease of interpretation); 
  • Để phù hợp với những mối quan hệ cụ thể giữa các biến (representing specific relationship types); 
  • Để việc phân tích được đơn giản hơn (simplification).

Việc biến đổi dữ liệu có thể căn cứ về mặt lý thuyết (phù hợp bản chất của dữ liệu và các mối quan hệ kinh tế) hoặc về mặt thực nghiệm (dựa trên đặc điểm thực tiễn của dữ liệu hoặc các kiểm định thống kê).

(Nguồn: https://basicmedicalkey.com/transformations/)


Biến đổi dữ liệu để củng cố các tính chất thống kê 

  • Để đạt được tính phân phối chuẩn của dữ liệu hoặc để thỏa mãn giả thiết về phương sai thuần nhất 
    • Đối với flat distribution, phép biến đổi thường dùng là lấy nghịch đảo ( the inverse : 1/or 1/X);
    • Đối với  positively skewed distributions phép biến đổi thường dùng là square root, logarithms;
    • Đối với  negatively skewed distributions phép biến đổi thường dùng là  squared, or cubed (X^2 hoặc  X^3) hoặc cũng có thể lấy nghịch đảo;
    • Đối với phương sai thay đổi, có thể kiểm tra  scatterplot để xem có dạng cone-shaped distribution hay không.  Nếu hình nón mở về bên phải (the cone opens to the right), thì lấy nghịch đảo; còn nếu hình nón mở về bên trái (the cone opens to the left), thì có thể lấy căn bậc 2.
    • Một số phép biến đổi phù hợp với một vài dạng dữ liệu cụ thể. Ví dụ
      • Dữ liệu dạng tần số bê dùng phép biến đổi lấy căn bậc hai (frequency counts suggest a square root transformation)
      • Dữ liệu dạng tỷ lệ thì phù hợp với phép biến đổi arcsin (proportions are best transformed by the arcsin transformation)
      • Biến đổi logarit phù hợp những trường hợp muốn biểu thị thay đổi dưới dạng phần trăm (proportional change is best handled by taking the logarithm of the variable).
Lưu ý là khi phép biến đổi dữ liệu được thực hiện, thì cũng cần kiểm tra lại là sau khi biến đổi, dữ liệu liệu đã đạt tính chất mong muốn.

(Nguồn: https://www.statisticssolutions.com/transforming-data-for-normality/)

 

  • Để đạt được tính tuyến tính của mô hình:
    • Một số dạng hàm phù hợp để biến đổi thành dạng tuyến tính được thể hiện dưới dạng hàm sau:
Nguồn: Hair(2009)


Biến đổi dữ liệu để việc giải thích kết quả được thuận lợ

  • Chuẩn hóa dữ liệu ( Standardization - tức là tính toán  z score hay standard score): Phép biến đổi này được thực hiện bằng cách lấy giá trị của biến trừ đi giá trị trung bình và chia cho độ lệch chuẩn. Kết quả là sau khi biến đổi, dữ liệu sẽ có giá trị trung bình bằng 0 và phương sai bằng 1.
  • Quy tâm dữ liệu (Centering): Phép biến đổi này được thực hiện bằng cách  lấy giá trị của các quan sát trừ cho giá trị cho giá trị trung bình của biến đó (nhưng không chia cho độ lệch chuẩn). Phép biến đổi này chỉ làm cho giá trị trung bình của biến trở thành 0 nhưng giữ nguyên phương sai của dữ liệu. Phép biến đổi quy tâm giúp cải tiến việc giải thích các hiệu ứng điều tiết và tương tác trong hồi quy bội, đặc biệt là giúp hiệu chỉnh cho hiện tượng đa cộng tuyến.

Biến đổi dữ liệu phù hợp với dạng dữ liệu

  • Log-linear: a log of the Y variable with an untransformed X variable provides an estimate of the percentage change in Y given a one unit change in X.
  • Linear-log: a log of the X variable with an untransformed Y variable provides an estimate of the unit change in Y for a percentage change in X
  • Log-log: a log of both X and Y provides the ratio of the percentage change of Y given a percentage change in X,
    the definition of elasticity.

Biến đổi dữ liệu để đạt được tính đơn giản trong mô hình

  • Binning: Phân loại các quan sát của một biến liên tục vào các "bins" (hay các nhóm dữ liệu). Phép biến đổi này sẽ chuyển đổi một biến định lượng thành một biến định tính.
  • Smoothing: Việc làm trơn dữ liệu cũng thường được áp dụng để dữ liệu được mượt hơn và giảm những biến động tức thời gây nhiễu kết quả.
Lưu ý:
  • Phải thật cẩn thận khi thực hiện biến đổi dữ liệu với những biến quan trọng

Nguồn tài liệu

  • Hair Jr., J.F., Black, W.C., Babin, B.J. and Anderson, R.E. (2009) Multivariate Data Analysis. 7th Edition, Prentice Hall
  • https://www.statisticssolutions.com/transforming-data-for-normality/ 
  • https://basicmedicalkey.com/transformations/
  • https://anatomisebiostats.com/biostatistics-blog/transforming-skewed-data/

Không có nhận xét nào:

Đăng nhận xét

Sandbox

Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...