Thứ Ba, 30 tháng 4, 2024

Assessments

What are Assessments?

  • Assessments are often mistaken with standardized tests that determine grades and ranks. In reality, assessment is an umbrella term that incorporates standardized tests and many other forms of evaluation. It refers to a wide range of methods that educators use to assess learners at different levels of learning.


  • In other words, assessment refers to the systematic gathering of information that evaluates, measures, and documents the performance of learners to give a clear picture of their academic readiness, learning progress, and acquisition of skills. Moreover, assessments help identify the strengths and weaknesses of the students. This helps teachers modify their teaching techniques according to the students’ learning requirements.


  • Other than providing diagnostic feedback, assessments motivate students as well as teachers in different ways. Students get a chance to demonstrate their skills and improve through self-assessment, and teachers get directions to help the students perform better in learning through improved instructions.


(Nguồn: https://cte-blog.uwaterloo.ca/ipsative-assessment-an-engineering-experience/)


Types of Assessments

1. Diagnostic Assessment or Pre-Assessment

Diagnostic or pre-assessments happen before the beginning of a lesson, unit, course, or any academic program. They are useful for collecting information about the strengths, weaknesses, skills, and knowledge the learners possess. Instructions are designed thereafter as per the learners’ requirements.

 

2. Formative Assessment  

These are the in-process assessments that support learning. A teacher administers formative assessment multiple times during a unit, lesson, or course. They are particularly designed for practice. Additionally, the most important function of formative assessment is to monitor learning and provide feedback to modify instructions.

It acts as a form of continuous learning, covering small content areas while also monitoring the learning process. However, such types of evaluations do not assign ranks and grades. 

 

3. Summative Assessment

This type of assessment aims to assess the learning levels at the end of an instructional period. It attempts to measure the effectiveness of learning, the student’s proficiency, and their success. For this, this method uses tests, assignments, and projects for specific grading and ranking of students.

Moreover, it measures the knowledge, skills, and attitude of the learners in the long run. Hence, it gives an insight into the students’ performance as well as the effectiveness of a teacher’s instructions. 


4. Confirmative Assessment

As the name suggests, confirmative assessment is a way to confirm the effectiveness of instructions a year after the end of an instructional period. The ultimate goal here is to check whether the employed instructional strategies are still successful and that the teaching is accurate. Therefore, they are, most importantly, an extensive form of summative assessment.


5. Norm-Referenced Assessment

In this assessment, teachers compare a student’s performance against certain fixed average national norms. For instance, the average grade in English state-wise. 

Moreover, it compares the students’ performance with their peers in a competitive environment. Here, the average grade comparison is with the entire school. Hence, this assessment is also referred to as Group/Demographic Assessment.

6. Criterion-Referenced Assessment

Criterion-referenced tests evaluate specific skill-set or knowledge against pre-determined criteria of learning. It checks the learning requirements and abilities of the students at a particular learning stage. These tests evaluate the students on specific goals, objectives, or standards. In other words, it evaluates the entire course curriculum.


7. Ipsative Assessment

Ipsative assessment tests track the learners’ progress against their previous performance. The learners attempt to improve through comparison with previous results.



(Nguồn: https://www.evelynlearning.com/what-are-assessments/)



Nguồn tham khảo:

  • https://www.evelynlearning.com/what-are-assessments/

Chủ Nhật, 28 tháng 4, 2024

Ipsatizing

"Ipsative data" là gì?
  • Thuật ngữ "ipsative" được dùng đầu tiên bởi Cattell (1994) để gán nhãn cho một trong ba loại thang đo cơ bản trong tâm lý học.
  • "ipsative" có nguồn gốc từ tiếng  Latin (từ ipse có nghĩa là he, himself)
  • Ba loại thang đo cơ bản trong tâm lý học theo Cattell đó là:
    • interactive scale: giá trị một biến số của một cá nhân được ghi nhận độc lập với các cá nhân khác và độc lập với các biến số khác. Số liệu thô khi người dùng trả lời khảo sát là ví dụ của loại  dữ liệu này. 
    • normative scale: giá trị một biến số của một cá nhân được đo lường bằng cách so sánh tương đối với các cá nhân khác ở cùng một biến số đó. Ví dụ như z-score khi chuẩn hóa (standardization)
    • ipsative scale:  giá trị một biến số của một cá nhân được đo lường bằng cách so sánh tương đối với giá trị của chính cá nhân đó ở các biến số khác; hoặc so sánh với giá trị chính cá nhân đó ở những thời điểm hoặc ngữ cảnh khác.

(Nguồn: https://www.skeeled.com/blog/pre-employment-assessments-normative-vs-ipsative)


"Ipsatizing data" là gì?

"Ipsatizing data" là quá trình chuyển đổi dữ liệu thông thường thành dữ liệu ipsative. Quá trình này đặc biệt hữu ích khi muốn phân tích sự thay đổi trong các biến của một cá nhân theo thời gian hoặc trong ngữ cảnh khác nhau.

Một số phương pháp để Ipsatizing data:
  • Cách 1: chia giá trị một biến cụ thể của một cá nhân cho tổng của tất cả các biến của cá nhân đó. Kết quả sẽ là phần trăm mà mỗi biến chiếm trong toàn bộ dữ liệu của cá nhân đó.
  • Cách 2: sử dụng điểm số tương đối, trong đó giá trị một biến của cá nhân này được so sánh với giá trị của chính cá nhân đó tại những thời điểm khác. Điều này giúp theo dõi sự thay đổi trong các biến của mỗi cá nhân theo thời gian.
  • Cách 3:  Một cách khác để ipsatize data là sử dụng xếp hạng, trong đó các giá trị tại nhiều thời điểm khác nhau của cùng một cá nhân được xếp hạng để so sánh giữa các thời điểm đó. Kết quả là mỗi giá trị được biểu diễn dưới dạng xếp hạng thứ bậc thay vì giá trị tuyệt đối ban đầu. 
  • Cách 4: Một phương pháp khác là sử dụng z-score cá nhân, trong đó mỗi giá trị của mỗi cá nhân được chuyển đổi thành một điểm số dựa trên khoảng cách của nó so với trung bình của cá nhân đó.
Ứng dụng của ipsative data


(Nguồn: https://www.classtime.com/en/assessment)



Nguồn tham khảo:
  • Chan, W. (2003). ANALYZING IPSATIVE DATA IN PSYCHOLOGICAL RESEARCH. Behaviormetrika, 30(1), 99–121. doi:10.2333/bhmk.30.99 
  • 10.2333/bhmk.30.99

Thứ Sáu, 26 tháng 4, 2024

Data transformations

 Mục đích của việc biến đổi dữ liệu: 

  • Để củng cố các tính chất thống kê (enhancing statistical properties);  
  • Để việc giải thích kết quả được thuận lợi hơn (ease of interpretation); 
  • Để phù hợp với những mối quan hệ cụ thể giữa các biến (representing specific relationship types); 
  • Để việc phân tích được đơn giản hơn (simplification).

Việc biến đổi dữ liệu có thể căn cứ về mặt lý thuyết (phù hợp bản chất của dữ liệu và các mối quan hệ kinh tế) hoặc về mặt thực nghiệm (dựa trên đặc điểm thực tiễn của dữ liệu hoặc các kiểm định thống kê).

(Nguồn: https://basicmedicalkey.com/transformations/)


Biến đổi dữ liệu để củng cố các tính chất thống kê 

  • Để đạt được tính phân phối chuẩn của dữ liệu hoặc để thỏa mãn giả thiết về phương sai thuần nhất 
    • Đối với flat distribution, phép biến đổi thường dùng là lấy nghịch đảo ( the inverse : 1/or 1/X);
    • Đối với  positively skewed distributions phép biến đổi thường dùng là square root, logarithms;
    • Đối với  negatively skewed distributions phép biến đổi thường dùng là  squared, or cubed (X^2 hoặc  X^3) hoặc cũng có thể lấy nghịch đảo;
    • Đối với phương sai thay đổi, có thể kiểm tra  scatterplot để xem có dạng cone-shaped distribution hay không.  Nếu hình nón mở về bên phải (the cone opens to the right), thì lấy nghịch đảo; còn nếu hình nón mở về bên trái (the cone opens to the left), thì có thể lấy căn bậc 2.
    • Một số phép biến đổi phù hợp với một vài dạng dữ liệu cụ thể. Ví dụ
      • Dữ liệu dạng tần số bê dùng phép biến đổi lấy căn bậc hai (frequency counts suggest a square root transformation)
      • Dữ liệu dạng tỷ lệ thì phù hợp với phép biến đổi arcsin (proportions are best transformed by the arcsin transformation)
      • Biến đổi logarit phù hợp những trường hợp muốn biểu thị thay đổi dưới dạng phần trăm (proportional change is best handled by taking the logarithm of the variable).
Lưu ý là khi phép biến đổi dữ liệu được thực hiện, thì cũng cần kiểm tra lại là sau khi biến đổi, dữ liệu liệu đã đạt tính chất mong muốn.

(Nguồn: https://www.statisticssolutions.com/transforming-data-for-normality/)

 

  • Để đạt được tính tuyến tính của mô hình:
    • Một số dạng hàm phù hợp để biến đổi thành dạng tuyến tính được thể hiện dưới dạng hàm sau:
Nguồn: Hair(2009)


Biến đổi dữ liệu để việc giải thích kết quả được thuận lợ

  • Chuẩn hóa dữ liệu ( Standardization - tức là tính toán  z score hay standard score): Phép biến đổi này được thực hiện bằng cách lấy giá trị của biến trừ đi giá trị trung bình và chia cho độ lệch chuẩn. Kết quả là sau khi biến đổi, dữ liệu sẽ có giá trị trung bình bằng 0 và phương sai bằng 1.
  • Quy tâm dữ liệu (Centering): Phép biến đổi này được thực hiện bằng cách  lấy giá trị của các quan sát trừ cho giá trị cho giá trị trung bình của biến đó (nhưng không chia cho độ lệch chuẩn). Phép biến đổi này chỉ làm cho giá trị trung bình của biến trở thành 0 nhưng giữ nguyên phương sai của dữ liệu. Phép biến đổi quy tâm giúp cải tiến việc giải thích các hiệu ứng điều tiết và tương tác trong hồi quy bội, đặc biệt là giúp hiệu chỉnh cho hiện tượng đa cộng tuyến.

Biến đổi dữ liệu phù hợp với dạng dữ liệu

  • Log-linear: a log of the Y variable with an untransformed X variable provides an estimate of the percentage change in Y given a one unit change in X.
  • Linear-log: a log of the X variable with an untransformed Y variable provides an estimate of the unit change in Y for a percentage change in X
  • Log-log: a log of both X and Y provides the ratio of the percentage change of Y given a percentage change in X,
    the definition of elasticity.

Biến đổi dữ liệu để đạt được tính đơn giản trong mô hình

  • Binning: Phân loại các quan sát của một biến liên tục vào các "bins" (hay các nhóm dữ liệu). Phép biến đổi này sẽ chuyển đổi một biến định lượng thành một biến định tính.
  • Smoothing: Việc làm trơn dữ liệu cũng thường được áp dụng để dữ liệu được mượt hơn và giảm những biến động tức thời gây nhiễu kết quả.
Lưu ý:
  • Phải thật cẩn thận khi thực hiện biến đổi dữ liệu với những biến quan trọng

Nguồn tài liệu

  • Hair Jr., J.F., Black, W.C., Babin, B.J. and Anderson, R.E. (2009) Multivariate Data Analysis. 7th Edition, Prentice Hall
  • https://www.statisticssolutions.com/transforming-data-for-normality/ 
  • https://basicmedicalkey.com/transformations/
  • https://anatomisebiostats.com/biostatistics-blog/transforming-skewed-data/

Thứ Tư, 24 tháng 4, 2024

Bài NCKH ngắn nhất thế giới

 

Bài báo này được xuất bản năm 1974 trên tạp chí Journal of Applied Behavioral Analysis với tiêu đề “The Unsuccessful Self-Treatment of a Case of ‘Writer's Block’” (Tạm dịch: "Tự điều trị không thành công trong một trường hợp bí ý tưởng”). Cả bài báo không có nổi một từ. Ngay cả danh mục tài liệu cũng không.


(Nguồn: https://paperpile.com/blog/shortest-papers/)



Một bài báo không có bất kỳ từ nào được viết (trừ phần abstract) cũng được đăng trên  tạp chí “Chemie in unserer Zeit” (50(2), 144–145) xuất bản bởi nhà xuất bản Wiley


(Nguồn: https://paperpile.com/blog/shortest-papers/)

Nguồn:
  • https://znews.vn/bai-bao-duoc-cong-bo-quoc-te-nhung-khong-co-noi-mot-tu-post1365071.html
  • https://paperpile.com/blog/shortest-papers/




Thứ Hai, 22 tháng 4, 2024

R-type versus Q-type factor analysis

Both types of factor analysis utilize a correlation matrix as the basic data input. 

  • With R-type factor analysis, the researcher would use a traditional correlation matrix (correlations among variables) as input.
  • But the researcher could also elect to derive the correlation matrix from the correlations between the individual respondents. In this Q-type factor analysis, the results would be a factor matrix that would identify similar individuals
  • From the results of a Q factor analysis, we could identify groups or clusters of individuals that demonstrate a similar pattern on the variables included in the analysis

A logical question at this point would be: How does Q-type factor analysis differ from cluster analysis, because both approaches compare the pattern of responses across a number of variables and place the respondents in groups? 

  • The answer is that Q-type factor analysis is based on the intercorrelations between the respondents, whereas cluster analysis forms groupings based on a distance-based similarity measure between the respondents’ scores on the variables being analyzed.
Nguồn:
  • Hair, J. F. (2009). Multivariate data analysis.

Thứ Bảy, 20 tháng 4, 2024

FACTOR ANALYSIS (Hair, 2013)

  • Factor analysis is an interdependence technique whose primary purpose is to define the underlying structure among the variables in the analysis. 
  • Broadly speaking, factor analysis provides the tools for analyzing the structure of the interrelationships (correlations) among a large number of variables (e.g., test scores, test items, questionnaire responses) by defining sets of variables that are highly interrelated, known as factors
  • Factor analytic techniques can achieve their purposes from either an exploratory or confirmatory perspective. 
FACTOR ANALYSIS DECISION PROCESS


(Nguồn: Hair, 2009)


(Nguồn: Hair, 2009)


Factor analysis provides the researcher with two distinct, but interrelated, outcomes: data summarization and data reduction
  • In summarizing the data, factor analysis derives underlying dimensions that, when interpreted and understood, describe the data in a much smaller number of concepts than the original individual variables. 
  • Data reduction extends this process by deriving an empirical value (factor score) for each dimension (factor) and then substituting this value for the original values.
DATA SUMMARIZATION
    • The fundamental concept involved in data summarization is the definition of structure. Through structure, the researcher can view the set of variables at various levels of generalization, ranging from the most detailed level (individual variables themselves) to the more generalized level, where individual variables are grouped and then viewed not for what they represent individually, but for what they represent collectively in expressing a concept.
    • The goal of data summarization is achieved by defining a small number of factors that adequately represent the original set of variables
    • Structure is defined by the interrelatedness among variables allowing for the specification of a smaller number of dimensions (factors) representing the original set of variables. 
      DATA REDUCTION
      • Factor analysis can also be used to achieve data reduction by 
        • (1) identifying representative variables from a much larger set of variables for use in subsequent multivariate analyses, 
        • or (2) creating an entirely new set of variables, much smaller in number, to partially or completely replace the original set of variables. 
      • In both instances, the purpose is to retain the nature and character of the original variables, but reduce their number to simplify the subsequent multivariate analysis. 
      Data summarization makes the identification of the underlying dimensions or factors ends in themselves. Thus, estimates of the factors and the contributions of each variable to the factors (termed loadings) are all that is required for the analysis. 

      Data reduction relies on the factor loadings as well, but uses them as the basis for either identifying variables for subsequent analysis with other techniques or making estimates of the factors themselves (factor scores or summated scales), which then replace the original variables in subsequent analyses. 

      Nguồn: 
      • Hair, J. F. (2009). Multivariate data analysis.

      Thứ Năm, 18 tháng 4, 2024

      Managing the Variate

       


      Specifying the Variate Variables

      • To decide whether to use the individual variables or to perform some form of dimensional reduction, such as exploratory factor analysis. 
      Variable Selection
      • To make regarding the variate is if the researcher wants to control the specific variables to be included in the analysis or let the software determine the “best” set of variables to constitute the variate.






      Nguồn: 
      • Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate data analysis (8th ed.). Boston: Cengage.


      Thứ Hai, 15 tháng 4, 2024

      Outliers in Regression

       Trong hồi quy có thể kể đến 3 dạng quan sát bất thường:

      • Regression Outliers
      • Leverage 
      • Influential Observations

      Regression Outliers

      Quan sát ngoại lệ trong hồi quy là một quan sát có giá trị bất thường của biến phụ thuộc Y khi sánh với các trường hợp khác có cùng giá trị của các biến độc lập X


      (Nguồn: https://static.wixstatic.com/media/9a9006_296dff8aa18840bebbd563ef81eee666~mv2.gif)

       

      Leverage 

      • Các giá trị bất thường khi xem xét chỉ với các biến độc lập thì được gọi là điểm đòn bẩy. Một quan sát có giá trị X bất thường - tức là nó khác xa với giá trị trung bình của X - tức là có khả năng tiềm ẩn làm ảnh hưởng đến kết quả hồi quy. Tuy nhiên, giá trị đòn bẩy của một quan sát cao thì không nhất thiết có nghĩa là quan sát đó có ảnh hưởng đến hệ số hồi quy.

      (Nguồn: https://www.researchgate.net/publication/265097085_Do_theme_parks_deserve_their_success)


      Influential Observations

      Những quan sát có giá trị đòn bẩy cao và thực sự có ảnh hưởng đến hệ số góc của các biến độc lập trong kết quả hồi quy thì được gọi là điểm ảnh hưởng (Influential observations). Nghĩa là, chỉ khi một quan sát có đòn bẩy cao và là một ngoại lệ về mặt giá trị xét theo biến phụ thuộc Y thì nó mới ảnh hưởng mạnh mẽ đến đường hồi quy. Nói cách khác, một influential observation  phải có giá trị Xbất thường với giá trị Y bất thường tương ứng với giá trịX của nó. Trong những trường hợp như vậy, cả hệ số chặn và hệ số góc đều bị ảnh hưởng khi sử dụng quan sát này trong dữ liệu.

       



      (Nguồn: https://pub.towardsai.net/the-outlier-story-leverage-and-influential-point-in-linear-regression-31517f2ca203)

      Nguồn tham khảo:
      •  https://ouzhang.me/blog/outlier-series/outliers-part3/
      • https://pub.towardsai.net/the-outlier-story-leverage-and-influential-point-in-linear-regression-31517f2ca203
      • https://www.solutions4statistics.com/post/2017/07/27/detect-remove-outliers-in-regression

      Thứ Bảy, 13 tháng 4, 2024

      Mahalanobis Distance

      Mahalanobis distance được đặt theo tên nhà thống kê Ấn Độ Prasanta Chandra Mahalanobis. Ông đóng vai trò then chốt trong việc thành lập Viện Thống kê Ấn Độ (ISI) và đóng góp đáng kể vào sự phát triển các phương pháp thống kê ở Ấn Độ. Mahalanobis nhận ra những hạn chế của việc sử dụng khoảng cách Euclide để phân tích dữ liệu đa biến, đặc biệt khi xử lý các biến tương quan. Để giải quyết vấn đề này, ông đã đề xuất một thước đo khoảng cách kết hợp cấu trúc hiệp phương sai của dữ liệu vào năm 1930 và sau đó, thước đo này được đặt tên ông. Khoảng cách Mahalanobis đã trở thành một trong những đóng góp lâu dài nhất của ông cho ngành thống kê.

      Khoảng cách Mahalanobis dùng để xác định mức độ khác biệt (dissimilarity) giữa hai điểm dữ liệu trong không gian đa chiều và có tính đến cấu trúc hiệp phương sai của dữ liệu. 

      Công thức tính khoảng cách Mahalanobis

      Trong đó:

      •  D2 là bình phương khoảng cách Mahalanobis.
      •  x là vectơ giá rrị cụ thể của các quan sát (các dòng trong tập dữ liệu),
      •   m là vectơ giá trị trung bình của các biến độc lập (trung bình mỗi cột),
      • C^(-1) là ma trận hiệp phương sai nghịch đảo của các biến độc lập.


      Khoảng cách Mahalanobis khác với khoảng cách Euclide như thế nào?

      • Khoảng cách Mahalanobis thực hiện biến đổi các biến thành các biến không tương quan trước khi tính toán
      • Chuẩn hóa để làm cho phương sai của các biến bằng 1
      • Cuối cùng, tính toán khoảng cách Euclide giữa các biến sau khi chuẩn hóa
      (Nguồn: https://www.charlesgauvin.ca/post/distances-and-outlier-detection/)


      Nguồn tham khảo:
      • https://www.charlesgauvin.ca/post/distances-and-outlier-detection/
      • https://ouzhang.me/blog/outlier-series/outliers-part4/#model-specific-methods
      • https://core.ac.uk/download/pdf/233075917.pdf

      Thứ Năm, 11 tháng 4, 2024

      Cook’s Distance

      Cook’s distance được đặt theo tên của nhà thống kê người Mỹ R. Dennis Cook, người đầu tiên đã đưa ra khái niệm này vào năm 1977.
      • Khoảng cách Cook (Cook’s distance hay Cook’s D) là đại lượng thường được sử dụng để đánh giá ảnh hưởng của một điểm dữ liệu (một quan sát - observation) khi thực hiện phân tích hồi quy bình phương tối thiểu. Cook’s distance rất hữu ích trong việc xác định các giá trị ngoại lệ trong các giá trị biến độc lập. Nó cũng cho thấy ảnh hưởng của từng quan sát đến kết quả ước lượng biến phụ thuộc.


      • (Case Deletion Diagnostics) Nếu kết quả dự báo biến phụ thuộc là giống nhau dù có hoặc không có quan sát được xem xét thì quan sát đó không có ảnh hưởng đến mô hình hồi quy. Nếu các dự đoán khác nhau nhiều khi quan sát không được đưa vào phân tích thì quan sát là quan sát có ảnh hưởng.

      • Dựa trên ý tưởng này, khoảng cách Cook đo lường tác động của việc xóa một quan sát nhất định. Khoảng cách Cook của từng quan sát được tính toán bằng sự mức chênh lệch được chuẩn hóa (normalized) của vector hệ số hồi quy khi có và không có quan sát đang xem xét. 
      • Trong phân tích bình phương tối thiểu thông thường, khoảng cách Cook có thể được sử dụng theo nhiều cách: để chỉ ra các điểm dữ liệu đặc biệt cần thiết phải kiểm tra tính hợp lệ; hoặc để chỉ ra các vùng của tổng thể mà cần bổ sung quan sát đại diện trong mẫu.

      Cook’s Distance Formula


          Trong đó:

      • Ŷj  : giá trị ước lượng biến phụ thuộc khi tất cả các quan sát được sử dụng, kể cả quan sát cần kiểm tra.
      • Ŷ j(i) : là giá trị ước lượng biến phụ thuộc khi không có quan sát thứ i
      • MSE: mean squared error.
      • p là số tham số trong mô hình hồi quy
      Kết quả tính toán khoảng cách Cook của một bộ dữ liệu có thể được biểu diễn bằng đồ thị

      (Nguồn: https://help.displayr.com/hc/article_attachments/4402082016143)

      (Nguồn: https://www.mathworks.com/help/stats/cooks-distance.html)




      Nguồn tham khảo

      • https://www.statisticshowto.com/cooks-distance/
      • https://www.mathworks.com/help/stats/cooks-distance.html
      • https://rpubs.com/DragonflyStats/Cooks-Distance
      • https://www.machinelearningplus.com/machine-learning/cooks-distance/
      • Cook, R. Dennis (February 1977). “Detection of Influential Observations in Linear Regression”. Technometrics (American Statistical Association)).

      Thứ Ba, 9 tháng 4, 2024

      Handling Outliers


      (Nguồn: https://www.kaggle.com/discussions/general/465639)

       

      Loại bỏ các ngoại lệ (Removing outliers)

      • Cách tiếp cận đơn giản nhất là loại bỏ outliers khỏi tập dữ liệu. Tuy nhiên, điều này chỉ nên được thực hiện một cách thận trọng. Một số outliers là do lỗi nhập liệu thì có thể được loại bỏ một cách an toàn. Nhưng những outliers khác có thể là điểm dữ liệu hợp lệ và việc xóa chúng có thể làm sai lệch kết quả. Tốt nhất nên kiểm tra từng trường hợp ngoại lệ để xác định xem nên giữ lại hay nên loại bỏ.

      Gán giá trị thay thế (Imputation)

      • Kỹ thuật imputation hàm ý đến việc thay thế các giá trị outliers bằng các giá trị cụ thể, chẳng như giá trị trung bình, trung vị hoặc số mode. Điều này cho phép bạn giữ lại điểm dữ liệu nhưng thay thế giá trị "dự đoán có căn cứ" cho giá trị ngoại lệ. Việc quy kết làm giảm tác động của các ngoại lệ nhưng vẫn giữ được điểm dữ liệu trong phân tích.

      Gán giá trị thay thế bằng các phân vị đuôi (Winsorization)

      • Winsorization liên quan đến việc thay thế các outliers bằng giá trị ở các phân vị đuôi nhưng chưa đến mức bất thường. Ví dụ: thay thế các giá trị nhỏ hơn phân vị 0.05 bằng chính giá trị phân vị 0.05 và trên phân vị 0.95 bằng giá trị phân vị 0.95. Việc thay thế này giúp giảm thiểu ảnh hưởng của các ngoại lệ mà không loại bỏ chúng khỏi dữ liệu.


      Sử dụng các đại lượng thống kê có tính ổn định (robust statistics)

      • Có một số đại lượng thống kê ít bị ảnh hưởng bởi giá trị outliers hơn những đại lượng thống kê khác. Ví dụ, số trung vị ổn định (ít bị ảnh hưởng bởi outliers) hơn số trung bình. Các kiểm định phi tham số cũng ổn định hơn các kiểmđịnh tham số. 

      Gắn cờ (Flagging):
      • Kỹ thuật này yêu cầu tạo ra một biến bổ sung, có thể là biến giả, để cho biết liệu một điểm dữ liệu có phải là một outlier hay không. Tính năng này hữu ích khi bạn muốn giữ lại tất cả thông tin nhưng cho phép xử lý các ngoại lệ khác nhau trong phân tích của mình.

      Phân vùng dữ liệu (Data Partitioning):
      • Kỹ thuật liên quan đến việc xem  xét tập dữ liệu trong hai trường hợp: một tập hợp có giá trị outliers và một tập hợp không có. Kết quả xử lý trên hai tập dữ liệu này được so sánh vói nhau. 
      Nguồn tài liệu:
      • https://www.naukri.com/code360/library/handling-outliers-in-data-science
      • https://www.kaggle.com/discussions/general/465639

      Chủ Nhật, 7 tháng 4, 2024

      Finding Outliers in a multivariated way

       An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism.” – D. M. Hawkins


      (Nguồn: https://files.codingninjas.in/article_images/handling-outliers-in-data-science-1-1693163435.webp)


      Hầu hết các phương pháp phát hiện multivariate outliers đều dựa vào các thước đo khoảng cách. Sau khi tính toán khoảng cách theo thước đo chọn trước, các quan sát nào có quan sát lớn hơn một giá trị ngưỡng nhất định được coi là ngoại lệ.

      Tuy nhiên, cần lưu ý rằng, các phương pháp phát hiện multivariate outliers nhằm cung cấp thông tin cho nhà nghiên cứu để cân nhắc xử lý quan sát bất thường chứ không phải là một quy trình tự động hóa mà có thể tùy tiện áp dụng. Việc phát hiện và xử lý các outliers là một quá trình mang tính chủ quan của nhà nghiên cứu. Nó thay đổi dựa trên các mục tiêu, quan điểm và khung lý thuyết nghiên cứu khác nhau.

      Các phương pháp pháp hiện multivariate outliers có thể được chia thành các phân loại như sau: 

      Model-specific methods

      • Cook’s Distance
      • Pareto

      Multivariate methods

      • Mahalanobis Distance
      • Robust Mahalanobis Distance
      • Minimum Covariance Determinant (MCD)
      • robust tolerance ellipsoid (RTE)
      • Invariant Coordinate Selection (ICS)
      • OPTICS
      • Isolation Forest
      • Local Outlier Factor

      Nguồn tài liệu:

      • https://ouzhang.me/blog/outlier-series/outliers-part4/ 

      Thứ Sáu, 5 tháng 4, 2024

      Finding Outliers in a univariated way

       Một univariate outlier là một điểm dữ liệu bất thường, khác biệt so với các quan sát khi xem xét trên một biến cụ thể.

      Có thể có nhiều phương pháp khác nhau để phát hiện một  univariate outlier 

      Phương pháp 1:  Sắp xếp bảng dữ liệu (sorting data)

      Sắp xếp biểu dữ liệu là một cách đơn giản nhưng hiệu quả để phát hiện các giá trị bất thường. Các giá trị bất thường thường xảy ra ở những quan sát ứng với giá trị nhỏ nhất hoặc lớn nhất sau khi sắp xếp.

      Phương pháp 2: Vẽ đồ thị dữ liệu 

      Biểu đồ hình hộp, biểu đồ histogram và biểu đồ phân tán có thể làm nổi bật các giá trị ngoại lệ.

       

      Phương pháp 3: Sử dụng  Z - Score 

      Z-score có thể định lượng mức độ bất thường của một quan sát khi dữ liệu ctuân theo phân phối chuẩn. Để tính điểm Z cho một quan sát, thì ta lấy giá trị của quan sát đó, trừ giá trị trung bình và chia cho độ lệch chuẩn. Về mặt toán học, công thức cho quá trình đó như sau: 

      \begin{equation} Z=\frac{X-\mu}{\sigma}\end{equation}


      Điểm Z của một quan sát càng xa 0 thì nó càng bất thường. Giá trị giới hạn tiêu chuẩn để tìm các giá trị ngoại lệ là điểm Z bằng +/- 3 hoặc cao. Tuy nhiên, nếu dữ liệu của bạn không tuân theo phân phối chuẩn thì phương pháp này có thể không chính xác.

      Lưu ý rằng điểm Z có thể gây hiểu nhầm với các tập dữ liệu nhỏ vì điểm Z tối đa bị giới hạn ở 

      \begin{equation}  \(\frac{n-1}{\sqrt{n}}\). \end{equation}

      (Nguồn: https://www.almabetter.com/bytes/articles/outlier-detection-methods-and-techniques-in-machine-learning-with-examples)

       

      Ngoài ra, hãy lưu ý rằng sự hiện diện của điểm ngoại lệ sẽ làm mất đi điểm Z vì nó làm tăng giá trị trung bình và độ lệch chuẩn như chúng ta đã thấy trước đó. Lưu ý rằng tất cả các điểm Z đều âm ngoại trừ v của ngoại lệ


      Phương pháp 4: Sử dụng khoảng tứ phân vị (Interquartile Range (IRQ))

      Khoảng tứ phân vị (IQR)  có thể giúp xác định outliers vì nó vạch ra ranh giới giá trị để nhận biết những con số bất thường. IQR là 50% ở giữa của tập dữ liệu. Đó là phạm vi giá trị giữa tứ phân vị thứ ba và tứ phân vị thứ nhất (Q3 – Q1).

      Chúng ta có thể lấy các giá trị IQR, Q1 và Q3 để tính toán các hàng rào ngoại lệ sau cho tập dữ liệu của mình: bên ngoài bên dưới, bên trong bên dưới, bên trong bên trên và bên ngoài bên trên. Những hàng rào này xác định xem các điểm dữ liệu có phải là ngoại lệ hay không và chúng ở mức độ nhẹ hay mức độ ngoại lệ cực đoan. Các giá trị nằm bên trong hai hàng rào bên trong không phải là giá trị ngoại lệ.

       

      (Nguồn: https://raw.githubusercontent.com/NaysanSaran/stats101)  


      Để tính toán hàng rào ngoại lệ, hãy làm như sau:

      • Tính toán IQR cho tập dữ liệu và nhân nó với 1,5 và 3. Chúng tôi sẽ sử dụng các giá trị này để tính hàng rào bên trong và bên ngoài.

      • Tính toán hàng rào bên trái:  Lấy giá trị Q1 và trừ hai giá trị ở bước 1, thu được hàng rào trong và ngoài cho những quan sát thấp bất thường. 

      • Tính toán hàng rào bên phải. Lấy giá trị Q3 và cộng hai giá trị từ bước 1, thu được hàng rào trong và ngoài cho những quan sát cao bất thường n.   

      Phương pháp IQR rất hữu ích vì nó sử dụng phân vị phần trăm, không phụ thuộc vào phân bổ cụ thể. Ngoài ra, phần trăm tương đối chắc chắn đối với sự hiện diện của các giá trị ngoại lệ so với các phương pháp định lượng khác.

      Phương pháp 5:  Sử dụng bách phân vị (Percentiles)

      Với phương pháp bách phân vị, tất cả các quan sát nằm ngoài khoảng được hình thành bởi phân vị 0.025 và 0.975 sẽ được coi là các giá trị ngoại lệ tiềm năng. Các phân vị khác như 0.01 và 0.99; hoặc 0.05 và 0.95 cũng có thể được xem xét để xây dựng khoảng xác định outliers.


      Phương pháp 6:  Bộ lọc Hampel (Hampel filter)

      Khối Bộ lọc Hampel phát hiện và loại bỏ các ngoại lệ của dữ liệu bằng cách sử dụng mã định danh Hampel. Mã định danh Hampel là một biến thể của quy tắc thống kê ba sigma, được thực hiện bằng cách tính toán trung vị của một khung cửa sổ bao gồm quan sát hiện tại và [(m−1)/2 ] quan sát liền kề, trong đó m là chiều dài khung cửa sổ mà bạn chọn. Sau đó, tính toán độ lệch chuẩn của từng quan sát trong cửa sổ dữ liệu được xem xét. Nếu một quan sát khác với giá trị trung bình nhiều hơn 3 (hoặc một ngưỡng nào đó) nhân với độ lệch chuẩn, thì bộ lọc Hampel sẽ thay thế mẫu bằng giá trị trung vị của cửa sổ đó. 

      (Nguồn: https://www.mathworks.com/help/examples/signal/)

       

      Phương pháp 7: Dựa vào các kiểm định giả thuyết thống kê

      Có ba kiểm định phổ biến:

      •  Grubbs’s test: cho phép phát hiện xem giá trị cao nhất hay thấp nhất trong tập dữ liệu có phải là giá trị ngoại lệ hay không.

      • Dixon’s test: tương tự như thử nghiệm Grubbs, thử nghiệm Dixon được sử dụng để kiểm tra xem một giá trị thấp hay cao có phải là giá trị ngoại lệ hay không. Vì vậy, nếu có nhiều hơn một ngoại lệ bị nghi ngờ, việc kiểm tra phải được thực hiện riêng lẻ trên các ngoại lệ bị nghi ngờ này.

      • Rosner’s test: sử dụng để phát hiện nhiều ngoại lệ cùng một lúc (không giống như thử nghiệm Grubbs và Dixon phải được thực hiện lặp đi lặp lại để sàng lọc nhiều ngoại lệ)

      Nguồn: 

      • https://ouzhang.me/blog/outlier-series/outliers-part2/
      • https://www.introspective-mode.org/univariate-outliers/

      Thứ Tư, 3 tháng 4, 2024

      Causes for Outliers

      Có thể kể đến 3 nguyên nhân chính dẫn đến các outliers 

      Lỗi nhập liệu và sai số trong đo lường

      Trong quá trình nhập dữ liệu, lỗi đánh máy hoặc lỗi chính tả có thể tạo ra các giá trị khác biệt.Nếu các giá trị ouliers này được xác định là lỗi đánh máy thì có thể kiểm tra dữ liệu gốc và đánh máy lại. Nếu không thể truy được dữ liệu gốc, thì có thể xem xét loại bỏ quan sát bị nhập liệu sai vì giá trị của nó là không chính xác.


      Sai sót trong quá trình chọn mẫu

      Thống kê suy luận sử dụng các tính toán trên dữ liệu mẫu để suy luận về tổng thể. Tuy nhiên, trong quá trình chọn mẫu có thể dẫn đến những outliers, Ví dụ: trong thời gian chọn mẫu có những sự việc hoặc biến cố bất thường xảy ra, hoặc vô tình thu thập một quan sát nằm ngoài nhóm đối tượng mục tiêu. Nếu chúng ta có thể chứng minh rằng một quan sát không đại diện cho nhóm đối tượng mục tiêu của bạn thì bạn có thể xóa quan sát đó. Tuy nhiên,cần thiết phải nêu được nguyên nhân hoặc lý do cụ thể giải thích tại sao quan sát đó đó không phù hợp với đối tượng mục tiêu của bạn.


      Do tính ngẫu nhiên tạo ra biến động của dữ liệu

      Một biến ngẫu nhiên thông thường luôn có khả năng nhận bất kỳ một giá trị nào. Có những giá trị có thể xảy ra với xác suất cao hơn những giá trị khác, hoặc có những giá trị bất thường có xác suất xảy ra thấp. Nhưng một khi giá trị bất thường đó xảy ra và được chọn vào mẫu một cách ngẫu nhiên, thì quan sát ứng với giá trị đó tạo thành outliers. 

      Chẳng hạn như,trong phân bố chuẩn, khoảng 1 trong 340 quan sát sẽ cách xa giá trị trung bình ít nhất ba độ lệch chuẩn (3 SD). Tuy nhiên, cơ hội ngẫu nhiên có thể bao gồm các giá trị cực trị trong các tập dữ liệu nhỏ hơn. Nếu giá trị cực trị là một quan sát chính đáng và là một phần tự nhiên của tổng thể mà bạn đang nghiên cứu thì bạn nên để nó trong tập dữ liệu.


      (Nguồn: https://www.machinelearningplus.com/machine-learning/how-to-detect-outliers-with-z-score)

      Lưu ý:

      • Không phải tất cả các outliers đều xấu và một số không nên xóa. Trên thực tế, các  outliers có thể cung cấp rất nhiều thông tin về chủ đề nghiên cứu và quy trình thu thập dữ liệu. Điều quan trọng là phải hiểu các  outliers xảy ra như thế nào và liệu chúng có thể xảy ra lần nữa như một phần bình thường của quy trình hoặc lĩnh vực nghiên cứu hay không. 
      • Một cách tiếp cận khác là thực hiện phân tích có và không có những quan sát outliers và thảo luận về sự khác biệt. So sánh kết quả theo cách này đặc biệt hữu ích khi bạn không chắc chắn về việc loại bỏ một giá trị  outliers và khi có sự bất đồng đáng kể trong một nhóm về câu hỏi này.

      Khi chúng quyết định loại bỏ các outliers, hãy ghi chú lại các điểm dữ liệu bị loại trừ và giải thích lý do. Nghĩa là, chúng ta phải có khả năng giải thích được nguyên nhân cụ thể khi thực hiện loại bỏ các  outliers.

      Nguồn tài liệu:

      • https://ouzhang.me/blog/outlier-series/
      • https://www.introspective-mode.org/univariate-outliers/

      Sandbox

      Thuật ngữ "sandbox" trong bối cảnh công nghệ được dùng để chỉ một môi trường thử nghiệm an toàn, trong đó các phần mềm, chương tr...