Thứ Sáu, 26 tháng 1, 2024

Data exploration

 1.  Data exploration là gì?

Data exploration (khám phá dữ liệu) là quá trình khám phá, khai phá và hiểu sâu hơn về dữ liệu một cách tổng quát, thường thông qua việc sử dụng các công cụ và kỹ thuật trong lĩnh vực khoa học dữ liệu và phân tích dữ liệu. Mục tiêu chính của data exploration là tìm hiểu về tính chất, cấu trúc và thông tin ẩn sau dữ liệu một cách tự nhiên và không định hình trước.

(Nguồn: https://www.educba.com/data-exploration)

Các công việc trong quá trình khám phá dữ liệu có thể bao gồm: nắm rõ dữ liệu mô tả tập dữ liệu (kích thước, dạng dữ liệu), thống kê mô tả các biến, xác định mối quan hệ giữa các biến, phát hiện các pattern và xu hướng của dữ liệu, tìm ra những bất thường và ngoại lai trong dữ liệu, đồng thời nhận định các giả thuyết ban đầu về dữ liệu.

2. Phân biệt Data exploration và Data mining

Data Exploration và Data Mining là hai khái niệm quan trọng trong lĩnh vực phân tích dữ liệu, tuy có mối liên quan nhưng có những khác biệt cụ thể:

Data Exploration (Khám phá dữ liệu):

  • Ý nghĩa: Data exploration là quá trình khám phá, khai phá và hiểu sâu hơn về dữ liệu một cách tổng quát, thường thông qua việc sử dụng các công cụ và kỹ thuật trong lĩnh vực khoa học dữ liệu và phân tích dữ liệu.
  • Mục đích: Mục tiêu chính của data exploration là tìm hiểu về tính chất, cấu trúc và thông tin ẩn sau dữ liệu một cách tự nhiên, không áp đặt trước một mô hình hoặc hình mẫu nào. Các hoạt động trong data exploration bao gồm xem xét dữ liệu, mô tả và trực quan hóa, phân tích đa chiều, hoặc tìm kiếm hình mẫu trong dữ liệu.

Data Mining (Khai thác dữ liệu):

  • Ý nghĩa: Data mining là quá trình tìm kiếm thông tin hữu ích, tìm kiếm các hình mẫu và quy luật ẩn trong dữ liệu bằng các phương pháp và thuật toán máy học.
  • Mục đích: Mục tiêu chính của data mining là khai thác thông tin tiềm ẩn từ dữ liệu (thường là dữ liệu lớn) thông qua việc áp dụng các thuật toán và kỹ thuật để tìm ra tính hình mẫu, dự đoán xu hướng, phát hiện các quy luật hoặc mối quan hệ mới mà không áp đặt trước.

Khác biệt chính của Data exploration và Data mining là data exploration là quá trình khám phá và khai phá dữ liệu một cách tổng quát, trong khi data mining tập trung vào việc khai thác thông tin ẩn hoặc tri thức từ dữ liệu thông qua các thuật toán và phương pháp máy học.

3. Phân biệt Data exploration và Data mining

  • Data exploration khám phá dữ liệu để hiểu rõ và diễn giải đặc điểm của tập dữ liệu trước khi tiến hành phân tích. Quá trình này giúp phát hiện các vấn đề trong cấu trúc và các điểm dữ liệu trong tập dữ liệu một cách tự nhiên .

  • Data explanation là quá trình trình bày kết quả sau khi đã được phân tích và xử lý thông qua các phương pháp và công cụ phân tích dữ liệu.. Quá trình này giúp giải thích các kết quả phân tích dữ liệu một cách dễ hiểu và trực quan, đồng thời giúp người dùng hiểu rõ  ý nghĩa của nó trong ngữ cảnh cụ thể hoặc mục tiêu nghiên cứu. 

Tóm lại, data exploration là quá trình khám phá dữ liệu để hiểu rõ và diễn giải đặc điểm của tập dữ liệu trước khi tiến hành phân tích, trong khi data explanation là quá trình trình bày kết quả phân tích dữ liệu cho người dùng cuối hoặc khách hàng

4. Các công cụ hỗ trợ Data exploration

  • Python với các thư viện như Pandas, Matplotlib, Seaborn ,NumPy
  • Tableau
  • Power BI
  • RapidMiner

Và nhiều công cụ khác. Mỗi một công cụ đều có những ưu nhược điểm riêng.

Tài liệu tham khảo

  • https://www.techtarget.com/searchbusinessanalytics/definition/data-exploration#:~:text=Data%20exploration%20is%20the%20first,set%20characteristics%20and%20initial%20patterns.
  • https://www.alteryx.com/glossary/data-exploration
  • https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/
  • https://www.sisense.com/glossary/data-exploration/
  • https://www.juiceanalytics.com/writing/5-differences-between-data-exploration-and-data-presentation
  • https://www.javatpoint.com/data-mining-vs-data-exploration#:~:text=Data%20Exploration%20is%20to%20collect,to%20reveal%20patterns%20or%20trends.
  • https://stephanieevergreen.com/exploration-vs-explanation/

Không có nhận xét nào:

Đăng nhận xét

Fraud Triangle

 Tam giác gian lận, tiếng Anh là fraud triangle , là một mô hình lý thuyết được sử dụng để giải thích hành vi gian lận trong các tổ chức. Mô...