Thứ Năm, 28 tháng 12, 2023

Data manipulation

1.  Data manipulation là gì?

Data manipulation là quá trình thay đổi, biến đổi, hoặc sắp xếp dữ liệu để trích xuất thông tin, phân tích, hoặc chuẩn bị dữ liệu cho mục đích cụ thể. Đây là một phần quan trọng của việc xử lý dữ liệu và thường được thực hiện trước khi tiến hành phân tích dữ liệu hoặc thực hiện các tác vụ khác liên quan đến dữ liệu.

(Nguồn: https://skillfine.com/excel-data-analysis-techniques/)


Các hoạt động trong data manipulation có thể bao gồm:

  • Lọc dữ liệu: Chọn ra các bản ghi hoặc hàng từ tập dữ liệu dựa trên các điều kiện hoặc tiêu chí nhất định.

  • Sắp xếp (Sorting): Sắp xếp dữ liệu theo thứ tự tăng/giảm dần dựa trên một hoặc nhiều cột.

  • Tách dữ liệu (Splitting): Phân chia dữ liệu thành các phần nhỏ hoặc tách dữ liệu từ một trường dữ liệu thành các trường con.

  • Kết hợp dữ liệu (Joining/Merging): Kết hợp dữ liệu từ nhiều nguồn khác nhau dựa trên một hoặc nhiều khóa chung.

  • Biến đổi (Transforming): Thực hiện các phép tính, chuyển đổi giá trị hoặc biến đổi cấu trúc dữ liệu để phù hợp với yêu cầu của quá trình phân tích hoặc ứng dụng cụ thể.

  • Gộp dữ liệu (Aggregating): Tính toán giá trị tổng hợp như tổng, trung bình, số lượng, hoặc các hàm thống kê khác trên các nhóm dữ liệu.

  • Xóa dữ liệu trùng lặp (Removing Duplicates): Loại bỏ các bản ghi trùng lặp trong tập dữ liệu.

2. Phân biệt Data manipulation với data cleaning

Data manipulation và data cleaning là hai khái niệm quan trọng trong quá trình xử lý dữ liệu, tuy nhiên chúng có những điểm khác biệt nhất định:

Data Manipulation (Xử lý dữ liệu):


  • Ý nghĩa: Data manipulation (xử lý dữ liệu) là quá trình biến đổi, biến chuyển hoặc sắp xếp dữ liệu để chuẩn bị cho phân tích hoặc ứng dụng cụ thể. Nó có thể bao gồm việc lọc, sắp xếp, kết hợp, biến đổi, hoặc gộp dữ liệu.
  • Mục đích: Chủ yếu tập trung vào việc xử lý cấu trúc dữ liệu, biến đổi dữ liệu theo cách mà phù hợp với mục tiêu hoặc yêu cầu cụ thể.
  • Công cụ và phương pháp: Sử dụng các công cụ và ngôn ngữ lập trình như SQL, Python (các thư viện như Pandas, NumPy), R, hoặc các công cụ ETL (Extract, Transform, Load) để xử lý và biến đổi dữ liệu.

Data Cleaning (Làm sạch dữ liệu):

  • Ý nghĩa: Data cleaning (làm sạch dữ liệu) là quá trình loại bỏ hoặc sửa chữa các lỗi, thiếu sót, dữ liệu không chính xác, hoặc nhiễu loạn trong tập dữ liệu để đảm bảo tính toàn vẹn và chính xác của dữ liệu.
  • Mục đích: Tập trung vào việc loại bỏ các giá trị không hợp lý, thiếu sót, hoặc lỗi nhập sai, giúp dữ liệu trở nên chuẩn xác và tin cậy hơn.
  • Công cụ và phương pháp: Sử dụng các kỹ thuật như kiểm tra dữ liệu trùng lặp, điền giá trị bị thiếu, loại bỏ giá trị ngoại lai (outliers), xử lý lỗi nhập liệu, sửa lỗi định dạng, và làm sạch dữ liệu bằng các công cụ và thuật toán được thiết kế đặc biệt cho việc này.

Tóm lại, data manipulation tập trung vào việc biến đổi và sắp xếp dữ liệu để phục vụ cho mục đích cụ thể, trong khi data cleaning tập trung vào việc làm sạch dữ liệu để loại bỏ lỗi và đảm bảo tính toàn vẹn và chính xác của dữ liệu. 


(Nguồn: https://devmountain.com/blog/what-is-data-mining-data-manipulation-and-data-modeling/)


3. Công cụ hỗ trợ Data manipulation


Có nhiều công cụ mạnh mẽ hỗ trợ data manipulation  trong các quá trình chuẩn bị và biến đổi dữ liệu để phục vụ cho việc phân tích và ứng dụng. 

  • Pandas: Đây là một thư viện Python mạnh mẽ dành cho xử lý và phân tích dữ liệu. Pandas cung cấp các cấu trúc dữ liệu linh hoạt như DataFrames và Series, cùng với nhiều hàm và phương thức để thực hiện các thao tác xử lý dữ liệu.

  • NumPy: Thư viện Python này cung cấp các công cụ để làm việc với mảng và ma trận nhiều chiều. Nó cung cấp hỗ trợ cho các phép toán số học và thống kê trên dữ liệu số.

  • SQL (Structured Query Language): Là ngôn ngữ truy vấn cơ sở dữ liệu quan hệ, thường được sử dụng để truy vấn, sắp xếp, lọc và kết hợp dữ liệu trong các cơ sở dữ liệu quan hệ.

  • R: R là một ngôn ngữ lập trình thống kê mạnh mẽ với nhiều gói phần mềm (packages) hỗ trợ xử lý và phân tích dữ liệu một cách linh hoạt.

  • Microsoft Excel: Mặc dù không phải là công cụ chuyên nghiệp nhưng Excel vẫn là một công cụ phổ biến cho việc xử lý dữ liệu. Nó cung cấp các tính năng lọc, sắp xếp, biến đổi dữ liệu và tính toán cơ bản.

  • Apache Spark: Đây là một framework xử lý dữ liệu phân tán và mạnh mẽ, có khả năng xử lý lớn lên đến quy mô Big Data. Spark cung cấp API để thực hiện các phép xử lý dữ liệu phức tạp trên dữ liệu phân tán.

  • Tableau Prep: Đây là một công cụ trực quan giúp người dùng xử lý, biến đổi và làm sạch dữ liệu một cách trực quan trước khi thực hiện phân tích hoặc tạo các báo cáo trực quan.

  • Alteryx: Alteryx cung cấp một giao diện trực quan để kết hợp, biến đổi và làm sạch dữ liệu từ nhiều nguồn khác nhau để chuẩn bị dữ liệu cho các mục đích phân tích.


Tài liệu tham khảo

  • https://www.indeed.com/career-advice/career-development/data-manipulation#:~:text=Data%20manipulation%20is%20the%20process%20of%20organizing%20or%20arranging%20data,data%20manipulation%20language%20(DML).
  • https://www.questionpro.com/blog/data-manipulation/
  • https://u-next.com/blogs/data-science/data-manipulation/
  • https://www.astera.com/type/blog/data-manipulation-tools/


Không có nhận xét nào:

Đăng nhận xét

Fraud Triangle

 Tam giác gian lận, tiếng Anh là fraud triangle , là một mô hình lý thuyết được sử dụng để giải thích hành vi gian lận trong các tổ chức. Mô...