Chuẩn Bị Dữ Liệu Là Gì - AWS

Quá trình chuẩn bị dữ liệu diễn ra trong nhiều bước, bắt đầu với việc thu thập dữ liệu thích hợp, sau đó là làm sạch, ghi nhãn rồi tiếp đến là xác thực và trực quan hóa.

Thu thập dữ liệu

Thu thập dữ liệu là quá trình tập hợp tất cả các dữ liệu mà bạn cần cho ML. Thu thập dữ liệu có thể là công việc tẻ nhạt vì dữ liệu nằm trong nhiều nguồn dữ liệu, gồm có trong máy tính xách tay, kho dữ liệu, đám mây, bên trong các ứng dụng và trên các thiết bị. Việc tìm cách để kết nối với các nguồn dữ liệu khác nhau có thể là một thử thách. Khối lượng dữ liệu cũng tăng theo cấp số nhân, vì vậy sẽ phải tìm kiếm trong rất nhiều dữ liệu. Thêm vào đó, dữ liệu có rất nhiều định dạng và loại khác nhau tùy thuộc vào nguồn dữ liệu. Ví dụ: dữ liệu video và dữ liệu dạng bảng rất khó để sử dụng cùng nhau.

Làm sạch dữ liệu

Làm sạch dữ liệu để sửa lỗi và bổ sung dữ liệu còn thiếu, đây là một bước để đảm bảo chất lượng dữ liệu. Sau khi đã làm sạch dữ liệu, bạn sẽ cần chuyển dữ liệu sang một định dạng thống nhất và có thể đọc được. Quá trình này có thể bao gồm việc thay đổi các định dạng trường như ngày tháng và tiền tệ, sửa đổi các quy ước đặt tên và chỉnh sửa giá trị cũng như đơn vị đo lường, để tất cả các dữ liệu này trở nên thống nhất.

Ghi nhãn dữ liệu

Ghi nhãn dữ liệu là quá trình xác định dữ liệu thô (hình ảnh, tệp văn bản, video, v.v.) và thêm một hoặc nhiều nhãn có nghĩa và chứa thông tin hữu ích để cung cấp ngữ cảnh để cho mô hình ML có thể học hỏi từ đó. Ví dụ: nhãn có thể cho biết ảnh chụp con chim hay ô tô, những từ nào được phát ra trong bản ghi âm hoặc liệu ảnh chụp X quang có điều gì bất thường hay không. Bắt buộc cần ghi nhãn dữ liệu trong nhiều trường hợp sử dụng, như thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận diện giọng nói.

Xác thực và trực quan hóa

Sau khi làm sạch và ghi nhãn dữ liệu, các đội ngũ ML thường khám phá dữ liệu để đảm bảo dữ liệu đã chính xác và đã sẵn sàng sử dụng cho ML. Các công cụ trực quan như biểu đồ tần suất, biểu đồ phân tán, biểu đồ dạng hộp, biểu đồ đường thẳng và biểu đồ cột đều rất hữu ích để xác minh rằng dữ liệu chính xác. Thêm vào đó, việc trực quan hóa cũng giúp các đội ngũ khoa học dữ liệu hoàn thành việc phân tích dữ liệu thăm dò. Quá trình này sử dụng công cụ trực quan hóa để khám phá các mẫu, phát hiện điểm bất thường, thử nghiệm một giả thuyết hoặc kiểm tra các giả định. Việc phân tích dữ liệu thăm dò không yêu cầu tạo mô hình chính thức; thay vào đó, các đội ngũ khoa học dữ liệu có thể sử dụng công cụ trực quan hóa để giải mã dữ liệu.

Từ khóa » Dữ Liệu Dùng để Làm Gì