Thế Nào Là Một Tập Dữ Liệu Không Cân Bằng ???

Chuyển đến nội dung chính

Thế nào là một tập dữ liệu không cân bằng ???

Trong nhiều tình huống chúng ta sẽ gặp phải kiểu dữ liệu không cân bằng - Imbalanced datasets. Dạng dữ liệu này chủ yếu liên quan đến các thuật toán học có giám sát phân lớp với 2 hoặc nhiều lớp (như Naive Bayes, SVM). Dữ liệu không cân bằng nghĩa là số điểm dữ liệu của các lớp trong tập data có sự chênh lệch lớn Ví dụ cho trường hợp phân loại 2 lớp, với dữ liệu cân bằng, ta có tỉ lệ số điểm dữ liệu của mỗi lớp khoảng 50:50. Trong nhiều thuật toán Machine Learning, một lượng nhỏ dữ liệu không cân bằng trong data không phải là vấn đề lớn. Vì thế, nếu có 60% điểm dữ liệu cho một class và 40% số điểm dữ liệu cho class còn lại thì việc này cũng không làm ảnh hưởng đáng kể đến hiệu năng của thuật toán. Nhưng khi một class có tỉ lệ số điểm dữ liệu so với class còn lại là 90/10 thì hiệu năng của thuật toán khi đó sẽ bị ảnh hướng đáng kể !!! Một số ví dụ điển hình cho dữ liệu không cân bằng chẳng hạn như phân loại thư rác, phát hiện các giao dịch tài chính bất thường, ... Chẳng hạn khi phát hiện các giao dịch tài chính bất thường, mục tiêu sẽ là phân loại để phát hiện xem một giao dịch là bất thường hay không. Thực tế, số giao dịch tài chính bất thường này chiếm tỉ lệ rất nhỏ so với các giao dịch hợp lệ. Vì vậy, nếu sử dụng bộ dữ liệu gốc với tỉ lệ số lượng 2 loại giao dịch chênh lệch như vậy để huẩn luyện mô hình thì sẽ dẫn đến một tình trạng là dù mô hình dự đoán giao dịch bình thường chính xác tỉ lệ cao nhưng cũng đồng nghĩa sẽ dự đoán sai rất nhiều các giao dịch bất thường (mục tiêu chính của thuật toán) thành giao dịch hợp pháp, điều này rất nguy hiểm. Vì lí do trên mà việc xử lí dữ liệu không cân bằng trong nhiều trường hợp là vô cùng quan trọng. Có một số phương pháp để xử lí tình huống này như: - Sử dụng các chỉ số đánh giá phù hợp ví dụ như chọn độ chính xác, F1 score, ... - Xử lí lại dataset làm cân bằng giữa các lớp trong tập dữ liệu. Một số kĩ thuật như under-sampling, over-sampling. Ví dụ: ta có thể lặp lại nhiều lần các điểm dữ liệu của tập dữ liệu có tỉ lệ thấp - Một số cách khác các bạn có thể tìm hiểu thêm. Nguồn: Quora, tổng hợp thêm. @piyomaru

Nhận xét

Đăng nhận xét

Bài đăng phổ biến

Một số vấn để cơ bản về ML

      Trong bài viết đầu tiên này mình sẽ chia sẻ về một số khái niệm cơ bản về Machine Learning mà mình học được. Một số khái niệm có thể chưa được chính xác mong được mọi người đóng góp thêm. Machine Learning (học máy) đang là một chủ để khá hot hiện nay. Theo mình được biết thì Machine learning có thể được hiểu là một ngành của khoa học máy tính, giúp cho máy tính có thể học dựa vào dữ liệu đầu vào, có 2 định nghĩa phía dưới các bạn có thể tìm thấy trên mạng. - Machine learning is the field of study the gives computers the ability to learn without being explicitly programed (Arthur Samuel, 1959). - A computer program is said to learn from experiencce E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. (Tom Mitchell, 1997) Một vài ứng dụng có việc áp dụng Machine Learning vào thực tế như lọc email spam, chuẩn đoán khối u của một bệnh nhân là lành tính hay ác tính, nhận diện khuôn mặt,... N... Một vài khái niệm cơ bản về mô hình ngôn ngữ: - Mô hình ngôn ngữ được dùng với mục đích dự đoán từ tiếp theo sẽ xảy ra trong câu, ví dụ như khi tra cứu trên Google thì các từ khóa gợi ý được hiện ra, ... - Dựa vào phân phối xác suất của từ tiếp theo trong một câu để tính. Ví dụ : Câu: Anh ấy là một người ... Ta cần dự đoán từ cần điền vào dấu 3 chấm ở trên, có thể là xấu, đẹp, cao, gầy,... thì ta cần tính được xác suất để các từ xấu, đẹp, cao, gầy xuất hiện trong cụm "anh ấy là một người..." => những ví dụ trên được gọi là một mô hình ngôn ngữ Mô hình ngôn ngữ n-gram n-gram là một chuỗi n từ được sắp xếp theo một thứ tự, có nhiều ví dụ: unigrams như he, she, is, (chỉ gồm 1 từ) bigrams như "he is", "she is", ... (có 2 từ trong một cụm) trigrams, 4-grams,... Ý tưởng đặt ra ở đây là ta sẽ đi tính tần suất xuất hiện của các cụm n-grams khác nhau, và dùng chúng để dự đoán các từ tiếp theo ví dụ như khi bạn gõ một cụm từ tìm kiế...

Từ khóa » Cân Bằng Dữ Liệu