Random Forest, Thế Nào Là Một Rừng Ngẫu Nhiên. - Finding Data
Có thể bạn quan tâm
Random Forest là một thuật toán khá mới, được sử dụng trong vòng 10 năm gần đây, và có giá trị lớn trong những thuật toán Surpervised Learning.
Trong bài viết này, mình sẽ giải thích ngắn gọn về Random Forest, nó là gì, hoạt động như thế nào, và áp dụng nó ra sao.
Bài viết trong giai đoạn đang học và hoàn thiện, nên thiếu sót là không tránh khỏi, mong các bạn đóng góp ý kiến.
Random Forest là gì
Rừng ngẫu nhiên là một thuật toán học có giám sát. Như tên gọi của nó, Rừng ngẫu nhiên sử dụng các cây (tree) để làm nền tảng.
Rừng ngẫu nhiên là một tập hợp của các Decision Tree, mà mỗi cây được chọn theo một thuật toán dựa vào ngẫu nhiên.
Decision Tree là gì ?
Decision Tree là tên đại diện cho một nhóm thuật toán phát triển dựa trên Cây quyết định. Ở đó, mỗi Node của cây sẽ là các thuộc tính, và các nhánh là giá trị lựa chọn của thuộc tính đó. Bằng cách đi theo các giá trị thuộc tính trên cây, Cây quyết định sẽ cho ta biết giá trị dự đoán. Nhóm thuật toán cây quyết định có một điểm mạnh đó là có thể sử dụng cho cả bài toán Phân loại (Classification) và Hồi quy (Regression).
Random Forest có điểm mạnh gì ?
- Random Forest algorithm có thể sử dụng cho cả bài toán Classification và Regression
- Random Forest làm việc được với dữ liệu thiếu giá trị
- Khi Forest có nhiều cây hơn, chúng ta có thể tránh được việc Overfitting với tập dữ liệu
- Có thể tạo mô hình cho các giá trị phân loại
Random Forest làm việc như thế nào ?
Chúng ta có thể nghĩ đến một ví dụ đơn giản trong cuộc sống, giả sử tôi muốn tìm hiểu một địa danh cho chuyến du lịch sắp tới, tôi sẽ đi hỏi một người bạn để tham khảo ý kiến. Nhưng, ý kiến của người bạn này có thể không khách quan cho lắm. Tôi liền đi hỏi thêm một vài người nữa, và tổng hợp lại để cho ra quyết định đi hay không
Nếu coi mỗi ý kiến của những người góp ý là một cây quyết định, thì chúng ta đã có hình dung mơ hồ về Random Forest rồi.
Random Forest hoạt động bằng cách đánh giá nhiều Cây quyết định ngẫu nhiên, và lấy ra kết quả được đánh giá tốt nhất trong số kết quả trả về.
Mã giả cho hoạt động của Random Forest :
-
Chọn ngẫu nhiên “k” features từ tập “m” features.
Để ý k << m
-
từ tập “k” features, tính toán ra node “d” là tốt nhất cho Node phân loại.
-
Chia các node con theo node tốt nhất vừa tìm được
-
Lặp lại bước 1-3 cho đến khi đạt đến k node
-
Lặp lại bước 1-4 để tạo ra “n” cây
Sau các bước trên, chúng ta đã tạo ra được một Random Forest, vậy nó hoạt động như thế nào để dự đoán ?
Random forest prediction :
Để biểu diễn dự đoán sử dụng Random Forest đã huấn luyệ, ta sử dụng các bước bên dưới :
-
Lấy các test features và sử dụng các Cây quyết định đã tạo ra để dự đoán kết quả, lưu nó vào một danh sách.
-
TÍnh toán số lượng vote trên toàn bộ Forest cho từng kết quả
-
Lấy kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô hình
-
Ứng dụng
Ta đã tìm hiểu Random Forest là gì, nó hoạt động như thế nào để đưa ra một dự đoán. Vậy, ứng dụng của Random Forest là gì.
Lấy vị dụ với ngành Ngân hàng, chúng ta có hai bài toán phổ biến cho Random Forest, là tìm kiếm khách hàng tiềm năng và khách hàng lừa đảo
Chia sẻ:
Có liên quan
Từ khóa » Thuật Toán Random Forest Là Gì
-
Random Forest Algorithm — Machine Learning Cho Dữ Liệu Dạng Bảng
-
# Phân Lớp Bằng Random Forests Trong Python - Viblo
-
[PDF] ÁP DỤNG THUẬT TOÁN PHÂN LOẠI RANDOM FOREST ĐỂ XÂY ...
-
Diễn Giải Random Forest - RPubs
-
Machine Learning - Classification - Phần 3 - VNOI
-
Random Forest Là Gì? Diễn Giải Random Forest - Asiana
-
# Phân Lớp Bằng Random Forest Là Gì, Random Forest Và Ứng Dụng
-
Random Forest Là Gì ? # Phân Lớp Bằng Random Forests Trong ...
-
9.1. Ý Tưởng Của Mô Hình Rừng Cây — Deep AI KhanhBlog
-
Định Nghĩa Random Forest Là Gì?
-
Random Forest Và ứng Dụng - Medium
-
Top 10 Thuật Toán Machine Learning Dành Cho Newbie | TopDev
-
Random Forest Là Gì
-
[PDF] RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN