Phân Lớp Dữ Liệu Bằng Thuật Toán Những Người Láng Giềng Gần Nhất ...

WhiteHat.vn
  • Tin Tức Tin tức An ninh mạng Bản tin WhiteHat
  • Thành viên
  • Có gì mới
  • Video
  • Wargame
  • Vinh Danh
Đăng nhập

Tìm kiếm

Toàn bộ Chủ đề Diễn đàn này This thread Chỉ tìm trong tiêu đề Bởi: Tìm Tìm nâng cao…
  • Hoạt động gần đây
  • Đăng ký
WhiteHat.vn Đăng nhập Đăng ký Giới thiệu Liên hệ

CỘNG ĐỒNG AN NINH MẠNG VIỆT NAM

@ 2009 - 2021 Bkav Corporation

Install the app Install
  • Thảo luận
  • Trí tuệ nhân tạo
You are using an out of date browser. It may not display this or other websites correctly.You should upgrade or use an alternative browser. Phân lớp dữ liệu bằng thuật toán những người láng giềng gần nhất (K-Nearest Neighbors)
  • Bắt đầu nktung
  • Ngày bắt đầu 14/07/2020
Chia sẻ: Facebook Twitter Reddit Pinterest Tumblr WhatsApp Email Chia sẻ Liên kết nktung

nktung

Nguyễn Khánh Tùng
Thành viên BQT 08/10/2013 401 1.012 bài viết Phân lớp dữ liệu bằng thuật toán những người láng giềng gần nhất (K-Nearest Neighbors) Thuật toán KNN được sử dụng phổ biến trong việc phân lớp dữ liệu. Để phân lớp một mẫu dữ liệu mới gặp, ta sẽ xem mẫu dữ liệu đó giống với mẫu dữ liệu nào ở trong tập dữ liệu mà ta đang có. Tiếp theo ta chọn k mẫu dữ liệu giống với mẫu dữ liệu mới gặp, và xem trong k mẫu đó thì lớp nào chiếm đa số thì mẫu mới sẽ thuộc lớp đó. K-Nearest Neighbor.png Hình. Ví dụ về việc phân lớp với k​Như trên hình ta có 2 lớp dữ liệu: lớp màu tím và lớp màu vàng. Câu hỏi là nếu chấm một điểm hình sao ở vị trí như trong đồ thị, thì hình sao này thuộc lớp nào? - Nếu ta chọn k=3 thì hình sao gần với 3 điểm trong hình tròn. Trong 3 điểm này thì có 2 điểm màu tím và 1 điểm màu vàng. Vì vậy ngôi sao thuộc lớp màu tím - Nếu ta chọn k=6 thì ngôi sao gần với 4 điểm vàng và 2 điểm tím (trong vòng tròn to), do vậy ngôi sao thuộc lớp màu vàng. Như vậy có thể thấy thuật toán K-NN phụ thuộc vào k. Lưu ý: khi k lớn ta luôn có thể xác định được lớp của mẫu dữ liệu mới, còn khi k nhỏ thì có thể bị nhiễu. Thuật toán Input: Cho tập dữ liệu D có N mẫu và một điểm dữ liệu x; Cần kiểm tra xem thuộc lớp nào - Bước 1. Tính giá trị tất cả các khoảng cách Euclid từ x đến mọi điểm trong tập D. - Bước 2. Chọn k điểm trong tập D mà có khoảng cách đến x là nhỏ nhất; trong k điểm này, tính xem lớp nào có nhiều điểm nhất. Output: gán x thuộc lớp có nhiều điểm nhất. Ví dụ: Cho tập dữ liệu gồm 4 mẫu như bên dưới upload_2020-7-15_9-58-55.png Câu hỏi: nếu có mẫu (CO2, bụi mịn) là (3,2) thì môi trường là tốt hay xấu? B1. Tính khoảng cách từ mẫu cần đánh giá (3,2) tới các mẫu trong bảng upload_2020-7-15_9-59-44.png B2. Chọn ra k=3 mẫu có khoảng cách gần nhất (9, 13, 16), thấy có 2 mẫu tốt và 1 mẫu xấu. Vì vậy mẫu môi trường đó là Tốt Chỉnh sửa lần cuối: 15/07/2020 xin chào, các bài viết này rất dễ hiễu nhưng tôi vẫn đang tìm kiếm tổng quan về một mô hình đầy đủ quy trình với các bước làm thực tế từ giai đoạn sàn lọc dữ liệu, tiền xử lý dữ liệu (ngoài các datasheet tại kaggle v.v.. thì lấy được từ những đâu? phân loại chúng như thế nào? đưa về dạng thuần text?) - dùng các mô hình để cho máy học (cách dùng chi tiết như thế nào?) - sau khi cho máy học, có kết quả đánh giá mô hình thì làm thế nào để trực quan hóa nó (cách nào để biểu diễn số liệu?). Mong bạn hướng dẫn thêm và cho thêm keywords hiệu quả để tôi nghiên cứu thêm. Hiện những việc phân lớp data như thế này sẽ làm được những công việc thực tế gì ? có cơ hội cho người mới không? cảm ơn bạn. Comment
palomadoan đã viết: xin chào, các bài viết này rất dễ hiễu nhưng tôi vẫn đang tìm kiếm tổng quan về một mô hình đầy đủ quy trình với các bước làm thực tế từ giai đoạn sàn lọc dữ liệu, tiền xử lý dữ liệu (ngoài các datasheet tại kaggle v.v.. thì lấy được từ những đâu? phân loại chúng như thế nào? đưa về dạng thuần text?) - dùng các mô hình để cho máy học (cách dùng chi tiết như thế nào?) - sau khi cho máy học, có kết quả đánh giá mô hình thì làm thế nào để trực quan hóa nó (cách nào để biểu diễn số liệu?). Mong bạn hướng dẫn thêm và cho thêm keywords hiệu quả để tôi nghiên cứu thêm. Hiện những việc phân lớp data như thế này sẽ làm được những công việc thực tế gì ? có cơ hội cho người mới không? cảm ơn bạn. Nhấn để mở rộng...
Hi bạn Câu hỏi của bạn rất hay, đúng là cần phải như vậy. Tuy nhiên trong khuôn khổ của một bài viết trên diễn đàn, thì khó có thể truyền tải hết được những nội dung mà bạn cần. Thay vào đó, muốn mang đến cho người đọc những "từ khóa" để tiếp tục tìm hiểu chi tiết hơn. Gửi bạn một số nguồn tài liệu hữu ích: MachineLearningcoban.com Comment Bạn phải đăng nhập hoặc đăng ký để phản hồi tại đây. Bài viết liên quan
  • Phân loại các cuộc tấn công DDoS trên bộ dữ liệu IoT23
    • Ngày bắt đầu 14/03/2023
    • 0
  • Blockchain, Cryptocurrency và ứng dụng trong Security (Phần 3)
    • Ngày bắt đầu 03/10/2022
    • 1
  • Blockchain, Cryptocurrency và ứng dụng trong Security (Phần 2)
    • Ngày bắt đầu 06/07/2022
    • 0
  • Blockchain, Cryptocurrency và ứng dụng trong Security (Phần 1)
    • Ngày bắt đầu 28/05/2022
    • 0
  • Thuật toán phân loại Naive Bayes và ứng dụng
    • Ngày bắt đầu 20/06/2020
    • 3
  • Phân loại các thuật toán học máy
    • Ngày bắt đầu 11/04/2020
    • 0
  • Bên trên

    Từ khóa » Giải Thuật Láng Giềng Gần Nhất