Xử Lý Các Giá Trị Ngoại Lệ - Machine Learning Cơ Bản

  • Lời nói đầu

Giới thiệu

  • Đặc điểm của dữ liệu dạng bảng
  • Machine Learning pipeline
  • Tại sao cần xây dựng pipeline
  • Thư viện tabml đi kèm cuốn sách
  • Pipeline đơn giản cho cuộc thi Titanic
  • Bố cục cuốn sách
  • Các bộ dữ liệu sử dụng trong sách

Kỹ thuật xử lý dữ liệu

  • Phân tích Khám phá Dữ liệu - EDA
    • Mục đích của EDA
    • EDA cho dữ liệu Titanic
    • EDA cho dữ liệu California Housing
    • Pandas profiling
  • Làm sạch dữ liệu
    • Xử lý các giá trị ngoại lệ
    • Xử lý dữ liệu bị khuyết
  • Đặc trưng hạng mục (WIP)
    • Mã hóa one-hot
    • Hashing
    • Crossing
  • Đặc trưng dạng số (WIP)

Embedding

  • Embedding
  • Word2vec
  • Instacart Product2vec

Hệ thống gợi ý

  • Hệ thống gợi ý
  • Bộ dữ liệu MovieLens-1M
  • Hệ thống dựa trên nội dung
  • Matrix Factorization
  • Factorization machine

Đóng góp từ tác giả khác

  • Dữ liệu chuỗi thời gian
  • Decision Tree algorithm
  • Random Forest algorithm

Phụ lục

  • Minh họa dữ liệu

Từ khóa » Các Loại Outliers