Khóa Học Big Data In Machine Learning
Có thể bạn quan tâm
Khóa học đã chọn
Home- Lịch khai giảng
-
Ngày 09-03-2026
Tin học văn phòng -
Ngày 09-03-2026
Data Analysis -
Ngày 09-03-2026
Chuyên đề AI và Ứng dụng -
Ngày 09-03-2026
SysOps - DevOps -
Ngày 09-03-2026
Khoa học Dữ liệu & AI (No-Code Platforms) -
Ngày 09-03-2026
Tin học Quốc tế -
Ngày 09-03-2026
Lập trình & CSDL
-
Ngày 09-03-2026
Data Science & Machine Learning -
Ngày 09-03-2026
Kiểm thử phần mềm -
Ngày 09-03-2026
Internet Marketing -
Ngày 09-03-2026
Đồ hoạ đa truyền thông -
Ngày 09-03-2026
Thiết kế website -
Ngày 09-03-2026
Mạng máy tính -
Ngày 09-03-2026
Khóa học cho Thiếu niên
-
- Dịch vụ
- Tin tức
- Hướng dẫn thanh toán
- Liên hệ


Big Data in Machine Learning - Trang bị cho học viên những kiến thức nền tảng về đặc điểm và các thành phần của Dữ liệu lớn (Big Data)
- Khám phá tiềm năng to lớn của Dữ liệu lớn và vai trò then chốt của PySpark trong việc khám phá những bí mật bên trong nó
- Nắm vững kỹ thuật xử lý các bộ dữ liệu khổng lồ một cách dễ dàng bằng cách sử dụng các công cụ mạnh mẽ của PySpark như RDD, DataFrame, Streaming…
- Bước vào hành trình Máy học (Machine Learning), tận dụng PySpark để triển khai các thuật toán tiên tiến, chuyển đổi dữ liệu thô thành thông tin hữu ích, đưa ra dự đoán
- Tìm hiểu quá trình Xử lý ngôn ngữ tự nhiên (NLP) với PySpark, cho phép diễn giải và phân tích dữ liệu văn bản
- Trang bị kỹ năng để thiết lập và quản lý cụm Spark, giúp học viên sẵn sàng giải quyết các thách thức về dữ liệu lớn trong thế giới thực
- Giúp học viên nắm bắt được các công nghệ sử dụng trong Dữ liệu lớn: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại giá trị cho doanh nghiệp
- Là khóa cuối trong chương trình “Data Science and Machine Learning Certificate (Khoa học dữ liệu và Máy học)”
Khóa học dành cho:
- HV học qua khóa “Machine Learning with Python” hoặc có kiến thức tương đương
- Sinh viên các trường Đại học, Cao đẳng
- HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science
Trải nghiệm ứng dụng thực tế
Regression
- Dự đoán chi tiêu hàng năm của khách hàng (Customer Yearly Amount Spend Prediction)
- Dự đoán thời gian chuyến bay (Flight Duration Pediction)
- Dự đoán số lượng thủy thủ cần thiết trên tàu (Number of crew prediction)
Classification
- Dự đoán chuyến bay có bị hoãn hay không (Filght Delay?)
- Dự đoán kết nối mạng an toàn hay không (Good or Bad connection?)
- Dự đoán chất gây hư hỏng thực phẩm (Figure out preservative chemicals)
- Phân loại trường công hay trường tư (Private college or Public college)
- Dự đoán khách hàng rời đi (Customer Churn)
- Dự đoán hành khách sống còn trên tàu Titanic (Survived?)
Phân cụm
- Phân cụm điểm trong không gian (Point clustering in space)
- Phân cụm khách hàng (Customer Segmentation)
- Hệ thống đề xuất phim (Film Recommender System)
- Hệ thống đề xuất mỹ phẩm (Beauty Recommender Sytem)
- Hệ thống đề xuất sản phẩm điện tử (Electronics Recommender Sytem)
- Hệ thống gợi ý thực phẩm (Market Basket Analysis)
- Lọc email rác (Spam vs Ham)
- Phân loại bình luận của khách hàng (Customer comments Classification)
- Thu thập dữ liệu thời gian thực (Real-time data collection)
Sau khóa học bạn hoàn toàn có thể:
- Nắm vững các đặc điểm và thành phần của Dữ liệu lớn
- Nắm vững các kỹ thuật xử lý và phân tích Dữ liệu lớn
- Làm việc với Spark, Big Data Technology mới nhất
- Dễ dàng thao tác với Dữ liệu lớn sử dụng bộ thư viện của PySpark: PySpark RDD’s, PySpark DataFrames, PySpark SQL, PySpark ML, PySpark Streaming, PySpark GraphX…
- Áp dụng Máy học với Dữ liêu lớn, dự đoán xu hướng và ra quyết định
- Giải mã sự phức tạp của ngôn ngữ sử dụng công cụ NLP tiên tiến của PySpark
- Xử lý dữ liệu thời gian thực
- Thiết lập và điều hướng cụm Spark, đảm bảo hiệu suất tốt trong các thách thức về dữ liệu
- Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
Khoản đầu tư dành cho khóa học:
- Thời gian học: 5 tuần
- Thời lượng: 48 giờ (64 tiết)
- Học phí: 6.000.000 đ
Chính sách ưu đãi
- Ưu đãi 100.000đ dành cho học viên đăng kí Online
- Ưu đãi 10% dành cho HS-SV, Học viên cũ, Nhóm 2 Học viên
- Ưu đãi 15% dành cho nhóm 3 Học viên trở lên
***Lưu ý: Áp dụng chính sách ưu đãi cao nhất, không áp dụng cộng dồn
Nội dung khóa học:
- Tổng quan Dữ liệu lớn (Big data)
- Giới thiệu, lịch sử Big Data
- Vs’ của Big Data (3Vs’, 4Vs’, 5Vs’, 6Vs’…)
- So sánh Batch processing (xử lý theo lô) và Stream processing (xử lý theo thời gian thực)
- Giới thiệu Apache Spark
- Các thành phần của Apache Spark: RDD API, SQL, MLlib, GraphX, Streaming
- Tổng quan PySpark
- Giới thiệu PySpark: Spark với Python (Python API)
- Lý do chọn PySpark
- Cài đặt và cấu hình PySpark
- Spark Context, Spark Session
- PySpark RDDs
- Giới thiệu PySpark RDDs (Resilient Distributed Dataset)
- RDDs operations
- Transformations
- Actions
- Làm việc với PySpark RDDs
- RDDs
- Tạo RDD: parallelize(), textFile()
- Transformations: map(), filter(), flatMap(), RDD1.union(RDD2)…
- Actions: collect(), take(), count(), first(), reduce(), saveAsTextFile(),…
- Pair RDDs
- Tạo Pair RDDs: từ key-value tuple, regular RDD
- Transformations: reduceByKey(), groupByKey(), sortByKey(), join()
- Actions: countByKey(), collectAsMap()
- RDDs
- PySpark DataFrame, SQL
- Giới thiệu
- Làm việc với PySpark DataFrame
- Tạo DataFrame: createDataFrame(), spark.read.csv(), spark.read.json()…
- Các function thông dụng
- printSchema(), show(), count(), describe(), crosstab()
- select(), select() và agg, count, max, mean, min, sum..., select().distinct(),
- groupby(), orderby().asc()/desc()
- withColumn(), withColumnRenamed()
- drop(), dropDuplicates(), dropna()
- filter(), where()
- Conditional clauses: .when(<if condition>, <then x>), .otherwise()
- User defined functions (UDF)
- Trực quan hóa dữ liệu
- PySpark SQL
- Giới thiệu
- Truy vấn thông dụng: select(), when(), like(), startswith(), endswith(), substr(), between()
- Thao tác trên dữ liệu: tạo view từ dataframe, nhóm (group by), lọc (filtering), sắp xếp (sorting), kết (joining), phân vùng (partitioning)…
- Tiền xử lý và phân tích dữ liệu
- Xử lý dữ liệu
- Xóa (dropping), lọc (filtering), kết (joining) dữ liệu
- Xử lý dữ liệu thiếu, trùng, outliers
- Sử dụng parquet
- Data validation
- Tạo các tính năng mới (Feature Engineering)
- Từ tính năng kiểu chuỗi/ số -> các tính năng kiểu số mới
- Từ tính năng chuỗi -> tính năng Datetime -> các tính năng thành phần từ Datetime
- Trích xuất tính năng chuỗi/ văn bản thành các tính năng mới
- Splitting & Exploding
- Scaling data
- Pivoting & Joining
- Binarizing, Bucketing & Encoding
- Phân tích dữ liệu (Data Analysis)
- Phân tích dữ liệu khám phá (EDA)
- Trực quan hóa dữ liệu
- Xử lý dữ liệu
- Tổng quan PySpark MLlib
- Giới thiệu
- PySpark MLlib algorithms
- Triển khai project: Đọc và xử lý dữ liệu, xây dựng model, đo lường và đánh giá model, lưu model và dự đoán mới
- Machine Learning với PySpark MLlib
- Học có giám sát (Supervised Learning: Classification & Regression)
- Linear Regression, Logistic Regression
- Tree models: Decision Tree, Random Forest, Gradient-Boosted Tree
- Pipeline
- Học không giám sát (Unsupervised Learning: Clustering & Recommender System)
- Phân cụm với KMeans
- Hệ thống đề xuất (Recommender System) với ALS
- Phân tích luật kết hợp (Association rules) với FPGrowth
- Học có giám sát (Supervised Learning: Classification & Regression)
- Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP)
- Giới thiệu
- Công cụ
- Tokenizer
- StopWordsRemover
- NGram
- CountVectorizer
- TF-IDF
- Apache Spark standalone cluster
- Giới thiệu standalone cluster
- Kết nối các Slave computer tới Master Server
- Triển khai project trong hệ thống Mater – Slave computers
- PySpark Streaming
- Giới thiệu
- Lý do chọn PySpark Streaming
- Đặc điểm
- Streaming Context/ DStream
- Streaming Transformation Operations
- Streaming Checkpoint
- GraphX
- Giới thiệu
- Làm việc với GraphX
- Tạo graph
- Vertex & edge
- Trực quan Graph
- Lọc thông tin trên graph (filtering)
- Connecting
- Tìm mối quan hệ (motif finding)
- Đếm tam giác trên graph (triangle count)
- Hạng
Lộ trình học

Chứng nhận khóa học
Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng nhận "Big Data in Machine Learning - Dữ liệu lớn trong máy học"
LỊCH KHAI GIẢNG Xem thêm
Big Data in Machine Learning - 48 giờ Học phí: 6.000.000đ - Nhận ƯU ĐÃI HỌC PHÍkhi ghi danh online + hoàn tất đếnngày 06/03/2026
Khai Xuân đón lộc Mã Đáo Thành Công - Nhận Lộc Như Ý 100K (trừ trực tiếp vào học phí)
- Điều kiện cần khi tham gia khóa học: HV học qua khóa “Machine Learning with Python” hoặc có kiến thức tương đương
| Lớp | Thời gian | Ngày khai giảng | Địa điểm học | |
| DL06_311T357_ON | Thứ 3-5-7 (18.00 - 21.00) | 10/03/2026 | Online | Đăng ký |



Computer Vision with Deep Learning
Data Science and Machine Learning Certificate
Machine Learning with Python 
Trụ sở chính: 227 Nguyễn Văn Cừ, Phường Chợ Quán, Tp HCM (028) 38 351 056 (số máy nhánh 111) Cơ sở: 21-23 Nguyễn Biểu, Phường Chợ Quán, Tp HCM (028) 38 351 056 (số máy nhánh 222) Chính sách và quy định chung Điều khoản dịch vụ Chính sách bảo mật Số ĐKKD 4109000014 cấp ngày 31/08/2010 Copyright © Trung Tâm Tin Học Trường Đại học khoa học Tự nhiên 
Trung Tâm Tin Học
Trung Tâm Tin Học Chào mừng bạn đến với Trung Tâm Tin Học. Bạn đang cần hỗ trợ thông tin gì ạ? Hãy Chat ngay với chúng tôi nhé. Tiếp tục chat Đăng ký Online
Từ khóa » đào Tạo Big Data ở Việt Nam
-
Chương Trình Đào Tạo Big Data
-
Vietnambigdata - Tổ Chức đào Tạo FinTech Uy Tín - Số 1 Tại VN - Đào ...
-
Khóa Học Big Data - ĐÀO TẠO CÔNG NGHỆ
-
Data Science | Trung Tâm Công Nghệ Và Đào Tạo Robusta
-
Khóa Học Data Science - Hệ Thống Đào Tạo Lập Trình Viên Quốc Tế ...
-
Học Big Data - đáp ứng 'cơn Khát' Nhân Lực
-
KHÓA HỌC BIG DATA VỚI HADOOP VÀ SPARK - NIIT - ICT Hà Nội
-
Chuyên Ngành Học Mới Big Data & Machine Learning
-
Học Viện Công Nghệ MCI
-
Khóa Học Data Science Certificate - Trung Tâm Tin Học ĐH KHTN
-
Học Viện Đào Tạo Lập Trình MCI Việt Nam
-
Khoá Học Data Science Trong 6 Tháng - Cam Kết Việc Làm Với Mức ...
-
Phát Triển Hạ Tầng Big Data (dữ Liệu Lớn) ở Việt Nam Hiện Nay
-
CÁC TRƯỜNG ĐÀO TẠO NGÀNH KHOA HỌC DỮ LIỆU TẠI MIỀN ...