Tìm Hiểu Pandas Trong 15 Phút - Koodibar
Có thể bạn quan tâm
- Giới thiệu về pandas
- Các kiểu dữ liệu trong pandas
- Cài đặt pandas
- Một số thao tác cơ bản trên dữ liệu với pandas
- 1. Đọc dữ liệu từ file csv
- 2. Lấy một số cột dữ liệu
- 3. Lấy dữ liệu theo điều kiện
- Tìm tất cả người có giới tính là M
- Tìm tất cả người có tuổi bé hơn 30 và lớn hơn 25
- Tìm tên những người có chứa cụm từ cụ thể
- 4. Thêm/Xoá cột dữ liệu
- Thêm một cột trên DataFrame
- Xoá một/ nhiều cột trên DataFrame
- 5. Các thống kê cơ bản
- Mô tả cơ bản về DataFrame
- Tính giá trị trung bình theo nhóm
- Vẽ biểu đồ phân bố giá trị của một cột
- 6. Thao tác trên DataFrame
- Join 2 DataFrame
- Sắp xếp lại DataFrame
- Ghi DataFrame thành file csv
- Tham khảo
Pandas là một thư viện python mã nguồn mở khá phổ biến để xử lý và phân tích dữ liệu, được phát triển vào năm 2008 bởi Wes McKinney. Cụ thể hơn nó cung cấp những cấu trúc dữ liệu linh hoạt để thao tác với các dữ liệu dạng bảng và chuỗi thời gian (time series). Đây là cũng một trong những thư viện quan trọng trong data science hiện nay.
Thư viện pandas rất phù hợp để xử lý các dữ liệu dạng bảng (tabular data). Không những nó hỗ trợ đọc dữ liệu từ nhiều nguồn khác nhau như text, csv, excel, json, sql, hdf5, v.v. Mà nó còn giúp chúng ta kết hợp, thao tác và phân tích dữ liệu từ nhiều nguồn này lại. Có thể nói là nó giúp làm hàng tá thứ mà chúng ta muốn trên các nguồn dữ liệu thô một cách thật dễ dàng.
Các kiểu dữ liệu trong pandasTrong pandas có hai kiểu dữ liệu chính là Series và đặc biệt là DataFrame. Pandas cũng cung cấp rất nhiều chức năng tiện lợi và hiệu suất cao cho DataFrame, chúng ta có thể tìm hiểu thêm về các chức năng này bên dưới.
| Cấu trúc dữ liệu | Kích thước | Mô tả |
|---|---|---|
| Series | 1 chiều | Là dạng dữ liệu 1 chiều như array (size immutable) |
| DataFrame | 2 chiều | Là dạng dự liệu 2 chiều như bảng trong database (size mutable) |
| Panel | 3 chiều | Là dạng dữ liệu 3 chiều, bao gồm nhiều DataFrame (size mutable) |

Chúng ta có thể dễ cài đặt pandas trong vòng một nốt nhạc với pip
pip install pandas Một số thao tác cơ bản trên dữ liệu với pandas1. Đọc dữ liệu từ file csv
Để đọc một file csv từ bên ngoài, ta chỉ cần dùng hàm read_csv, nó sẽ trả về cho ta một DataFrame. Mặc dịnh thì nó sẽ sử dụng dấu phẩy (comma) làm delimeter, tuy nhiên chúng ta cũng có thẻ tuỳ biến tham số delimeter, file encoding cũng như tự thêm tên các cột cho file csv không có headers. Các bạn có thể tham khảo thêm chữ ký đầy đủ của hàm này ở đây
Ví dụ ta có file actors.cvs như sau
Đoạn code sau sẽ load file biostats.csv và hiện thị 5 dòng đầu tiên. Kết quả được thực thi và hiện thị trên Jypiter.

2. Lấy một số cột dữ liệu
Để lấy dữ liệu của một số cột nhất định, ta chỉ cần truyền danh sách các cột ta muốn lấy vào như sau:
Đoạn này tương đương với câu select sau trong SQL

3. Lấy dữ liệu theo điều kiện
Về cơ bản thì chúng ta có thể viết conditional expression vào bên trong phần ngoặc vuông biostats_df[expresion goes here]
Tìm tất cả người có giới tính là M
Đoạn này tương đương với câu select sau trong SQL

Tìm tất cả người có tuổi bé hơn 30 và lớn hơn 25
Chúng ta cũng có thể query như SQL

Tìm tên những người có chứa cụm từ cụ thể
Ví dụ tìm tất cả người mà tên có chứa cụm “an”

4. Thêm/Xoá cột dữ liệu
Thêm một cột trên DataFrame
Về cơ bản thì DataFrame khá giống Array, vị dụ để thêm một cột năm sinh ta làm như sau

Xoá một/ nhiều cột trên DataFrame
Lưu ý nó chỉ trả về một bản copy của DataFrame đã bị xoá các cột dự liệu. DataFrame gốc vẫn không thay đổi
5. Các thống kê cơ bản
Mô tả cơ bản về DataFrame
Hàm describe() trên DataFrame trả về các thống kê cơ bản của DataFrame đó

Tính giá trị trung bình theo nhóm
Ví dụ ta tính giá trị trung bình của tất cả các dòng nhóm theo giới tính

Vẽ biểu đồ phân bố giá trị của một cột
Bar chart

Pie chart

6. Thao tác trên DataFrame
Join 2 DataFrame
Giả sử chúng ta có 2 DataFrames, và chúng ta muốn join chúng lại (như join hai bảng trong database)

Sắp xếp lại DataFrame

Ghi DataFrame thành file csv
- Intro to Data Structures- https://pandas.pydata.org/pandas-docs/version/0.20/dsintro.html
- Stackoverflow - https://stackoverflow.com/questions/15315452/selecting-with-complex-criteria-from-pandas-dataframe
- Pandas_(software) Wikiwand - https://www.wikiwand.com/en/Pandas_(software)
Từ khóa » Thư Viện Pandas để Làm Gì
-
Xử Lý Dữ Liệu Với Pandas Trong Python - CodeLearn
-
Giới Thiệu Về Pandas (một Thư Viện Phổ Biến Của Python Cho Việc ...
-
Thư Viện Pandas Trong Python - Lập Trình Không Khó
-
LÀM QUEN VỚI THƯ VIỆN PANDAS VÀ DATAFRAME - ERX
-
Pandas Trong Python (Bài 1): Giới Thiệu Chung
-
Pandas Trong Python Là Gì? Giới Thiệu Chi Tiết Về Pandas Cho Người ...
-
Tìm Hiểu Thư Viện Phân Tích Dữ Liệu PANDAS Trong Python
-
Pandas, Một Thư Viện Xử Lý Dữ Liệu Tuyệt Vời Cho Các Data Scientist
-
[DA-DS #2] Các Thao Tác Cơ Bản Với Dữ Liệu Bằng Thư Viện Pandas
-
Bài 5: Giới Thiệu Về Pandas | ZootoPi
-
Giới Thiệu Pandas | Kaggle
-
Bài Tập Tổng Kết Pandas - Python-Ngôn Ngữ Lập Trình Thông Dụng
-
Hướng Dẫn Cách Dùng Pandas Python – Tự Học TensorFlow - TEK4