R Studio - Huong Vuong
Có thể bạn quan tâm
Đến hẹn lại lên, H sẽ tiếp tục chia sẻ với anh em về chủ đề Visualize Data. H không biết dịch chính xác nghĩa của từ này trong tiếng Việt là như thế nào, nhưng nội dung của bài viết này sẽ nói lên ý nghĩa của nó. Để tạm dịch có thể gọi là “biểu diễn dữ liệu” 🙂

Ở số trước H đã nói về việc xử lý dữ liệu thô, convert type, loại bỏ dữ liệu dư thừa,…Bạn nào chưa xem có thể theo dõi lại tại đây.
Sau khi đã xử lý dữ liệu thô xong, chúng ta sẽ tới bước tiếp theo là visualize data. Đây là một trong những bước quan trọng bởi vì nó giúp các bạn có thể hình dung về tổng thể dữ liệu của các bạn một cách trực quan. Từ đó, các bạn có thể có những ý tưởng để khai thác và trả lời được câu hỏi được yêu cầu.
Outline bài này H sẻ chia sẻ những điểm sau:
- Một số nguyên lý về biểu đồ (graph)
- Tại sao lại dùng biểu đồ trong phân tích dữ liệu
- Các hệ thống biểu đồ có trong R
Bắt đầu thôi nào !
Một số nguyên lý về biểu đồ
Nguyên lý 1: thể hiện sự so sánh giữa các yếu tố. Lưu ý một câu hỏi quan trọng “so sánh với cái gì????”.
Nguyên lý 2: thể hiện mối quan hệ nhân quả, cơ chế, giải thích hoặc cấu trúc hệ thống.
Nguyên lý 3: thể hiện dữ liệu đa biến (trên 2 biến)
Nguyên lý 4: tổng hợp (tập hợp) của bằng chứng. Bằng chứng ở đây bao gồm từ ngữ, con số, hình ảnh, sơ đồ,…
Nguyên lý 5: mô tả và tài liệu hóa những bằng chứng bằng việc gán nhãn, đặt tên, đo lường,…
Nguyên lý 6: nội dung là vua (content is king). Các bài báo báo phân tích tốt hay xấu đều phụ thuộc vào chất lượng, mức độ phù hợp và tính toàn vẹn của data.
Tại sao lại dùng biểu đồ trong phân tích dữ liệu
- Để hiểu các thuộc tính của dữ liệu (biến, quan hệ)
- Tìm ra các mẫu trong dữ liệu (pattern)
- Đề nghị một hô hình hóa nào đó (model strategies)
- Để “debug” một phân tích đã có.
- Để tìm hiểu về kết quả của một phân tích đã có.
Các hệ thống biểu đồ có trong R
Đối với dữ liệu một chiều hoặc bạn quan tâm đến 1 chiều của dữ liệu, trong R có các loại sau: boxplot, histogram.


Còn đối các thể hiện dữ liệu nhiều chiều, trong R có hỗ trợ 3 loại:
base ploting: là thư viện được tích hợp sẵn trong R, không cần include bất kì library nào thêm. H đánh giá base là một trong những cách để plot dữ liệu nhanh, tiết kiệm thời gian và cũng có thể custom được khá dễ dàng.

Ví dụ bên trên được vẽ bằng base plotting system bằng cách xử dụng function plot. Anh em có thể tham khảo cách sử dụng hàm này bằng cách gõ ?plot trong studio nhé. Sẽ rất chi tiết nếu H trình bày ở đây nên không tiện viết.
Như đã nói lúc nãy về việc custom một biểu đồ, base plotting system hỗ trợ anh em kết hợp nhiều yếu tố lại với nhau. Ví dụ anh em gọi lênh plot để show data, sau đó gọi thêm lệnh abline để show thêm một đường thẳng bất kì (kiểu đường trung bình như hình vẽ trên),…
lattice: khác với base plotting thì lattice plotting chỉ hỗ trợ tạo biểu đồ bằng một lệnh gọi duy nhất (thay vì kết hợp nhiều lệnh gọi như trong base plotting). Các lệnh phổ biến như xyplot, bwplot

Vơi việc chỉ có thể gọi bằng 1 lệnh duy nhất và tất cả các style, margin đều được xử lý bên trong nên anh em khó có thể custom được. Tuy vậy, lattice plotting giúp anh em triển khai nhanh một plot mà không cần quan tâm quá đến việc style sao cho đẹp (tất cả đã có lattice lo), đặc biệt là đối với những biểu đồ dạng điều kiện so sánh 2 biến (x,y) thì lattice rất phù hợp.
ggplot2: là một sự kết hợp những lợi thế có được của base plotting và lattice plotting. Nó khá tường tự lattice ở chỗ việc style, margin đều được xử lý tự động bên trong. Tuy vậy, anh em vẫn có thể custom theo ý muốn, điều mà ở lattice plotting không làm được.

Để sử dụng được ggplot2 bạn cần phải cài thư viện ggplot2
install.packages("ggplot2") library(ggplot2)Có 2 function phổ biển trong ggplot2 là qplot (tạo nhanh biểu đồ) và ggplot (tạo biều đồ với nhiều chỉ định parameter hơn).
Như vậy bằng việc nắm bắt các nguyên lý trong việc visualize data và các công cụ hỗ trợ trong R, anh em có thể nhanh chóng có được những idea tốt, giúp cho công việc phân tích dữ liệu và trả lời câu hỏi được yêu cầu tốt hơn.
Trên đây là tất cả trong số này, anh em có gì thắc mắc hoặc muốn trao đổi thêm xin hãy để lại comment ở bên dưới nhé ! Chia sẻ để cùng tiến…
Chúc anh em có một tuần thật vui và đầy hứng khởi ! Hẹn gặp anh em ở số tiếp theo. 🙂
Rate this:
Từ khóa » Bài Tập Rstudio
-
[PDF] Phân Tích Số Liệu Và Biểu đồ Bằng
-
Ngôn Ngữ R Bài Giảng - Cửu Dương Thần Công . Com
-
Học R - [1] Giải Bài Tập Và Các Vấn đề Liên Quan
-
Bai 4 Xstk - Xác Suất Thống Kê Sử Dụng RStudio - **Bài 4 - StuDocu
-
Bài Tập Ngày 2 - Hiển Thị Dữ Liệu - RPubs
-
Kiểm định Với R - RPubs
-
Hướng Dẫn RStudio - Cách Sử Dụng - W3seo Cơ Bản đến Nâng Cao
-
Hướng Dẫn Phần Mềm Thống Kê R Và R-studio - YouTube
-
3 R Cơ Bản | Cẩm Nang Dịch Tễ Học Với R
-
[PDF] XỬ LÝ SỐ LIỆU THỰC NGHIỆM
-
Thực Hành R XSTK 2019 | Tăng Lâm Tường Vinh
-
Giải Bài Toán Kiểm định Giả Thuyết Thống Kê Với Sự Trợ Giúp Của Phần ...
-
Ngôn Ngữ R Và Xử Lý Thống Kế | Tìm ở đây
-
Hướng Dẫn Sử Dụng Ngôn Ngữ R Cho Người Mới Bắt đầu - Viblo