R Studio - Huong Vuong

Đến hẹn lại lên, H sẽ tiếp tục chia sẻ với anh em về chủ đề Visualize Data. H không biết dịch chính xác nghĩa của từ này trong tiếng Việt là như thế nào, nhưng nội dung của bài viết này sẽ nói lên ý nghĩa của nó. Để tạm dịch có thể gọi là “biểu diễn dữ liệu” 🙂

Ở số trước H đã nói về việc xử lý dữ liệu thô, convert type, loại bỏ dữ liệu dư thừa,…Bạn nào chưa xem có thể theo dõi lại tại đây.

Sau khi đã xử lý dữ liệu thô xong, chúng ta sẽ tới bước tiếp theo là visualize data. Đây là một trong những bước quan trọng bởi vì nó giúp các bạn có thể hình dung về tổng thể dữ liệu của các bạn một cách trực quan. Từ đó, các bạn có thể có những ý tưởng để khai thác và trả lời được câu hỏi được yêu cầu.

Outline bài này H sẻ chia sẻ những điểm sau:

  1. Một số nguyên lý về biểu đồ (graph)
  2. Tại sao lại dùng biểu đồ trong phân tích dữ liệu
  3. Các hệ thống biểu đồ có trong R

Bắt đầu thôi nào !

Một số nguyên lý về biểu đồ

Nguyên lý 1: thể hiện sự so sánh giữa các yếu tố. Lưu ý một câu hỏi quan trọng “so sánh với cái gì????”.

Nguyên lý 2: thể hiện mối quan hệ nhân quả, cơ chế, giải thích hoặc cấu trúc hệ thống.

Nguyên lý 3: thể hiện dữ liệu đa biến (trên 2 biến)

Nguyên lý 4: tổng hợp (tập hợp) của bằng chứng. Bằng chứng ở đây bao gồm từ ngữ, con số, hình ảnh, sơ đồ,…

Nguyên lý 5: mô tả và tài liệu hóa những bằng chứng bằng việc gán nhãn, đặt tên, đo lường,…

Nguyên lý 6: nội dung là vua (content is king). Các bài báo báo phân tích tốt hay xấu đều phụ thuộc vào chất lượng, mức độ phù hợp và tính toàn vẹn của data.

Tại sao lại dùng biểu đồ trong phân tích dữ liệu

  • Để hiểu các thuộc tính của dữ liệu (biến, quan hệ)
  • Tìm ra các mẫu trong dữ liệu (pattern)
  • Đề nghị một hô hình hóa nào đó (model strategies)
  • Để “debug” một phân tích đã có.
  • Để tìm hiểu về kết quả của một phân tích đã có.

Các hệ thống biểu đồ có trong R

Đối với dữ liệu một chiều hoặc bạn quan tâm đến 1 chiều của dữ liệu, trong R có các loại sau: boxplot, histogram.

Boxplot
Histogram

Còn đối các thể hiện dữ liệu nhiều chiều, trong R có hỗ trợ 3 loại:

base ploting: là thư viện được tích hợp sẵn trong R, không cần include bất kì library nào thêm. H đánh giá base là một trong những cách để plot dữ liệu nhanh, tiết kiệm thời gian và cũng có thể custom được khá dễ dàng.

Example of base plotting system in R

Ví dụ bên trên được vẽ bằng base plotting system bằng cách xử dụng function plot. Anh em có thể tham khảo cách sử dụng hàm này bằng cách gõ ?plot trong studio nhé. Sẽ rất chi tiết nếu H trình bày ở đây nên không tiện viết.

Như đã nói lúc nãy về việc custom một biểu đồ, base plotting system hỗ trợ anh em kết hợp nhiều yếu tố lại với nhau. Ví dụ anh em gọi lênh plot để show data, sau đó gọi thêm lệnh abline để show thêm một đường thẳng bất kì (kiểu đường trung bình như hình vẽ trên),…

lattice: khác với base plotting thì lattice plotting chỉ hỗ trợ tạo biểu đồ bằng một lệnh gọi duy nhất (thay vì kết hợp nhiều lệnh gọi như trong base plotting). Các lệnh phổ biến như xyplot, bwplot

Example of lattice plotting system in R

Vơi việc chỉ có thể gọi bằng 1 lệnh duy nhất và tất cả các style, margin đều được xử lý bên trong nên anh em khó có thể custom được. Tuy vậy, lattice plotting giúp anh em triển khai nhanh một plot mà không cần quan tâm quá đến việc style sao cho đẹp (tất cả đã có lattice lo), đặc biệt là đối với những biểu đồ dạng điều kiện so sánh 2 biến (x,y) thì lattice rất phù hợp.

ggplot2: là một sự kết hợp những lợi thế có được của base plotting và lattice plotting. Nó khá tường tự lattice ở chỗ việc style, margin đều được xử lý tự động bên trong. Tuy vậy, anh em vẫn có thể custom theo ý muốn, điều mà ở lattice plotting không làm được.

Example of ggplot2 system in R

Để sử dụng được ggplot2 bạn cần phải cài thư viện ggplot2

install.packages("ggplot2") library(ggplot2)

Có 2 function phổ biển trong ggplot2 là qplot (tạo nhanh biểu đồ) và ggplot (tạo biều đồ với nhiều chỉ định parameter hơn).

Như vậy bằng việc nắm bắt các nguyên lý trong việc visualize data và các công cụ hỗ trợ trong R, anh em có thể nhanh chóng có được những idea tốt, giúp cho công việc phân tích dữ liệu và trả lời câu hỏi được yêu cầu tốt hơn.

Trên đây là tất cả trong số này, anh em có gì thắc mắc hoặc muốn trao đổi thêm xin hãy để lại comment ở bên dưới nhé ! Chia sẻ để cùng tiến…

Chúc anh em có một tuần thật vui và đầy hứng khởi ! Hẹn gặp anh em ở số tiếp theo. 🙂

Rate this:

Từ khóa » Bài Tập Rstudio