Cách Nhận Xét Biểu đồ Scatter Plot Dễ Hiểu Nhất - TopLoigiai

Mục lục nội dung Khái niệmLý do chúng ta nên sử dụng biểu đồ phân tánNhững lưu ý khi thiết kế biểu đồ phân tánVí dụ về việc thiết kế biểu đồ phân tánPhân tích biểu đồ phân tán (tìm mối tương quan)

Khái niệm

Biểu đồ phân tán (hay tiếng anh còn gọi là scatter plot, scatter chart) sử dụng các dấu chấm để thể hiên giá trị (điểm giao nhau) của hai biến số khác nhau. Vị trí của mỗi dấu chấm trên trục tung và trục hoành tương ứng với một khía cạnh của một điểm dữ liệu riêng lẻ. Biểu đồ phân tán thường được sử dụng để quan sát mối tương quan giữa hai yếu tố khác nhau,

Nói một cách đơn giản, biểu đồ phân tán là một biểu đồ sử dụng tọa độ để hiển thị các giá trị của dữ liệu trong không gian 2 chiều. Và hai biến số của chúng ta được thể hiện trên trục tung (trục Y) và trục hoành (trục X).

Cách nhận xét biểu đồ scatter plot

Hình 1: Ví dụ đơn giản của một biểu đồ phân tán

Trong ví dụ ở trong hình trên, biểu đồ phân tán cho chúng ta biết được mối quan hệ giữa số lần truy cập trang của một trang web và số lượng người dùng đăng ký làm thành viên của trang web đó. Như bạn có thể thấy, 2 yếu tố này có một mối quan hệ tỉ lệ thuận với nhau, khi số lần truy cập tăng lên thì số lượng thành viên của trang cũng có xu hướng tăng theo.

Thông thướng, các biến được thể hiện theo trục hoành là các biến độc lập, là một biến liên tục (ví dụ như: tuổi tác) luôn được theo dõi và dưới sự kiểm soát của người thử nghiệm và biến theo trục tung là biến phụ thuộc, hoặc biến được sử dụng để đo lường, tính toán. Biến số của trục Y thay đổi dựa theo những thay đổi diễn ra đối với biến số ở trục X.

Có những trường hợp mà cả hai biến đều là những biến độc lập, khi này thì bạn sẽ không cần quá chú trọng vào việc xác định phải thể hiện biến nào ở trên trục nào. Tuy nhiên biểu đồ phân tán vẫn sẽ thể hiện bất kỳ mối tương quan nào giữa hai biến độc lập này.

Lý do chúng ta nên sử dụng biểu đồ phân tán

Nếu chúng ta chỉ đưa ra kết luận về giá trị của các dữ liệu sử dụng bảng biểu thì các kết luận thường không bao quát. Và việc tìm ra mối quan hệ giữa 2 biến số sẽ rất khó và không biết được chúng liên quan như thế nào. Đó chính là mục đích chủ yếu trong việc sử dụng dạng biểu đồ này: để quan sát và thể hiện mối quan hệ giữa hai biến số. Các dấu chấm trong biểu đồ phân tán không chỉ thể hiện giá trị của một điểm dữ liệu mà còn thể hiện xu hướng khi chúng ta nhìn tổng thể toàn bộ tập dữ liệu. Việc xác định các mối quan hệ tương quan thường được thể hiện bằng dạng biểu đồ này. Và trong những trường hợp như vậy, chúng ta sẽ muốn tìm hiểu xem, nếu chúng ta được yêu cầu dự đoán giá trị của biến số ở trục tung (biến phụ thuộc) khi được đưa một giá trị bất kỳ của biến số trên trục hoành (biến độc lập). Và mối tương quan của chúng ta có thể được diễn tả theo nhiều cách như: mối quan hệ tỉ lệ thuận hay tỉ lệ nghịch, có ảnh hưởng nhiều đến nhau hay không, và xu hướng của toàn bộ biểu đồ là đường thẳng hay dạng đường biểu diễn của chúng ta là dạng khác,

Cách nhận xét biểu đồ scatter plot (ảnh 2)

Hình 2: Các mối tương quan giữa 2 biến số trong biểu đồ phân tán

Những lưu ý khi thiết kế biểu đồ phân tán

Biểu đồ trở nên quá phức tạp

Khi chúng ta có một tập dữ liệu quá dày đặc, dẫn đến việc biểu đồ có quá nhiều điểm dữ liệu và trở nên vô cùng phức tạp. Đây là trường hợp khi các điểm dữ liệu (các chấm trên biểu đồ) chồng chất lên nhau ở mức độ mà việc nhận xét và tìm ra mối quan hệ giữa các điểm với các biến trên 2 trục là một việc gần như không thể. Việc này xảy ra khi mức độ dày đặc của các điểm dữ liệu chỉ xuất hiện ở trong một khu vực nhỏ.

Có một vài cách thông dụng trong việc giải quyết vấn đề này. Một hướng giải quyết là chúng ta chỉ thể hiện một tập hợp nhỏ của tập dữ liệu: một sự lựa chọn ngẫu nhiên của các biến số vẫn có thể cho chúng ta biết được mối tương quan và góc nhìn tổng thể về xu hướng của toàn bộ tập dữ liệu. Chúng ta cũng có thể thay đổi định dạng của các điểm dữ liệu trên biểu đồ. Thay vì thể hiện các điểm dữ liệu là các chấm đặc, chúng ta chỉ thể hiện phần viền. Hoặc bạn cũng có thể giảm đi kích thước của chúng để việc chồng chất ít xảy ra hơn. Cách giải quyết thứ 3 mà bạn có thể dùng là sử dụng heatmap (biểu đồ nhiệt kế), để thể hiện toàn bộ tập dữ liệu nhưng chỉ tập trung vào xu hướng của chúng.

Lầm tưởng mối tương quan giữa 2 biến là mối quan hệ nhân quả

Ngoại trừ lưu ý trong việc thể hiện quá nhiều dữ liệu, việc thiết kế biểu đồ phân tán không thực sự quá phức tạp như khi đưa ra những kết luận sử dụng biểu đồ này. Đơn giản là vì chúng ta có thể biết được mối quan hệ giữa 2 biến số trong biểu đồ phân tán không đồng nghĩa với việc các thay đổi của một biến số sẽ ảnh hưởng đến biển số còn lại trên biểu đồ. Việc này làm tôi nhớ đến một câu nói thường được dùng trong ngành thống kê: không phải bất kỳ mối quan hệ nào cũng là mối quan hệ nhân quả. Có thể có một biến số thứ 3 ảnh hưởng đến mối tương quan giữa 2 biến số mà chúng ta đang xem xét dẫn đến việc chúng ta lầm tưởng liên kết của 2 biến số này là mối quan hệ nhân quả.

Biểu đồ phân tán được sử dụng để phân tích các hình mẫu được sinh ra theo dạng tuyến tính, bờ dốc và độ tập trung.

  • Tuyến tính – Hình mẫu dữ liệu dạng tuyến tính / đường thẳng hoặc phi tuyến tính / cong.
Cách nhận xét biểu đồ scatter plot (ảnh 4)
  • Bờ dốc – Hướng thay đổi của giá trị Y theo sự tăng dần của giá trị X. Nếu Y tăng khi X tăng, dốc là dương, ngược lại, dốc sẽ là âm.
Cách nhận xét biểu đồ scatter plot (ảnh 4)
  • Độ tập trung – Mức độ dàn trải của các điểm phân tán trong biểu đồ. Nếu các điểm phân tán rộng, mối quan hệ sẽ là yếu. Nếu các điểm tập trung quanh một đường thẳng, quan hệ sẽ được coi là mạnh.
Cách nhận xét biểu đồ scatter plot (ảnh 5)

Ví dụ về việc thiết kế biểu đồ phân tán

Chúng ta hãy cùng xem xét một ví dụ thực tế, sử dụng các dữ liệu thể hiện doanh số của việc kinh doanh bất động sản ở thành phố Manhattan. Ví dụ này tôi sẽ sử dụng dữ liệu về diện tích của một bất động sản (diện tích dao động từ 100 mét vuông tới 500 mét vuông) với giá thành trên thị trường của nó.

Và tập dữ liệu chúng ta bao gồm 250 giá trị như sau:

Cách nhận xét biểu đồ scatter plot (ảnh 6)

Hình 3: Tập dữ liệu ví dụ của ngành bất động sản

Để tạo một biểu đồ phân tán, hãy đánh dấu cả hai cột dữ liệu (bao gồm cả hàng tiêu đề).

Sau đó nhấp vào Insert > Chart

Ban đầu Google Sheets sẽ tạo ra một biểu đồ cột, một biểu đồ vô cùng tệ hại, trong đó mỗi hàng trong số 250 hàng của tập dữ liệu sẽ được thể hiện bằng 1 cột. Èo!

Cách nhận xét biểu đồ scatter plot (ảnh 7)

Hình 4: Sử dụng biểu đồ cột để thể hiện tập dữ liệu ví dụ

Để có thể chuyển đổi thành biểu đồ phân tán, chúng ta chỉ cần phải làm như sau. Trên menu các dạng biểu đồ, trong tab Data, chỉ cần chọn dạng biểu đồ phân tán (Scatter), như được hiển thị trong hình sau:

Cách nhận xét biểu đồ scatter plot (ảnh 8)

Hình 5: Thay đổi thành dạng biểu đồ phân tán trong Google Sheets

Và bạn đã có một biểu đồ phân tán đẹp mắt!

Bây giờ tôi muốn bạn tập trung vào một điểm duy nhất (được hiển thị bằng màu đỏ trong hình dưới đây):

Cách nhận xét biểu đồ scatter plot (ảnh 9)

Hình 6: Chú ý vào dữ liệu để tìm ra các giá trị trên 2 trục (trục tung là giá thành - trục hoành là diện tích)

Bạn có thể đọc ra một cặp giá trị, trong trường hợp này là 3.000 square feet (khoảng 300 mét vuông) và 3.750 đô la. Hai giá trị này cho chúng ta biết rằng có một điểm dữ liệu (đại diện cho một bất động sản được bán ở Manhattan) rộng 300 mét vuông và có giá bán là 3.750 đô la.

Chúng ta có thể viết nó như một cặp tọa độ: (3.000, 3.750)

Do đó, mỗi dấu chấm, mỗi điểm dữ liệu trong biểu đồ của chúng ta thể hiện cho một cặp tọa độ thể hiện cho diện tích và giá thành của nó. Và mỗi điểm dữ liệu thể hiện cho một hàng trong tập dữ liệu ở trong bảng của chúng ta.

Đây chính là vẻ đẹp và giá trị thực sự của biểu đồ phân tán. Nó hiển thị tất cả các hàng dữ liệu đó trong một biểu đồ duy nhất, vì vậy chúng ta có thể biết được góc nhìn tổng thể của toàn bộ tập dữ liệu.

Phân tích biểu đồ phân tán (tìm mối tương quan)

Tất cả những điểm đó trên biểu đồ phân tán của bạn đều đẹp mắt và chúng đang cho thấy điều gì đó, nhưng cụ thể ý nghĩa là gì? Chúng ta còn có thể rút ra được điều gì khác từ biểu đồ ở trên không?

Nhưng nếu chỉ nhìn các dấu chấm ở trong biểu đồ thì có vẻ khó nhận ra được xu hướng, bạn có thể thêm một đường biểu diễn xu hướng như sau (được thể hiện bằng màu đỏ):

Cách nhận xét biểu đồ scatter plot (ảnh 10)

Hình 7: Thêm đường xu hướng vào trong biểu đồ

Và thao tác vừa rồi đã làm cho biểu đồ chúng ta trở nên hữu ích hơn rồi!

Nó cho thấy mối tương quan của chúng ta là tỉ lệ thuận, xu hướng chung của bất động sản tăng, đây cũng chính là những gì mà chúng ta dự đoán. Khi diện tích của bất động sản tăng lên, thì giá bán của nó cũng vậy.

Bây giờ, nếu chúng ta muốn dự đoán giá bán cho một diện tích nhất định, chẳng hạn 4.500 square feet, chúng ta có thể sử dụng đường này, bắt đầu ở điểm 4.500 square feet trên trục hoành, tìm điểm giao trên đường xu hướng và sau đó chuyển sang trục tung và đọc giá trị:

Cách nhận xét biểu đồ scatter plot (ảnh 11)

Hình 8: Đọc giá trị của các điểm dữ liệu sử dụng đường xu hướng

Dựa vào đây, chúng ta có thể dự đoán rằng một bất động sản có diện tích 4500 square feet (khoảng 450 mét vuông) sẽ có giá trị là 5900 đô la.

Và bạn cũng có thể đang thắc mắc rằng có cách nào khác để đưa ra các dự đoán như thế này dựa vào công thức không?

Chúng ta sẽ sử dụng phương trình của đường xu hướng để tính toán các con số này.

Phương trình đường thẳng có dạng cơ bản: y = ax + b

Vì vậy, để dự đoán y, chúng ta cần biết giá trị của x (là 4500 square feet trong trường hợp này) nhân với giá trị của a (là độ dốc của đường xu hướng) và cộng với giá trị của b (điểm giao nhau, hoặc nơi đường xu hướng cắt trục y).

Chúng ta sẽ tính toán giá trị a từ dữ liệu của mình bằng cách sử dụng hàm SLOPE với công thức như sau: =SLOPE( B2:B277, A2:A277 )

Kết quả chúng ta nhận được sẽ là: 1166.42218

Chúng ta sẽ tính toán giá trị b từ dữ liệu của mình bằng cách sử dụng hàm INTERCEPT với công thức như sau: =INTERCEPT( B2:B277 , A2:A277 )

Kết quả chúng ta nhận được sẽ là: 712264.7317

Sau đó, dự đoán giá trị của y trong trường hợp này sẽ là:

y = 1166.42218 x + 712264.7317

Thay giá trị của x bằng 4500 thì phương trình sẽ là:

y = 1166.42218 * 4500 + 712264.7317

Kết quả dự đoán cho giá trị y: $5,961,165

Từ khóa » Cách đọc Biểu đồ Scatter Plot