Tương Quan Thứ Hạng Spearman - 123doc

Tương quan thứ hạng Spearman: Lịch sử, lý thuyết về hệ số tương quan thứ hạng Spearman, cách sử dụng tương quan thứ hạng, bộ dữ liệu, so sánh tương quan thứ hạng spearman và tương quan tuyến tính pearson, ứng dụng, ví dụ cụ thể, cách làm, công thức tính hệ số tương quan Spearman, tính hệ số tương quan Spearman trên R, Excel, SPSS, thống kê tương quan

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TƯƠNG QUAN SPEARMAN

Hà Nội - 2021

Trang 2

Mục lục

Trang 3

DANH MỤC HÌNH ẢNH

Trang 4

MỞ ĐẦUCác câu hỏi hằng ngày đặt ra trong công việc, cuộc sống như: Chỉ số IQ của trẻ có phụ thuộcvào thời gian xem các chương trình truyền hình hay không, điểm số của bộ môn Thống kê trongSinh học có phụ thuộc vào số giờ chuẩn bị bài tập trước ở nhà hay không, số lần xem quảng cáo

về sản phẩm A có ảnh hưởng đến mức độ quyết định mua sản phẩm đó không,…

Để giải quyết những câu hỏi trên, có một số thước đo để định lượng mức độ phụ thuộc thống

kê giữa các cặp dữ liệu quan sát Phổ biến nhất vẫn là tương quan Pearson - một phép đo thống

kê về độ mạnh của mối quan hệ tuyến tính giữa một biến độc lập và một biến phụ thuộc Tuynhiên, liệu tương quan Pearson có thực sự là một công cụ mạnh mẽ để đánh giá mọi mối tươngquan hay không?

Khó khăn đặt ra là để áp dụng tương quan Pearson thì dữ liệu phải có các yêu cầu sau:

- Thuộc dữ liệu khoảng hoặc mức tỷ lệ

- Có mối tương quan tuyến tính

- Bộ số liệu phải thuộc phân phối chuẩn

Nếu số liệu không đáp ứng các yêu cầu trên thì phải hướng đến một mối tương quan khác đểgiải quyết vấn đề Tương quan xếp hạng Spearman là một giải pháp hữu ích khắc phục được cáckhó khăn trên của tương quan Pearson

Tương quan xếp hạng Spearman đánh giá mối quan hệ đơn điệu giữa các giá trị được xếphạng Trong một mối quan hệ đơn điệu, các biến cũng có xu hướng thay đổi cùng nhau, nhưngkhông nhất thiết phải là mối quan hệ tuyến tính Bài tiểu luận sẽ đi tìm hiểu về các trường hợp sửdụng tương quan Spearman, cách tính và kiểm định hệ số tương quan Spearman, các bước tiếpcận và xử lý một ví dụ cụ thể bằng phần mềm Excel, R và SPSS

Hạn chế của đề tài: Vì chưa có khả năng cài đặt phần mềm SPSS nên các bước thực hiệnSPSS được lấy từ nguồn tài liệu tham khảo Một số bước xử lý số liệu còn mang tính chủ quan,

ví dụ như cách chọn kiểm tra phân phối chuẩn của bộ dữ liệu có nhiều cách khác nhau, khôngnhất thiết phải làm đúng cách tiếp cận như của bài luận này

Trang 5

NỘI DUNG

1 Dẫn nhập

1.1 Lịch sử ra đời của tương quan Spearman

Tương quan Spearman được lấy tên từ chính cha đẻ của nó Charles Edward Spearman(10/9/1863 – 17/9/1945) là một nhà tâm lý học người Anh nổi tiếng với công việc trong lĩnhvực thống kê, là người tiên phong trong phân tích nhân tố

Nghiên cứu của ông về hệ số tương quan Spearman đã được công bố trên báo TheAmerican Journal of Psychology năm 1904 với tiêu đề “The Proof and Measurement ofAssociation between Two Things”

Trong báo cáo trên, ông thể hiện sự quan tâm đến các biến không thể đo đạc định lượngđược, lấy dẫn chứng trong câu nói của Galton “Chiều dài của cánh tay tương quan với chiều dàicủa chân, bởi vì một người có cánh tay dài thường có chân dài và ngược lại ", nhận thấy chúng

có mối tương quan nhưng không phải là những biến đo lường cụ thể được Hay từ câu nói “Mộtlần ghi chép sẽ dễ nhớ hơn một lần nghe”, dễ nhận thấy có mối tương quan giữa mức độ quan sátnhìn thấy dữ liệu với khả năng ghi nhớ dữ liệu đó của bộ não, tuy nhiên không thể dựng mộtcông thức hồi quy chính xác nào Tiếp theo ông cũng nhận thấy những vấn đề gặp phải khi sửdụng hệ số tương quan Pearson để đánh giá một số tương quan trong các thí nghiệm tâm lý học

và đưa ra những kết luận không có mức độ tin cậy cao Từ đó, ông đã đưa ra và chứng minhphương pháp đánh giá tương quan thứ hạng của mình và hệ số tương quan Spearman cũng ra đời

từ đó

1.2 Ý nghĩa của tương quan Spearman trong thực tế

Tương quan Spearman là một công cụ thống kê phân tích mối tương quan đơn điệu giữa mộtbiến độc lập và một biến phụ thuộc, dễ hiểu hơn là khi biến độc lập (X) tăng thì biến phụ thuộc Ycũng tăng (giảm) theo hay không Các biến được đánh giá bằng hệ số tương quan Spearmankhông cần bắt buộc phải có mối quan hệ tuyến tính và phân phối chuẩn nên sẽ được áp dụng ởnhiều trưởng hợp mà tương quan Pearson không thể hiện được ưu thế của nó Sử dụng tươngquan Spearman có thể trả lời được các câu hỏi sau đây:

Có mối quan hệ có ý nghĩa thống kê nào giữa trình độ học vấn của người tham gia (trung học,

cử nhân hoặc sau đại học) và mức lương khởi điểm của họ không?

Trang 6

Có mối quan hệ có ý nghĩa thống kê nào giữa vị trí hoàn thành của ngựa trong cuộc đua và tuổi của ngựa không?

Trong Sinh học, tương quan Spearman có thể được ứng dụng trong nghiên cứu:

- Microarray để phân cụm các gen dựa vào mức độ tương quan trong biểu hiện giữa chúng

vì các dữ liệu thu thập được trong microarray khá nhiễu với các dữ liệu bất thường.Tương quan Spearman thực sự là một công cụ mạnh trong phân tích biểu hiện gen đãđược chứng minh qua nhiều nghiên cứu

- Được sử dụng trong nhiều nghiên cứu về sự tương quan hoạt động của các tế bào miễndịch (ví dụ: Sự tương quan giữa số lượng tế bào T hỗ trợ và tế bào plasmablast trongbệnh nhân bị sốt xuất huyết)

- Tác động này của một thuốc có mối tương quan với tác động khác của thuốc đó haykhông (Ví dụ: mối tương quan giữa giá trị IC 50 của hoạt tính chống sốt rét in vitro và giátrị IC 50 của hoạt tính chống haemozoin ở một số thuốc chloroquinoline, quinolines vàxanthones để xem liệu rằng thuốc có hiệu quả chống haemozoin tốt thì có liên quan đếnkhả năng điều trị sốt rét hay không)

Ngoài ra tương quan Spearman có thể được ứng dụng trong Page’s test: Các đối tượng nghiêncứu có thể được thực hiện nhiều lần thử nghiệm với cùng một nhiệm vụ và dự đoán rằng hiệusuất sẽ cải thiện từ thử nghiệm này sang thử nghiệm khác Một thử nghiệm về ý nghĩa của xuhướng giữa các điều kiện khác nhau được phát triển bởi Ellis Batten Page (1963) với giả thuyết:

Yêu cầu của bộ số liệu trong phân tích tương quan Spearman:

Số liệu là thuộc các dữ liệu: thứ tự, khoảng, tỉ lệ (phụ lục)

 X và Y phải có mối liên hệ đơn điệu (có thể nhìn vào đồ thị phân tán để dự đoán)

Trang 7

Phân tích tương quan Spearman sẽ được sử dụng trong bất kỳ trường hợp nào sau đây khicác giả định cơ bản của tương quan Pearson không được đáp ứng:

1. Nếu dữ liệu thể hiện một mối quan hệ phi tuyến tính hoặc không theo phân phối chuẩn

2. Nếu ít nhất có một biến là biến thứ tự

3. Nếu có số liệu bất thường, quá cao hoặc quá thấp so với các số liệu còn lại Không giống nhưtương quan Pearson, tương quan Spearman không nhạy cảm với các ngoại lệ trên vì nó thực hiệncác phép tính trên các cấp bậc, do đó sự chênh lệch giữa các giá trị ban đầu thực tế không có ýnghĩa và sẽ chuyển hết về dạng thứ bậc

Hình 2.1 So sánh giữa hệ số tương quan Spearman và hệ số tương quan Pearson trong một

2.2 Bộ số liệu t hứ hạng ràng buộc và thứ hạng không ràng buộc

Xếp hạng ràng buộc là khi hai mục trong một cột có cùng thứ hạng Giả sử hai mục trong ví

dụ trên được gắn cho thứ hạng 5 và 6 Hình ảnh sau đây cho thấy mỗi điểm dữ liệu ràng buộcđược gán một thứ hạng trung bình là 5,5:

Trang 8

Hình 2.2 Ví dụ về bộ số liệu thứ hạng ràng buộc

Xếp hạng không có sự ràng buộc khi không có bất kì dữ liệu nào bị trùng hạng nhau, các thứ hạng đều để ở dạng số nguyên, như ví dụ minh họa sau:

Hình 2.3 Ví dụ về bộ số liệu thứ hạng không ràng buộc

2.3 Bộ số liệu ví dụ về áp dụng phương pháp tương quan Spearman trong việc xử lý biến thứ hạng.

Một mẫu gồm 1.000 công ty đã được hỏi về số lượng nhân viên và doanh thu của họtrong năm 2018 Sau khi hoàn thành việc thu thập dữ liệu, bảng dưới đây cho thấy kết quả

Trang 9

Hình 2.4 Kết quả khảo sát về quy mô công ty và doanh thu của họ năm 2018

Câu hỏi đặt ra là quy mô công ty có liên quan đến doanh thu không? Nhìn kỹ vào bảng kết

quả cho thấy điều hiển nhiên: các công ty có nhiều nhân viên hơn thường tạo ra nhiều doanh thuhơn Nhưng lưu ý rằng mối quan hệ này không hoàn toàn như vậy: có 60 công ty với 1 nhân viênkiếm được 50.000 USD - 99.999 USD trong khi có 89 công ty với 2-5 nhân viên kiếm được từ 0

- 49.999 USD Mối quan hệ này trở nên rõ ràng nếu chúng ta hình dung kết quả trong biểu đồbên dưới

Hình 2.5 Biểu đồ cột thể hiện mối liên hệ dữa quy mô và doanh thu công ty

Biểu đồ cho thấy mối quan hệ tăng đơn điệu giữa quy mô và doanh thu: các công ty lớn

hơn có xu hướng tạo ra nhiều doanh thu hơn các công ty nhỏ hơn

Câu hỏi tiếp theo: Mối quan hệ mạnh mẽ như thế nào? Lựa chọn đầu tiên nghĩ đến là tínhtoán mối tương quan Pearson giữa quy mô công ty và doanh thu Tuy nhiên, điều đó sẽ khônghiệu quả vì không có quy mô công ty hoặc doanh thu trong dữ liệu này mà chỉ có các cấp bậc củaquy mô và doanh thu Quy mô công ty và doanh thu là các biến thứ tự trong dữ liệu của này:biết rằng 2-5 nhân viên lớn hơn 1 nhân viên nhưng không biết lớn hơn bao nhiêu

Trong trường hợp này, sử dụng tương quan cấp bậc của Spearman (Rs) = 0,81

(không trình bày cách tính cụ thể ở đây) Điều này cho chúng ta biết rằng các biến có tương quantăng đơn điệu rất mạnh Nhưng chúng ta không biết liệu mối quan hệ này có quan hệ tuyến tính ởmức độ nào hay không

Trang 10

2.4 Ví dụ về ứng dụng phương pháp tương quan Spearman trong lĩnh vực Sinh học

Ví dụ 1: Nghiên cứu về tương quan giữa lượng IL-21 và tế bào Th trong máu với lượng plasmablast ở bệnh nhân bị sốt xuất huyết cấp tính Tần số của tế bào plasmablast, IL-21 và Th được ghi lại và không tuân theo phân phối chuẩn (kiểm định Mann-Whitney U test two-tailed) Ở

đồ thị 3 có sự xuất hiện của các số liệu bất thường Tương quan Spearman được áp dụng trong trường hợp này:

Hình 2.

Tần số của plasmablasts ( n  =14) tương quan đơn điệ tăng,mối quan hệ rất mạnh với tần

số của tế bào Tfh trong giaiđoạn nhiễm trùng cấp tính(Spearman r  = 0,91, p  

<0,0001) và với tần suất IL-21sản xuất tế bào Tfh trongnhiễm trùng cấp tính(Spearman r  = 0,78, p  

<0,0001)

Hình 2.6 Ứng dụng tương quan Spearman trong một nghiên cứu về miễn dịch học

Ví dụ 2: IL-33 chống lại sự tích mỡ, viêm liên quan đến béo phì, kháng insulin và bệnh đái tháo đường týp 2 Nghiên cứu về sự tương quan giữa nồng độ IL-33 với chỉ số BMI và trọng lượng cơ thể ở hai nhóm đối tượng không béo phì và béo phì cho kết quả được biểu diễn bằng đồ thị như sau

Trang 11

Hình 2.7 Ứng dụng của hệ số tương quan Spearman trong nghiên cứu tương quan

giữa IL-22 với BMI và cân nặng

Tất cả các biến không tuân theo phân phối chuẩn (kiểm định D'Agostino-Pearson bằng phầnmềm GraphPad Prism (La Jolla, CA, USA)

Nồng độ IL-33 tương quan nghịch với chỉ số BMI ở trường hợp không béo phì (n = 18;

Spearman r = -0.76, P = 0.0003) nhưng lại không có mối tương quan ở trường hợp người béo phì (n = 13; r = 0.08, P = 0.8) IL-33 có mối tương quan nghịch, độ mạnh trung bình với cân nặng của người không béo phì (n = 18; Spearman r = -0.57, P = 0.013) nhưng không tương quan với

cân nặng ở người béo phì (n = 13; r = -0.115, P = 0.7)

3 Lý thuyết

3.1 Hàm đơn điệu là gì?

Để hiểu mối tương quan của Spearman, cần phải biết thế nào là hàm đơn điệu Một hàm đơn điệu là một hàm không bao giờ tăng hoặc không bao giờ giảm khi biến độc lập của nó tăng lên Các đồ thị sau minh họa tính đơn điệu

a Hàm đơn điệu tăng - khi biến x tăng thì biến y không bao giờ giảm;

Trang 12

b Hàm đơn điệu giảm - khi biến x tăng thì biến y không bao giờ tăng;

c Không đơn điệu - khi biến x tăng thì biến y có lúc giảm có lúc tăng

Hình 3.1 Đồ thị thể hiện các dạng khác nhau của hàm đơn điệu

3.2 Hệ số tương quan Spearman

3.2.1 Khái niệm và các các thuộc tính cơ bản của hệ số tương quan Spearman

Hệ số tương quan Spearman (rs hay ρ) là một thước đo phi tham số về tương quan thứ hạng ( sự phụ thuộc thống kê giữa thứ hạng của hai biến ) Nó đánh giá độ mạnh của mối quan

hệ đơn điệu giữa một X (biến độc lập) và biến Y (biến phụ thuộc)

Dấu của hệ số tương quan Spearman cho biết hướng liên hệ giữa X và Y Nếu Y có xuhướng tăng khi X tăng, ρ là số dương Nếu Y có xu hướng giảm khi X tăng, ρ mang dấu

âm Tương quan Spearman bằng 0 chỉ ra rằng Y không có xu hướng tăng hoặc giảm khi X tăng

Khi X và Y có quan hệ đơn điệu hoàn hảo, hệ số tương quan Spearman đạt được giá trị -1 và 1

Mối quan hệ tăng đơn điệu hoàn hảo (rs=1) cho thấy rằng với hai cặp giá trị dữ liệu bất

kỳ X i - X j và Y i - Y j luôn cùng dấu Mối quan hệ giảm đơn điệu hoàn hảo (rs=-1) chỉ ra rằng cặp

dữ liệu trên luôn có dấu trái nhau

Dựa vào giá trị tuyệt đối của rs để đánh giá độ mạnh của mối quan hệ đơn điệu:

Trang 13

Hình 3.2 Một số ví dụ về hệ số tương quan Spearman ở các đồ thị khác nhau

Hệ số tương quan Spearman hoàn hảo (tức là đạt giá trị -1 hoặc 1) khi X và Y có liên quan vớinhau bởi bất kỳ hàm đơn điệu nào (có thể không tuyến tính) Trong khi đó, hệ số tương quanpearson chỉ cho giá trị hoàn hảo khi X và Y liên quan với nhau bằng một hàm tuyến tính

3.2.2 Công thức tính hệ số tương quan Spearman

3.2.2.1 Công thức tính hệ số tương quan Spearman cho bộ dữ liệu xếp hạng

không ràng buộc

Hệ số tương quan Spearman còn được xem như là hệ số tương quan Pearson giữa các biến thứhạng và biểu hiện qua công thức sau:

biểu thị hệ số tương quan Pearson thông thường, áp dụng cho các biến xếp hạng

: hiệp phương sai của các biến thứ hạng

Trang 14

: độ lệch chuẩn của các biến thứ hạng

Ở bộ dữ liệu xếp hạng không ràng buộc, có thể tính toán bằng công thức đơn giản sau:

3.2.2.2 Công thức tính hệ số tương quan Spearman cho bộ dữ liệu xếp hạng

ràng buộc

Hình 3.3 Ví dụ về cách tính ρ trong trường hợp bộ dữ liệu thứ hạng ràng buộc

Ở trường hợp này, có nhiều lựa chọn khác nhau Chúng ta cũng có thể sử dụng công thức dễdàng như ở trên cho các cấp bậc ràng buộc nếu chỉ có một hoặc hai cấp bậc bị trùng Tuy nhiên,

cách chọn đó có thể khiến người dùng không tin tưởng vào giá trị p ở kết quả (Kinnear và Grey,

1999) Một lựa chọn tốt hơn có thể là tính toán mối tương quan với một phương pháp khác là

Kendall’ Tau

Một lựa chọn khác chỉ đơn giản là sử dụng phiên bản đầy đủ của công thức Spearman (thực ra

là rp của Pearson được sửa đổi một chút ), sẽ giải quyết các cấp bậc bị ràng buộc:

Full Spearman’s r formula (Clef, 2013 p 4)

R (x) và R (y) là cấp bậc của biến x và biến y

Trang 15

Để kiểm định giả thuyết Ho ở trên, có thể sử dụng test thống kê T-test thuộc phân phối studentvới bậc tự do là n-2.

So sánh giá trị t vừa tính được với giá trị t lý thuyết trong kiểm định 2 phía (tcrit là phân vị thứα/2 thuộc phân phối student với bậc tự do là n-2)

Nếu |tstat| > tcrit thì bác bỏ giả thuyết Ho với độ tin cậy 1-α cho trước Khẳng định sự tồn tại của

hệ số tương quan tuyến tính Spearman cũng như mối tương quan đơn điệu của hai biến

Cách thứ hai là sử dụng phép biển đổi fisher với công thức:

trong đó F(r): là biến đổi fisher của hệ số tương quan spearman r của mẫu quan sát (kích thước n) Tiếp theo sử dụng z-score cho r với công thức

và so sánh với Z crtit là phân vị thứ α/2 Nếu |z| > zcrit => Bác bỏ giả thuyết Ho với độ tin cậy 1 – α cho trước

Một cách nữa để kiểm tra giả thuyết Ho là sử dụng kiểm định hoán vị Ưu điểm của cách tiếp cận này là nó tự động tính đến số lượng giá trị dữ liệu ràng buộc trong mẫu và thể hiện ưu điểm vượt trội khi xử lý tính toán mối tương quan thứ hạng

Trang 16

4 Ví dụ thực tế

Đề bài: Dữ liệu sau đây ghi lại nồng độ Uranium (ppb) và nồng độ chất rắn hòa tan (mg / L)

ở 23 mẫu nước ngầm đã được thu thập:

ST T

Uranium conc (ppb)

TDS (mg/L)

ST T

Uranium conc (ppb)

TDS (mg/L)

Kiểm tra sự tương quan của hai biến trên

4.1 Thực hành phân tích tương quan Spearman trên phần mềm Excel

Đáng tiếc, Excel không có chức năng sẵn có để tính hệ số tương quan xếp hạng Spearman.Tuy nhiên, bằng một số thao tác với Excel, chúng ta có thể đưa ra các cách đơn giản hơn để thựchiện tương quan Spearman

Từ khóa » Hệ Số Tương Quan Thứ Hạng Spearman Là Gì