Tương Quan Thứ Hạng Spearman - 123doc
Có thể bạn quan tâm
Tương quan thứ hạng Spearman: Lịch sử, lý thuyết về hệ số tương quan thứ hạng Spearman, cách sử dụng tương quan thứ hạng, bộ dữ liệu, so sánh tương quan thứ hạng spearman và tương quan tuyến tính pearson, ứng dụng, ví dụ cụ thể, cách làm, công thức tính hệ số tương quan Spearman, tính hệ số tương quan Spearman trên R, Excel, SPSS, thống kê tương quan
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
TƯƠNG QUAN SPEARMAN
Hà Nội - 2021
Trang 2Mục lục
Trang 3DANH MỤC HÌNH ẢNH
Trang 4MỞ ĐẦUCác câu hỏi hằng ngày đặt ra trong công việc, cuộc sống như: Chỉ số IQ của trẻ có phụ thuộcvào thời gian xem các chương trình truyền hình hay không, điểm số của bộ môn Thống kê trongSinh học có phụ thuộc vào số giờ chuẩn bị bài tập trước ở nhà hay không, số lần xem quảng cáo
về sản phẩm A có ảnh hưởng đến mức độ quyết định mua sản phẩm đó không,…
Để giải quyết những câu hỏi trên, có một số thước đo để định lượng mức độ phụ thuộc thống
kê giữa các cặp dữ liệu quan sát Phổ biến nhất vẫn là tương quan Pearson - một phép đo thống
kê về độ mạnh của mối quan hệ tuyến tính giữa một biến độc lập và một biến phụ thuộc Tuynhiên, liệu tương quan Pearson có thực sự là một công cụ mạnh mẽ để đánh giá mọi mối tươngquan hay không?
Khó khăn đặt ra là để áp dụng tương quan Pearson thì dữ liệu phải có các yêu cầu sau:
- Thuộc dữ liệu khoảng hoặc mức tỷ lệ
- Có mối tương quan tuyến tính
- Bộ số liệu phải thuộc phân phối chuẩn
Nếu số liệu không đáp ứng các yêu cầu trên thì phải hướng đến một mối tương quan khác đểgiải quyết vấn đề Tương quan xếp hạng Spearman là một giải pháp hữu ích khắc phục được cáckhó khăn trên của tương quan Pearson
Tương quan xếp hạng Spearman đánh giá mối quan hệ đơn điệu giữa các giá trị được xếphạng Trong một mối quan hệ đơn điệu, các biến cũng có xu hướng thay đổi cùng nhau, nhưngkhông nhất thiết phải là mối quan hệ tuyến tính Bài tiểu luận sẽ đi tìm hiểu về các trường hợp sửdụng tương quan Spearman, cách tính và kiểm định hệ số tương quan Spearman, các bước tiếpcận và xử lý một ví dụ cụ thể bằng phần mềm Excel, R và SPSS
Hạn chế của đề tài: Vì chưa có khả năng cài đặt phần mềm SPSS nên các bước thực hiệnSPSS được lấy từ nguồn tài liệu tham khảo Một số bước xử lý số liệu còn mang tính chủ quan,
ví dụ như cách chọn kiểm tra phân phối chuẩn của bộ dữ liệu có nhiều cách khác nhau, khôngnhất thiết phải làm đúng cách tiếp cận như của bài luận này
Trang 5NỘI DUNG
1 Dẫn nhập
1.1 Lịch sử ra đời của tương quan Spearman
Tương quan Spearman được lấy tên từ chính cha đẻ của nó Charles Edward Spearman(10/9/1863 – 17/9/1945) là một nhà tâm lý học người Anh nổi tiếng với công việc trong lĩnhvực thống kê, là người tiên phong trong phân tích nhân tố
Nghiên cứu của ông về hệ số tương quan Spearman đã được công bố trên báo TheAmerican Journal of Psychology năm 1904 với tiêu đề “The Proof and Measurement ofAssociation between Two Things”
Trong báo cáo trên, ông thể hiện sự quan tâm đến các biến không thể đo đạc định lượngđược, lấy dẫn chứng trong câu nói của Galton “Chiều dài của cánh tay tương quan với chiều dàicủa chân, bởi vì một người có cánh tay dài thường có chân dài và ngược lại ", nhận thấy chúng
có mối tương quan nhưng không phải là những biến đo lường cụ thể được Hay từ câu nói “Mộtlần ghi chép sẽ dễ nhớ hơn một lần nghe”, dễ nhận thấy có mối tương quan giữa mức độ quan sátnhìn thấy dữ liệu với khả năng ghi nhớ dữ liệu đó của bộ não, tuy nhiên không thể dựng mộtcông thức hồi quy chính xác nào Tiếp theo ông cũng nhận thấy những vấn đề gặp phải khi sửdụng hệ số tương quan Pearson để đánh giá một số tương quan trong các thí nghiệm tâm lý học
và đưa ra những kết luận không có mức độ tin cậy cao Từ đó, ông đã đưa ra và chứng minhphương pháp đánh giá tương quan thứ hạng của mình và hệ số tương quan Spearman cũng ra đời
từ đó
1.2 Ý nghĩa của tương quan Spearman trong thực tế
Tương quan Spearman là một công cụ thống kê phân tích mối tương quan đơn điệu giữa mộtbiến độc lập và một biến phụ thuộc, dễ hiểu hơn là khi biến độc lập (X) tăng thì biến phụ thuộc Ycũng tăng (giảm) theo hay không Các biến được đánh giá bằng hệ số tương quan Spearmankhông cần bắt buộc phải có mối quan hệ tuyến tính và phân phối chuẩn nên sẽ được áp dụng ởnhiều trưởng hợp mà tương quan Pearson không thể hiện được ưu thế của nó Sử dụng tươngquan Spearman có thể trả lời được các câu hỏi sau đây:
Có mối quan hệ có ý nghĩa thống kê nào giữa trình độ học vấn của người tham gia (trung học,
cử nhân hoặc sau đại học) và mức lương khởi điểm của họ không?
Trang 6Có mối quan hệ có ý nghĩa thống kê nào giữa vị trí hoàn thành của ngựa trong cuộc đua và tuổi của ngựa không?
Trong Sinh học, tương quan Spearman có thể được ứng dụng trong nghiên cứu:
- Microarray để phân cụm các gen dựa vào mức độ tương quan trong biểu hiện giữa chúng
vì các dữ liệu thu thập được trong microarray khá nhiễu với các dữ liệu bất thường.Tương quan Spearman thực sự là một công cụ mạnh trong phân tích biểu hiện gen đãđược chứng minh qua nhiều nghiên cứu
- Được sử dụng trong nhiều nghiên cứu về sự tương quan hoạt động của các tế bào miễndịch (ví dụ: Sự tương quan giữa số lượng tế bào T hỗ trợ và tế bào plasmablast trongbệnh nhân bị sốt xuất huyết)
- Tác động này của một thuốc có mối tương quan với tác động khác của thuốc đó haykhông (Ví dụ: mối tương quan giữa giá trị IC 50 của hoạt tính chống sốt rét in vitro và giátrị IC 50 của hoạt tính chống haemozoin ở một số thuốc chloroquinoline, quinolines vàxanthones để xem liệu rằng thuốc có hiệu quả chống haemozoin tốt thì có liên quan đếnkhả năng điều trị sốt rét hay không)
Ngoài ra tương quan Spearman có thể được ứng dụng trong Page’s test: Các đối tượng nghiêncứu có thể được thực hiện nhiều lần thử nghiệm với cùng một nhiệm vụ và dự đoán rằng hiệusuất sẽ cải thiện từ thử nghiệm này sang thử nghiệm khác Một thử nghiệm về ý nghĩa của xuhướng giữa các điều kiện khác nhau được phát triển bởi Ellis Batten Page (1963) với giả thuyết:
Yêu cầu của bộ số liệu trong phân tích tương quan Spearman:
Số liệu là thuộc các dữ liệu: thứ tự, khoảng, tỉ lệ (phụ lục)
X và Y phải có mối liên hệ đơn điệu (có thể nhìn vào đồ thị phân tán để dự đoán)
Trang 7Phân tích tương quan Spearman sẽ được sử dụng trong bất kỳ trường hợp nào sau đây khicác giả định cơ bản của tương quan Pearson không được đáp ứng:
1. Nếu dữ liệu thể hiện một mối quan hệ phi tuyến tính hoặc không theo phân phối chuẩn
2. Nếu ít nhất có một biến là biến thứ tự
3. Nếu có số liệu bất thường, quá cao hoặc quá thấp so với các số liệu còn lại Không giống nhưtương quan Pearson, tương quan Spearman không nhạy cảm với các ngoại lệ trên vì nó thực hiệncác phép tính trên các cấp bậc, do đó sự chênh lệch giữa các giá trị ban đầu thực tế không có ýnghĩa và sẽ chuyển hết về dạng thứ bậc
Hình 2.1 So sánh giữa hệ số tương quan Spearman và hệ số tương quan Pearson trong một
2.2 Bộ số liệu t hứ hạng ràng buộc và thứ hạng không ràng buộc
Xếp hạng ràng buộc là khi hai mục trong một cột có cùng thứ hạng Giả sử hai mục trong ví
dụ trên được gắn cho thứ hạng 5 và 6 Hình ảnh sau đây cho thấy mỗi điểm dữ liệu ràng buộcđược gán một thứ hạng trung bình là 5,5:
Trang 8Hình 2.2 Ví dụ về bộ số liệu thứ hạng ràng buộc
Xếp hạng không có sự ràng buộc khi không có bất kì dữ liệu nào bị trùng hạng nhau, các thứ hạng đều để ở dạng số nguyên, như ví dụ minh họa sau:
Hình 2.3 Ví dụ về bộ số liệu thứ hạng không ràng buộc
2.3 Bộ số liệu ví dụ về áp dụng phương pháp tương quan Spearman trong việc xử lý biến thứ hạng.
Một mẫu gồm 1.000 công ty đã được hỏi về số lượng nhân viên và doanh thu của họtrong năm 2018 Sau khi hoàn thành việc thu thập dữ liệu, bảng dưới đây cho thấy kết quả
Trang 9Hình 2.4 Kết quả khảo sát về quy mô công ty và doanh thu của họ năm 2018
Câu hỏi đặt ra là quy mô công ty có liên quan đến doanh thu không? Nhìn kỹ vào bảng kết
quả cho thấy điều hiển nhiên: các công ty có nhiều nhân viên hơn thường tạo ra nhiều doanh thuhơn Nhưng lưu ý rằng mối quan hệ này không hoàn toàn như vậy: có 60 công ty với 1 nhân viênkiếm được 50.000 USD - 99.999 USD trong khi có 89 công ty với 2-5 nhân viên kiếm được từ 0
- 49.999 USD Mối quan hệ này trở nên rõ ràng nếu chúng ta hình dung kết quả trong biểu đồbên dưới
Hình 2.5 Biểu đồ cột thể hiện mối liên hệ dữa quy mô và doanh thu công ty
Biểu đồ cho thấy mối quan hệ tăng đơn điệu giữa quy mô và doanh thu: các công ty lớn
hơn có xu hướng tạo ra nhiều doanh thu hơn các công ty nhỏ hơn
Câu hỏi tiếp theo: Mối quan hệ mạnh mẽ như thế nào? Lựa chọn đầu tiên nghĩ đến là tínhtoán mối tương quan Pearson giữa quy mô công ty và doanh thu Tuy nhiên, điều đó sẽ khônghiệu quả vì không có quy mô công ty hoặc doanh thu trong dữ liệu này mà chỉ có các cấp bậc củaquy mô và doanh thu Quy mô công ty và doanh thu là các biến thứ tự trong dữ liệu của này:biết rằng 2-5 nhân viên lớn hơn 1 nhân viên nhưng không biết lớn hơn bao nhiêu
Trong trường hợp này, sử dụng tương quan cấp bậc của Spearman (Rs) = 0,81
(không trình bày cách tính cụ thể ở đây) Điều này cho chúng ta biết rằng các biến có tương quantăng đơn điệu rất mạnh Nhưng chúng ta không biết liệu mối quan hệ này có quan hệ tuyến tính ởmức độ nào hay không
Trang 102.4 Ví dụ về ứng dụng phương pháp tương quan Spearman trong lĩnh vực Sinh học
Ví dụ 1: Nghiên cứu về tương quan giữa lượng IL-21 và tế bào Th trong máu với lượng plasmablast ở bệnh nhân bị sốt xuất huyết cấp tính Tần số của tế bào plasmablast, IL-21 và Th được ghi lại và không tuân theo phân phối chuẩn (kiểm định Mann-Whitney U test two-tailed) Ở
đồ thị 3 có sự xuất hiện của các số liệu bất thường Tương quan Spearman được áp dụng trong trường hợp này:
Hình 2.
Tần số của plasmablasts ( n =14) tương quan đơn điệ tăng,mối quan hệ rất mạnh với tần
số của tế bào Tfh trong giaiđoạn nhiễm trùng cấp tính(Spearman r = 0,91, p
<0,0001) và với tần suất IL-21sản xuất tế bào Tfh trongnhiễm trùng cấp tính(Spearman r = 0,78, p
<0,0001)
Hình 2.6 Ứng dụng tương quan Spearman trong một nghiên cứu về miễn dịch học
Ví dụ 2: IL-33 chống lại sự tích mỡ, viêm liên quan đến béo phì, kháng insulin và bệnh đái tháo đường týp 2 Nghiên cứu về sự tương quan giữa nồng độ IL-33 với chỉ số BMI và trọng lượng cơ thể ở hai nhóm đối tượng không béo phì và béo phì cho kết quả được biểu diễn bằng đồ thị như sau
Trang 11Hình 2.7 Ứng dụng của hệ số tương quan Spearman trong nghiên cứu tương quan
giữa IL-22 với BMI và cân nặng
Tất cả các biến không tuân theo phân phối chuẩn (kiểm định D'Agostino-Pearson bằng phầnmềm GraphPad Prism (La Jolla, CA, USA)
Nồng độ IL-33 tương quan nghịch với chỉ số BMI ở trường hợp không béo phì (n = 18;
Spearman r = -0.76, P = 0.0003) nhưng lại không có mối tương quan ở trường hợp người béo phì (n = 13; r = 0.08, P = 0.8) IL-33 có mối tương quan nghịch, độ mạnh trung bình với cân nặng của người không béo phì (n = 18; Spearman r = -0.57, P = 0.013) nhưng không tương quan với
cân nặng ở người béo phì (n = 13; r = -0.115, P = 0.7)
3 Lý thuyết
3.1 Hàm đơn điệu là gì?
Để hiểu mối tương quan của Spearman, cần phải biết thế nào là hàm đơn điệu Một hàm đơn điệu là một hàm không bao giờ tăng hoặc không bao giờ giảm khi biến độc lập của nó tăng lên Các đồ thị sau minh họa tính đơn điệu
a Hàm đơn điệu tăng - khi biến x tăng thì biến y không bao giờ giảm;
Trang 12b Hàm đơn điệu giảm - khi biến x tăng thì biến y không bao giờ tăng;
c Không đơn điệu - khi biến x tăng thì biến y có lúc giảm có lúc tăng
Hình 3.1 Đồ thị thể hiện các dạng khác nhau của hàm đơn điệu
3.2 Hệ số tương quan Spearman
3.2.1 Khái niệm và các các thuộc tính cơ bản của hệ số tương quan Spearman
Hệ số tương quan Spearman (rs hay ρ) là một thước đo phi tham số về tương quan thứ hạng ( sự phụ thuộc thống kê giữa thứ hạng của hai biến ) Nó đánh giá độ mạnh của mối quan
hệ đơn điệu giữa một X (biến độc lập) và biến Y (biến phụ thuộc)
Dấu của hệ số tương quan Spearman cho biết hướng liên hệ giữa X và Y Nếu Y có xuhướng tăng khi X tăng, ρ là số dương Nếu Y có xu hướng giảm khi X tăng, ρ mang dấu
âm Tương quan Spearman bằng 0 chỉ ra rằng Y không có xu hướng tăng hoặc giảm khi X tăng
Khi X và Y có quan hệ đơn điệu hoàn hảo, hệ số tương quan Spearman đạt được giá trị -1 và 1
Mối quan hệ tăng đơn điệu hoàn hảo (rs=1) cho thấy rằng với hai cặp giá trị dữ liệu bất
kỳ X i - X j và Y i - Y j luôn cùng dấu Mối quan hệ giảm đơn điệu hoàn hảo (rs=-1) chỉ ra rằng cặp
dữ liệu trên luôn có dấu trái nhau
Dựa vào giá trị tuyệt đối của rs để đánh giá độ mạnh của mối quan hệ đơn điệu:
Trang 13Hình 3.2 Một số ví dụ về hệ số tương quan Spearman ở các đồ thị khác nhau
Hệ số tương quan Spearman hoàn hảo (tức là đạt giá trị -1 hoặc 1) khi X và Y có liên quan vớinhau bởi bất kỳ hàm đơn điệu nào (có thể không tuyến tính) Trong khi đó, hệ số tương quanpearson chỉ cho giá trị hoàn hảo khi X và Y liên quan với nhau bằng một hàm tuyến tính
3.2.2 Công thức tính hệ số tương quan Spearman
3.2.2.1 Công thức tính hệ số tương quan Spearman cho bộ dữ liệu xếp hạng
không ràng buộc
Hệ số tương quan Spearman còn được xem như là hệ số tương quan Pearson giữa các biến thứhạng và biểu hiện qua công thức sau:
biểu thị hệ số tương quan Pearson thông thường, áp dụng cho các biến xếp hạng
: hiệp phương sai của các biến thứ hạng
Trang 14: độ lệch chuẩn của các biến thứ hạng
Ở bộ dữ liệu xếp hạng không ràng buộc, có thể tính toán bằng công thức đơn giản sau:
3.2.2.2 Công thức tính hệ số tương quan Spearman cho bộ dữ liệu xếp hạng
ràng buộc
Hình 3.3 Ví dụ về cách tính ρ trong trường hợp bộ dữ liệu thứ hạng ràng buộc
Ở trường hợp này, có nhiều lựa chọn khác nhau Chúng ta cũng có thể sử dụng công thức dễdàng như ở trên cho các cấp bậc ràng buộc nếu chỉ có một hoặc hai cấp bậc bị trùng Tuy nhiên,
cách chọn đó có thể khiến người dùng không tin tưởng vào giá trị p ở kết quả (Kinnear và Grey,
1999) Một lựa chọn tốt hơn có thể là tính toán mối tương quan với một phương pháp khác là
Kendall’ Tau
Một lựa chọn khác chỉ đơn giản là sử dụng phiên bản đầy đủ của công thức Spearman (thực ra
là rp của Pearson được sửa đổi một chút ), sẽ giải quyết các cấp bậc bị ràng buộc:
Full Spearman’s r formula (Clef, 2013 p 4)
• R (x) và R (y) là cấp bậc của biến x và biến y
Trang 15Để kiểm định giả thuyết Ho ở trên, có thể sử dụng test thống kê T-test thuộc phân phối studentvới bậc tự do là n-2.
So sánh giá trị t vừa tính được với giá trị t lý thuyết trong kiểm định 2 phía (tcrit là phân vị thứα/2 thuộc phân phối student với bậc tự do là n-2)
Nếu |tstat| > tcrit thì bác bỏ giả thuyết Ho với độ tin cậy 1-α cho trước Khẳng định sự tồn tại của
hệ số tương quan tuyến tính Spearman cũng như mối tương quan đơn điệu của hai biến
Cách thứ hai là sử dụng phép biển đổi fisher với công thức:
trong đó F(r): là biến đổi fisher của hệ số tương quan spearman r của mẫu quan sát (kích thước n) Tiếp theo sử dụng z-score cho r với công thức
và so sánh với Z crtit là phân vị thứ α/2 Nếu |z| > zcrit => Bác bỏ giả thuyết Ho với độ tin cậy 1 – α cho trước
Một cách nữa để kiểm tra giả thuyết Ho là sử dụng kiểm định hoán vị Ưu điểm của cách tiếp cận này là nó tự động tính đến số lượng giá trị dữ liệu ràng buộc trong mẫu và thể hiện ưu điểm vượt trội khi xử lý tính toán mối tương quan thứ hạng
Trang 164 Ví dụ thực tế
Đề bài: Dữ liệu sau đây ghi lại nồng độ Uranium (ppb) và nồng độ chất rắn hòa tan (mg / L)
ở 23 mẫu nước ngầm đã được thu thập:
ST T
Uranium conc (ppb)
TDS (mg/L)
ST T
Uranium conc (ppb)
TDS (mg/L)
Kiểm tra sự tương quan của hai biến trên
4.1 Thực hành phân tích tương quan Spearman trên phần mềm Excel
Đáng tiếc, Excel không có chức năng sẵn có để tính hệ số tương quan xếp hạng Spearman.Tuy nhiên, bằng một số thao tác với Excel, chúng ta có thể đưa ra các cách đơn giản hơn để thựchiện tương quan Spearman
Từ khóa » Hệ Số Tương Quan Thứ Hạng Spearman Là Gì
-
Thống Kê Mô Tả Trong Nghiên Cứu – Các đại Lượng Về Sự Tương Quan
-
Bài 1. Tương Quan Thứ Tự Xếp Hạng Spearman (Spearman's Rho)
-
Spearman Tương Quan Xếp Hạng Trong Excel: Công Thức Và đồ Thị
-
Hệ Số Tương Quan Bậc Spearman - DELACHIEVE.COM
-
Tương Quan Hạng Spearman - TRUNG TÂM HỖ TRỢ NGHIÊN CỨU
-
Hệ Số Tương Quan Hạng Spearman - VietLOD
-
Tính Hệ Số Tương Quan Thứ Hạng Của Spearman Bằng Python Với ...
-
Tương Quan Thứ Hạng Spearman - Tài Liệu Text - 123doc
-
Phân Tích Tương Quan Spearman, Giao Dịch Thực Tế Trong Các Ví Dụ ...
-
SRCC định Nghĩa: Spearman Của Hệ Số Tương Quan Xếp Hạng
-
Công Thức Hệ Số Tương Quan Spearman - Mua Trâu
-
Correlation Coefficient - RPubs
-
Sự Phức Tạp Của Tính Toán Hệ Số Tương Quan Xếp Hạng Của ...
-
Hệ Số Tương Quan Pearson | Top #1 Cách Phân Tích Trong Stata