Tương Quan Thứ Hạng Spearman - Tài Liệu Text - 123doc

Tải bản đầy đủ (.docx) (27 trang)
  1. Trang chủ
  2. >>
  3. Khoa Học Tự Nhiên
  4. >>
  5. Toán học
Tương quan thứ hạng Spearman

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.83 MB, 27 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNTƯƠNG QUAN SPEARMANHà Nội - 2021 Mục lục DANH MỤC HÌNH ẢNH MỞ ĐẦUCác câu hỏi hằng ngày đặt ra trong công việc, cuộc sống như: Chỉ số IQ của trẻ có phụ thuộcvào thời gian xem các chương trình truyền hình hay không, điểm số của bộ môn Thống kê trongSinh học có phụ thuộc vào số giờ chuẩn bị bài tập trước ở nhà hay không, số lần xem quảng cáovề sản phẩm A có ảnh hưởng đến mức độ quyết định mua sản phẩm đó khơng,…Để giải quyết những câu hỏi trên, có một số thước đo để định lượng mức độ phụ thuộc thốngkê giữa các cặp dữ liệu quan sát. Phổ biến nhất vẫn là tương quan Pearson - một phép đo thốngkê về độ mạnh của mối quan hệ tuyến tính giữa một biến độc lập và một biến phụ thuộc. Tuynhiên, liệu tương quan Pearson có thực sự là một cơng cụ mạnh mẽ để đánh giá mọi mối tươngquan hay khơng?Khó khăn đặt ra là để áp dụng tương quan Pearson thì dữ liệu phải có các yêu cầu sau:-Thuộc dữ liệu khoảng hoặc mức tỷ lệCó mối tương quan tuyến tínhBộ số liệu phải thuộc phân phối chuẩnNếu số liệu không đáp ứng các yêu cầu trên thì phải hướng đến một mối tương quan khác đểgiải quyết vấn đề. Tương quan xếp hạng Spearman là một giải pháp hữu ích khắc phục được cáckhó khăn trên của tương quan Pearson.Tương quan xếp hạng Spearman đánh giá mối quan hệ đơn điệu giữa các giá trị được xếphạng. Trong một mối quan hệ đơn điệu, các biến cũng có xu hướng thay đổi cùng nhau, nhưngkhông nhất thiết phải là mối quan hệ tuyến tính. Bài tiểu luận sẽ đi tìm hiểu về các trường hợp sửdụng tương quan Spearman, cách tính và kiểm định hệ số tương quan Spearman, các bước tiếpcận và xử lý một ví dụ cụ thể bằng phần mềm Excel, R và SPSS.Hạn chế của đề tài: Vì chưa có khả năng cài đặt phần mềm SPSS nên các bước thực hiệnSPSS được lấy từ nguồn tài liệu tham khảo. Một số bước xử lý số liệu còn mang tính chủ quan,ví dụ như cách chọn kiểm tra phân phối chuẩn của bộ dữ liệu có nhiều cách khác nhau, khôngnhất thiết phải làm đúng cách tiếp cận như của bài luận này.4 NỘI DUNG1. Dẫn nhập1.1. Lịch sử ra đời của tương quan SpearmanTương quan Spearman được lấy tên từ chính cha đẻ của nó. Charles Edward Spearman(10/9/1863 – 17/9/1945) là một nhà tâm lý học người Anh nổi tiếng với công việc trong lĩnhvực thống kê, là người tiên phong trong phân tích nhân tố.Nghiên cứu của ơng về hệ số tương quan Spearman đã được công bố trên báo TheAmerican Journal of Psychology năm 1904 với tiêu đề “The Proof and Measurement ofAssociation between Two Things”Trong báo cáo trên, ông thể hiện sự quan tâm đến các biến không thể đo đạc định lượngđược, lấy dẫn chứng trong câu nói của Galton “Chiều dài của cánh tay tương quan với chiều dàicủa chân, bởi vì một người có cánh tay dài thường có chân dài và ngược lại ", nhận thấy chúngcó mối tương quan nhưng khơng phải là những biến đo lường cụ thể được. Hay từ câu nói “Mộtlần ghi chép sẽ dễ nhớ hơn một lần nghe”, dễ nhận thấy có mối tương quan giữa mức độ quan sátnhìn thấy dữ liệu với khả năng ghi nhớ dữ liệu đó của bộ não, tuy nhiên khơng thể dựng mộtcơng thức hồi quy chính xác nào. Tiếp theo ông cũng nhận thấy những vấn đề gặp phải khi sửdụng hệ số tương quan Pearson để đánh giá một số tương quan trong các thí nghiệm tâm lý họcvà đưa ra những kết luận khơng có mức độ tin cậy cao. Từ đó, ơng đã đưa ra và chứng minhphương pháp đánh giá tương quan thứ hạng của mình và hệ số tương quan Spearman cũng ra đờitừ đó.1.2. Ý nghĩa của tương quan Spearman trong thực tếTương quan Spearman là một cơng cụ thống kê phân tích mối tương quan đơn điệu giữa mộtbiến độc lập và một biến phụ thuộc, dễ hiểu hơn là khi biến độc lập (X) tăng thì biến phụ thuộc Ycũng tăng (giảm) theo hay không. Các biến được đánh giá bằng hệ số tương quan Spearmankhơng cần bắt buộc phải có mối quan hệ tuyến tính và phân phối chuẩn nên sẽ được áp dụng ởnhiều trưởng hợp mà tương quan Pearson khơng thể hiện được ưu thế của nó. Sử dụng tươngquan Spearman có thể trả lời được các câu hỏi sau đây:Có mối quan hệ có ý nghĩa thống kê nào giữa trình độ học vấn của người tham gia (trung học,cử nhân hoặc sau đại học) và mức lương khởi điểm của họ không?5 Có mối quan hệ có ý nghĩa thống kê nào giữa vị trí hồn thành của ngựa trong cuộc đua vàtuổi của ngựa khơng?Trong Sinh học, tương quan Spearman có thể được ứng dụng trong nghiên cứu:-Microarray để phân cụm các gen dựa vào mức độ tương quan trong biểu hiện giữa chúngvì các dữ liệu thu thập được trong microarray khá nhiễu với các dữ liệu bất thường.Tương quan Spearman thực sự là một công cụ mạnh trong phân tích biểu hiện gen đã-được chứng minh qua nhiều nghiên cứu.Được sử dụng trong nhiều nghiên cứu về sự tương quan hoạt động của các tế bào miễndịch (ví dụ: Sự tương quan giữa số lượng tế bào T hỗ trợ và tế bào plasmablast trong-bệnh nhân bị sốt xuất huyết)Tác động này của một thuốc có mối tương quan với tác động khác của thuốc đó haykhơng (Ví dụ: mối tương quan giữa giá trị IC 50 của hoạt tính chống sốt rét in vitro và giátrị IC 50 của hoạt tính chống haemozoin ở một số thuốc chloroquinoline, quinolines vàxanthones để xem liệu rằng thuốc có hiệu quả chống haemozoin tốt thì có liên quan đếnkhả năng điều trị sốt rét hay khơng)Ngồi ra tương quan Spearman có thể được ứng dụng trong Page’s test: Các đối tượng nghiêncứu có thể được thực hiện nhiều lần thử nghiệm với cùng một nhiệm vụ và dự đoán rằng hiệusuất sẽ cải thiện từ thử nghiệm này sang thử nghiệm khác. Một thử nghiệm về ý nghĩa của xuhướng giữa các điều kiện khác nhau được phát triển bởi Ellis Batten Page (1963) với giả thuyết:Ho: m1=m2=m3=…=mnH1: m1>m2>m3>…>mnTuy nhiên trong bài này sẽ khơng đề cập sâu về mục đích này.2. Bộ số liệu2.1. Yêu cầu của bộ số liệu trong phân tích tương quan Spearman. Khi nào thì nên sử dụngtương quan Spearman thay thế cho tương quan Pearson?Yêu cầu của bộ số liệu trong phân tích tương quan Spearman: Số liệu là thuộc các dữ liệu: thứ tự, khoảng, tỉ lệ (phụ lục) X và Y phải có mối liên hệ đơn điệu (có thể nhìn vào đồ thị phân tán để dự đoán)6 Phân tích tương quan Spearman sẽ được sử dụng trong bất kỳ trường hợp nào sau đây khicác giả định cơ bản của tương quan Pearson không được đáp ứng:1. Nếu dữ liệu thể hiện một mối quan hệ phi tuyến tính hoặc khơng theo phân phối chuẩn.2. Nếu ít nhất có một biến là biến thứ tự.3. Nếu có số liệu bất thường, quá cao hoặc quá thấp so với các số liệu cịn lại. Khơng giống nhưtương quan Pearson, tương quan Spearman không nhạy cảm với các ngoại lệ trên vì nó thực hiệncác phép tính trên các cấp bậc, do đó sự chênh lệch giữa các giá trị ban đầu thực tế khơng có ýnghĩa và sẽ chuyển hết về dạng thứ bậc.Hình 2.1 So sánh giữa hệ số tương quan Spearman và hệ số tương quan Pearson trong mộtsố trường hợpa) rs = 1 khi hai biến có quan hệ đơn điệu, ngay cả khi mối quan hệ của chúng khơng tuyến tính.Trường hợp này khơng đưa ra mối tương quan Pearson hoàn hảo (rp = 0.88)b) Tương quan Spearman ít nhạy hơn so với tương quan Pearson đối với các giá trị ngoại lệ nằm ởbiên của cả hai mẫu.c) Khi dữ liệu được phân phối gần như hình elip và khơng có giá trị ngoại lệ nổi bật, tương quanSpearman và tương quan Pearson cho các giá trị gần bằng nhau2.2. Bộ số liệu thứ hạng ràng buộc và thứ hạng không ràng buộcXếp hạng ràng buộc là khi hai mục trong một cột có cùng thứ hạng. Giả sử hai mục trong vídụ trên được gắn cho thứ hạng 5 và 6. Hình ảnh sau đây cho thấy mỗi điểm dữ liệu ràng buộcđược gán một thứ hạng trung bình là 5,5:7 Hình 2.2. Ví dụ về bộ số liệu thứ hạng ràng buộcXếp hạng khơng có sự ràng buộc khi khơng có bất kì dữ liệu nào bị trùng hạng nhau, các thứhạng đều để ở dạng số nguyên, như ví dụ minh họa sau:Hình 2.3. Ví dụ về bộ số liệu thứ hạng khơng ràng buộc2.3. Bộ số liệu ví dụ về áp dụng phương pháp tương quan Spearman trong việc xử lý biến thứhạng.Một mẫu gồm 1.000 công ty đã được hỏi về số lượng nhân viên và doanh thu của họtrong năm 2018. Sau khi hoàn thành việc thu thập dữ liệu, bảng dưới đây cho thấy kết quả.8 Hình 2.4. Kết quả khảo sát về quy mơ cơng ty và doanh thu của họ năm 2018Câu hỏi đặt ra là quy mơ cơng ty có liên quan đến doanh thu khơng? Nhìn kỹ vào bảng kếtquả cho thấy điều hiển nhiên: các cơng ty có nhiều nhân viên hơn thường tạo ra nhiều doanh thuhơn. Nhưng lưu ý rằng mối quan hệ này khơng hồn tồn như vậy: có 60 cơng ty với 1 nhân viênkiếm được 50.000 USD - 99.999 USD trong khi có 89 cơng ty với 2-5 nhân viên kiếm được từ 0- 49.999 USD. Mối quan hệ này trở nên rõ ràng nếu chúng ta hình dung kết quả trong biểu đồbên dưới.Hình 2.5. Biểu đồ cột thể hiện mối liên hệ dữa quy mô và doanh thu công tyBiểu đồ cho thấy mối quan hệ tăng đơn điệu giữa quy mô và doanh thu: các cơng ty lớnhơn có xu hướng tạo ra nhiều doanh thu hơn các công ty nhỏ hơn.Câu hỏi tiếp theo: Mối quan hệ mạnh mẽ như thế nào? Lựa chọn đầu tiên nghĩ đến là tínhtốn mối tương quan Pearson giữa quy mô công ty và doanh thu. Tuy nhiên, điều đó sẽ khơnghiệu quả vì khơng có quy mô công ty hoặc doanh thu trong dữ liệu này mà chỉ có các cấp bậc củaquy mơ và doanh thu . Quy mô công ty và doanh thu là các biến thứ tự trong dữ liệu của này:biết rằng 2-5 nhân viên lớn hơn 1 nhân viên nhưng không biết lớn hơn bao nhiêu.Trong trường hợp này, sử dụng tương quan cấp bậc của Spearman (Rs) = 0,81(không trình bày cách tính cụ thể ở đây). Điều này cho chúng ta biết rằng các biến có tương quantăng đơn điệu rất mạnh. Nhưng chúng ta không biết liệu mối quan hệ này có quan hệ tuyến tính ởmức độ nào hay không.9 2.4. Ví dụ về ứng dụng phương pháp tương quan Spearman trong lĩnh vực Sinh họcVí dụ 1: Nghiên cứu về tương quan giữa lượng IL-21 và tế bào Th trong máu với lượngplasmablast ở bệnh nhân bị sốt xuất huyết cấp tính . Tần số của tế bào plasmablast, IL-21 và Thđược ghi lại và không tuân theo phân phối chuẩn (kiểm định Mann-Whitney U test two-tailed). Ởđồ thị 3 có sự xuất hiện của các số liệu bất thường. Tương quan Spearman được áp dụng trongtrường hợp này:Hình 2.Tần số của plasmablasts ( n  =14) tương quan đơn điệ tăng,mối quan hệ rất mạnh với tầnsố của tế bào Tfh trong giaiđoạn nhiễm trùng cấp tính(Spearman r  =0,91, p  

Từ khóa » Hệ Số Tương Quan Thứ Hạng Spearman Là Gì