Bài 1. Tương Quan Thứ Tự Xếp Hạng Spearman (Spearman's Rho)

Tương quan thứ tự xếp hạng Spearman là một kiểm tra phi tham số về sức mạnh và hướng của liên kết tồn tại giữa hai biến được đo lường trên ít nhất một thang đo thứ tự. Nó được biểu thị bằng ký hiệu rs (hoặc chữ cái Hy Lạp ρ, phát âm là rho). Thử nghiệm được sử dụng cho các biến thứ tự hoặc cho dữ liệu liên tục đã không đạt được các giả định cần thiết để tiến hành tương quan Pearson. Ví dụ: bạn có thể sử dụng tương quan Spearman để hiểu liệu có mối liên hệ giữa hiệu suất bài kiểm tra và thời gian dành cho việc ôn tập hay không; liệu có mối liên hệ giữa trầm cảm và thời gian thất nghiệp kéo dài hay không.

1. Khi nào sử dụng?

Tương quan thứ tự xếp hạng Spearman nên được sử dụng khi:

  • mối quan hệ giữa hai biến không phải là tuyến tính, (điều này có thể được kiểm tra bằng cách vẽ biểu đồ của hai biến);
  • khi các giả định về đo lường và phân phối không được đáp ứng (các biến không phải là các thước đo khoảng hoặc tỷ lệ và các quan sát không đến từ phân phối chuẩn lưỡng biến);
  • khi kích thước mẫu quá nhỏ để thiết lập phân phối cơ bản, hoặc
  • khi dữ liệu xảy ra một cách tự nhiên dưới dạng cấp bậc.

Tương quan thứ tự xếp hạng Spearman tương đương với tương quan Pearson (một quy trình tương quan tham số) được thực hiện trên các cấp bậc của điểm số hơn là trên chính điểm số thô. Thủ tục tương quan thứ tự xếp hạng có lẽ ít được sử dụng hơn mức cần thiết.

2. Suy luận thống kê và giả thuyết vô hiệu

Với điều kiện các cặp của quan sát mẫu được lấy ngẫu nhiên từ một dân số quan tâm, Spearman’s rho, kí hiệu rs, chữ cái Hy Lạp là ρs (tương quan thứ tự xếp hạng dân số), có thể được sử dụng để đánh giá khả năng hai biến có liên quan trong dân số. Giả thuyết vô hiệu là, H0: không có mối liên hệ nào giữa hai biến và giả thuyết thay thế, H1: là có mối liên hệ. Đây là một giả thuyết thay thế hai phía. Nếu chúng ta đã xác định bản chất của mối quan hệ, tức là sự kết hợp tích cực hoặc tiêu cực, thì đây sẽ là một giả thuyết thay thế được kết hợp chặt chẽ. Trong một số tài liệu thống kê, giả thuyết không được chỉ định là H0: ρs = 0. Không giống như trường hợp có tương quan tham số, điều này không nhất thiết ngụ ý rằng các biến là độc lập. Chỉ khi các giá trị được phân phối chuẩn thì mối tương quan bằng 0 mới có nghĩa là các biến độc lập với nhau.

Phân phối mẫu chính xác của Spearman’s rho cho các cỡ mẫu1≤n≤ 10 đã được đánh giá. Không có quy trình được chấp nhận chung nào để tính toán khoảng tin cậy cho rs (tương quan thứ tự bậc mẫu) khi cỡ mẫu nhỏ, n <10. Khi kích thước mẫu lớn, ở đây, n≥10, rs xấp xỉ với tương quan Pearson r. Do đó, khoảng tin cậy có thể được xây dựng bằng cách sử dụng phép biến đổi rs thành z (biến đổi Fisher’s z), là gần đúng phân phối chuẩn. Do đó, việc sử dụng khoảng tin cậy cho rs khi cỡ mẫu <10 có giá trị không rõ ràng. Nếu khoảng tin cậy 95% được tính, chúng ta sẽ giải thích nó theo cách thông thường, tức là, chúng ta chắc chắn 95% rằng khoảng thu được bao gồm giá trị dân số thực ρs. Khoảng tin cậy cũng cho phép kiểm tra giả thuyết vô hiệu. Nếu khoảng tin cậy thu được loại trừ 0, chúng ta có thể kết luận rằng có mối tương quan đáng kể giữa hai biến. Quy trình tính toán để ước lượng khoảng tin cậy cho rs giống với quy trình ước tính khoảng tin cậy cho r (tương quan Pearson).

3. Giả định kiểm tra

Tương quan thứ tự xếp hạng của Spearman được sử dụng khi:

  • các quan sát không đến từ phân phối chuẩn lưỡng biến (bivariate normal distribution);
  • các quan sát là được xếp hạng (cho các giá trị thứ hạng), tức chúng đo lường trên thang đo thứ tự. Ví dụ về các biến thứ tự bao gồm thang đo Likert (ví dụ: thang điểm 7 từ “rất đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: thang đo 3 điểm giải thích mức độ thích một sản phẩm của khách hàng, từ “Không nhiều lắm”, đến “Cũng được”, đến “Có, rất nhiều”);
  • các quan sát là được xếp hạng trong hai chuỗi có thứ tự (một cho mỗi biến).
  • Các biến đại diện cho các quan sát được ghép nối. Ví dụ, hãy tưởng tượng rằng chúng ta quan tâm đến mối quan hệ giữa việc tiêu thụ thuốc lá hàng ngày và lượng bài tập thể dục mỗi tuần. Một quan sát được ghép đôi duy nhất phản ánh điểm số trên mỗi biến cho một người tham gia (ví dụ: mức tiêu thụ thuốc lá hàng ngày của “Người tham gia 1” và lượng bài tập thực hiện mỗi tuần của “Người tham gia 1”). Với 30 người tham gia nghiên cứu, điều này có nghĩa là sẽ có 30 quan sát được ghép nối.

Nếu các quan sát đại diện cho một mẫu ngẫu nhiên từ một dân số xác định thì rs có thể được sử dụng để kiểm tra xem có mối quan hệ đáng kể giữa hai biến trong tổng thể hay không.

4. Thủ tục kiểm tra Spearman’s rho

Một nhà nghiên cứu có thể quan tâm đến việc có mối tương quan nào giữa tỉ lệ học sinh giỏi vật lí và tỉ lệ học sinh giỏi toán của các lớp hay không? Để kiểm tra điều này, họ thu thập số liệu tỉ lệ học sinh giỏi vật lí và giỏi toán tại 10 lớp một trường trung học.

Trong ví dụ này, tại sao lựa chọn kiểm tra tương quan Spearman?

Giả định có một câu hỏi về độ tuyến tính, chỉ có mười hai điểm dữ liệu, và quan trọng nhất là dữ liệu được xếp hạng, nên do vậy tương quan Spearman nên được sử dụng. Biết rằng dữ liệu được xếp hạng chắc chắn sẽ gợi ý mối tương quan về thứ tự xếp hạng. Chúng ta nên vẽ biểu đồ dữ liệu trước khi thực hiện bất kỳ thử nghiệm ý nghĩa nào về sự tương quan.

Các bước tiến hành phân tích tương quan Spearman như sau:

– Bước 1: Vẽ biểu đồ đồ thị phân tán Scatterplot để kiểm tra mối quan hệ giữa hai biến. Chúng ta có thể dễ dàng thực hiện công việc bằng các phần mềm thống kê, chẳng hạn SPSS (vui lòng đọc bài Đồ thị phân tán).

Nhận xét: Nhìn vào đồ thị phân tán cho thấy, có một gợi ý rằng dữ liệu có liên quan theo hướng tích cực, đó là khi học sinh giỏi vật lí tăng thì tỉ lệ học sinh giỏi toán cũng tăng theo. Không hoàn toàn rõ ràng rằng mối quan hệ là tuyến tính mặc dù điều này là hợp lý. Một đối tượng có điểm 23.1 và 35.1 có vẻ là điểm ngoại lệ (dị biệt), nhưng với số điểm ít ỏi, rất khó để phân biệt, liệu điểm này là cách xa cụm chính của các điểm hay không. Việc giải thích các biểu đồ như vậy cũng là một nghệ thuật, đôi khi rất khó để dứt khoát với rất ít điểm được vẽ. Khi mối quan hệ tuyến tính không rõ ràng, phân tích tương quan Spearman nên được tiếp tục.

– Bước 2: Xếp hạng các biến

Xếp hạng từng biến riêng biệt với hai chuỗi điểm xếp hạng dành cho các biến tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán. Chỉ định xếp hạng từ 1 tương ứng giá trị nhỏ nhất dành cho một lớp trong tổng số 10 lớp. Vui lòng xem bảng 1 dưới đây.

– Bước 3: Tính hệ số tương quan Spearman

Tương quan Spearman rs được tính bằng cách áp dụng công thức ban đầu của Pearson cho r với dữ liệu được xếp hạng:

trong đó, Ri tương ứng với giá trị thứ hạng của một giá trị x (xi) và Si tương ứng với giá trị thứ hạng của một giá trị y (yi). R và S trung bình là các trung bình tương ứng của các giá trị thứ hạng.

Trong những trường hợp của điểm số bằng nhau, giá trị xếp hạng trung bình được sử dụng. Giả sử, nếu có các xếp hạng bằng nhau, giá trị xếp hạng được trao cho mỗi thành viên trong nhóm bằng nhau là giá trị trung bình của các cấp bậc sẽ được gán nếu không có ràng buộc. Ví dụ: nếu các trường E và F đều có % học giỏi vật lí là 24.4, giá trị xếp hạng được gán cho mỗi trường sẽ làm 7.5 (trung bình của xếp hạng 7 và 8, tức là (7 + 8) / 2=7.5).

Công thức thay thế:

trong đó, D là chênh lệch giữa cấp bậc xy được gán cho mỗi quan sát và n là số quan sát. Công thức này giả định rằng không có điểm số bằng nhau nào trong dữ liệu. Ảnh hưởng của điểm số bằng nhau trong dữ liệu là làm tăng mối tương quan và cần phải điều chỉnh. Hầu hết các chương trình thống kê trong máy tính cho phép trường hợp điểm số bằng nhau trong dữ liệu và thực hiện các điều chỉnh cần thiết.

Kết quả tính toán được trình bày trong bảng 1 dưới đây:

Bảng 1: Xếp hạng các biến và tính hệ số tương quan

Sử dụng công thức tính tương quan:

Kết quả tính toán với công thức thay thế:

Sử dụng công thức tính tương quan thay thế:

Như vậy, trong cả hai trường hợp, giá trị tương quan Spearman là bằng nhau.

Nhận xét: Kết quả cho thấy có mối tương quan thuận giữa tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán (rs = 0.89, n = 10).

Bước 4: Kiểm tra ý nghĩa của hệ số tương quan

Một khi mối tương quan đã được tính toán, nhà nghiên cứu có thể muốn biết khả năng xảy ra mối tương quan thu được này như thế nào, nghĩa là, đây có phải là sự xuất hiện tình cờ hay nó đại diện cho mối tương quan dân số đáng kể?

Để thực hiện việc này, rs được chuyển đổi, và xác suất của công cụ ước lượng này dựa trên phân phối mẫu của thống kê t (t-statistic). Do đó, ý nghĩa của một hệ số tương quan Spearman thu được được đánh giá bằng cách sử dụng phân phối t (t-distribution) với n − 2 bậc tự do (df) và được cho bởi phương trình sau:

        , với 8 bậc tự do.

Nhìn vào biểu đồ phân tán, một giả thuyết thay thế một phía sẽ có vẻ hợp lý. Đó là tỉ lệ học sinh giỏi vật lí và tỉ lệ học sinh giỏi toán có liên quan tích cực (tương quan dương )với nhau. Xác suất liên quan đến rs (0.89) là thu được bằng công thức:

Tra bảng phân phối t, giá trị quan sát của t (5.5204) lớn hơn giá trị tới hạn của 5.041 nằm trong hàng với 8df. Xác suất một phía được kết hợp là p <0.0005. Chúng ta có thể bác bỏ giả thuyết không có mối quan hệ và kết luận rằng giả thuyết thay thế về mối quan hệ tích cực giữa điểm tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán là có thể xác định được.

Bước 5: Tính khoảng tin cậy của hệ số tương quan

Khoảng tin cậy là dựa vào một sự chuyển đổi thống kê rs thành thống kê Fisher’s z. Sau đó, điểm số Fisher’s z phải được chuyển đổi trở lại số liệu tương quan. Fisher’s z được đánh giá là:

Khoảng tin cậy (95%) cho mối tương quan lưỡng biến giữa tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán được tính bằng công thức:

Công thức chuyển đổi Fisher’s Z được định nghĩa là:

Áp dụng các công thức trong ví dụ (với rs = 0.89), ta có:

Khoảng tin cậy (95%): 

= 0.6811 đến 2.1627

Các giá trị này bây giờ phải được chuyển đổi trở lại số liệu ban đầu:

Nhận xét: Chúng ta có thể kết luận rằng chúng ta chắc chắn 95% rằng mối tương quan dân số là dương và nằm trong khoảng 0.5922 đến 0.9739. Khoảng tin cậy này không bao gồm giá trị 0, điều này cho thấy mối tương quan có ý nghĩa thống kê ở mức 5%.

5. Kiểm tra Spearman’s rho trong SPSS

Các bước chạy Spearman’s rho trong SPSS như sau:

– Bước 1: Vẽ biểu đồ phân tán để kiểm tra tính tương quan (đã thực hiện trong phần trên).

Nhận xét tương tự như trên.

– Bước 2. Click Analyze > Correlate > Bivariate…

– Bước 3. Trong hộp thoại mối quan hệ lưỡng biến (song biến) Bivariate Correlations, chúng ta chuyển các biến ‘Vatli’, ‘Toan’vào hộp Variables. Nhấp vào hộp Spearman trong vùng Correlation Coefficients. Cuối cùng nhấp OK để chạy kết quả.

Thống kê SPSS tạo một bảng duy nhất của tương quan Spearman. Trong ví dụ này, chúng ta có thể thấy rằng hệ số tương quan của Spearman, rs, là 0.891 và điều này có ý nghĩa thống kê ( p = 0.001).

Chúng thể có thể viết kết quả trong báo cáo khoa học đại loại như sau: Tương quan thứ tự xếp hạng của Spearman đã được chạy để xác định mối quan hệ giữa tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán. Có mối tương quan dương mạnh mẽ giữa tỉ lệ học sinh giỏi vật lí và học sinh giỏi toán, có ý nghĩa thống kê (rs = 0.89, p (2-tailed) = 0.001 < 0.05).

Do SPSS chỉ tạo ra một bảng duy nhất cho biết hệ số tương quan Spearman. Do vậy, chúng ta cần tính tay các giá trị về ý nghĩa hệ số tương quan, khoảng tin cậy của hệ số tương quan. Cách tính toán tương tự như Bước 4 của bài viết này. Đây là công việc bắt buộc.

 Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, RA và Knussen, C. (2006). Giới thiệu về phương pháp nghiên cứu và thống kê trong tâm lý học . Giáo dục Pearson.
  5. Peers, I. (2006). Phân tích thống kê cho các nhà nghiên cứu giáo dục và tâm lý học: Công cụ cho các nhà nghiên cứu giáo dục và tâm lý học . Routledge.
  6. Wagner III, WE (2019). Sử dụng thống kê SPSS® của IBM® cho các phương pháp nghiên cứu và thống kê khoa học xã hội . Ấn phẩm Sage.

 

Từ khóa » Hệ Số Tương Quan Spearman Là Gì