Bài 4. Kiểm Tra Dấu Hạng Wilcoxon (Wilcoxon Signed Ranks)

Kiểm tra dấu hạng Wilcoxon là phép thử phi tham số tương đương với bài kiểm tra t phụ thuộc (dependent t-test). Vì kiểm tra Wilcoxon không giả định tính chuẩn rong dữ liệu, nên nó có thể được sử dụng khi giả định này bị vi phạm và việc sử dụng phép kiểm tra t phụ thuộc là không phù hợp. Nó được sử dụng để so sánh hai bộ điểm đến từ những người tham gia giống nhau. Điều này có thể xảy ra khi chúng ta muốn điều tra bất kỳ sự thay đổi nào về điểm số từ thời điểm này sang thời điểm khác hoặc khi các cá nhân phải chịu nhiều hơn một điều kiện.

Ví dụ: bạn có thể sử dụng bài kiểm tra Wilcoxon để biết liệu có sự khác biệt trong việc cải thiện khả năng từ vựng tiếng Anh của học sinh tiểu học trước và sau chương trình kể chuyện với tranh ảnh hay không (nghĩa là, biến phụ thuộc của bạn sẽ là “điểm từ vựng tiếng Anh”, và hai các nhóm liên quan sẽ là giá trị điểm từ vựng “trước” và “sau” chương trình kể chuyện với tranh ảnh).

1. Khi nào sử dụng?

Đây là phép thử về sự khác biệt giữa các cặp quan sát liên quan (related observations) hoặc các cặp trùng khớp (matched pairs) của các đối tượng và là phép thử phi tham số tương đương với phép thử t-test liên quan (related t-test). Phép thử Wilcoxon nên được xem xét khi các nhà nghiên cứu quan tâm đến việc so sánh hai mẫu liên quan trên vài thước đo có thể xếp hạng và khi hình dạng của dân số là chưa biết hoặc các giả định cơ bản sử dụng phép thử t-test liên quan không được đáp ứng, phân phối điển hình của các phép đo trong dân số là không chuẩn hoặc các phép đo không trong thang khoảng hoặc tỷ lệ.

Kiểm định Wilcoxon là một phiên bản mạnh mẽ hơn của bài kiểm tra dấu (sign test), bởi vì nó sử dụng thông tin về cả hướng (direction) và độ lớn (magnitude) của sự khác biệt trong các cặp. Khi chúng ta có thể xác định độ lớn của sự khác biệt, các quan sát có thể được xếp hạng. Các bài kiểm tra tham số thường được coi là mạnh mẽ hơn so với các bài kiểm tra phi tham số nhưng điều này chỉ đúng khi các giả định lý thuyết chuẩn cơ bản được đáp ứng. Ít khi thừa nhận rằng các phép thử phi tham số có thể mạnh hơn các phép thử tham số trong một số cảnh huống nhất định, ví dụ: các phân phối nặng đuôi (heavy-tailed distributions), phân phối chuẩn log, và phân phối hàm mũ, trong những trường hợp này, kiểm định Wilcoxon mạnh hơn so với kiểm định t-test liên quan.

Logic làm nền tảng cho bài kiểm tra này rất đơn giản. Mục đích của bài kiểm tra là để tìm hiểu về sự phân phối của các cặp điểm khác biệt, đó là sự khác biệt cho mỗi cặp quan sát. Ví dụ, chúng ta có thể nghĩ đến một thiết kế nghiên cứu trước sau khi can thiệp (pre-post-test study design), trong đó mỗi cá nhân có điểm trước và sau can thiệp. Sự phân bổ điểm số chênh lệch, trước sau, sẽ không đối xứng về 0, nếu phần lớn các đối tượng có sự cải thiện về điểm số sau khi can thiệp. Nếu đó là một số lượng bằng nhau của khác biệt âm và dương, chẳng hạn như chỉ khác biệt về cơ hội tình cờ, và những khác biệt này có độ lớn gần như bằng nhau, thì điều này cho thấy không có sự khác biệt đáng kể giữa các mẫu điểm trước và sau can thiệp.

2. Suy luận thống kê và giả thuyết vô hiệu

Giả thuyết vô hiệu được kiểm tra là trung vị của các sự khác biệt dân số bằng 0, và rằng phân phối của các khác biệt là đối xứng về không. Nó dựa trên giả định rằng số lượng khác biệt âm và dương xảy ra tình cờ phải xấp xỉ bằng nhau theo mỗi hướng. Giả thuyết thay thế không định hướng (hai chiều) sẽ là trung vị của dân số của các khác biệt là khác 0, và giả thuyết thay thế có hướng sẽ là trung vị của dân số của các khác biệt là lớn hơn hoặc nhỏ hơn 0. Thống kê thử nghiệm, T, là tổng thứ hạng của các cặp quan sát được chọn. Các khác biệt xếp dấu hạng là được tổng hợp riêng biệt (khác biệt dương và khác biệt âm), sự nhỏ hơn của hai tổng của các giá trị tuyệt đối của sự khác biệt xếp dấu hạng là thống kê thử nghiệm T. Giá trị T đủ nhỏ cung cấp bằng chứng bác bỏ giả thuyết vô hiệu. Phân phối mẫu chính xác cho T với cỡ mẫu ≤ 25 được xác định và lập bảng, đối với cỡ mẫu lớn hơn thì có giá trị gần đúng chuẩn.

3. Giả định kiểm tra

Khi bạn chọn phân tích dữ liệu của mình bằng cách sử dụng bài kiểm tra Wilcoxon, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng bài kiểm tra Wilcoxon. Bạn cần phải làm điều này vì chỉ thích hợp sử dụng bài kiểm tra Wilcoxon nếu dữ liệu của bạn “vượt qua” bốn giả định bắt buộc đối với bài kiểm Wilcoxon để cung cấp cho bạn kết quả hợp lệ. Ba giả định đầu tiên liên quan đến thiết kế nghiên cứu, giả định thứ tư liên quan đến phân tích dữ liệu.

  • Các số đo ban đầu (original measures) trong hai mẫu là có thể xếp hạng (trong thực tế có thể là tỷ lệ, khoảng hoặc thứ tự). Ví dụ về các biến thứ tự bao gồm các mặt hàng Likert (ví dụ: một mặt hàng 7 điểm từ “rất đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: một mặt hàng 5 điểm giải thích mức độ thích một sản phẩm của khách hàng, từ “Không nhiều lắm” đến “Có, rất nhiều”). Ví dụ về các biến liên tục(tức là các biến khoảnghoặc tỷ lệ) bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100).
  • Biến độc lập phải bao gồm hai phân loại, “nhóm liên quan” (related groups) hoặc “cặp trùng lặp” (matched-pairs). “Các nhóm liên quan” chỉ ra rằng các đối tượng giống nhau có mặt trong cả hai nhóm. Lý do có thể có các đối tượng giống nhau trong mỗi nhóm là vì mỗi đối tượng đã được đo lường hai lần trên cùng một biến phụ thuộc. Ví dụ, bạn có thể đã đo thành tích của 10 cá nhân trong một bài kiểm tra chính tả (biến phụ thuộc) trước và sau khi họ trải qua một hình thức mới của phương pháp giảng dạy trên máy tính để cải thiện chính tả. Bạn muốn biết liệu khóa đào tạo máy tính có cải thiện hiệu suất chính tả của họ hay không. Nhóm liên quan đầu tiên bao gồm các môn học ở giai đoạn đầu (trước) khóa đào tạo chính tả trên máy tính và nhóm liên quan thứ hai bao gồm các môn học tương tự, nhưng hiện tại đã kết thúc khóa đào tạo trên máy tính. Bài kiểm tra xếp hạng có chữ ký của Wilcoxon cũng có thể được sử dụng để so sánh các môn học khác nhau trong thiết kế nghiên cứu “cặp đôi phù hợp”, nhưng điều này không thường xuyên xảy ra.
  • Dữ liệu bao gồm các cặp quan sát đã được chọn ngẫu nhiên và mỗi cặp độc lập với các cặp khác.
  • Sự khác biệt giữa các cặp quan sát cũng độc lập. Trên thực tế, việc kiểm tra giả định này chỉ làm tăng thêm một chút thời gian trong thống kê SPSS khi thực hiện phân tích, cũng như suy nghĩ thêm một chút về dữ liệu của bạn, không là một nhiệm vụ khó khăn. Tuy nhiên, ngay cả khi dữ liệu của bạn không đạt được giả định này, thường có một giải pháp để khắc phục điều này, chẳng hạn như chạy kiểm tra dấu (sign test) thay vì kiểm tra Wilcoxon.

4. Thủ tục kiểm tra dấu hạng Wilcoxon

Thí dụ, một nhà nghiên cứu về tâm lí quan tâm đến việc sử dụng liệu pháp Thiền để cải thiện sức tập trung học tập của các sinh viên. Để điều tra điều này, nhà nghiên cứu tuyển 10 người tham gia (những người đang dơi vào tình huống mất tập trung học tập) vào nghiên cứu của họ. Khi bắt đầu nghiên cứu, nhà nghiên cứu yêu cầu những người tham gia đánh giá mức độ tập trung học tập của họ trên thang điểm từ 1 đến 10. Sau 4 tuần thực hiện Thiền trước học tập, những người tham gia được yêu cầu lại chỉ ra mức độ tập trung học tập trên thang điểm từ 1 đến 10. Nhà nghiên cứu muốn biết liệu mức độ tập trung học tập của những người tham gia có thay đổi sau khi họ trải qua liệu pháp Thiền hay không, vì vậy một bài kiểm tra dấu hạng Wilcoxon được thực hiện.

Các bước tính toán dấu hạng Wilcoxon gồm:

i) Kiểm tra mẫu nhỏ

  1. Đối với mỗi cặp quan sát, hãy xác định điểm chênh lệch tuyệt đối | D |.
  2. Xếp hạng các khác biệt tuyệt đối này (bỏ qua dấu của sự khác biệt) và xếp hạng từ 1 với điểm nhỏ nhất. Sự khác biệt tuyệt đối, | D | bằng 0, tức là không có sự khác biệt giữa cặp quan sát ban đầu, không xếp hạng điểm khác biệt này (loại bỏ nó khỏi phân tích) và giảm cỡ mẫu cho phù hợp. Nếu hai hoặc nhiều điểm chênh lệch là số điểm bằng nhau, thứ hạng được chỉ định cho mỗi thành viên của nhóm số điểm bằng nhau là điểm trung bình của các thứ hạng mà lẽ ra đã được ấn định có sự khác biệt không bằng nhau.
  3. Gán mỗi điểm khác biệt được xếp hạng hoặc +ve hoặc −ve cho biết dấu của sự khác biệt mà nó đại diện.
  4. Thống kê thử nghiệm T: i) đối với các mẫu nhỏ, n≤15, tổng nhỏ hơn của các chênh lệch xếp hạng theo dấu bất kể nó là + hay – (tức là tính tổng của các chênh lệch được xếp hạng dương và tổng của chênh lệch được xếp hạng âm và chọn giá trị nhỏ hơn trong hai tổng), hoặc ii) với xấp xỉ mẫu lớn, T+, tổng của các chênh lệch được xếp hạng dương.

Dữ liệu và kết quả tính toán cho ví dụ nêu trên được trình bày trong bảng 1 dưới đây:

Bảng 1:

Trong bảng trên, chỉ có 8 đối tượng (n=8) để được phân tích (hai đối tượng không có sự khác biệt và do đó bị loại bỏ) và do đó thống kê kiểm định, T, là 1.5 vì đây là số liệu nhỏ hơn trong hai tổng thứ hạng (trị tuyệt đối).

Trong ví dụ này, 1.5 < 4 (giá trị tới hạn từ Bảng 2 với n = 8, kiểm định hai phía và alpha = 0.05) do đó, kết quả có ý nghĩa ở mức 5%. Giả thuyết vô hiệu có thể bị bác bỏ và chúng ta kết luận rằng liệu pháp Thiền trước khi học tạo ra sự thay đổi có ý nghĩa thống kê về sức tập trung học tập của các sinh viên.

Bảng 2: Bảng giá trị tới hạn thống kế T cho kiểm tra dấu hạng Wilcoxon (trong Peer, 2006)

ii) Kiểm tra mẫu lớn hơn

Nếu n> 25 thì nên sử dụng ước lượng gần đúng chuẩn cho mẫu lớn sau:

Nếu thử nghiệm hai phía, một giá trị |Z| (trị tuyệt đối Z) ≥1.96 sẽ được yêu cầu để kết quả có ý nghĩa thống kê ở mức 5%.

Trong ví dụ, kích thước để tính toán kiểm tra dấu hạng Wilcoxon là n=8, chúng ta sẽ không sư dụng ước lượng gần đúng, nhưng ở đây chúng tôi thực hiện mang tính minh họa.

Với xấp xỉ mẫu lớn, Z được đưa ra bởi các công thức chung, (quan sát – kỳ vọng) / sai số chuẩn, trong đó thống kê kiểm tra quan sát được là T+, (tổng của các chênh lệch được xếp hạng dương), giá trị kỳ vọng là = (n(n+1))/4, và sai số chuẩn là:

Thay số ta có:

Một giá trị |Z| của 2.311 ≥1.96 cho thấy rằng hiệu ứng giữa liệu pháp Thiền và sức tập trung học tập của các sinh viên là có ý nghĩa thống kê ở mức 5% của thử nghiệm hai phía.

5. Kiểm tra dấu hạng Wilcoxon trong SPSS

Các bước chạy kiểm tra dấu hạng Wilcoxon trong SPSS như sau:

Bước 1. Click Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related Samples…

Bước 2. Trong hộp thoại Two-Related-Samples Tests, chúng ta chuyển cặp biến cần kiểm vào vào vùng Test Pairs, biến Pretest vào ô Variable1, biến Posttest vào ô Variable2. Trong vùng Test Type, nhấp vào hộp Wilcoxon. Sau đó, click vào nút Options…, đánh dấu vào hộp Descriptive Quatiles để tạo thống kê mô tả. Sau đó bấm vào nút Continue. Cuối cùng, bấm vào nút OK để chạy kết quả đầu ra.

 

Đọc kết quả:

– Bảng thống kê mô tả (Descriptive Statistics) là nơi cung cấp các thống kê mô tả và thống kê tứ phân vị (quartile) cho các biến. Chúng ta có thể sử dụng kết quả từ bảng này để mô tả điểm số trước và sau khi can thiệp. Vì chúng ta đã sử dụng kiểm tra phi tham số, do vậy chúng ta nên sử dụng thông tin tứ phân vị để mô tả cả hai nhóm của mình. Trong ví dụ này, điểm trung vị sau can thiệp (3.00) là cao hơn điểm trung vị trước can thiệp (1.50).

– Bảng Xếp hạng (Ranks) cung cấp một số dữ liệu thú vị về việc so sánh điểm trước và sau của người tham gia. Có 1 người tham gia có điểm trước khi can thiệp cao hơn so với sau khi can thiệp. Tuy nhiên, 7 người tham gia có điểm sau khi can thiệp cao hơn điểm số trước khi can thiệp. Có 2 người tham gia là điểm số không thay đổi.

– Bảng thống kê kiểm tra (Test Statistics) giúp chúng ta có thể khám phá xem liệu những trị liệu bằng Thiền, nhìn chung có dẫn đến sự khác biệt có ý nghĩa thống kê về cải thiện khả năng tập trung học tập của các sinh viên hay không. Tra bảng phân phối Z ở mức ý nghĩa 5% để xem Z tới hạn (1.96), giá trị Z thu được là -2.372 (trị tuyệt đối Z > 1.96) và có giá trị p liên quan là 0.018 < 0.05. Điều này có nghĩa là giả thuyết vô hiệu bị bác bỏ ở mức 5%. Chúng ta kết luận rằng liệu pháp Thiền trước khi học tạo ra sự thay đổi có ý nghĩa thống kê về sức tập trung học tập của các sinh viên (Z=-2.372, p=0.018).

Nói chung, kết quả kiểm tra Z trong tính tay và phân tích SPSS là không khác biệt, sự khác biệt chút ít có thể là do cỡ mẫu nhỏ và phép xấp xỉ.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

Từ khóa » Cách Tra Bảng Wilcoxon