Một Số Phương Pháp Kiểm định Phi Tham Số | Xemtailieu

logo xemtailieu Xemtailieu Tải về Một số phương pháp kiểm định phi tham số
  • pdf
  • 52 trang
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN ------  ------ LUẬN VĂN TỐT NGHIỆP MỘT SỐ PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ Giáo viên hướng dẫn: Sinh viên thực hiện: ThS. DƯƠNG THỊ TUYỀN NGUYỄN THÀNH TÍN Bộ môn Toán – Khoa KHTN MSSV 1100192 Toán Ứng Dụng – K36 CẦN THƠ – 12/2013 LỜI CẢM ƠN Em xin gửi lời cám ơn quý Thầy, Cô Trƣờng Đại học Cần Thơ đặc biệt là Thầy, Cô bộ môn Toán Khoa Khoa học Tự nhiên – Đại học Cần Thơ đã tận tình giảng dạy em trong suốt thời gian học tập. Em xin bày tỏ lòng biết ơn của mình đến cô Dƣơng Thị Tuyền đã tận tình giúp đỡ để em có thể hoàn thành luận văn. Cô đã luôn lắng nghe, giúp đỡ và chỉ bảo để em có thể vƣợt qua những khó khăn mà mình vấp phải trong quá trình làm luận văn. Bên cạnh đó em cũng xin đƣợc cám ơn thầy Trần Phƣớc Lộc là cố vấn học tập đã dìu dắt em trong suốt bốn năm học tại trƣờng. Xin cám ơn các bạn bè đã giúp đỡ em trong quá trình học tập và sƣu tầm tài liệu để em hoàn thành luận văn này. Đặc biệt tỏ lòng biết ơn sâu sắc đến Cha, Mẹ và những ngƣời thân đã dạy dỗ, khuyến khích, động viên và tạo điều kiện tốt nhất để em có thể hoàn thành tốt việc học tập tại trƣờng. Em kính chúc quý Thầy Cô dồi dào sức khỏe, thành công trong công việc và trong cuộc sống. Xin chân thành cám ơn! Cần Thơ, ngày 07 tháng 12 năm 2013 Sinh viên thực hiện Nguyễn Thành Tín i MỤC LỤC LỜI CÁM ƠN................................................................................................... i LỜI MỞ ĐẦU................................................................................................. iv Chƣơng 1. LÝ THUYẾT KIỂM ĐỊNH PHI THAM SỐ ............................ 1 1.1 KIỂM ĐỊNH DẤU (SIGN TEST) ......................................................... 1 1.1.1 Mục đích ..................................................................................... 1 1.1.2 Cơ sở lý thuyết ............................................................................ 1 1.1.3 Trình tự thực hiện ....................................................................... 2 1.1.4 Ví dụ ........................................................................................... 2 1.2 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON (WILCOXON SIGNEDRANK TEST) ........................................................................................ 4 1.2.1 Mục đích ..................................................................................... 4 1.2.2 Cơ sở lý thuyết ............................................................................ 4 1.2.2.1 Trƣờng hợp mẫu nhỏ (n  20) ................................................ 4 1.2.2.2 Trƣờng hợp mẫu lớn (n  20) ................................................ 6 1.3 KIỂM ĐỊNH MANN-WHITNEY 2 MẪU ĐỘC LẬP ......................... 9 1.3.1 Mục đích ..................................................................................... 9 1.3.2 Cơ sở lý thuyết .......................................................................... 10 1.3.2.1 Trƣờng hợp mẫu lớn (n1 , n2  8) ........................................... 10 1.3.2.2 Trƣờng hợp mẫu nhỏ (n1  n2  8) ....................................... 14 1.4 KIỂM ĐỊNH KRUSKAL-WALLIS .................................................... 15 1.4.1 Mục đích ................................................................................... 15 1.4.2 Cơ sở lý thuyết .......................................................................... 16 1.4.3 Trình tự thực hiện ..................................................................... 17 1.4.4 Ví dụ ......................................................................................... 17 1.5 KIỂM ĐỊNH CHI BÌNH PHƢƠNG ................................................... 19 1.5.1 Mục đích ................................................................................... 19 1.5.2 Cơ sở lý thuyết .......................................................................... 19 1.5.3 Trình tự thực hiện ..................................................................... 20 1.5.4 Ví dụ ......................................................................................... 21 ii 1.6 KIỂM ĐỊNH KOLMOGOROV-SMIRNOV MỘT MẪU .................. 22 1.6.1 Mục đích ................................................................................... 22 1.6.2 Cơ sở lý thuyết .......................................................................... 22 1.6.3 Trình tự thực hiện ..................................................................... 23 1.6.4 Ví dụ ......................................................................................... 24 Chƣơng 2. THỰC HIỆN KIỂM ĐỊNH PHI THAM SỐ TRÊN SPSS .... 26 2.1 KIỂM ĐỊNH DẤU (SIGN TEST) ....................................................... 26 2.1.1 Ví dụ ......................................................................................... 26 2.1.2 Thực hiện trên SPSS ................................................................. 26 2.2 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON (WILCOXON SIGNEDRANK TEST) ...................................................................................... 28 2.2.1 Ví dụ ......................................................................................... 28 2.2.2 Thực hiện trên SPSS ................................................................. 28 2.3 KIỂM ĐỊNH MANN-WHITNEY 2 MẪU ĐỘC LẬP ....................... 30 2.3.1 Ví dụ ......................................................................................... 30 2.3.2 Thực hiện trên SPSS ................................................................. 31 2.4 KIỂM ĐỊNH KRUSKAL-WALLIS .................................................... 33 2.4.1 Ví dụ ......................................................................................... 33 2.4.2 Thực hiện trên SPSS ................................................................. 33 2.5 KIỂM ĐỊNH CHI BÌNH PHƢƠNG ................................................... 35 2.5.1 Ví dụ ......................................................................................... 35 2.5.2 Thực hiện trên SPSS ................................................................. 36 2.6 KIỂM ĐỊNH KOLMOGOROV-SMIRNOV MỘT MẪU .................. 39 2.6.1 Ví dụ ......................................................................................... 39 2.6.2 Thực hiện trên SPSS ................................................................. 39 KẾT LUẬN .................................................................................................... 41 TÀI LIỆU THAM KHẢO ............................................................................ 42 PHỤ LỤC....................................................................................................... 43 iii LỜI MỞ ĐẦU Ngày nay, thống kê đã và đang đóng góp rất nhiều trong các lĩnh vực văn hóa, kinh tế, đời sống xã hội và nghiên cứu khoa học. Từ những số liệu thu đƣợc trên thực tế qua các phiếu điều tra hoặc của các cơ quan, tổ chức thống kê đã đƣa ra những kết luận khách quan, trung thực, chính xác và đầy đủ về đối tƣợng nghiên cứu. Từ đó giúp cho các cơ quan tổ chức, cá nhân có chiến lƣợc đánh giá, hoạch định kế hoạch và quản lý một cách hiệu quả. Nhƣ chúng ta đã biết, để kiểm định sự bằng nhau của 2 trung bình tổng thể thì phƣơng pháp thuận tiện nhất đó là kiểm định t-test và nhiều hơn 2 trung bình tổng thể thì sử dụng phân tích phƣơng sai, đó là các phƣơng pháp kiểm định có tham số. Tiêu chuẩn tham số thông thƣờng đòi hỏi nhiều giả thiết, đặc biệt là tính chuẩn mà biến đang xét cần tuân theo, ngoài ra còn đòi hỏi một vài giả thiết đối với tham số, chẳng hạn đòi hỏi phƣơng sai đã biết hoặc phƣơng sai nhƣ nhau… Nhƣng trong phân tích dữ liệu, không phải lúc nào cũng gặp những tình huống thỏa mãn hoàn toàn các giả định cần thiết này, đặc biệt khi dữ liệu có mẫu nhỏ. Lúc này sẽ nhờ đến những thủ tục đòi hỏi những giả định ít nghiêm ngặt hơn về phân phối dữ liệu. Với tên đề tài là “Một số phương pháp kiểm định phi tham số” sẽ khắc phục đƣợc những nhƣợc điểm và ứng dụng trong những bài toán cụ thể. Luận văn đƣợc thực hiện thông qua việc tổng hợp các tài liệu, sách, internet có liên quan đến đề tài kết hợp với sử dụng phần mềm SPSS để xử lý và phân tích các số liệu cho từng loại kiểm định. Luận văn gồm có lời mở đầu, phần nội dung, kết luận, tài liệu tham khảo và phụ lục, trong đó phần nội dung gồm có 2 chƣơng. Chƣơng 1: Lý thuyết kiểm định phi tham số Giới thiệu cơ sở lý thuyết và các bƣớc tiến hành của kiểm định phi tham số và đƣa ra ví dụ minh họa. Phạm vi luận văn trình bày 6 loại kiểm định sau: - Kiểm định dấu (Sign Test) - Kiểm định dấu và hạng Wilcoxon (Wilcoxon Signed – Rank Test) - Kiểm định Mann – Whitney 2 mẫu độc lập - Kiểm định Kruskal – Wallis iv - Kiểm định Chi bình phƣơng - Kiểm định Kolmogorov – Smirnov một mẫu Chƣơng 2: Thực hiện kiểm định phi tham số trên SPSS Từ những số liệu cụ thể trong sách tham khảo và trên mạng, tiến hành thực hiện các bƣớc kiểm định trên SPSS và nêu ra những nhận xét đánh giá. Cần Thơ, ngày 07 tháng 12 năm 2013 Sinh viên thực hiện Nguyễn Thành Tín v Chƣơng 1 LÝ THUYẾT KIỂM ĐỊNH PHI THAM SỐ 1.1 KIỂM ĐỊNH DẤU (SIGN TEST) 1.1.1 Mục đích Kiểm định dấu là tiêu chuẩn kiểm định phi tham số đƣợc sử dụng cho hai mẫu có liên hệ (mẫu từng cặp) để kiểm định giả thiết phân phối của hai tổng thể tƣơng ứng là giống nhau. Kiểm định này không cần giả thiết nào về hình dạng của hai phân phối. 1.1.2 Cơ sở lý thuyết Giả sử  X , Y  là một cặp gồm hai đại lƣợng ngẫu nhiên. Ta có thể coi thành phần phần thứ nhất X là hiệu quả tác động của phƣơng pháp thứ nhất, còn Y là hiệu quả của phƣơng pháp thứ hai tác động lên cùng một cá thể (đối tƣợng). Ta muốn kiểm định giả thuyết H 0 : Hiệu quả của phƣơng pháp thứ nhất và thứ hai là nhƣ nhau. Giả sử  x1; y1  ,  x2 , y2  , …,  xn , yn  là n quan sát độc lập về  X , Y  . Đặt di  yi  xi . Ta loại bỏ các di  0 vì chúng không đem lại thông tin gì. Gọi n̂ là số các d i có giá trị khác 0 và n  là số các số hạng d i dấu +. Nếu giả thuyết H 0 đúng thì số các số hạng mang dấu dƣơng có xu hƣớng bằng số các số hạng mang dấu âm. Do đó, khi H 0 đúng thì n  sẽ có phân phối nhị thức với tham số p  0,5 và n̂ . Ta biết rằng nếu nˆ.0,5  5  nˆ  10 thì tần suất n sẽ có phân phối xấp nˆ xỉ phân phối chuẩn với kì vọng 0,5 và độ lệch tiêu chuẩn là 0,5.0,5 1  nˆ 2 nˆ Do đó thống kê sau đây sẽ có phân phối chuẩn tắc  U   f  0,5 2 nˆ  1 2n   nˆ nˆ 1.1.3 Trình tự thực hiện Bước 1: Đặt giả thuyết kiểm định H 0 : “Hiệu quả của phƣơng pháp thứ nhất và thứ hai là nhƣ nhau”. H1 : “Hiệu quả của phƣơng pháp thứ nhất và thứ hai là khác nhau”. Bước 2: Tính các thông số cần thiết  Tìm sự chênh lệch giữa các cặp: di  yi  xi Bỏ qua các giá trị di  0 .  Xác định n̂ và n  2n   nˆ Tính giá trị U 0  nˆ  Lập miền bác bỏ W W  (; u )  (u ; ) nếu đối thuyết có dạng hai phía. W  (u1 ; ) nếu đối thiết có dạng “phƣơng pháp thứ nhất hiệu quả hơn phƣơng pháp thứ hai”. W  (; u1 ) nếu đối thiết có dạng “phƣơng pháp thứ hai hiệu quả hơn phƣơng pháp thứ nhất”. Bước 3: Kết luận Nếu U 0 thuộc miền bác bỏ thì bác bỏ giả thuyết H 0 và ngƣợc lại. 1.1.4 Ví dụ Một giáo viên dạy Toán cho rằng việc cho học sinh ôn tập 1 tiết cuối kì kiểm tra có tác dụng tốt đến kết quả học tập của các em. Một mẫu gồm 21 học sinh đƣợc chọn để theo dõi điểm thi của các em trƣớc và sau khi ôn tập. kết quả ghi lại nhƣ sau: Bảng 1.1: Điểm thi môn Toán trƣớc và sau khi ôn tập Trƣớc Sau Trƣớc Sau 22 21 24 25 26 29 27 27 17 15 18 20 20 20 20 23 28 26 14 16 31 32 24 26 23 25 15 20 13 14 19 20 19 19 18 17 25 27 27 19 28 27 Với mức ý nghĩa 5%, kiểm định xem chƣơng trình ôn tập có cải thiện đƣợc kết quả thi của các em học sinh không? 2 Bước 1: Đặt giả thuyết kiểm định H 0 : “Chƣơng trình ôn tập không cải thiện đƣợc kết quả thi của học sinh”. H1 : “Kết quả thi sau ôn tập tốt hơn trƣớc ôn tập”. Bước 2: Tính các thông số cần thiết  Bảng đánh giá dấu Bảng 1.2: Bảng tính và xét dấu giá trị d i Điểm thi Chênh lệch Số thứ tự cán bộ Trƣớc xi Sau yi di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 26 17 20 28 31 23 13 19 25 28 24 27 18 20 14 24 15 19 18 27 21 29 15 20 26 32 25 14 19 27 27 25 27 20 23 16 26 20 20 17 19 -1 3 -2 0 -2 1 2 1 0 2 -1 1 0 2 3 2 2 5 1 -1 -8 Dấu của chênh lệch di + 0 + + + 0 + + 0 + + + + + + -  Ta có nˆ  18, n  12 2n   nˆ 2 12   18   1, 4142  Giá trị quan sát kiểm định U 0  nˆ 18  Mức ý nghĩa   0,05  u1  u0,95  1,6449  Miền bác bỏ W  (u1 ;  )  1,6449;   3 Bước 3: Kết luận Do U 0 không thuộc miền bác bỏ nên chập nhận H 0 , tức là chƣơng trình ôn tập đã không cải thiện đƣợc kết quả thi của học sinh. 1.2 KIỂM ĐỊNH DẤU VÀ HẠNG WILCOXON (WILCOXON SIGNEDRANK TEST) 1.2.1 Mục đích Tƣơng tự nhƣ kiểm định dấu, kiểm định Wilcoxon cũng sử dụng cho hai mẫu phối hợp từng cặp mà chúng ta vừa thảo luận ở phần trên, nhƣng kiểm định dấu chỉ xét chiều hƣớng (+ hay – ) của chênh lệch giữa các cặp quan sát và bỏ qua độ lớn của các chênh lệch này nên mặc dù đơn giản nhƣng nó không mạnh. Kiểm định dấu và hạng Wilcoxon khắc phục nhƣợc điểm này vì nó sử dụng luôn cả thông tin về độ lớn của các chênh lệch với giả thiết rằng phân phối của hai tổng thể là giống nhau. 1.2.2 Cơ sở lý thuyết 1.2.2.1 Trƣờng hợp mẫu nhỏ (n  20) Tƣơng tự nhƣ kiểm định dấu. Giả sử ( X , Y ) là một cặp gồm hai đại lƣợng ngẫu nhiên. Ta có thể coi thành phần thứ nhất X là hiệu quả tác động của phƣơng pháp thứ nhất, còn Y là hiệu quả của phƣơng pháp thứ hai tác động lên cùng một cá thể (đối tƣợng). Giả sử  x1; y1  ,  x2 , y2  , …,  xn , yn  là n quan sát độc lập về ( X , Y ) . Đặt di  yi  xi . Ta loại bỏ các di  0 vì chúng không đem lại thông tin gì. Gọi n̂ là số các d i có giá trị khác 0. Ta sắp xếp các di , i  1, n theo thứ tự tăng dần theo độ lớn di nhỏ nhất đƣợc gán hạng 1, hạng 2, … và số cuối cùng là hạng n . Mỗi hạng đƣợc mang dấu “+” nếu với di  0 và dấu trừ nếu di  0 . Nếu có một vài di liên tiếp bằng nhau thì nó đƣợc gán hạng là số trung bình của các hạng của chúng. Tính tổng các hạng của d i R    ri của các hạng đƣợc xếp di  0 . di  0 R    ri của các hạng đƣợc xếp di  0 di  0 4 Giá trị kiểm định sẽ là giá trị của tổng hạng nhỏ hơn w 0  Min R  , R   Quy tắc quyết định bác bỏ giả thuyết với mức ý nghĩa  cho trƣớc là nếu w 0  w , với w  là giá trị trong bảng kiểm định Wilcoxon. a. Các bƣớc tiến hành kiểm định Bước 1: Đặt giả thuyết kiểm định H 0 : “Trung bình của hai tổng thể là nhƣ nhau”. H1 : “Trung bình của hai tổng thể là khác nhau”. Bước 2: Tính các thông số cần thiết  Tìm sự chênh lệch giữa các cặp: di  yi  xi . Bỏ qua giá trị di  0 .  Xếp hạng ri các giá trị di .  Tính tổng R    ri của các hạng đƣợc xếp di  0 . di  0  Tính tổng R    ri của các hạng đƣợc xếp di  0 . di  0  Xác định giá trị quan sát w 0  Min R  , R   .  Lập miền bác bỏ W   0; w  ( 1  2 ) Bước 3: Kết luận w 0 thuộc W thì bác bỏ giả thuyết H 0 và ngƣợc lại. b. Ví dụ Một công ty nƣớc giải khác muốn kiểm tra hiệu quả của chiến dịch quảng cáo cho một loại thức uống của công ty bằng cách điều tra ngẫu nhiên trên 10 thành phố mỗi thành phố phỏng vấn ngẫu nhiên 500 ngƣời. Bảng 1.3: Số ngƣời sử dụng nƣớc uống của công ty trƣớc và sau khi quãng cáo Thành phố Trƣớc quảng cáo Sau quảng cáo 1 95 123 7 151 160 3 192 180 4 71 93 5 5 86 99 6 215 193 7 254 311 8 123 121 9 97 131 10 153 169 Với mức ý nghĩa 2,5% có thể nói số ngƣời sử dụng sản phẩm của công ty trƣớc và sau quảng cáo là nhƣ nhau không? Bước 1: Đặt giả thuyết kiểm định H 0 : “Số ngƣời sử dụng sản phẩm của công ty trƣớc và sau quảng cáo là nhƣ nhau”. H1 : “Số ngƣời sử dụng sản phẩm của công ty trƣớc quảng cáo và sau quảng cáo là khác nhau”. Bước 2: Tính các thông số cần thiết  Bảng xếp hạng Bảng 1.4: Bảng tính giá trị d i và xếp hạng di Thành phố 1 2 3 4 5 6 7 8 9 10 Số ngƣời sử dụng Trƣớc Sau quảng quảng Xếp hạng d i Chênh lệch d i cáo yi cáo xi 95 123 151 160 192 180 71 93 86 99 215 193 254 311 123 121 97 131 153 169 Tổng hạng +28 +9 -12 +22 +13 -22 +57 -2 +34 +16 - + 8 2 3 6,5 4 6,5 10 1 R   10,5 9 5  R  44,5  Giá trị quan sát w 0  MinR  , R    10,5  Mức ý nghĩa   0,025 , tra bảng Wilcoxon ta đƣợc w  9 (n  10) .  Miền bác bỏ W   0;9  . Bước 3: Kết luận w 0 không thuộc W nên ta chấp nhận giả thiết H 0 và bác bỏ đối thiết H1 , tức là chiến dịch quảng cáo không đem lại hiệu quả cho công ty. 1.2.2.2 Trƣờng hợp mẫu lớn (n  20) Nếu n lớn thì phân phối Wilcoxon W sẽ tiệm cận về phân phối chuẩn và nếu giả thuyết H 0 đúng thì trung bình và phƣơng sai của phân phối chuẩn Wilcoxon đƣợc tính nhƣ sau: 6 w  nˆ  nˆ  1 4 nˆ  nˆ  1 2nˆ  1 24  w2  ( w 0  Min R  , R   ) Giá trị quan sát u0  w 0  w , w Miền bác bỏ W  (; u )  (u ;  ) Trong trƣờng hợp kiểm định một đuôi thì: Nếu đối thuyết có dạng: H1 : 1  2 miền bác bỏ là. W  (; u1 ) Nếu đối thuyết có dạng: H1 : 1  2 thì miền bác bỏ là. W  (u1 ; ) a. Các bƣớc tiến hành kiểm định Bước 1: Đặt giả thuyết kiểm định  H 0 : 1  2   H1 : 1  2  H 0 : 1  2   H1 : 1  2  H 0 : 1  2   H1 : 1  2 Bước 2: Tính các thông số cần thiết  Trung bình và phƣơng sai w   w2   Giá trị quan sát u0  nˆ  nˆ  1 4 nˆ  nˆ  1 2nˆ  1 24 w 0  w w , ( w 0  Min R  , R   )  Miền bác bỏ W  (; u )  (u ; ) nếu ( 1  2 ) W  (; u1 ) nếu ( 1  2 ) W  (u1 ; ) nếu ( 1  2 ) Bước 3: Kết luận Nếu u0  W thì ta bác bỏ giả thuyết H 0 , và ngƣợc lại. 7 b. Ví dụ Có một ý kiến cho rằng trong hai anh em trai ngƣời em luôn cao hơn ngƣời anh. Một mẫu ngẫu nhiên gồm 25 cặp anh em trai đƣợc chọn, chiều cao của anh (X) và chiều cao của em (Y) đƣợc ghi lại nhƣ sau (đơn vị cm). Bảng 1.5: Chiều cao của 25 cặp anh em trai (đơn vị cm) xi 170 169 167 168 166 165 165 164 164 165 yi 175 172 167 166 163 166 164 176 163 167 xi 166 166 169 168 168 166 168 168 169 169 yi 168 164 170 172 171 170 171 165 166 171 xi 164 170 169 169 166 yi 163 168 166 167 166 Với mức ý nghĩa 5% kiểm định xem chiều cao của hai anh em trai là giống nhau hay khác nhau? Bước 1: Đặt giả thuyết kiểm định H 0 : “Chiều cao trung bình của hai anh em là giống nhau”. H1 : “Chiều cao trung bình của hai anh em là khác nhau”. Bước 2: Tính các thông số cần thiết  Bảng đánh giá xếp hạng Bảng 1.6: Bảng tính giá trị d i và xếp hạng di STT 1 2 3 4 5 6 7 8 9 10 11 12 Chiều cao (cm) Anh xi Em yi 170 175 169 172 167 167 168 166 166 163 165 166 165 164 164 167 164 163 165 167 166 168 166 164 Chênh lệch d i -5 -3 0 +2 +3 -1 +1 -3 +1 -2 -2 +2 8 Xếp hạng di 23 17 + 10 17 3,5 3,5 17 3,5 10 10 10 13 14 15 16 17 18 19 20 21 22 23 24 25 169 170 168 172 168 171 166 170 168 167 168 165 169 166 169 171 164 163 170 168 169 166 169 167 166 166 Tổng hạng -1 -4 -3 -4 +1 +3 +3 -2 +1 +2 +3 +2 0 3,5 21,5 17 21,5 3,5 17 17 10 3,5 10 17 10 R   154 R  122  Ta có w 0  Min R  , R    122 nˆ  23 w  nˆ  nˆ  1 23  23  1   138 4 4  w2  nˆ  nˆ  1 2nˆ  1 23  23  1 2.23  1   1081 24 24  Giá trị quan sát u0  w 0  w w 122  138  0, 486639 1081   Mức ý nghĩa   0,05  u  u 1   u0,75  1,96 2  Miền bác bỏ W  (; u )  (u ;  )  (; 1,96)  (1,96; ) Bước 3: Kết luận u0 không thuộc W nên ta chấp nhận H 0 , nghĩa là chiều cao trung bình của hai anh em trai không phân biệt khác nhau. 1.3 KIỂM ĐỊNH MANN-WHITNEY 2 MẪU ĐỘC LẬP 1.3.1 Mục đích Kiểm định Mann – Whitney còn gọi là kiểm định hạng hay kiểm định U là tiêu chuẩn kiểm định phi tham số đƣợc sử dụng cho hai mẫu độc lập nhau để kiểm định giả thuyết phân phối của hai tổng thể giống nhau. Kiểm định này cũng không cần giả thuyết nào về dạng của hai phân phối. 9 1.3.2 Cơ sở lý thuyết 1.3.2.1 Trƣờng hợp mẫu lớn (n1 , n2  8) Giả sử ta có hai mẫu quan sát độc lập nhau. Mẫu thứ nhất x , x , ..., x  là n  y , y , ..., y  là n 1 2 1 2 n1 n2 1 quan sát độc lập về đại lƣợng X , còn mẫu thứ hai 2 quan sát độc lập về đại lƣợng Y . Phân phối của X và Y là chƣa biết và nhất thiết không phải là phân phối chuẩn. Ta kiểm định giả thuyết H 0 : X và Y có phân phối giống nhau (hay  X  Y ).  Gộp hai mẫu x1 , x2 , ..., xn1  và  y , y , ..., y  thành một mẫu với cỡ 1 2 n2 mẫu là n1  n2 . Sắp xếp n1  n2 giá trị x , x , ..., x 1 2 n1 , y1, y2 , ..., yn2  theo thứ tự tăng dần. Những giá trị bằng nhau sẽ nhận giá trị trung bình. Gọi Ri là tổng hạng của mẫu thứ i R1  r1  r2  ...  rn1 Giả sử yi có hạng là si  i  1, 2, ..., n2  ta tính tổng của các hạng của yi R2  s1  s2  ...  sn2 Dĩ nhiên R1  R2  r1  r2  ...  rn1  s1  s2  ...  sn2  1  2  ...   n1  n2    n1  n2  1 n1  n2  2 Ngƣời ta chứng minh đƣợc nếu H 0 đúng và n1 , n2  8 thì R1 có phân phối xấp xỉ chuẩn với giá trị trung bình là R  1 n1  n1  n2  1 2 và phƣơng sai là  R2  1 n1n2  n1  n2  1 12 (Tƣơng tự R2 có phân phối xấp xỉ với giá trị trung bình là 10 R  2 n2  n1  n2  1 2 và phƣơng sai là  R2  2 n1n2  n1  n2  1 ) 12 n1  n1  1  R1 2 Khi tăng quan sát lên (tăng n1 , n2 ) phân phối U sẽ tiếp cận phân phối Đặt U  n1n2  chuẩn và nếu giả thiết H 0 đúng thì trung bình và phƣơng sai của phân phối U đƣợc tính nhƣ sau: U   U2  Và đại lƣợng U  U U n1n2 2 n1n2  n1  n2  1 12 có phân phối chuẩn hóa (chuẩn tắc) sẽ đƣợc chọn làm tiêu chuẩn kiểm định. Do đó giá trị quan sát sử dụng tiêu chuẩn kiểm định sẽ là u0  U  U U Miền bác bỏ W   ; u    u ;   Khi R1 nhỏ thì U lớn và ngƣợc lại. Do đó khi kiểm định một đuôi thì: Nếu đối thuyết có dạng: H1 : 1  2 miền bác bỏ là W  (; u1 ) Nếu đối thuyết có dạng: H1 : 1  2 thì miền bác bỏ là. W  (u1 ; ) a. Các bƣớc tiến hành kiểm định Bước 1: Đặt giả thuyết kiểm định  H 0 : 1  2   H1 : 1  2  H 0 : 1  2   H1 : 1  2  H 0 : 1  2   H1 : 1  2 Bước 2: Tính các thông số cần thiết  Gộp hai mẫu x , x , ..., x ,  y , y , ..., y  thành một mẫu với cỡ 1 2 n1 1 mẫu là n1  n2 . 11 2 n2  Sắp xếp, xếp hạng n1  n2 giá trị x , x , ..., x 1 2 n1 , y1, y2 , ..., yn2  theo thứ tự tăng dần.  Tính tổng của các hạng của xi : R1  r1  r2  ...  rn1 .  Tính U  n1n2  n1  n1  1  R1 2  Tính trung bình và phƣơng sai của U : U   U2   Tính giá trị quan sát u0  n1n2 , 2 n1n2  n1  n2  1 . 12 U  U U .  Lập miền bác bỏ W   ; u    u ;   W  (; u1 ) nếu ( 1  2 ) W  (u1 ; ) nếu ( 1  2 ) Bước 3: Kết luận Nếu u0  W thì ta bác bỏ giả thuyết, và ngƣợc lại. b. Ví dụ Một ngƣời lái xe thƣờng xuyên đi lại giữa hai địa điểm. Có hai con đƣờng đi giữa hai địa điểm này, đƣờng X và đƣờng Y. Chọn ngẫu nhiên 10 ngày đi theo đƣờng X và 12 ngày đi theo đƣờng Y, đo thời gian di chuyển có các số liệu sau đây (thời gian tính bằng phút). Đƣờng X: 34 28 46 56 85 48 25 37 49 42 Đƣờng Y: 45 59 41 55 59 45 65 50 47 51 40 60 Với mức ý nghĩa 5%, hãy nhận định xem có một sự khác nhau về thời gian đi lại khi sử dụng đƣờng X và đƣờng Y hay không? Bước 1: Đặt giả thuyết kiểm định H 0 : “Thời gian trung bình đi theo đƣờng X và Y là giống nhau”. H1 : “Thời gian đi theo đƣờng X và Y là khác nhau”. 12 Bước 2: Tính các thông số cần thiết  Bảng đánh giá xếp hạng Bảng 1.7: Bảng đánh giá xếp hạng thời gian giữa hai đƣờng đi Đƣờng X Thời gian Xếp hạng 25 1 28 2 34 3 37 4 STT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 42  U  n1n2  40 41 5 6 45 45 8,5 8,5 47 11 49 13,5 50 51 55 15 16 17 59 60 65 19 20 21 R2  12 R2  106,5 7 46 10 48 12 49 13,5 56 n  n1  n2  22 Đƣờng Y Thời gian Xếp hạng 18 85 n1  10 22 R1  92,5 n1  n1  1 10(10  1)  R1  10.12   92,5  82,5 2 2  Trung bình và phƣơng sai của U U   U2  n1n2 10.12   60 , 2 2 n1n2  n1  n2  1 10.12(10  12  1)   230 12 12  Giá trị quan sát u0  U  U U  82,5  60  1, 4836 230  Mức ý nghĩa   0,05  u  u 1   u0,975  1,96 2  Miền bác bỏ W   ; u    u ;     ; 1,96   1,96;   13 Bước 3: Kết luận u0 không thuộc W nên không thể bác bỏ giả thuyết H 0 , tức là thời gian đi giữa hai con đƣờng X và Y là không khác nhau. 1.3.2.2 Trƣờng hợp mẫu nhỏ (n1  n2  8) Tƣơng tự nhƣ trƣờng hợp mẫu lớn, giả sử có hai mẫu ngẫu nhiên độc lập gồm n1 và n2 quan sát từ tổng thể thứ nhất và thứ hai. a. Các bƣớc tiến hành kiểm định Bước 1: Đặt giả thuyết kiểm định H 0 : “ X và Y có phân phối giống nhau”. H1 : “ X và Y có phân phối khác nhau”. Bước 2: Tính các thông số cần thiết  Giá trị kiểm định U  n1n2  n1 (n1  1)  R1 2 Trong đó: R1 là tổng các hạng quan sát của mẫu thuộc tổng thể thứ nhất.  Tra bảng phân phối U tìm F (U )  Fn1 ,n2 (U ) Bước 3: Kết luận Bác bỏ giả thuyết H 0 nếu   2F (U ) b. Ví dụ Chúng ta muốn so sánh lƣơng khởi điểm sinh viên tốt nghiệp ngành kinh tế có khác biệt gì với ngành tin học. Chọn mẫu ngẫu nhiên 5 sinh viên ngành kinh tế và 7 sinh viên ngành tin học (đơn vị tính là ngàn đồng). Ngành kinh tế: 2000 1700 1600 1800 1400 Ngành tin học: 1200 1900 1150 1300 1200 1500 1100 Xét kiểm định với mức ý nghĩa 1% và 5%. Bước 1: Đặt giả thuyết kiểm định H 0 : “Lƣơng khởi điểm của sinh viên ở hai ngành là nhƣ nhau”. H1 : “Lƣơng khởi điểm của sinh viên ở hai ngành là khác nhau”. Bước 2: Tính các thông số cần thiết 14 Tải về bản full

Từ khóa » Cách Tra Bảng Wilcoxon