BÀI GIẢNG Phương Pháp Chọn Mẫu Và Tính Cỡ Mẫu Trong Nghiên Cứu

BÀI GIẢNG Phương pháp chọn mẫu và tính cỡ mẫu trong nghiên cứu NỘI DUNG: Quy trình chọn mẫu Cỡ mẫu trong các nghiên cứu Cách tính cỡ mẫu Phương pháp chọn mẫu (chọn xác suất hay chọn không xác suất)....

Trang 2

Chia sẻ

Khó khăn

Kinh nghiệm

Trang 3

Khó khăn trong việc kiểm soát và đảm bảo chất lượng số liệu/chất lượng nghiên cứu

Chỉ chọn một mẫu (sample) từ dân số (population/target population)

 tính toán các chỉ số thống kê từ mẫu dùng để ước lượng giá trị thực của quần thể

Trang 4

Mục tiêu

Vai trò của chọn mẫu và tính toán cỡ mẫu

Nắm được một số khái niệm cơ bản trong chọn mẫu

Tính toán được cỡ mẫu cho nghiên cứu thường gặp

Sử dụng được phần mềm SampleSize của WHO để tính toán nhanh cỡ mẫu

Phân biệt được các phương pháp chọn mẫu

Trang 5

Xác định khung mẫu

Xác định k.thước mẫu/tính cỡ mẫu

Xác định p.p chọn mẫu

Chọn mẫu

Trang 6

Nội dung

Các khái niệm

Tính cỡ mẫu cho các nghiên cứu thường gặp

Sử dụng SampleSize của WHO để tính toán nhanh cỡ mẫu

Các phương pháp chọn mẫu

Trang 7

• Quần thể đích: quần thể lý tưởng cho việc đáp ứng các mục tiêu của điều tra

• Quần thể NC: quần thể được điều tra trong thực tế

• Khung mẫu: danh sách các đơn vị trong quần thể nghiên cứu

• Phần tử: một đơn vị nghiên cứu trong cuộc điều tra

8

Trang 9

sữa cho trẻ ở huyện X tuổi ở huyện X huyện X

Tác động của lũ lụt đến KTXH (và sức

khỏe) ở phường Y

Toàn bộ những hộ gia đình bị lụt ở phường Y

1 lần khám chữa bệnh tại phòng khám Z trong vòng 6 tháng

Trang 10

Các khái niệm

Đơn vị nghiên cứu

Trang 12

Mục tiêu: Xác định, đo lường, so sánh …

VD: mắc bệnh, khỏi bệnh, tử vong, tiếp cận được với dịch vụ, có kiến thức tốt/đạt, mức độ hài lòng …

VD: chiều cao, cân nặng, số ngày nằm viện, chi phí …

Tính cỡ mẫu cho từng chỉ số, lấy cỡ mẫu có giá trị lớn nhất

Nguyên tắc cơ bản, chỉ số có giá trị càng nhỏ, cỡ mẫu càng lớn

Cỡ mẫu

Trang 13

Cắt ngang/Sinh thái

Bệnh chứng

Thuần tập

Thử nghiệm lâm sàng

Trang 14

Cỡ mẫu - NC cắt ngang – 1 Tỷ lệ

 z : hệ số tin cậy

 p : tỷ lệ dự đoán  từ các nghiên cứu trước hoặc 50%

 d : độ chính xác tuyệt đối  + x đơn vị

d

p p

z

Trang 15

 z : hệ số tin cậy

 p : tỷ lệ dự đoán  từ các nghiên cứu trước hoặc 50%

 d : độ chính xác tuyệt đối  + x đơn vị

16

Ví dụ: một nghiên cứu cắt ngang, để đánh giá tỷ lệ thừa cân của trẻ 6-12 tuổi

tại tỉnh X Tỷ lệ của một nghiên cứu khác là 15%.

Cần có tối thiểu 196 trẻ 6-12 tuổi để nghiên cứu

1

d

196 05

, 0

) 15 , 0 1 ( 15 , 0 96

Trang 18

Tỷ lệ thấp

Sử dụng công thức tính cỡ mẫu với độ chính xác tương đối (ε)

 Ví dụ: một nghiên cứu cắt ngang, để đánh giá tỷ lệ tử vong sơ sinh tại huyện X Tỷ

lệ của một nghiên cứu khác là 50/1000

1 ( 1 )

ε

Trang 20

 Ví dụ:

Xác định thời gian bị chậm trễ trong việc điều trị ở những bệnh nhân lao tại …

n cỡ mẫu cần thiết

α sai số loại 1 (xác suất không đạt được các kết quả tương tự nếu điều tra được lặp lại)

μ giá trị trung bình của vấn đề cần NC (tham khảo các NC trước đây)

σ độ lệch chuẩn của vấn đề cần NC (tham khảo các NC trước đây)

ε sai số tương đối chấp nhận được

Cỡ mẫu - NC cắt ngang – 1 Trung bình

22

22

/

1

µ ε

σ

= Z

n

Trang 22

Ví dụ: xác định mối liên quan giữa việc sử dụng nguồn nước hợp vệ sinh và tình trạng mắt hột hoạt

tính ở trẻ dưới 10 tuổi ở huyện X

n cỡ mẫu cần thiết

α sai số loại 1

1-β lực mẫu, xác suất có thể tìm thấy khác biệt thực sự giữa hai nhóm

ORo tỷ số chênh cần kiểm định (ORo=1)

P1 tỷ lệ phơi nhiễm trong nhóm bệnh (NC trước đây)

P2 tỷ lệ phơi nhiễm trong nhóm chứng (NC trước đây)

ORa tỷ số chênh theo giả thuyết (NC trước đây)

Cỡ mẫu - NC bệnh chứng

2 2 1

2 2 2

1 1

1 2

2 2

/ 1

) (

) 1

( )

1 ( )

1 (

2

P P

P P

P P

z P

P

z n

− +

− +

= −α −β

Trang 23

- tỉ lệ người dân của huyện có tiếp cận với nguồn nước sạch là 20%

 tỉ lệ hộ gia đình phải sử dụng nguồn nước không hợp vệ sinh là 80% (tỉ lệ phơi

nhiễm với yếu tố nguy cơ trong quần thể)

Lực mẫu bằng 80%

OR (tham khảo) giữa nhóm bệnh và nhóm chứng về tình trạng phơi nhiễm là 1,75

Ta tính được cỡ mẫu cần thiết để nghiên cứu cho nhóm trẻ bệnh và trẻ chứng là 299 trẻ

(tỉ lệ bệnh:chứng là 1:1)

Trang 24

Cỡ mẫu - NC bệnh chứng

Trang 25

rượu nhiều.

n cỡ mẫu cần thiết

α sai số loại 1

1-β lực mẫu, xác suất có thể tìm thấy khác biệt thực sự giữa hai nhóm

RRo nguy cơ tương đối cần kiểm định (RRo=1)

P1 tỷ lệ mắc bệnh trong nhóm phơi nhiễm (NC trước đây)

P2 tỷ lệ mắc bệnh trong nhóm không phơi nhiễm (NC trước đây)

RRa nguy cơ tương đối cần kiểm định (NC trước đây)

p tỷ lệ dự đoán của vấn đề cần NC (tham khảo các NC trước đây)

d giới hạn của sai số chấp nhận được

2 2 1

2 2 2

1 1

1 2

/ 1

) (

) 1

( )

1 ( )

1 (

2

P P

P P

P P

z P

P

z n

− +

− +

= −α −β

Trang 26

Cỡ mẫu - NC thuần tập

Trang 27

n cỡ mẫu cần thiết

α sai số loại 1

1-β lực mẫu, xác suất có thể tìm thấy khác biệt thực sự giữa hai nhóm

RRo nguy cơ tương đối cần kiểm định (RRo=1)

P1 tỷ lệ khỏi bệnh (thay đổi) trong nhóm được điều trị (NC trước đây)

P2 tỷ lệ khỏi bệnh (thay đổi) trong nhóm đối chứng (NC trước đây)

RRa nguy cơ tương đối cần kiểm định (NC trước đây)

p tỷ lệ dự đoán của vấn đề cần NC (tham khảo các NC trước đây)

d giới hạn của sai số chấp nhận được

2 2 1

2 2 2

1 1

1 2

/ 1

) (

) 1

( )

1 ( )

1 (

2

P P

P P

P P

z P

P

z n

− +

− +

= −α −β

Trang 28

n: cỡ mẫu tối thiểu

P1: Tỷ lệ đáp ứng với phương pháp cũ (30%) P2: Tỷ lệ đáp ứng với phương pháp mới (45%) P: =(P1+P2)/2

z (1- α /2)= 1,96

z (1- β )= 0,842

Cỡ mẫu – khác nhau giữa 2 tỷ lệ :

Trang 30

Phương pháp chọn mẫu

31

Chọn xác suất

Mẫu ngẫu nhiên đơn

Mẫu ngẫu nhiên hệ thống

Trang 31

Chỉ tiến hành một bước (xác suất hoặc không xác suất)

 Chọn mẫu nhiều giai đoạn

Chọn nhiều bước khác nhau

Mỗi bước có thể sử dụng phương pháp chọn khác nhau

Trang 32

PP chọn mẫu xác suất

33

Tất cả các đơn vị trong quần thể đều có cơ hội/xác suất được chọn lựa

Mẫu xác suất là mẫu mang tính đại diện cho quần thể, cho phép ngoại suy kết quả NC.

Để tăng tính đại diện:

Chọn mẫu xác suất

Trang 34

Ngẫu nhiên đơn - Quần thể đích

35

Trang 35

12 13

14 15

16 17

18 19

20 21

22 23

35 36

37 38

39 40

55 56

57 58

59 60

Trang 36

Chọn số ngẫu nhiên bằng Excel

Trang 37

Ưu điểm Nhược điểm

38

Mọi đơn vị trong quần thể có một cơ hội

được chọn vào mẫu như nhau, mẫu được

đảm bảo là đại diện và chỉ bị ảnh hưởng bởi

Mẫu có thể chứa không đủ các cá thể ở các

nhóm nhỏ trong quần thể mà người NC quan tâm.

Trang 38

PP chọn mẫu ngẫu nhiên hệ thống

39

Xác định khoảng cách mẫu k=N/n (làm tròn lên và xuống)

 Sự lựa chọn của mọi đơn vị thứ k trong quần thể hay khung mẫu

 Đơn vị mẫu đầu tiên được chọn ngẫu nhiên từ k đơn vị mẫu đầu tiên.

Trang 40

Chọn 10 đơn vị với khoảng cách mẫu k = 6

Trang 43

Có thể gây sai số nếu có một sự thay đổi

theo chu kỳ xảy ra đồng thời với chọn mẫu (biến thiên hệ thống trong khung mẫu – ngày trong tuần).

Trang 44

Chọn mẫu cụm – tại sao lại cum ?

45

 Quần thể được coi là tập hợp của nhiều nhóm nhỏ:

 Phường/xã; trường/lớp học, hộ gia đình…

 Các cụm thường có một số đặc điểm chung

 Việc lập danh sách mẫu cho quần thể gặp nhiều khó khăn (quần thể

lớn)

Trang 45

46

Trang 46

8 9

18 19

20

Trang 48

Chọn ngẫu nhiên cụm bằng Excel

Trang 49

8 9

18 19

20

18

Trang 50

Chọn toàn bộ thành viên của 2 cụm được chọn

51

4 3

2 1

5

8

7 6

9

Trang 51

Áp dụng khi không có sẵn khung mẫu

Giảm chi phí cho điều tra so với kĩ thuật chọn

mẫu ngẫu nhiên (hạn chế việc phỏng vấn

dân cư sống quá rải rác, xa nhau trên một

khu vực rộng lớn rất tốn thời gian)

Giảm độ chính xác của kết quả NC khi so

sánh với mẫu ngẫu nhiên đơn có cùng cỡ mẫu

Cỡ của cụm sẽ ảnh hưởng tới kết quả suy

luận thống kê của NC cho quần thể.

Trang 52

Chọn mẫu

nhiều giai đoạn

Trang 53

hộ gia đình).

 Mỗi giai đoạn có thể áp dụng các phương pháp chọn khác nhau

Giai đoạn 1: Chọn ngẫu nhiên cụm

Giai đoạn 2: trong cụm: chọn đối tượng theo ngẫu nhiên đơn hoặc ngẫu nhiên

hệ thống

Trang 54

Giai đoạn 1: chọn cụm (lập danh sách cụm)

8 9

18 19

20

Trang 55

4

5

6 7

8 9

18 19

20

12

Trang 56

Giai đoạn 2: chọn ngẫu nhiên đơn trong cụm (lập danh sách trong cụm)

57

3

3 2

Trang 57

12

1 2

3 4 5 1

3

Trang 58

Chọn mẫu nhiều giai đoạn

59

Không cần thiết phải có khung mẫu gồm toàn

bộ đơn vị mẫu của quần thể.

Dễ chọn hơn mẫu ngẫu nhiên đơn vì những

đơn vị mẫu trong mẫu NC đã tập hợp với

nhau thành các nhóm, thay vì rải rác trong

toàn bộ quần thể NC.

Tính đại diện thấp hơn so với mẫu ngẫu

nhiên đơn

Trang 60

http://www.sample-size.net/sample-size-means/

Trang 61

Third level

Fourth level

Fifth level

Sean Hennessy, Warren B Bilker,Jesse A Berlin, and Brian L Strom, 1999, Factors Influencing the Optimal Control-to-Case Ratio in Matched Case-Control Studies,

American Journal of Epidemiology, Vol 149, No 2

The results suggest that investigators consider including more than five controls per case when either phi is greater than

about 0.2 or Po is less than about 0.15

Từ khóa » Khái Niệm Cỡ Mẫu