Thống Kê Phân Tích Dành Cho Biến Phân Loại Với Stata - 123doc
01 BIẾN KẾT CỤC NHỊ GIÁ – 01 BIẾN TIÊN ĐOÁNNHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ Phép kiểm chi bình phương cho hai biến.. Tính kết hợp giữa hai biến kết cục nhị giá và tiên đoán nhị giá Attr.. Giá
Trang 101 BIẾN PHỤ THUỘC NHỊ GIÁ – 0 CÓ BIẾN ĐỘC
• p < 0,001: bác bỏ giả thuyết H0: có sự khác biệt có ý nghĩa thống kê giữa nhóm
có và nhóm không có
Trang 201 BIẾN KẾT CỤC NHỊ GIÁ – 01 BIẾN TIÊN ĐOÁN
NHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ
Phép kiểm chi bình phương cho hai biến
tabulate chd69 agec, col chi2
CHD Event | RECODE of age (Age)
Trang 3tabulate sex abany, chi2 row V
| WANTS FOR ANY REASON
Gender | YES NO | Total
• Cramer’s V=0,03: Cramer nhỏ chứng tỏ sức mạnh tương quan của hai biến yếu
Trang 4• Cramer ở đây âm bởi vì trong trường hợp này biến aspirin được mã là aspirin(1) còn placebo (0) còn heart attack thì attack (1) và no attack (0) Khi Cramer
V âm chứng tỏ ở nhóm aspirin (1) thì liên quan âm với ở nhóm heart attack (1)
tabi 215 269\172 244, chi2 row V
Trang 6chi2power, startf(1) endf(10) incr(1)
alpha = 05
sample size factor = 1.00 power = 0.3496 for n = 357
sample size factor = 2.00 power = 0.6410 for n = 714
sample size factor = 3.00 power = 0.8293 for n = 1071
sample size factor = 4.00 power = 0.9272 for n = 1428
sample size factor = 5.00 power = 0.9715 for n = 1785
sample size factor = 6.00 power = 0.9896 for n = 2142
sample size factor = 7.00 power = 0.9964 for n = 2499
sample size factor = 8.00 power = 0.9988 for n = 2856
sample size factor = 9.00 power = 0.9996 for n = 3213
sample size factor = 10.00 power = 0.9999 for n = 3570
• alph =0,05: chọn mức ý nghĩa thống kê là 0,05
• nếu cỡ mẫu là hiện tại (sample size factor =1) thì power phép kiểm chỉ có 0,34(34%), quá thấp so với yêu cầu (≥ 0,8)
• nếu cỡ mẫu tăng lên 1% (sample size factor =2) thì power tăng lên 0,64
• chỉ khi cỡ mẫu tăng 3% thì power mới là 0,82
Trang 7prtest treat == control
Two-sample test of proportions treat: Number of obs = 20 control: Number of obs = 20 - Variable | Mean Std Err z P>|z| [95% Conf Interval] -+ - treat | .75 .0968246 5602273 .9397727 control | .35 .1066536 1409627 .5590373 -+ - diff | 4 .1440486 1176699 .6823301 | under Ho: .1573213 2.54 0.011
diff = prop(treat) - prop(control) z = 2.5426 Ho: diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(Z < z) = 0.9945 Pr(|Z| < |z|) = 0.0110 Pr(Z > z) = 0.0055
Trang 8prtest cure, by(group)
Two-sample test of proportions 0: Number of obs = 20 1: Number of obs = 20 - Variable | Mean Std Err z P>|z| [95% Conf Interval] -+ -
0 | .35 .1066536 1409627 .5590373
1 | .75 .0968246 5602273 .9397727 -+ - diff | -.4 .1440486 -.6823301 -.1176699 | under Ho: .1573213 -2.54 0.011
diff = prop(0) - prop(1) z = -2.5426 Ho: diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(Z < z) = 0.0055 Pr(|Z| < |z|) = 0.0110 Pr(Z > z) = 0.9945
Trang 9Tính kết hợp giữa hai biến kết cục nhị giá và tiên đoán nhị giá
Attr frac ex | 3616011 | .1895387 .4971343
Attr frac pop | 1446404 |
Odds ratio | 1.63528 | 1.257732 2.126197 (Cornfield)
chi2(1) = 13.64 Pr>chi2 = 0.0002
Tính bảng 2x2 cho biến kết cục và biến tiên đoán
Hàng Risk chính là tóm tắt nguy cơ kết cục của nhóm có và không có yếu tố tiênđoán
Risk difference hay còn gọi là excess risk chính là hiệu số nguy cơ của hai nhóm.Risk ratio chính là relative risk chính là tỷ số hai nguy cơ ở hai nhóm
Odds ratio chính là tỷ số số chênh giữa hai nhóm
Attr frac ex.: (attributable risk fraction in exposed group) chính là phần kết cục cóthể quy cho biến tiên đoán trong nhóm có yếu tố tiên đoán
Attr frac Pop: (attributable risk fraction in population) chính là phần kết cục cóthể quy cho biến tiên đoán trong dân số chung
Giá trị p của phép kiểm chi bình phương < 0.05 chứng tỏ giữa biến kết cục và biếntiên đoán có mối kết hợp
Trang 10Sử dụng phép kiểm Fisher exact trong trường hợp cỡ mẫu nhỏ Phép kiểmFisher’exact test chỉ được sử dụng khi có ô vọng trị hoặc ô giá trị thực < 5
Trang 11Trong trường hợp biến tiên đoán có nhiều nhóm thì chúng ta phải tính các số ER,
OR và RR cho từng nhóm Lệnh tabodds cho phép tính các số này giữa nhóm lớnhơn với nhóm nền là nhó nhỏ nhất
Test of homogeneity: là phép kiểm với giả định rằng tất cả các OR giữa các nhómcủa biến age là như nhau Giá trị p< 0.05 chứng tỏ bác bỏ giả thuyết này
Score test for trend of odds: Là phép kiểm với giả thuyết rằng không có xu hướngtuyến tính cho OR của CHD khi nhóm tuổi tăng dần P< 0.05 chứng tỏ bác bỏ giảthuyết này
Power analysis khi sử dụng phép kiểm chi bình phương
tab sex health, lrchi2 row
respondent | condition of health
sex | excellent good fair poor | Total
Trang 12sample size factor = 1.00 power = 0.2823 for n = 171
sample size factor = 2.00 power = 0.5317 for n = 342
sample size factor = 3.00 power = 0.7257 for n = 513
sample size factor = 4.00 power = 0.8520 for n = 684
sample size factor = 5.00 power = 0.9253 for n = 855
sample size factor = 6.00 power = 0.9642 for n = 1026
sample size factor = 7.00 power = 0.9836 for n = 1197
sample size factor = 8.00 power = 0.9928 for n = 1368
sample size factor = 9.00 power = 0.9969 for n = 1539
sample size factor = 10.00 power = 0.9987 for n = 1710
Option startf(1) yêu cầu Stata tính power cho cỡ mẫu hiện tại (N=171) Powerchính là năng lực với tỷ lệ trong các ô bảng 2x2 thì có bao nhiêu phần trăm kết quảchi bình phương mối quan hệ có ý nghĩa thống kê Ở đây ta có power của N= 171
là 28% như vậy có thể nói là nếu chúng ta lập lại nhiều lần mẫu với cùng tỷ lệtrong các ô thì chúng ta sẽ có 28% phát hiện mối quan hệ có ý nghĩa thống kê,Option endf(10) nghĩa là phân tích power cho cỡ mẫu gấp 10 lần
Option incr(1) yêu cầu Stata sẽ tăng cỡ mẫu mỗi lần hệ số 1 đơn vị so với mẫuhiện tại
Trang 13Nhiều nhà thống kê power của một mẫu phải > 80 hoặc > 90 Như vậy để mối quan
hệ này có ý nghĩa thống kê thì cỡ mẫu phải là 684 hoặc 855
Trang 1401 BIẾN KẾT CỤC NHỊ GIÁ – 02 BIẾN TIÊN ĐOÁN
NHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ
Tính kết hợp giữa biến kết cục và tiên đoán
cs vstatus smoker [freq = nn], or by(agegrp)
agegrp | OR [95% Conf Interval] M-H Weight
-Test of homogeneity (M-H) chi2(2) = 0.945 Pr>chi2 = 0.6234
Test that combined OR = 1:
Mantel-Haenszel chi2(1) = 3.24
Pr>chi2 = 0.0719
Xác định mối kết hợp giữa biến vstatus và smoker phân tầng theo biến agegrp.Crude: chính là OR thô giữa vstatus và smoker không có phân tầng theo agegrp.M-H combined: chính là OR kết hợp nghĩa là OR của vstatus và smoker phân tầng theo từng nhóm tuổi
Test of homogeneity (M-H): pháp kiểm giả định rằng cả ba OR theo từng tầng tuổi đều giống nhau Kết quả không bác bỏ giả thuyết H0 Chúng ta kết luận rằng không
có bằng chứng mạnh về tương tác giữa smoker và agegroup và rằng OR đặc hiệu theo tuổi là như nhau
Test that combined OR = 1: Phép kiểm kiểm tra giả thuyết H0 rằng OR hiệu chỉnh theo tuổi để đánh giá kết hợp giữa vstatus và smoker khác 0 Kết quả cho thấy không bác bỏ giả thuyết H0 nghĩa là OR hiệu chỉnh khác 0 Chúng ta kết luận rằng mối kết hợp giữa vstatus và smoker chịu ảnh hưởng một phần bởi hiệu chỉnh theo tuổi Hiệu ứng biến age lên mối kết hợp giữa vstatus và smoker gọi là confounding
Trang 1601 BIẾN PHỤ THUỘC NHỊ GIÁ – NHIỀU BIẾN
ĐỘC LẬP LÀ BIẾN ĐỊNH LƯỢNG
Ví dụ
logit improve therapy
Iteration 0: log likelihood = -194.40888
Iteration 1: log likelihood = -192.30753
Iteration 2: log likelihood = -192.30471
Iteration 3: log likelihood = -192.30471
Logistic regression Number of obs = 299
Coef chính là log odds giữa liệu pháp điều trị thay thế và điều trị theo bậc Hệ số
có dấu âm chứng tỏ liệu pháp điều trị theo bậc ưu việt hơn điều trị thay thế
Trang 17logistic improve therapy
Logistic regression Number of obs = 299
logistic improve therapy sex
Logistic regression Number of obs = 299
Trang 18xi: logistic improve i.therapy*i.sex
i.therapy _Itherapy_0-1 (naturally coded; _Itherapy_0 omitted)
i.sex _Isex_1-2 (naturally coded; _Isex_1 omitted)
i.the~y*i.sex _ItheXsex_#_# (coded as above)
Logistic regression Number of obs = 299
Mô hình cho thấy biến sex và biến therapy không có tương tác với nhau (p=0,731)
logit ill bakedham spinach mashedpota cabbagesal jello rolls brownbread milkcoffee water cakes vanilla chocolate fruitsalad
Iteration 0: log likelihood = -48.602001
Iteration 1: log likelihood = -33.404044
Iteration 2: log likelihood = -33.18295
Iteration 3: log likelihood = -33.182462
Iteration 4: log likelihood = -33.182462
Trang 19Logistic regression Number of obs = 73
Trang 20logistic ill vanilla age
Logistic regression Number of obs = 75
Trang 23ill | Odds Ratio Std Err z P>|z| [95% Conf Interval]
vanilla | 23.27725 17.09164 4.29 0.000 5.519822 98.16081 milk | .1495265 .2168289 -1.31 0.190 0087174 2.564773 cakes | 2.221043 1.405073 1.26 0.207 6427929 7.67437 _cons | .1198218 .0888854 -2.86 0.004 0279965 .5128244
Trang 2401 Biến Phụ Thuộc Nhiều Giá Trị – 01 Biến Độc Lập
CONDITION | GENERAL HAPPINESS
OF HEALTH | VERY HAPP PRETTY HA NOT TOO H | Total
Trang 25• Taub=0,25: tương quan giữa health và happy là tương quan trung bình ASE(asymtotic standard errors) = 0,03 < 0,05, chứng tỏ chỉ số taub có ý nghĩa thống
kê Phép kiểm chi bình phương không dùng để tính taub, do đó muốn tính taubcần có phân phối z và sai số ước lượng ASE cho phân phối z
01 biến phụ thuộc là biến nhị giá- 01 hoặc nhiều biến độc lập là biến định tính hay định lượng
Câu lệnh Chú thích
tab bpt bđl, column chi2
Lập bảng 2 x2 và sử dụng phép kiểm chi bìnhphương Trong lệnh này BPT được đặt trước(biến hàng) và BĐL đặt sau (biến cột)
• Column: hiện tỷ lệ phần trăm của BĐL
• chi2: dùng để làm phép kiểm chi bìnhphương
tabi # # \ # #, column chi2
Dùng trong trường hợp kiểm tra phép kiểmchi bình phương của một phép kiểm đượcthực hiện trước đó Chỉ cần nhập 4 giá trịtrong bốn ô của bảng 2 x2 trong đó hai giá trịđầu là hai giá trị của hàng thứ nhất, và hai giátrị sau là hai giá trị của hàng thứ hai
tab bdl bpt, row chi exact
Sử dụng phép kiểm Fisher’s exact cho bảng 2
x 2 Đối với phép kiểm Fisher’s exact luônluôn sử dụng giá trị p hai đuôi
cc bpt bdl Tính OR cho mối liên quan giữa BPT và
BĐL
Trang 26logit bpt bdl weight if exp in
ra biến cố và 1 là xảy ra biến cố
logistic bpt bdl
Chạy mô hình hồi quy logistic cho hai biếnđộc lập và phụ thuộc Thay vì hệ số góc(chính là log(odds) ) thì thay bằng odds.xi: logistic bpt i.bdl1*i.bdl2 Kiểm tra tương tác giữa hai biến độc lập là
biến nhị giá trong mô hình hồi quy logistic
predict prob
Lệnh này sử dụng sau mô hình logistic vớihai biến độc lập là biến nhị giá Lệnh này sẽtiên đoán cho xác suất xuất hiện của 4 biến
cố (bdl1_0 và bdl2_0; bdl1_1 và bdl2_0;bdl1_0 và bdl2_1; bdl1_1 và bdl2_1)
stepwise, pr(0.1): logistic bpt
varlist
Sử dụng phương pháp stepwise backward đểlựa chọn biến số đưa vào mô hình logistic
pr (#): là probability remove nghĩa là xác suất
để loại biến số ra khỏi mô hình
để đưa biến số vào mô hình
Trang 28tabi 52 54\11 36, column chi2
Trang 29Fisher's exact = 0.001 <- use this one (2-sided test)
1-sided Fisher's exact = 0.000
Trang 30logit improve therapy
Iteration 0: log likelihood = -194.40888
Iteration 1: log likelihood = -192.30753
Iteration 2: log likelihood = -192.30471
Iteration 3: log likelihood = -192.30471
Logistic regression Number of obs = 299
Coef chính là log odds giữa liệu pháp điều trị thay thế và điều trị theo bậc Hệ số
có dấu âm chứng tỏ liệu pháp điều trị theo bậc ưu việt hơn điều trị thay thế
logistic improve therapy
Logistic regression Number of obs = 299
LR chi2(1) = 4.21
Prob > chi2 = 0.0402
Log likelihood = -192.30471 Pseudo R2 = 0.0108
Trang 31improve | Odds Ratio Std Err z P>|z| [95% Conf Interval]
logistic improve therapy sex
Logistic regression Number of obs = 299
Mô hình cho thấy biến sex không có liên quan trong mô hình
xi: logistic improve i.therapy*i.sex
i.therapy _Itherapy_0-1 (naturally coded; _Itherapy_0 omitted)
i.sex _Isex_1-2 (naturally coded; _Isex_1 omitted)
i.the~y*i.sex _ItheXsex_#_# (coded as above)
Logistic regression Number of obs = 299
Trang 32Mô hình cho thấy biến sex và biến therapy không có tương tác với nhau (p=0,731).
logit ill bakedham spinach mashedpota cabbagesal jello rolls brownbread milkcoffee water cakes vanilla chocolate fruitsalad
Iteration 0: log likelihood = -48.602001
Iteration 1: log likelihood = -33.404044
Iteration 2: log likelihood = -33.18295
Iteration 3: log likelihood = -33.182462
Iteration 4: log likelihood = -33.182462
Logistic regression Number of obs = 73
LR chi2(14) = 30.84
Prob > chi2 = 0.0058
Log likelihood = -33.182462 Pseudo R2 = 0.3173
Trang 33ill | Coef Std Err z P>|z| [95% Conf Interval]
Trang 34bakedham | 2.612902 3.898567 0.64 0.520 1403112 48.65797 spinach | .6115652 .8024546 -0.37 0.708 0467254 8.004461 mashedpota | .706694 .6477745 -0.38 0.705 1172189 4.260546 cabbagesal | 1.121135 1.004165 0.13 0.898 .19376 6.487121 jello | .7345321 .7532973 -0.30 0.764 0984155 5.482241 rolls | .8145912 .9683351 -0.17 0.863 0792656 8.371337 brownbread | 2.085306 2.007782 0.76 0.445 3159458 13.76344 milk | .139821 .2290152 -1.20 0.230 0056412 3.465531 coffee | .5989761 .6907665 -0.44 0.657 0624835 5.741877 water | 1.175135 1.122553 0.17 0.866 1807065 7.641904 cakes | 2.34236 1.679469 1.19 0.235 .57457 9.549138 vanilla | 25.16804 21.43736 3.79 0.000 4.740479 133.6216 chocolate | .8883209 .6579924 -0.16 0.873 2080043 3.793738 fruitsalad | .6704591 .7830522 -0.34 0.732 0679555 6.614848 _cons | .116643 .1261987 -1.99 0.047 0139935 .9722831 -
logistic ill vanilla age
Logistic regression Number of obs = 75
Trang 36Log likelihood = -35.520681 Pseudo R2 = 0.2692
Trang 37cakes | 2.221043 1.405073 1.26 0.207 6427929 7.67437 _cons | .1198218 .0888854 -2.86 0.004 0279965 .5128244
Trang 3801 biến phụ thuộc nhiều giá trị (biến thứ tự) – 01 hoặc nhiều biến độc lập
ranksum bpt, by(bđl) Sử dụng phép kiểm Wilcoxon-Mann-Whitney cho
biến phụ thuộc là biến thứ tự và biến độc lập nhị giá.Phép kiểm này thực ra là hai phép kiểm Wilcoxonranksum test và Mann-Whitney U test Tuy nhiên dohai phép kiểm này đều cho kết quả giống nhau nêngộp chung là phép kiểm Wilcoxon-Mann-Whitney.ktau var1 var2 Tính hệ số tương quan Kendall’s tau
ologit outc therapy
sex, table
Lập mô hình logistic dành cho biến phụ thuộc làbiến thứ tự
predict p1 p2 p3 … Tiên đoán xác suất cho các giá trị của biến số phụ
thuộc (số giá trị p tùy thuộc vào số nhóm của biếnphụ thuộc, giả sử biến phụ thuộc có 3 nhóm thì p1đến p3, bốn nhóm thì p1-p4)
Ví dụ:
ranksum ae, by(drug)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
drug | obs rank sum expected
Từ khóa » Tính Or Trong Stata
-
Phân Tích Thống Kê Cơ Bản Với Stata - SlideShare
-
[PDF] SỬ DỤNG STATA CƠ BẢN
-
Hướng Dẫn Tính OR Với STATA | Odds Ratio | TS.BS.Vũ Duy Kiên
-
(PDF) On Mot So Lenh Trong Stata | Thao Vu
-
[PDF] LẬP KẾ HOẠCH VÀ THỰC HIỆN PHÂN TÍCH DỮ LIỆU
-
Thống Kê Mô Tả Trong Stata | Full Chi Tiết Câu Lệnh Trong 3s - MOSL
-
[PDF] DỮ LIỆU BẢNG (STATA)
-
[PDF] Chương Vii Stata Trong Phân Tích Dịch Tễ Học Cơ Bản
-
[PDF] HƯỚNG DẪN SỬ DỤNG STATA 14
-
Các Lệnh Phổ Biến Stata để Hiển Thị Thông Tin Mô Tả Và Thống Kê Mô ...
-
Thống Kê Phân Tích Biến Số định Lượng Với Stata - Tài Liệu Text
-
Bài 4: Đại Cương Về Phân Tích Số Liệu - Nguyễn Xuân Ngọc
-
Tìm Cách Tính Or Và Pr Trong Stata - Ket