Thống Kê Phân Tích Dành Cho Biến Phân Loại Với Stata - 123doc

01 BIẾN KẾT CỤC NHỊ GIÁ – 01 BIẾN TIÊN ĐOÁNNHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ Phép kiểm chi bình phương cho hai biến.. Tính kết hợp giữa hai biến kết cục nhị giá và tiên đoán nhị giá Attr.. Giá

Trang 1

01 BIẾN PHỤ THUỘC NHỊ GIÁ – 0 CÓ BIẾN ĐỘC

• p < 0,001: bác bỏ giả thuyết H0: có sự khác biệt có ý nghĩa thống kê giữa nhóm

có và nhóm không có

Trang 2

01 BIẾN KẾT CỤC NHỊ GIÁ – 01 BIẾN TIÊN ĐOÁN

NHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ

Phép kiểm chi bình phương cho hai biến

tabulate chd69 agec, col chi2

CHD Event | RECODE of age (Age)

Trang 3

tabulate sex abany, chi2 row V

| WANTS FOR ANY REASON

Gender | YES NO | Total

• Cramer’s V=0,03: Cramer nhỏ chứng tỏ sức mạnh tương quan của hai biến yếu

Trang 4

• Cramer ở đây âm bởi vì trong trường hợp này biến aspirin được mã là aspirin(1) còn placebo (0) còn heart attack thì attack (1) và no attack (0) Khi Cramer

V âm chứng tỏ ở nhóm aspirin (1) thì liên quan âm với ở nhóm heart attack (1)

tabi 215 269\172 244, chi2 row V

Trang 6

chi2power, startf(1) endf(10) incr(1)

alpha = 05

sample size factor = 1.00 power = 0.3496 for n = 357

sample size factor = 2.00 power = 0.6410 for n = 714

sample size factor = 3.00 power = 0.8293 for n = 1071

sample size factor = 4.00 power = 0.9272 for n = 1428

sample size factor = 5.00 power = 0.9715 for n = 1785

sample size factor = 6.00 power = 0.9896 for n = 2142

sample size factor = 7.00 power = 0.9964 for n = 2499

sample size factor = 8.00 power = 0.9988 for n = 2856

sample size factor = 9.00 power = 0.9996 for n = 3213

sample size factor = 10.00 power = 0.9999 for n = 3570

• alph =0,05: chọn mức ý nghĩa thống kê là 0,05

• nếu cỡ mẫu là hiện tại (sample size factor =1) thì power phép kiểm chỉ có 0,34(34%), quá thấp so với yêu cầu (≥ 0,8)

• nếu cỡ mẫu tăng lên 1% (sample size factor =2) thì power tăng lên 0,64

• chỉ khi cỡ mẫu tăng 3% thì power mới là 0,82

Trang 7

prtest treat == control

Two-sample test of proportions treat: Number of obs = 20 control: Number of obs = 20 - Variable | Mean Std Err z P>|z| [95% Conf Interval] -+ - treat | .75 .0968246 5602273 .9397727 control | .35 .1066536 1409627 .5590373 -+ - diff | 4 .1440486 1176699 .6823301 | under Ho: .1573213 2.54 0.011

diff = prop(treat) - prop(control) z = 2.5426 Ho: diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(Z < z) = 0.9945 Pr(|Z| < |z|) = 0.0110 Pr(Z > z) = 0.0055

Trang 8

prtest cure, by(group)

Two-sample test of proportions 0: Number of obs = 20 1: Number of obs = 20 - Variable | Mean Std Err z P>|z| [95% Conf Interval] -+ -

0 | .35 .1066536 1409627 .5590373

1 | .75 .0968246 5602273 .9397727 -+ - diff | -.4 .1440486 -.6823301 -.1176699 | under Ho: .1573213 -2.54 0.011

diff = prop(0) - prop(1) z = -2.5426 Ho: diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(Z < z) = 0.0055 Pr(|Z| < |z|) = 0.0110 Pr(Z > z) = 0.9945

Trang 9

Tính kết hợp giữa hai biến kết cục nhị giá và tiên đoán nhị giá

Attr frac ex | 3616011 | .1895387 .4971343

Attr frac pop | 1446404 |

Odds ratio | 1.63528 | 1.257732 2.126197 (Cornfield)

chi2(1) = 13.64 Pr>chi2 = 0.0002

Tính bảng 2x2 cho biến kết cục và biến tiên đoán

Hàng Risk chính là tóm tắt nguy cơ kết cục của nhóm có và không có yếu tố tiênđoán

Risk difference hay còn gọi là excess risk chính là hiệu số nguy cơ của hai nhóm.Risk ratio chính là relative risk chính là tỷ số hai nguy cơ ở hai nhóm

Odds ratio chính là tỷ số số chênh giữa hai nhóm

Attr frac ex.: (attributable risk fraction in exposed group) chính là phần kết cục cóthể quy cho biến tiên đoán trong nhóm có yếu tố tiên đoán

Attr frac Pop: (attributable risk fraction in population) chính là phần kết cục cóthể quy cho biến tiên đoán trong dân số chung

Giá trị p của phép kiểm chi bình phương < 0.05 chứng tỏ giữa biến kết cục và biếntiên đoán có mối kết hợp

Trang 10

Sử dụng phép kiểm Fisher exact trong trường hợp cỡ mẫu nhỏ Phép kiểmFisher’exact test chỉ được sử dụng khi có ô vọng trị hoặc ô giá trị thực < 5

Trang 11

Trong trường hợp biến tiên đoán có nhiều nhóm thì chúng ta phải tính các số ER,

OR và RR cho từng nhóm Lệnh tabodds cho phép tính các số này giữa nhóm lớnhơn với nhóm nền là nhó nhỏ nhất

Test of homogeneity: là phép kiểm với giả định rằng tất cả các OR giữa các nhómcủa biến age là như nhau Giá trị p< 0.05 chứng tỏ bác bỏ giả thuyết này

Score test for trend of odds: Là phép kiểm với giả thuyết rằng không có xu hướngtuyến tính cho OR của CHD khi nhóm tuổi tăng dần P< 0.05 chứng tỏ bác bỏ giảthuyết này

Power analysis khi sử dụng phép kiểm chi bình phương

tab sex health, lrchi2 row

respondent | condition of health

sex | excellent good fair poor | Total

Trang 12

sample size factor = 1.00 power = 0.2823 for n = 171

sample size factor = 2.00 power = 0.5317 for n = 342

sample size factor = 3.00 power = 0.7257 for n = 513

sample size factor = 4.00 power = 0.8520 for n = 684

sample size factor = 5.00 power = 0.9253 for n = 855

sample size factor = 6.00 power = 0.9642 for n = 1026

sample size factor = 7.00 power = 0.9836 for n = 1197

sample size factor = 8.00 power = 0.9928 for n = 1368

sample size factor = 9.00 power = 0.9969 for n = 1539

sample size factor = 10.00 power = 0.9987 for n = 1710

Option startf(1) yêu cầu Stata tính power cho cỡ mẫu hiện tại (N=171) Powerchính là năng lực với tỷ lệ trong các ô bảng 2x2 thì có bao nhiêu phần trăm kết quảchi bình phương mối quan hệ có ý nghĩa thống kê Ở đây ta có power của N= 171

là 28% như vậy có thể nói là nếu chúng ta lập lại nhiều lần mẫu với cùng tỷ lệtrong các ô thì chúng ta sẽ có 28% phát hiện mối quan hệ có ý nghĩa thống kê,Option endf(10) nghĩa là phân tích power cho cỡ mẫu gấp 10 lần

Option incr(1) yêu cầu Stata sẽ tăng cỡ mẫu mỗi lần hệ số 1 đơn vị so với mẫuhiện tại

Trang 13

Nhiều nhà thống kê power của một mẫu phải > 80 hoặc > 90 Như vậy để mối quan

hệ này có ý nghĩa thống kê thì cỡ mẫu phải là 684 hoặc 855

Trang 14

01 BIẾN KẾT CỤC NHỊ GIÁ – 02 BIẾN TIÊN ĐOÁN

NHỊ GIÁ HOẶC NHIỀU GIÁ TRỊ

Tính kết hợp giữa biến kết cục và tiên đoán

cs vstatus smoker [freq = nn], or by(agegrp)

agegrp | OR [95% Conf Interval] M-H Weight

-Test of homogeneity (M-H) chi2(2) = 0.945 Pr>chi2 = 0.6234

Test that combined OR = 1:

Mantel-Haenszel chi2(1) = 3.24

Pr>chi2 = 0.0719

Xác định mối kết hợp giữa biến vstatus và smoker phân tầng theo biến agegrp.Crude: chính là OR thô giữa vstatus và smoker không có phân tầng theo agegrp.M-H combined: chính là OR kết hợp nghĩa là OR của vstatus và smoker phân tầng theo từng nhóm tuổi

Test of homogeneity (M-H): pháp kiểm giả định rằng cả ba OR theo từng tầng tuổi đều giống nhau Kết quả không bác bỏ giả thuyết H0 Chúng ta kết luận rằng không

có bằng chứng mạnh về tương tác giữa smoker và agegroup và rằng OR đặc hiệu theo tuổi là như nhau

Test that combined OR = 1: Phép kiểm kiểm tra giả thuyết H0 rằng OR hiệu chỉnh theo tuổi để đánh giá kết hợp giữa vstatus và smoker khác 0 Kết quả cho thấy không bác bỏ giả thuyết H0 nghĩa là OR hiệu chỉnh khác 0 Chúng ta kết luận rằng mối kết hợp giữa vstatus và smoker chịu ảnh hưởng một phần bởi hiệu chỉnh theo tuổi Hiệu ứng biến age lên mối kết hợp giữa vstatus và smoker gọi là confounding

Trang 16

01 BIẾN PHỤ THUỘC NHỊ GIÁ – NHIỀU BIẾN

ĐỘC LẬP LÀ BIẾN ĐỊNH LƯỢNG

Ví dụ

logit improve therapy

Iteration 0: log likelihood = -194.40888

Iteration 1: log likelihood = -192.30753

Iteration 2: log likelihood = -192.30471

Iteration 3: log likelihood = -192.30471

Logistic regression Number of obs = 299

Coef chính là log odds giữa liệu pháp điều trị thay thế và điều trị theo bậc Hệ số

có dấu âm chứng tỏ liệu pháp điều trị theo bậc ưu việt hơn điều trị thay thế

Trang 17

logistic improve therapy

Logistic regression Number of obs = 299

logistic improve therapy sex

Logistic regression Number of obs = 299

Trang 18

xi: logistic improve i.therapy*i.sex

i.therapy _Itherapy_0-1 (naturally coded; _Itherapy_0 omitted)

i.sex _Isex_1-2 (naturally coded; _Isex_1 omitted)

i.the~y*i.sex _ItheXsex_#_# (coded as above)

Logistic regression Number of obs = 299

Mô hình cho thấy biến sex và biến therapy không có tương tác với nhau (p=0,731)

logit ill bakedham spinach mashedpota cabbagesal jello rolls brownbread milkcoffee water cakes vanilla chocolate fruitsalad

Iteration 0: log likelihood = -48.602001

Iteration 1: log likelihood = -33.404044

Iteration 2: log likelihood = -33.18295

Iteration 3: log likelihood = -33.182462

Iteration 4: log likelihood = -33.182462

Trang 19

Logistic regression Number of obs = 73

Trang 20

logistic ill vanilla age

Logistic regression Number of obs = 75

Trang 23

ill | Odds Ratio Std Err z P>|z| [95% Conf Interval]

vanilla | 23.27725 17.09164 4.29 0.000 5.519822 98.16081 milk | .1495265 .2168289 -1.31 0.190 0087174 2.564773 cakes | 2.221043 1.405073 1.26 0.207 6427929 7.67437 _cons | .1198218 .0888854 -2.86 0.004 0279965 .5128244

Trang 24

01 Biến Phụ Thuộc Nhiều Giá Trị – 01 Biến Độc Lập

CONDITION | GENERAL HAPPINESS

OF HEALTH | VERY HAPP PRETTY HA NOT TOO H | Total

Trang 25

• Taub=0,25: tương quan giữa health và happy là tương quan trung bình ASE(asymtotic standard errors) = 0,03 < 0,05, chứng tỏ chỉ số taub có ý nghĩa thống

kê Phép kiểm chi bình phương không dùng để tính taub, do đó muốn tính taubcần có phân phối z và sai số ước lượng ASE cho phân phối z

01 biến phụ thuộc là biến nhị giá- 01 hoặc nhiều biến độc lập là biến định tính hay định lượng

Câu lệnh Chú thích

tab bpt bđl, column chi2

Lập bảng 2 x2 và sử dụng phép kiểm chi bìnhphương Trong lệnh này BPT được đặt trước(biến hàng) và BĐL đặt sau (biến cột)

• Column: hiện tỷ lệ phần trăm của BĐL

• chi2: dùng để làm phép kiểm chi bìnhphương

tabi # # \ # #, column chi2

Dùng trong trường hợp kiểm tra phép kiểmchi bình phương của một phép kiểm đượcthực hiện trước đó Chỉ cần nhập 4 giá trịtrong bốn ô của bảng 2 x2 trong đó hai giá trịđầu là hai giá trị của hàng thứ nhất, và hai giátrị sau là hai giá trị của hàng thứ hai

tab bdl bpt, row chi exact

Sử dụng phép kiểm Fisher’s exact cho bảng 2

x 2 Đối với phép kiểm Fisher’s exact luônluôn sử dụng giá trị p hai đuôi

cc bpt bdl Tính OR cho mối liên quan giữa BPT và

BĐL

Trang 26

logit bpt bdl weight if exp in

ra biến cố và 1 là xảy ra biến cố

logistic bpt bdl

Chạy mô hình hồi quy logistic cho hai biếnđộc lập và phụ thuộc Thay vì hệ số góc(chính là log(odds) ) thì thay bằng odds.xi: logistic bpt i.bdl1*i.bdl2 Kiểm tra tương tác giữa hai biến độc lập là

biến nhị giá trong mô hình hồi quy logistic

predict prob

Lệnh này sử dụng sau mô hình logistic vớihai biến độc lập là biến nhị giá Lệnh này sẽtiên đoán cho xác suất xuất hiện của 4 biến

cố (bdl1_0 và bdl2_0; bdl1_1 và bdl2_0;bdl1_0 và bdl2_1; bdl1_1 và bdl2_1)

stepwise, pr(0.1): logistic bpt

varlist

Sử dụng phương pháp stepwise backward đểlựa chọn biến số đưa vào mô hình logistic

pr (#): là probability remove nghĩa là xác suất

để loại biến số ra khỏi mô hình

để đưa biến số vào mô hình

Trang 28

tabi 52 54\11 36, column chi2

Trang 29

Fisher's exact = 0.001 <- use this one (2-sided test)

1-sided Fisher's exact = 0.000

Trang 30

logit improve therapy

Iteration 0: log likelihood = -194.40888

Iteration 1: log likelihood = -192.30753

Iteration 2: log likelihood = -192.30471

Iteration 3: log likelihood = -192.30471

Logistic regression Number of obs = 299

Coef chính là log odds giữa liệu pháp điều trị thay thế và điều trị theo bậc Hệ số

có dấu âm chứng tỏ liệu pháp điều trị theo bậc ưu việt hơn điều trị thay thế

logistic improve therapy

Logistic regression Number of obs = 299

LR chi2(1) = 4.21

Prob > chi2 = 0.0402

Log likelihood = -192.30471 Pseudo R2 = 0.0108

Trang 31

improve | Odds Ratio Std Err z P>|z| [95% Conf Interval]

logistic improve therapy sex

Logistic regression Number of obs = 299

Mô hình cho thấy biến sex không có liên quan trong mô hình

xi: logistic improve i.therapy*i.sex

i.therapy _Itherapy_0-1 (naturally coded; _Itherapy_0 omitted)

i.sex _Isex_1-2 (naturally coded; _Isex_1 omitted)

i.the~y*i.sex _ItheXsex_#_# (coded as above)

Logistic regression Number of obs = 299

Trang 32

Mô hình cho thấy biến sex và biến therapy không có tương tác với nhau (p=0,731).

logit ill bakedham spinach mashedpota cabbagesal jello rolls brownbread milkcoffee water cakes vanilla chocolate fruitsalad

Iteration 0: log likelihood = -48.602001

Iteration 1: log likelihood = -33.404044

Iteration 2: log likelihood = -33.18295

Iteration 3: log likelihood = -33.182462

Iteration 4: log likelihood = -33.182462

Logistic regression Number of obs = 73

LR chi2(14) = 30.84

Prob > chi2 = 0.0058

Log likelihood = -33.182462 Pseudo R2 = 0.3173

Trang 33

ill | Coef Std Err z P>|z| [95% Conf Interval]

Trang 34

bakedham | 2.612902 3.898567 0.64 0.520 1403112 48.65797 spinach | .6115652 .8024546 -0.37 0.708 0467254 8.004461 mashedpota | .706694 .6477745 -0.38 0.705 1172189 4.260546 cabbagesal | 1.121135 1.004165 0.13 0.898 .19376 6.487121 jello | .7345321 .7532973 -0.30 0.764 0984155 5.482241 rolls | .8145912 .9683351 -0.17 0.863 0792656 8.371337 brownbread | 2.085306 2.007782 0.76 0.445 3159458 13.76344 milk | .139821 .2290152 -1.20 0.230 0056412 3.465531 coffee | .5989761 .6907665 -0.44 0.657 0624835 5.741877 water | 1.175135 1.122553 0.17 0.866 1807065 7.641904 cakes | 2.34236 1.679469 1.19 0.235 .57457 9.549138 vanilla | 25.16804 21.43736 3.79 0.000 4.740479 133.6216 chocolate | .8883209 .6579924 -0.16 0.873 2080043 3.793738 fruitsalad | .6704591 .7830522 -0.34 0.732 0679555 6.614848 _cons | .116643 .1261987 -1.99 0.047 0139935 .9722831 -

logistic ill vanilla age

Logistic regression Number of obs = 75

Trang 36

Log likelihood = -35.520681 Pseudo R2 = 0.2692

Trang 37

cakes | 2.221043 1.405073 1.26 0.207 6427929 7.67437 _cons | .1198218 .0888854 -2.86 0.004 0279965 .5128244

Trang 38

01 biến phụ thuộc nhiều giá trị (biến thứ tự) – 01 hoặc nhiều biến độc lập

ranksum bpt, by(bđl) Sử dụng phép kiểm Wilcoxon-Mann-Whitney cho

biến phụ thuộc là biến thứ tự và biến độc lập nhị giá.Phép kiểm này thực ra là hai phép kiểm Wilcoxonranksum test và Mann-Whitney U test Tuy nhiên dohai phép kiểm này đều cho kết quả giống nhau nêngộp chung là phép kiểm Wilcoxon-Mann-Whitney.ktau var1 var2 Tính hệ số tương quan Kendall’s tau

ologit outc therapy

sex, table

Lập mô hình logistic dành cho biến phụ thuộc làbiến thứ tự

predict p1 p2 p3 … Tiên đoán xác suất cho các giá trị của biến số phụ

thuộc (số giá trị p tùy thuộc vào số nhóm của biếnphụ thuộc, giả sử biến phụ thuộc có 3 nhóm thì p1đến p3, bốn nhóm thì p1-p4)

Ví dụ:

ranksum ae, by(drug)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

drug | obs rank sum expected

Từ khóa » Tính Or Trong Stata