Mức độ Tin Cậy. Xác Suất Tin Cậy

CAN THIỆP BẢO MẬT ĐỐI VỚI CÁC TẦN SỐ VÀ CÁC BỘ PHẬN

© 2008

Viện Y tế Công cộng Quốc gia, Oslo, Na Uy

Bài báo mô tả và thảo luận về cách tính khoảng tin cậy cho tần số và tỷ lệ bằng phương pháp Wald, Wilson, Klopper-Pearson, sử dụng phép biến đổi góc và phương pháp Wald với hiệu chỉnh Agresti-Cowll. Tài liệu được trình bày cung cấp thông tin chung về các phương pháp tính khoảng tin cậy cho tần số và tỷ lệ và nhằm khơi dậy sự quan tâm của độc giả tạp chí không chỉ trong việc sử dụng khoảng tin cậy khi trình bày kết quả nghiên cứu của chính họ mà còn trong việc đọc các tài liệu chuyên ngành trước đây. bắt đầu công việc trên các ấn phẩm trong tương lai.

Từ khóa: khoảng tin cậy, tần số, tỷ lệ

Trong một trong những xuất bản trước đây, mô tả dữ liệu định tính đã được đề cập ngắn gọn và có báo cáo rằng ước lượng khoảng của chúng thích hợp hơn ước tính điểm để mô tả tần suất xuất hiện của đặc điểm được nghiên cứu trong dân số chung. Thật vậy, vì các nghiên cứu được thực hiện bằng cách sử dụng dữ liệu mẫu, nên việc dự báo kết quả trên tổng thể chung phải chứa một yếu tố không chính xác trong ước lượng mẫu. Khoảng tin cậy là thước đo độ chính xác của tham số ước tính. Điều thú vị là trong một số cuốn sách về những điều cơ bản của thống kê cho các bác sĩ, chủ đề về khoảng tin cậy cho tần số hoàn toàn bị bỏ qua. Trong bài viết này, chúng ta sẽ xem xét một số cách tính khoảng tin cậy cho các tần số, giả định các đặc điểm của mẫu như tính không lặp lại và tính đại diện, cũng như tính độc lập của các quan sát với nhau. Tần suất trong bài viết này không được hiểu là một con số tuyệt đối cho biết số lần giá trị này hoặc giá trị kia xuất hiện trong tổng thể, mà là một giá trị tương đối xác định tỷ lệ người tham gia nghiên cứu có đặc điểm đang được nghiên cứu.

Trong nghiên cứu y sinh, khoảng tin cậy 95% được sử dụng phổ biến nhất. Khoảng tin cậy này là vùng trong đó tỷ lệ thực giảm 95%. Nói cách khác, có thể nói chắc chắn 95% rằng giá trị thực của tần suất xuất hiện một tính trạng trong tổng thể chung sẽ nằm trong khoảng tin cậy 95%.

Hầu hết các sách giáo khoa thống kê cho các nhà nghiên cứu y tế báo cáo rằng lỗi tần số được tính bằng công thức

trong đó p là tần suất xuất hiện của đối tượng trong mẫu (giá trị từ 0 đến 1). Trong hầu hết các bài báo khoa học trong nước, giá trị của tần suất xuất hiện của một đối tượng trong mẫu (p), cũng như (các) sai số của nó ở dạng p ± s, được chỉ ra. Tuy nhiên, việc đưa ra khoảng tin cậy 95% cho tần suất xuất hiện của một đặc điểm trong tổng thể chung sẽ dễ hiểu hơn, khoảng tin cậy này sẽ bao gồm các giá trị từ

trước.

Trong một số sách giáo khoa, đối với các mẫu nhỏ, nên thay giá trị 1,96 bằng giá trị của t cho N - 1 bậc tự do, trong đó N là số quan sát trong mẫu. Giá trị của t được tìm thấy trong bảng phân phối t, có sẵn trong hầu hết các sách giáo khoa về thống kê. Việc sử dụng phân phối t cho phương pháp Wald không mang lại lợi thế rõ ràng so với các phương pháp khác được thảo luận dưới đây, và do đó không được một số tác giả hoan nghênh.

Phương pháp trên để tính khoảng tin cậy cho tần số hoặc phân số được đặt theo tên của Abraham Wald (Abraham Wald, 1902–1950), vì nó bắt đầu được sử dụng rộng rãi sau khi Wald và Wolfowitz xuất bản năm 1939. Tuy nhiên, bản thân phương pháp này đã được Pierre Simon Laplace (1749–1827) đề xuất sớm nhất là vào năm 1812.

Phương pháp Wald rất phổ biến, nhưng ứng dụng của nó có liên quan đến các vấn đề đáng kể. Phương pháp này không được khuyến nghị cho các cỡ mẫu nhỏ, cũng như trong trường hợp tần suất xuất hiện của một đối tượng địa lý có xu hướng bằng 0 hoặc 1 (0% hoặc 100%) và đơn giản là không thể áp dụng cho các tần số 0 và 1. Ngoài ra, xấp xỉ phân phối chuẩn, được sử dụng khi tính toán lỗi, "không hoạt động" trong trường hợp n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Vì biến mới được phân phối bình thường, giới hạn dưới và trên của khoảng tin cậy 95% cho biến φ sẽ là φ-1,96 và φ + 1,96left ">

Thay vì 1,96 đối với các mẫu nhỏ, nên thay giá trị của t cho N - 1 bậc tự do. Phương pháp này không cung cấp các giá trị âm và cho phép bạn ước tính chính xác hơn khoảng tin cậy cho các tần số so với phương pháp Wald. Ngoài ra, nó được mô tả trong nhiều sách tham khảo trong nước về thống kê y tế, tuy nhiên, nó không được sử dụng rộng rãi trong nghiên cứu y học. Tính toán khoảng tin cậy bằng cách sử dụng biến đổi góc không được khuyến nghị cho các tần số gần bằng 0 hoặc 1.

Đây là lúc phần mô tả các phương pháp ước lượng khoảng tin cậy trong hầu hết các sách về cơ bản của thống kê dành cho các nhà nghiên cứu y học thường kết thúc, và vấn đề này là điển hình không chỉ cho tài liệu trong nước mà còn cho cả tài liệu nước ngoài. Cả hai phương pháp đều dựa trên định lý giới hạn trung tâm, ngụ ý một mẫu lớn.

Xem xét những thiếu sót của việc ước lượng khoảng tin cậy bằng các phương pháp trên, Clopper (Clopper) và Pearson (Pearson) đã đề xuất vào năm 1934 một phương pháp tính toán cái gọi là khoảng tin cậy chính xác, có tính đến phân phối nhị thức của đặc điểm được nghiên cứu. Phương pháp này có sẵn trong nhiều máy tính trực tuyến, nhưng khoảng tin cậy thu được theo cách này trong hầu hết các trường hợp là quá rộng. Đồng thời, phương pháp này được khuyến khích sử dụng trong các trường hợp cần ước tính thận trọng. Mức độ thận trọng của phương pháp tăng lên khi kích thước mẫu giảm, đặc biệt là đối với N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Theo nhiều nhà thống kê, ước lượng tối ưu nhất của khoảng tin cậy cho các tần số được thực hiện bằng phương pháp Wilson, được đề xuất vào năm 1927, nhưng thực tế không được sử dụng trong nghiên cứu y sinh trong nước. Phương pháp này không chỉ giúp ước tính khoảng tin cậy cho cả tần số rất nhỏ và tần số rất cao, mà còn có thể áp dụng cho một số lượng nhỏ các quan sát. Nói chung, khoảng tin cậy theo công thức Wilson có dạng từ

trong đó nó nhận giá trị 1,96 khi tính khoảng tin cậy 95%, N là số lần quan sát và p là tần suất của đối tượng trong mẫu. Phương pháp này có sẵn trong máy tính trực tuyến, vì vậy ứng dụng của nó không có vấn đề gì. và không khuyến khích sử dụng phương pháp này cho n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Ngoài phương pháp Wilson, phương pháp Wald hiệu chỉnh theo Agresti – Caull cũng được cho là cung cấp một ước lượng tối ưu về khoảng tin cậy cho các tần số. Hiệu chỉnh Agresti-Coulle là sự thay thế trong công thức Wald tần suất xuất hiện của một đặc điểm trong mẫu (p) bằng p`, khi tính toán nào 2 được thêm vào tử số và 4 được thêm vào mẫu số, nghĩa là , p` = (X + 2) / (N + 4), trong đó X là số người tham gia nghiên cứu có đặc điểm đang nghiên cứu và N là cỡ mẫu. Việc sửa đổi này tạo ra kết quả rất giống với kết quả của công thức Wilson, ngoại trừ khi tỷ lệ sự kiện tiến đến 0% hoặc 100% và mẫu nhỏ. Ngoài các phương pháp trên để tính khoảng tin cậy cho tần số, các hiệu chỉnh cho tính liên tục đã được đề xuất cho cả phương pháp Wald và phương pháp Wilson cho các mẫu nhỏ, nhưng các nghiên cứu đã chỉ ra rằng việc sử dụng chúng là không phù hợp.

Xem xét việc áp dụng các phương pháp trên để tính khoảng tin cậy bằng cách sử dụng hai ví dụ. Trong trường hợp đầu tiên, chúng tôi nghiên cứu một mẫu lớn gồm 1.000 người tham gia nghiên cứu được chọn ngẫu nhiên, trong đó 450 người có đặc điểm đang được nghiên cứu (nó có thể là yếu tố nguy cơ, kết quả hoặc bất kỳ đặc điểm nào khác), tần suất là 0,45, hoặc 45%. Trong trường hợp thứ hai, nghiên cứu được thực hiện bằng cách sử dụng một mẫu nhỏ, chẳng hạn chỉ 20 người và chỉ 1 người tham gia (5%) có đặc điểm được nghiên cứu. Khoảng tin cậy cho phương pháp Wald, cho phương pháp Wald với hiệu chỉnh Agresti-Coll, cho phương pháp Wilson được tính bằng máy tính trực tuyến do Jeff Sauro phát triển (http://www./wald.htm). Khoảng tin cậy Wilson đã hiệu chỉnh liên tục được tính bằng máy tính được cung cấp bởi Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Các phép tính sử dụng phép biến đổi góc Fisher được thực hiện "thủ công" bằng cách sử dụng giá trị tới hạn của t tương ứng với 19 và 999 bậc tự do. Kết quả tính toán được trình bày trong bảng cho cả hai ví dụ.

Khoảng tin cậy được tính theo sáu cách khác nhau cho hai ví dụ được mô tả trong văn bản

Phương pháp tính toán khoảng tin cậy

P = 0,0500 hoặc 5%

KTC 95% cho X = 450, N = 1000, P = 0,4500 hoặc 45%

–0,0455–0,2541

Walda với hiệu chỉnh Agresti-Coll

Từ khóa » Khoảng Tin Cậy 95 Hẹp Hơn Khoảng Tin Cậy 90