Bài 1. Giới Thiệu Về Hồi Quy Và Tương Quan

1. Giới thiệu chung

Trong nghiên cứu tâm lí giáo dục, phân tích hồi quy là một trong những thủ tục thống kê được sử dụng rất rộng rãi. Nó được xem xét khi sự quan tâm tập trung vào sự phụ thuộc của một biến phản hồi vào (các) biến giải thích. Ví dụ: một nhà nghiên cứu giáo dục có thể muốn biết liệu liệu ước tính của giáo viên trong lớp về khả năng toán học của học sinh có dự đoán được điểm số môn toán của học sinh đó trong một bài kiểm tra tiêu chuẩn về khả năng toán học hay không. Phân tích hồi quy có thể được sử dụng để: Mô tả mối quan hệ giữa biến phản hồi (điểm trong bài kiểm tra toán) và biến giải thích (ước tính của giáo viên về khả năng toán học của học sinh) và dự đoán giá trị của biến phản hồi từ các biến giải thích (biến độc lập). Khi có mối quan hệ tuyến tính giữa chỉ có một biến giải thích và một biến phản hồi, chúng ta gọi đây là hồi quy tuyến tính đơn (simple linear regression). Khi có một biến phản hồi nhưng có nhiều hơn một biến giải thích, điều này được gọi là phân tích hồi quy bội (multiple regression analysis). Chúng tôi sử dụng thuật ngữ hồi quy đa biến (multivariate regression) khi chúng ta có nhiều hơn một biến phản hồi và bất kỳ số lượng biến giải thích nào.

Phân tích tương quan là một phép đo mối quan hệ tuyến tính giữa hai hoặc nhiều biến ngẫu nhiên được ước lượng. Thống kê tương quan tham số Pearson là một chỉ số định lượng về độ mạnh của mối quan hệ tuyến tính giữa hai biến. Tuy nhiên, nếu nhà nghiên cứu muốn xác định độ mạnh của mối quan hệ giữa hai biến thì phân tích tương quan là phù hợp, tuy nhiên, nếu sự quan tâm đến việc dự đoán của một giá trị cho biến trên (các) biến khác thì phân thồi quy là kỹ thuật phân tích thích hợp.

Trong phân tích hồi quy tuyến tính đơn, một mẫu quan sát ngẫu nhiên được chọn từ một dân số quan tâm xác định và dữ liệu bao gồm các phép đo định lượng liên tục trên một biến phản hồi và thường là các phép đo định tính trên một biến giải thích (đôi khi được gọi là biến độc lập). Thường trong nghiên cứu tâm lí giáo dục, phân tích hồi quy được sử dụng với dữ liệu khảo sát thay vì dữ liệu được tạo ra từ các thiết kế thử nghiệm. Nghiên cứu giáo dục có truyền thống khảo sát mạnh mẽ và chủ yếu dựa vào các kỹ thuật tương quan và hồi quy. Khi sử dụng hồi quy, biến phản hồi có liên quan đến tổng trọng số hồi quy của các biến độc lập. Mỗi trọng số hồi quy, β, (hệ số hồi quy) phản ánh ảnh hưởng của một biến giải thích có trọng số lên biến phản hồi được gọi là hiệu ứng hồi quy (regression effect) hay đơn giản là về việc liệu hệ số hồi quy (regression coefficient), β, có ý nghĩa thống kê hay không. Sai số ngẫu nhiên (Random error), tức phần dư của hồi quy là sự khác biệt giữa điểm quan sát và điểm dự đoán từ mô hình thống kê trong hồi quy, được ước tính bằng sự khác biệt giữa điểm quan sát và điểm dự đoán từ đường hồi quy phù hợp.

Khi nhà nghiên cứu quan tâm đến việc dự đoán các giá trị của biến phản hồi (giá trị dự đoán trung bình cho các nhóm con hoặc giá trị dự đoán riêng lẻ) dựa vào giá trị của một biến giải thích khác và có một mẫu ngẫu nhiên gồm các cặp quan sát (X, Y) có các phép đo liên tục, và khi giả định mối quan hệ tuyến tính giữa X và Y là hợp lý, thì hồi quy tuyến tính đơn (simple linear regression) nên được coi là một cách tiếp cận phân tích khả thi. Có những giả định bổ sung cần được đáp ứng trước khi phân tích hồi quy có thể được sử dụng đúng cách để đưa ra suy luận về sự phụ thuộc của một biến này vào biến khác và những giả định này sẽ được thảo luận trong Bài 2 – Phân tích hồi quy tuyến tín đơn.

2. Mô hình hồi quy tuyến tính đơn (Simple Linear Regression Model)

Phân tích hồi quy có thể được sử dụng để điều tra mối quan hệ đường thẳng (tuyến tính) trong một tập hợp giữa một biến phản ứng ngẫu nhiên, Y và một biến giải thích độc lập, X. Mối quan hệ tuyến tính này có thể được biểu thị dưới dạng một phương trình hồi quy có dạng tổng quát: Y = β0 + β1x + ε

Hai tham số của hàm tuyến tính trong mô hình, β0, hằng số phản ánh hệ số bậc không, và β1, trọng số hồi quy (hệ số hồi quy phản ánh bậc 1) cho các giá trị của biến giải thích X. Mô hình hồi quy bao gồm hai thành phần, phần xác định của mô hình, β0 + β1x, mô tả mối quan hệ đường thẳng và thành phần sai số ngẫu nhiên, ε, giá trị chưa được giải thích. Biến phản hồi Y có thể được dự đoán từ giá trị của biến giải thích, X, và thành phần lỗi không giải thích được, ε, cho phép sự biến thiên ngẫu nhiên của các giá trị Y về trung bình của chúng.

3. Đường hồi quy tuyến tính đơn (Simple Linear Regression Line)

Một đường hồi quy tuyến tính đơn với Y là biến phản hồi dự đoán và X là biến giải thích được mô tả là hồi quy của Y trên X. Một được hồi quy tuyến tính đơn được mô tả bởi hai tham số: β0, điểm chặn mà tại đó đường hồi quy cắt trục Y khi X=0, và β1 là hệ số hồi quy (trọng số) đại diện cho độ dốc của đường hồi quy, đó là sự tăng hoặc giảm của biến Y tương ứng với sự thay đổi của biến X.

Các ước lượng mẫu của tham số dân số trong hồi quy bao gồm: b0 là thống kê mẫu ước lượng β0, b0 là hệ số hồi quy mẫu ước lượng β1. Mô hình hồi quy dân số và phương trình hồi quy mẫu được ước lượng tương ứng là: Y=β0+β1x+ε (mô hình hồi quy dân số), và Ŷ= b0+b1x (phương trình hồi quy mẫu được ước lượng)

Trong đó, mô hình hồi quy dân số (population regression model) xác định giá trị quan sát của Y bởi một giá trị cụ thể của X, biến giải thích. Thống kê mẫu được sử dụng để ước tính các tham số dân số tương ứng. Trong phương trình hồi quy mẫu được ước lượng, Ŷ biểu thị giá trị dự đoán (ước tính) của biến phản hồi Y bởi các giá trị của biến giải thích X.

Nguyên tắc để tìm đường hồi quy phù hợp nhất liên quan đến việc xác định hệ số hồi quy b0b1 sao cho các sai số của ước lượng được giảm thiểu. Một sai số của ước lượng là sự khác biệt giữa giá trị quan sát của Y và giá trị dự đoán tương ứng, Ŷ thu được từ mô hình hồi quy. Đó là ε = Ŷ− (b0 + b1x). Các ước lượng sai số (error estimates) trong một mẫu được gọi là phần dư (residuals).

4. Ước lượng và dự đoán (Estimation & Prediction)

Sử dụng mô hình hồi quy tuyến tính đơn, nhà nghiên cứu có thể muốn ước tính b0, b1 và từ đó mô tả sự phụ thuộc giữa các biến phản hồi và giải thích. Khi các giá trị này được ước tính, chúng có thể được sử dụng để dự đoán giá trị chưa biết của một biến phản hồi từ giá trị đã biết của một biến giải thích. Tuy nhiên, chúng ta không nên sử dụng các giá trị dị biệt đáng kể của biến giải thích để dự đoán giá trị của biến phản hồi Y. Điều này làm cho sai số dự đoán có thể bị thổi phồng. Hãy xem hình dưới đây để nhận biết một điểm dị biệt của mẫu. Cách phát hiện và kiểm tra điểm dị biệt, xin vui lòng đọc bài kiểm tra điểm ngoại lệ.

5. Kiểm tra ý nghĩa thống kê và khoảng tin cậy

Để kiểm tra xem liệu mô hình hồi quy tuyến tính có hữu ích cho việc dự đoán hay không, chúng ta cần kiểm tra xem liệu biến giải thích X có thực sự giải thích sự thay đổi trong biến phản hồi Y. Nếu X không đóng góp thông tin nào cho dự đoán của Y, thì độ dốc thực của đường hồi quy dân số có thể là không. Giả thuyết vô hiệu sẽ là, H0 : β1 = 0. Giả thuyết thay thế, tức là X và Y có quan hệ tuyến tính, H1 : β1 ≠ 0, và X đóng góp đáng kể vào dự đoán của Y. Cuối cùng, bất cứ khi nào có thể thì khoảng tin cậy nên được sử dụng cùng với các kiểm định có ý nghĩa thống kê.

Khoảng tin cậy cho độ dốc hồi quy dân số được ước lượng bằng công thức:

b−[t1−α/2 SE(b1)] to b+[t1−α/2 SE(b1)]  ,     với df = n-2.

Nếu khoảng tin cậy 95% được yêu cầu thì t1 − α / 2 sẽ bằng t0.025. Khoảng tin cậy cho điểm chặn của đường hồi quy tương tự như công thức trên ngoại trừ việc SE (b1) được thay đổi thành SE (b0), sai số chuẩn của điểm chặn.

6. Hồi quy bội (Multiple Regression)

Hồi quy bội là sự mở rộng của hồi quy tuyến tính đơn để bao hàm hai hoặc nhiều biến giải thích. Các ứng dụng thực tế của phân tích hồi quy thường yêu cầu hai hoặc nhiều biến dự báo. Phương trình tổng quát cho mô hình hồi quy bội là: Y = β0 + β1x1 + β2x2 +… + βkxk + ε

Hệ số bậc không, β0, là giá trị của biến phản hồi Y khi tất cả các biến giải thích bằng 0. Trong thống kê hồi quy, các hệ số hồi quy ước lượng mẫu b1, b2… bk như trong hồi quy tuyến tính đơn giản ước tính các tham số chưa biết β1, β2… βk.

7. Các bước trong phân tích hồi quy

Có bảy bước trong phân tích hồi quy; hai bước đầu có thể được coi là một phần của phân tích dữ liệu ban đầu:

  1. Kiểm tra lý do để phù hợp với mô hình hồi quy – đó có phải là mô tả mối quan hệ tuyến tính không?
  2. Kiểm tra các trung bình và độ lệch chuẩn của biến phản hồi và (các) biến giải thích, đồng thời khám phá các đặc trưng chính của dữ liệu bằng cách sử dụng các biểu đồ phân tán (scatterplots) của biến phản hồi so với từng biến giải thích (và đồ thị của các cặp biến giải thích trong hồi quy bội) để xem liệu có dường như là bất kỳ mối quan hệ nào giữa các biến và để kiểm tra tính tuyến tính.
  3. Từ mô hình hồi quy ban đầu dựa trên các thông tin cơ bản hoặc cân nhắc lí thuyết, chúng ta đưa vào các dữ liệu và ước tính một đường hồi quy. Xem xét những nguồn thông tin nào trong mô hình góp phần vào tổng biến động trong biến phản hồi, tức là xem xét sự phù hợp của mô hình tổng thể – Các biến giải thích có liên quan theo bất kỳ cách nào với biến phản hồi không? Tỷ lệ nào của tổng biến động trong biến phản ứng được giải thích bởi các biến độc lập trong mô hình?
  4. Xem xét các ước lượng tham số – đặc biệt là các sai số chuẩn (standard errors) của chúng và các kiểm định ý nghĩa cũng như khoảng tin cậy cho hệ số bậc không và hệ số độ dốc. Không báo cáo những điều này ở giai đoạn này vì bước tiếp theo là kiểm tra các giả định hồi quy và đánh giá mô hình hồi quy phù hợp. (Trong phân tích hồi quy, các giả định được kiểm tra sau khi mô hình ban đầu đã được hoàn thiện vì các phần dư hồi quy được sử dụng.)
  5. Các giả định hồi quy được kiểm tra bằng cách xem các phần dư từ mô hình thích hợp. Đây được gọi là chẩn đoán hồi quy (regression diagnostics), đó là các biểu đồ phần dư được xem xét kỹ lưỡng (phần dư được vẽ so với các số trường hợp và so với các biến giải thích), và các sai số chuẩn của các hệ số phù hợp và phần dư được kiểm tra.
  6. Mô hình hồi quy thay thế (Alternative regression models) được xây dựng nếu cần thiết (các biến độc lập được thêm vào hoặc loại bỏ, hoặc sự phù hợp của một mô hình đa thức, ví dụ, ‘β1x2‘ thay vì ‘β1x1‘) và chẩn đoán hồi quy hơn nữa được thực hiện để đánh giá tính đầy đủ của mô hình và sự phù hợp của mô hình tổng thể (dựa vào Adjusted R2). Mô hình đa thức đề cập đến các lũy thừa cao hơn của X, được biểu thị bằng bậc của đa thức, ví dụ: x2 là bậc hai và x3 là bậc ba.
  7. Khi một mô hình hồi quy được chọn, ba tham số, β0, β1 được ước tính, và các phép thử về ý nghĩa và khoảng tin cậy cho hệ số bậc không và hệ số độ dốc được thực hiện. Cần thận trọng khi diễn giải ý nghĩa thống kê của các biến giải thích riêng lẻ trong mô hình hồi quy bội khi các biến giải thích là không tương quan. Các thử nghiệm về ý nghĩa thống kê có thể gây hiểu lầm.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

Từ khóa » Công Thức Hồi Quy Tương Quan