Đa Cộng Tuyến: Định Nghĩa, Nguyên Nhân Và Cách Khắc Phục

Đa cộng tuyến là một hiện tượng thường gặp trong thống kê, và đôi khi có ảnh hưởng đến kết quả của thống kê. Vậy đa cộng tuyến là gì? Nguyên nhân và cách khắc phục nó như thế nào? Mời các bạn tham khảo bài viết dưới đây.

Đa cộng tuyến là gì?

Đa cộng tuyến ( tiếng Anh là Multicollinearity) là một thuật ngữ thống kê thường xảy ra khi có sự tương quan cao giữa hai hoặc nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể được sử dụng để dự báo cho một hay nhiều biến độc lập khác. Chẳng hạn như ta có 2 biến độc lập “chiều cao” và “cân nặng”. Hiện tượng đa cộng tuyến xảy ra, tức là khi biến “chiều cao” tăng thì biến “cân nặng” tăng và ngược lại “chiều cao” giảm thì “cân nặng” cũng giảm. Điều này tạo ra thông tin dư thừa, làm sai lệch kết quả trong mô hình hồi quy. Hiện tượng này thường xảy ra phổ biến hơn đối với trong các nghiên cứu quan sát và ít gặp hơn với dữ liệu thử nghiệm.

anh_huong_cua_da_cong_tuyen

Ảnh hưởng mà đa cộng tuyến gây ra với mô hình hồi quy

Hiện tượng đa cộng tuyến không phải là vấn đề quá nghiêm trọng. Tuy nhiên, trong một số trường hợp thì nó lại gây ra rắc rối.

  • Trường hợp đa cộng tuyến hoàn hảo: Đa cộng tuyến hoàn hảo khiến các ước lượng hồi quy không ổn định và không đáng tin cậy.
  • Trường hợp đa cộng tuyến không hoàn hảo:Hiệp phương sai và phương sai của của các ước lượng OLS lớn.
  • Khoảng tin cậy của các hệ số ước lượng bị mở rộng hơn.
  • Thống kê t không có ý nghĩa.
  • R cao nhưng tỉ số t ít ý nghĩa.
  • Làm sai dấu của các ước lượng hệ số hồi quy.
  • Mô hình sẽ thay đổi về độ lớn của các ước lượng hoặc dấu của biến cộng tuyến: sai số tiêu chuẩn cao hơn cho thấy sự biến thiên của hệ số hồi quy mẫu này đến mẫu khác cũng cao hơn do đó một sự thay đổi nhỏ trong mô hình hoặc số liệu cũng gây ra thay đổi lớn trong mô hình -> Dễ dẫn chúng ta đến việc bác bỏ giả thiết H0, và điều này có thể không đúng.

Nguyên nhân gây ra hiện tượng đa cộng tuyến

da_cong_tuyen_la_gi_luanvan123

Có rất nhiều nguyên nhân gây ra hiện tượng đa cộng tuyến, nhưng sau đây là 2 nguyên nhân thường gặp nhất:

  • Dựa trên cơ sở dữ liệu: Điều này thường xảy ra khi các thử nghiệm bị bài bố kém, phương pháp thu thập dữ liệu không thể vận dụng được hoặc do dữ liệu bị sai số quan trắc. Trong một số trường hợp, các biến có thể có mối tương quan cao.
  • Do cấu trúc: Do người thực hiện khảo sát, tạo ra nhiều biến độc lập mới.

Ngoài ra, đa cộng tuyến có thể xảy ra do:

  • Cơ sở dữ liệu không đầy đủ, trong trường hợp này cần thu thập thê dữ liệu.
  • Do việc sử dụng không chính xác các biến giả
  • Một biến trong mô hình hồi quy là sự kết hợp từ hai biến khác
  • Xảy ra do sự trùng lặp của cùng một loại biến.

Cách phát hiện đa cộng tuyến trong SPSS

Có hai cách để phát hiện hiện tượng đa cộng tuyến: dùng hệ số phóng đại phương sai VIF hoặc ma trận hệ số tương quan.

Dựa vào hệ số phóng đại phương sai ( VIF)

Hệ số phóng đại phương sai (Variance Inflation Factors) có chức năng đo lường mối tương quan và độ mạnh của mối tương quan giữa các biến dự báo trong mô hình hồi quy. Cách đơn giản nhất để có được hệ số VIF, ta thực hiện thao tác trên công cụ SPSS.

Cách phân tích kết quả hệ số phóng đại phương sai trong SPSS:

  • Nếu giá trị VIF = 1 không xảy ra hiện tượng đa cộng tuyến
  • Nếu 1 < VIF < 5: có sự tương quan vừa phải giữa một biến độc lập nhất định với các biến độc lập khác trong mô hình -> Có thể xảy ra hiện tượng đa cộng tuyến. Tuy nhiên, điều này thường không nghiêm trọng lắm.
  • Nếu VIF > 5 thì xảy ra hiện tượng đa cộng tuyến.

Ngoài ra, ta cũng có thể xem xét giá trị Tolerance nằm ở bên trái V (với Tolerance = 1/VIF).

  • Nếu kết quả Tolerance > 0.5 thì có thể bạn đã gặp phải hiện tượng đa cộng tuyến.
  • Nếu kết quả Tolerance > 0.1 thì chắc chắn bạn đã gặp phải đa cộng tuyến.
  • Nếu kết quả Tolerance < 0.5 thì không bị đa cộng tuyến.

Dưới đây là một ví dụ cụ thể:

Ví dụ: Giả sử chúng ta có tập dữ liệu sau cho biết điểm thi của 10 sinh viên cùng với số giờ họ đã học, số kỳ thi thử mà họ đã thực hiện và điểm hiện tại của họ trong khóa học:

da_cong_tuyen_trong_spss_buoc_1

Trong đó, biến phụ thuộc là "score", các biến độc lập là "hours", "prep_exams" và "current_grade"

Cách thực hiện:

  • Ở màn hình chính của SPSS, chọn Analyze > Regression > Linear.

da_cong_tuyen_trong_spss_buoc_2

  • Chọn Statistics > check vào ô Collinearity diagnostics.

da_cong_tuyen_trong_spss_buoc_3

  • OK > ở kết quả Output, ta tập trung quan sát giá trị VIF tại bảng Coefficients.

da_cong_tuyen_trong_spss_buoc_4

Giải thích:

Các giá trị VIF cho mỗi biến độc lập như sau:

  • hours: 1.169
  • prep_exams: 1.403
  • current_grade: 1.522

Chúng ta có thể thấy rằng không có giá trị VIF nào cho các biến độc lập lớn hơn 5 => Không xảy ra đa cộng tuyến trong mô hình hồi quy này.

Dựa vào hệ số tương quan

Một cách dễ dàng để phát hiện đa cộng tuyến là tính toán hệ số tương quan cho tất cả các cặp biến độc lập. Nếu hệ số tương quan R chính xác là +1 hoặc -1, thì xảy ra hiện tượng đa cộng tuyến hoàn hảo. Nếu r gần hoặc chính xác là -1 hoặc +1 nên cân nhắc loại bỏ một trong các biến khỏi mô hình nếu có thể.

Cách làm:

  • Ở màn hình chính của SPSS, chọn Analyze > Regression > Linear.
  • Chọn Statistics > check vào ô Collinearity diagnostics.
  • Nhìn vào kết quả hồi quy, ta thấy R cao (tầm trên 0.8) => Có khả năng xảy ra hiện tượng đa cộng tuyến. Tuy nhiên thông thường chúng ta sẽ sử dụng cách 1 thay vì cách thứ 2 vì nó dựa vào phán đoán chủ quan.

Biện pháp khắc phục tình trạng đa cộng tuyến

Đây là tình trạng thường xảy ra trong thống kê, nhưng nếu muốn khắc phục tình trạng này thì chúng ta phải làm sao? Thật không may, tình huống này có thể khó giải quyết. Có nhiều phương pháp mà bạn có thể thử, nhưng mỗi phương pháp đều có một số nhược điểm. Bạn cần phải sử dụng kiến ​​thức và yếu tố trong từng lĩnh vực của mình trong các mục tiêu của nghiên cứu để chọn giải pháp kết hợp tốt nhất giữa ưu điểm và nhược điểm.

Loại bỏ biến giải thích ra khỏi biến mô hình hồi quy

  • Bước 1: Xác định các biến có mối quan hệ tương quan chặt chẽ với nhau.
  • Bước 2: Tìm R2 hiệu chỉnh của mô hình.
  • Bước 3: Dùng R2 hiệu chỉnh để xác định biến cộng tuyến nào cần loại bỏ khỏi mô hình.

Thu thập thêm số liệu hoặc lấy mẫu mới hoàn toàn

Vấn đề về đa cộng tuyến là đặc tính của mẫu, nhưng tùy theo mẫu khác nhau mà độ nghiêm trọng của đa cộng tuyến cũng khác nhau. Nên việc lấy mẫu khác có thể làm giảm mức độ nghiêm trọng của đa cộng tuyến.

Thay đổi dạng mô hình

Do trong kinh tế lượng có rất nhiều loại mô hình khác nhau nên có thể tái cấu trúc mô hình để khắc phục hiện tượng đa cộng tuyến.

Tùy vào thực tế mà việc khắc phục đa cộng tuyến có thể đơn giản hoặc vô cùng phức tạp. Đối với các trường hợp đơn giản, bạn hoàn toàn có thể tự “fix”. Nếu giải pháp này không khả thi, đừng lo lắng, hãy sử dụng Dịch vụ phân tích định lượng - Hỗ trợ SPSS của Luận Văn 123. Chúng tôi sẽ giúp bạn “gỡ bỏ” hoàn toàn vấn đề một cách chính xác - nhanh chóng và tiết kiệm!

Từ khóa » đa Cộng Tuyến Gần Hoàn Hảo