Kiểm Tra điểm Ngoại Lệ (outliers) - Nghiên Cứu Giáo Dục

Điểm ngoại lệ hay còn được gọi là điểm dị biệt (outliers) là một quan sát nằm cách xa bất thường so với các giá trị khác trong tập dữ liệu. Các yếu tố ngoại lai có thể là vấn đề vì chúng có thể ảnh hưởng đến kết quả phân tích.

1. Có nên loại bỏ điểm ngoại lệ?

Các điểm dị biệt có thể làm méo mó tính chuẩn của dữ liệu, một giả định rất quan trọng trong nhiều bài kiểm tra thống kê. Do vậy, chúng có nên được kiểm tra ảnh hưởng trong tập dữ liệu. Nghiên cứu khoa học là để khám phá thế giới, nếu điểm dị biệt thực sự phản ánh thực tế của thế giới, của người được hỏi trong điều tra thì phải chăng loại bỏ điểm dị biệt có thể khiến dữ liệu mất đi tính thực tế. Đầu tiên, chúng ta cần đảm bảo rằng giá trị ngoại lệ không phải là kết quả của lỗi nhập dữ liệu. Nếu chúng ta quyết định loại bỏ một vài điểm dị biệt để giảm ảnh hưởng của chúng, sau đó bạn kiểm tra lại dữ liệu, bạn có chắc đã loại bỏ hết chúng chưa. Điều này đôi khi làm xuất hiện những điểm dị biệt mới vì chúng bị che bởi các điểm dị biệt cũ hoặc sau khi loại bỏ những điểm dị biệt cũ thì tập dữ liệu sẽ tồn tại những điểm cực trị theo tiêu chuẩn dị biệt. Quá trình này lặp lại nếu chúng ta tiếp tục loại bỏ những điểm dị biệt mới. Cuối cùng, như một sự tóm tại, đó là những lí do chúng tôi khuyên không nên loại bỏ điểm dị biệt. Chúng ta nên kiểm tra để xác nhận xem số điểm dị biệt có đáng kể không, nếu chúng thực sự đáng kể thì một số bài kiểm tra thống kê có thể không nên được sử dụng tiếp theo, chẳng hạn như phân tích hồi quy tuyến tính.

Một cách để xác định xem có xuất hiện các giá trị ngoại lệ hay không là tạo một boxplot cho tập dữ liệu. Boxplot là một biểu đồ hiển thị các tứ phân vị, các giá trị ngoại lệ, và điểm số tối thiểu và tối đa cho biến. Vậy tứ phân vị là gì? Và làm thế nào để có được chúng? Và các giá trị ngoại lai và giá trị cực trị tiềm năng được xác định như thế nào?

2. Cách kiểm tra giá trị ngoại lệ trong SPSS

Click Analyze > Descriptive Statistics > Explore

Trong hộp thoại Explore, chúng ta chuyển biến cần kiểm tra‘ontap’vào ô Dependent List (lưu ý rằng điểm dị biệt không bao gồm các biến dạng chuỗi). Nhấp vào Statistics, chọn Descriptives với khoảng tin cậy 95%, chọn Outliers, và chọn Percentiles để mô tả tứ phân vị.

 

Bấm Plots, bỏ chọn mục Stem-and-leaf. Kết thúc mỗi nút thì nhấp Continue, sau đó nhấp OK để chạy kết quả.

Đọc kết quả:

Giá trị quan trong nhất của Bảng Descriptives biểu lộ giá trị “5% Trimmed Mean” cho biết giá trị trung bình sau khi loại bỏ 5% giá trị cao nhất và giá trị thấp nhất của biến. Bằng cách so sánh chỉ số này (5% Trimmed Mean) với giá trị Mean, chúng ta có thể xác đinh xem mức ảnh hưởng của các giá trị dị biệt đến biến.

SPSS coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 1.5 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 1.5 * phạm vi liên phân vị”. Chúng ta có thể tính toán phạm vi liên phân vị (interquartile range) bằng cách lấy sự khác biệt giữa phân vị thứ 75thứ 25 trong hàng có nhãn Tukey’s Hinges trong đầu ra:

Đối với tập dữ liệu này, phạm vi liên phân vị là 7.5 – 5 = 2.5. Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là ngoại lệ: từ “7.5 + 1.5 * 2.5 = 11.25” đến “5 – 1.5 * 2.5 = 1.25”. Như vậy, bất kì số giờ ôn tập nào nhỏ hơn 1.25 giờ hoặc lớn hơn 11.25 giờ sẽ được cọi là ngoại lệ.

Trong Boxplot xuất hiện, nếu không có vòng tròn (○) hoặc dấu hoa thị (*) ở cả hai đầu của Boxplot, đây là dấu hiệu cho thấy không có ngoại lệ nào.

Vòng tròn (○) là một dấu hiệu cho thấy một ngoại lệ có trong dữ liệu xuất hiện. Trong ví dụ, có 1 giá trị ngoại lên, và số 9 cho biết quan sát trong tập dữ liệu là ngoại lệ.

SPSS cũng coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ cực trị nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 3 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 3 * phạm vi liên phân vị”

Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là giá trị ngoại lệ cực kỳ trong ví dụ này: từ “7.5 + 3 * 2.5 = 15” đến “5 – 3 * 2.5 = -2.5”. Rõ ràng, số giờ ôn tập không thể âm, do vậy giá trị ‘-2.5 giờ’ là không thực tế, nên chúng ta chỉ quan tâm đến giá trị cao. Trong ví dụ, nếu số giờ ôn tập lớn hơn 15 giờ sẽ được coi là một ngoại lệ cực trị. Trong ví dụ trên, không có giá trị ngoại lệ cực trị xuất hiện. Nếu có, thì dấu hoa thị (*) là dấu hiệu cho thấy dữ liệu có giá trị ngoại lệ cực trị.

Tóm lại, trong tập dữ liệu nêu trên, chỉ xuất hiện 1 giá trị ngoại lệ. Chúng tôi cho rằng không nên loại bỏ chúng. Kiểm tra các điểm ngoại lệ là để lựa chọn các bài kiểm tra thống kê phù hợp.

3. Cách xử lí điểm ngoại lệ

  1. Đảm bảo rằng giá trị ngoại lệ không phải là kết quả của lỗi nhập dữ liệu. Đôi khi chúng ta có thể đã nhập sai giá trị dữ liệu khi ghi dữ liệu. Nếu có giá trị ngoại lệ, trước tiên hãy xác minh rằng giá trị đã được nhập đúng và đó không phải là lỗi.
  2. Loại bỏ các yếu tố ngoại lệ. Nếu giá trị là một giá trị ngoại lệ thực sự, bạn có thể chọn loại bỏ nó nếu nó có tác động đáng kể đến phân tích tổng thể của bạn. Chỉ cần đảm bảo đề cập trong báo cáo hoặc phân tích cuối cùng của bạn rằng bạn đã loại bỏ một yếu tố ngoại lệ.
  3. Gán một giá trị mới cho giá trị ngoại lệ. Nếu giá trị ngoại lệ hóa ra là do lỗi nhập dữ liệu, bạn có thể quyết định gán một giá trị mới cho nó, chẳng hạn như giá trị trung bình hoặc giá trị trung vị của tập dữ liệu.

Từ khóa » Các Loại Outliers