Trong các bài viết trước, có hai vấn đề được đề cập đó là dữ liệu 'nhà' (dữ liệu mà mình có thể có được để xử lí) - và với dữ liệu đó, các dạng câu hỏi là gì?
Chuyện điểm thi của Hà Giang và Sơn La là một ví dụ rất phù hợp cho hai vấn đề trên. Với dữ liệu về điểm thi (được cung cấp công khai trên trang web của Bộ GD-ĐT - ko có tên, chỉ có SBD), và câu hỏi đặt ra là có bất thường không (anomaly detection)?
Công cụ ở đây rất đơn giản - không cần lập trình - chỉ cần dùng Excel để vẽ các biểu đồ - và tất nhiên phải cần thêm một số kiến thức về Toán và Xác suất là có thể đưa ra các phân tích và dự đoán để kiểm chứng.
1. Nếu chúng ta nhìn hình hàng trên, bên phải - tương ứng với phân bố điểm thi môn Lý của cả nước và Sơn La - nhìn kĩ một chút chỗ trục X bên tay phải - sẽ thấy đường màu đỏ (Sơn La) cao hơn đường màu xanh (VN) - tức là số thí sinh điểm cao (tầm 9-10) của Sơn La cao hơn trung bình VN.
2. Nếu nhìn phân bố thì thấy đường màu đỏ luôn nằm bên trái đường màu xanh - tức là điểm của Sơn La thấp so với cả nước.
==> Bất thường ở chỗ này - chẳng lẽ thí sinh Sơn La giỏi vậy?
Lưu ý - phân tích từ dữ liệu chỉ cho ta các giả thuyết (hypothesis) - và việc tiếp theo là cần kiểm chứng các giả thuyết đó - và không phải giả thuyết nào cũng đúng.
====
GS Nguyễn Văn Tuấn, Viện Garvan (Australia) đã phân tích dữ liệu điểm và chỉ ra một số vấn đề mà ông cho rằng bất thường trong phổ điểm thi THPT Quốc gia của Sơn La.
Theo GS Nguyễn Văn Tuấn, tính trung bình điểm thi môn Toán, lí, Hóa và Sinh học của Sơn La đều thấp hơn so với cả nước. Chẳng hạn như môn Toán, điểm trung bình (độ lệch chuẩn) của Sơn La là 3,43 (1,33), so với cả nước là 4,88 (1,44). Đáng chú ý độ lệch chuẩn của Sơn La (1,33) thấp hơn so với cả nước (1,44).
“Sơn La có vẻ có số thí sinh điểm 9,0 đến 9,8 cao bất thường. Nếu theo phân bố quốc gia, chúng ta kì vọng Sơn La có 6 thí sinh, nhưng trong thực tế thì có đến 30 thí sinh, tức cao hơn 5 lần so với kì vọng” - ông Tuấn nói.
Đối với môn Lý cũng có sự bất thường, số học sinh có điểm 9.0 trở lên là 13 em, trong khi đó theo kì vọng quốc gia thì chỉ có 1 thí sinh. Nói cách khác, số thí sinh có điểm vật lí cao ở Sơn La chênh lệch gấp 12 lần so với phân bố quốc gia.
Ông phân tích dựa trên cơ sở nào để ra được kết quả này?
GS Nguyễn Văn Tuấn: Đặt câu hỏi đơn giản rằng nếu phân bố điểm thi của một tỉnh (như Hà Giang hay Sơn La) giống với phân bố điểm toàn quốc, thì sẽ có bao nhiêu thí sinh có điểm 0; 0,2; 0,4; 0,6, …, 10. Tôi gọi đó là "số kì vọng". Sau đó, tôi so sánh số kì vọng với số thí sinh thực tế cho từng thang điểm, và qua đó có thể thấy ở thang điểm nào, phân bố của tỉnh có vẻ bất thường. Một cách khác là dùng phương pháp phân tích thống kê có tên là "Hồi qui tuyến tính".
Theo phương pháp này, tôi tìm hiểu mối tương quan giữa điểm môn Toán và điểm các môn như Lý, Hoá, Sinh, Văn, Tiếng Anh, Sử, và Địa lí; dựa vào mối tương quan này, tôi ước tính giá trị tiên lượng điểm môn Toán cho mỗi thí sinh; sau đó tôi tính toán độ lệch chuẩn giữa điểm thí sinh đạt được và điểm tiên lượng; và dựa vào độ lệch này, tôi có thể xác định có bao nhiêu thí sinh có điểm bất bình thường sau khi đã xem xét "hồ sơ" điểm của thí sinh đó.
Link: https://www.facebook.com/bigdata.deeplearning.uit/posts/2060087260975050