SO SÁNH HIỆU QUẢ CÁC QUY TRÌNH HỌC MÁY VÀ HỌC SÂU TRONG DỰ ĐOÁN NGUY CƠ ĐỘT QUỴ
Nội dung chính của bài viết
Tóm tắt
Mục tiêu: Nghiên cứu so sánh hiệu quả giữa các quy trình học máy truyền thống và mô hình học sâu hiện đại nhằm xác định phương pháp tối ưu dự đoán nguy cơ đột quỵ trên dữ liệu y tế dạng bảng. Đối tượng và phương pháp: Nghiên cứu so sánh luồng kép trên 6.387 hồ sơ bệnh án (gồm 5.110 bản ghi công khai và 1.277 bản ghi dữ liệu nội bộ bổ sung). Nhóm học máy truyền thống tối ưu hóa 5 thuật toán (XGBoost, LightGBM, CatBoost, Random Forest) kết hợp kỹ thuật lấy mẫu lại và lựa chọn đặc trưng. Nhóm học sâu huấn luyện các mô hình chuyên biệt (TabNet, FT-Transformer, ResNet). Hiệu suất đánh giá qua kiểm định chéo 5 lần và tập kiểm tra độc lập. Kết quả: Quy trình sử dụng thuật toán LightGBM kết hợp bộ lấy mẫu ngẫu nhiên (RandomOverSampler) và lựa chọn đặc trưng theo thông tin tương hỗ (Mutual Information) đạt hiệu suất cao nhất trên tập kiểm tra: Độ chính xác 95,2%, F1-macro 70,2%. Kiểm định t-test cho thấy phương pháp này vượt trội có ý nghĩa thống kê so với mô hình cơ sở và học sâu (p = 0,0403). Kết luận: Với dữ liệu dạng bảng cỡ trung bình, tối ưu hóa học máy truyền thống hiệu quả hơn học sâu. Việc bổ sung dữ liệu và xử lý mất cân bằng là yếu tố then chốt cải thiện dự báo.
Chi tiết bài viết
Từ khóa
Đột quỵ, Học máy, Học sâu, LightGBM, TabNet.
Tài liệu tham khảo
2. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research 2002; 16: 321-357.
3. Dritsas E, Trigka M. Stroke Risk Prediction with Machine Learning Techniques. Sensors 2022; 22(15): 4670.
4. Fedesoriano. Stroke Prediction Dataset. Kaggle. Available from: https://www.kaggle.com/ datasets/fedesoriano/stroke-prediction-dataset.
5. Feigin VL, et al. Global burden of stroke and risk factors in 188 countries, 1990–2022. The Lancet Neurology 2024; 23(4): 345-356.
6. Ke G, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Advances in Neural Information Processing Systems 2017; 30: 3146-3154.