SO SÁNH HIỆU QUẢ CÁC QUY TRÌNH HỌC MÁY VÀ HỌC SÂU TRONG DỰ ĐOÁN NGUY CƠ ĐỘT QUỴ

Nguyễn Thị Ngọc Nguyên; Nguyễn Tấn Đạt

doi:10.51298/vmj.v558i1.16976

pdf

Số xuất bản: Tập 558 Số 1 (2026)

Chuyên mục: Các bài báo

DOI: 10.51298/vmj.v558i1.16976

Ngày xuất bản: 10/01/2026

Lượt xem 204

Lượt tải xuống 145

Trích dẫn bài báo

Nguyễn, T. N. N., & Nguyễn, T. Đ. (2026). SO SÁNH HIỆU QUẢ CÁC QUY TRÌNH HỌC MÁY VÀ HỌC SÂU TRONG DỰ ĐOÁN NGUY CƠ ĐỘT QUỴ. Tạp chí Y học Việt Nam, 558(1). https://doi.org/10.51298/vmj.v558i1.16976

Định dạng trích dẫn:

SO SÁNH HIỆU QUẢ CÁC QUY TRÌNH HỌC MÁY VÀ HỌC SÂU TRONG DỰ ĐOÁN NGUY CƠ ĐỘT QUỴ

Nguyễn Thị Ngọc Nguyên^1,, Nguyễn Tấn Đạt²
¹ Bệnh viện Ung bướu TP Cần Thơ
² Đại học Cần Thơ

Tóm tắt

Mục tiêu: Nghiên cứu so sánh hiệu quả giữa các quy trình học máy truyền thống và mô hình học sâu hiện đại nhằm xác định phương pháp tối ưu dự đoán nguy cơ đột quỵ trên dữ liệu y tế dạng bảng. Đối tượng và phương pháp: Nghiên cứu so sánh luồng kép trên 6.387 hồ sơ bệnh án (gồm 5.110 bản ghi công khai và 1.277 bản ghi dữ liệu nội bộ bổ sung). Nhóm học máy truyền thống tối ưu hóa 5 thuật toán (XGBoost, LightGBM, CatBoost, Random Forest) kết hợp kỹ thuật lấy mẫu lại và lựa chọn đặc trưng. Nhóm học sâu huấn luyện các mô hình chuyên biệt (TabNet, FT-Transformer, ResNet). Hiệu suất đánh giá qua kiểm định chéo 5 lần và tập kiểm tra độc lập. Kết quả: Quy trình sử dụng thuật toán LightGBM kết hợp bộ lấy mẫu ngẫu nhiên (RandomOverSampler) và lựa chọn đặc trưng theo thông tin tương hỗ (Mutual Information) đạt hiệu suất cao nhất trên tập kiểm tra: Độ chính xác 95,2%, F1-macro 70,2%. Kiểm định t-test cho thấy phương pháp này vượt trội có ý nghĩa thống kê so với mô hình cơ sở và học sâu (p = 0,0403). Kết luận: Với dữ liệu dạng bảng cỡ trung bình, tối ưu hóa học máy truyền thống hiệu quả hơn học sâu. Việc bổ sung dữ liệu và xử lý mất cân bằng là yếu tố then chốt cải thiện dự báo.

Từ khóa

Đột quỵ, Học máy, Học sâu, LightGBM, TabNet.

Tài liệu tham khảo

1. Arik S O, Pfister T. TabNet: Attentive Interpretable Tabular Learning. AAAI Conference on Artificial Intelligence2021; 35(8): 6679-6687.
2. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research 2002; 16: 321-357.
3. Dritsas E, Trigka M. Stroke Risk Prediction with Machine Learning Techniques. Sensors 2022; 22(15): 4670.
4. Fedesoriano. Stroke Prediction Dataset. Kaggle. Available from: https://www.kaggle.com/ datasets/fedesoriano/stroke-prediction-dataset.
5. Feigin VL, et al. Global burden of stroke and risk factors in 188 countries, 1990–2022. The Lancet Neurology 2024; 23(4): 345-356.
6. Ke G, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Advances in Neural Information Processing Systems 2017; 30: 3146-3154.

Thanh bên bài viết

Nội dung chính của bài viết

Tóm tắt

Từ khóa

Chi tiết bài viết

Tài liệu tham khảo