Số Kỳ 2 tháng 12 (302)-2025 Tạp chí Nghiên cứu Tài chính Kế toán - Trang 17
Tóm tắt tiếng Việt:
Bài báo đánh giá hiệu quả ứng dụng các mô hình học máy trong dự báo thu ngân sách nhà nước (NSNN) của Việt Nam trên dữ liệu giai đoạn 1991-2024, qua đó khẳng định giá trị gia tăng rõ rệt của học máy trong việc mô hình hóa các quan hệ phi tuyến và phản ứng linh hoạt trước các cú sốc chính sách tài khóa. Kết quả thực nghiệm cho thấy không tồn tại “một mô hình tốt cho mọi khoản thu”, song cách tiếp cận theo danh mục mô hình tối ưu hóa riêng cho từng khoản thu giúp nâng cao độ chính xác tổng thể và giảm sai số dự báo tổng thu xuống chỉ còn 1–2% mỗi năm. Cấu hình khuyến nghị gồm: RFcho các sắc thu nội địa quy mô lớn (PIT, VAT, EXT), ElasticNet cho các khoản thu có cấu trúc gần tuyến tính và dữ liệu hạn chế (CIT, EMT, AID), XGBoost cho nhóm thu chịu biến động theo chu kỳ bất động sản hoặc cú sốc chính sách (LAND, LP), và OLS cho các khoản thu ổn định, có quan hệ tuyến tính rõ (OIL, OTH). Trong giai đoạn tới, nghiên cứu đề xuất triển khai mô hình lai phần dư hai giai đoạn (two-stage residual modeling) để kết hợp ưu thế giải thích của mô hình kinh tế lượng và khả năng học phi tuyến của mô hình máy học, hướng tới hệ thống dự báo tài khóa chủ động, cập nhật theo thời gian thực trong bối cảnh chuyển đổi số tài chính công.
English Summary:
This study evaluates the performance of machine learning models in forecasting Vietnam’s state budget revenue (SBR) using annual data from 1991–2024, highlighting the significant added value of machine learning in capturing nonlinear relationships and adapting to fiscal policy shocks. The empirical results reveal that there is no “one-size-fits-all” model for all revenue categories; however, adopting a portfolio approach with model optimization by revenue component substantially improves overall accuracy, reducing total forecast error to just 1–2% per year. The recommended configuration includes: Random Forest for major domestic tax revenues (PIT, VAT, and excise taxes), ElasticNet for revenue items with near-linear structures and limited data (CIT, EMT, AID), XGBoost for revenues influenced by real estate cycles or policy shocks (LAND, LP), and OLS for stable, linearly related items (OIL, OTH). For future research, a twostage residual hybrid modeling framework is proposed to combine the interpretability of econometric models with the nonlinear learning capacity of machine learning algorithms paving the way for a real-time, adaptive fiscal forecasting system within Vietnam’s digital public finance transformation.
Từ khóa:
dự báo thu NSNN; học máy; random forest; XGBoost; ElasticNet; mô hình lai
Số lượt đọc: 53 - Số lượt tải về: 48
DOI Code: https://doi.org/10.71374/jfarv.v25.i302.04