Logo
Le Phuc HaiPHD RESEARCHER & FOUNDER
Data Analysis

Python101 - Bài 4: Hồi Quy Tuyến Tính (Linear Regression) - Tìm Yếu Tố Tác Động

Yếu tố nào ảnh hưởng mạnh nhất đến Lòng trung thành? Giá cả? Chất lượng? Hay Thương hiệu? Hồi quy tuyến tính với `statsmodels` sẽ cho bạn câu trả lời chuẩn xác.

15 min read
Python101 - Bài 4: Hồi Quy Tuyến Tính (Linear Regression) - Tìm Yếu Tố Tác Động

Khoan! Đừng chạy hồi quy vội. Một nhà khoa học chân chính phải kiểm tra các giả định (Assumptions) trước. Nếu vi phạm, mô hình của bạn là rác.

Checklist các giả định của OLS:
1. Tính tuyến tính (Linearity): X và Y có quan hệ đường thẳng không?
2. Đa cộng tuyến (Multicollinearity): Các biến X có "đánh nhau" không? (Check VIF)
3. Phương sai sai số không đổi (Homoscedasticity).
4. Sai số phân phối chuẩn (Normality of Residuals).

`statsmodels` sẽ giúp ta kiểm tra (bằng các test như Jarque-Bera, Omnibus trong bảng kết quả).

Chạy mô hình OLS

[@portabletext/react] Unknown block type "code", specify a component for it in the `components.types` prop

Nhìn vào bảng kết quả (Summary):
1. Adj. R-squared: Dùng cái này thay vì R-squared thường (để tránh ảo tưởng khi thêm biến rác). > 0.5 là mô hình tốt.
2. P>|t| (P-value): < 0.05 -> Biến có ý nghĩa thống kê.
3. Coef: Hệ số hồi quy. Dương là tác động thuận, Âm là nghịch.

Lưu ý (Pro Tips): Đừng quên kiểm tra Đa cộng tuyến (VIF). Nếu VIF > 10 thì biến đó đang phá đám mô hình.

Tags

#Python101#Quantitative#Marketing Analytics#Regression#Statsmodels#Hypothesis Testing

About HaiLP

Sharing practical insights on RTM, DMS and Academic Research.