TÀI LIỆU

Giới thiệu mô hình ARIMA

Science and Technology

Tính dừng của dữ liệu

Quá trình ngẫu nhiên(Stochastic process)

Bất cứ dữ liệu chuỗi thời gian nào cũng được tạo ra bằng một quá trình ngẫu nhiên. Một dãy số liệu thực tế cụ thể như giá bắp cải từng tháng ở hình 7.1 là kết quả của một quá trình ngẫu nhiên. Đối với dữ liệu chuỗi thời gian, chúng ta có những khái niệm về tổng thể và mẫu như sau:

Quá trình ngẫu nhiên là một tổng thể.

Số liệu thực tế sinh ra từ quá trình ngẫu nhiên là mẫu.

Tính dừng(Stationary)

Một quá trình ngẫu nhiên được gọi là có tính dừng khi nó có các tính chất sau:

Kỳ vọng không đổi theo thời gian, E(Yt) = μ size 12{μ} {}.

Phương sai không đổi theo thời gian, Var(Yt) = E(Yt- μ size 12{μ} {}) = σ size 12{σ} {}2.

Đồng phương sai chỉ phụ thuộc khoảng cách của độ trễ mà không phụ thuộc thời điểm tính đồng phương sai đó, vk = E[(Yt- μ size 12{μ} {})(Yt-k- μ size 12{μ} {})] không phụ thuộc t.

Lưu ý: Chúng ta có thể biến dữ liệu chuỗi thời gian từ không có tính dừng thành có tính dừng bằng cách lấy sai phân của nó.

wt = Yt-Yt-1: Sai phân bậc nhất

wt2=wtwt1 size 12{w rSub { size 8{t} } rSup { size 8{2} } =w rSub { size 8{t} } - w rSub { size 8{t - 1} } } {}: Sai phân bậc hai…

Hàm tự tương quan và hàm tự tương quan mẫu

Hàm tự tương quan(ACF) ở độ trễ k được ký hiệu là ρk size 12{ρ rSub { size 8{k} } } {} được định nghĩa như sau:

(7.11)

Tính chất của ACF

ρk size 12{ρ rSub { size 8{k} } } {} không có thứ nguyên.

Giá trị của ρk size 12{ρ rSub { size 8{k} } } {} nằm giữa -1 và 1.

Trong thực tế chúng ta chỉ có thể có số liệu thực tế là kết quả của quá trình ngẫu nhiên, do đó chúng chỉ có thể tính toán được hàm tự tương quan mẫu(SAC), ký hiệu là rk size 12{r rSub { size 8{k} } } {}.

với

Độ lệch chuẩn hệ số tự tương quan mẫu

s(rj) =

(7.12)

Trị thống kê t

Với cỡ mẫu lớn thì tk ~ Z nên với t > 1,96 thì rk khác không có ý nghĩa thống kê, khi đó người ta gọi rk là 1 đỉnh.

Các phần mềm kinh tế lượng sẽ tính toán cho chúng ta kết quả của SAC và các giá trị đến hạn(hoặc trị thống kê t) của nó ứng với mức ý nghĩa α size 12{α} {} = 5%.

Thống kê Ljung-Box

(7.14)

n là cỡ mẫu

m là chiều dài của độ trễ

H0: Tất cả các rk size 12{r rSub { size 8{k} } } {} đều bằng 0.

H1: Không phải tất cả các rk size 12{r rSub { size 8{k} } } {} đều bằng 0.

Nếu LB > χm,1α2 size 12{χ rSub { size 8{m,1 - α} } rSup { size 8{2} } } {} thì ta bác bỏ H0.

Một số phần mềm kinh tế lượng có tính toán trị thống kê LB.

Hàm tự tương quan riêng phần (PACF)

Hệ số tự tương quan riêng phần với độ trễ k đo lường tương quan của Yt-k với Yt sau khi loại trừ tác động tương quan của tất các các độ trễ trung gian. Công thức tính PACF như sau

(7.15)

Độ lệch chuẩn của rkk

Công thức tính độ lệch chuẩn của rkk phụ thuộc vào bậc của sai phân. Công thức trình bày ở trên là công thức gần đúng với số quan sát đủ lớn.

Trị thống kê t

Với cỡ mẫu lớn thì tkk~ Z nên với tkk> 1,96 thì rkk khác không có ý nghĩa thống kê, khi đó người ta gọi rkk là 1 đỉnh.

Các chương trình kinh tế lượng có thể tính toán cho chúng ta các giá trị PACF, các giá trị tới hạn hay trị thống kê t.

Mô hình AR, MA và ARMA

Xét quá trình ngẫu nhiên có tính dừng với dữ liệu chuỗi thời gian Yt có E(Yt) = μ size 12{μ} {} và sai số ngẫu nhiên μ size 12{μ} {}t có trung bình bằng 0 và phương sai σ size 12{σ} {}2(nhiễu trắng).

Mô hình tự hồi quy (AR-Autoregressive Model)

Mô hình tự hồi quy bậc p được ký hiệu là AR(p) có dạng

Nhận dạng mô hình AR(p): PACF có đỉnh đến độ trễ p và SAC suy giảm nhanh ngay sau độ trễ thứ nhất thì mô hình dự báo có dạng tự hồi quy bậc p.

Mô hình trung bình trượt(MA-Moving average Model)

Mô hình trung bình trượt bậc q được ký hiệu là MA(q) có dạng

(7.18)

với μ size 12{μ} {} là hằng số, ε size 12{ε} {}t là nhiễu trắng.

Nhận dạng mô hình MA(q): SAC có đỉnh đến độ trễ q và SPAC suy giảm nhanh ngay sau độ trễ thứ nhất.

Mô hình kết hợp tự hồi quy kết hợp trung bình trượt(ARMA)

Mô hình có tự hồi quy bậc p và trung bình trượt bậc q được ký hiệu là ARMA(p,q) có dạng

(7.19)

Nhận dạng mô hình ARMA(p,q): cả SAC và SPAC đều có giá trị giảm dần theo hàm mũ. Nhận dạng đúng p và q đòi hỏi phải có nhiều kinh nghiệm. Trong thực hành người ta chọn một vài mô hình ARMA và lựa chọn mô hình tốt nhất.

Mô hình ARIMA và SARIMA

ARIMA

Đa số dữ liệu kinh tế theo chuỗi thời gian không có tính dừng(stationary) mà có tính kết hợp(integrated). Để nhận được dữ liệu có tính dừng, chúng ta phải sử dụng sai phân của dữ liệu.

Các bậc sai phân

Sai phân bậc 0 là I(0): chính là dữ liệu gốc Yt.

Sai phân bậc 1 là I(1): wt = Yt – Yt-1.

Sai phân bậc 2 là I(2): w2t = wt – wt-1

Sai phân bậc d ký hiệu I(d).

Mô hình ARMA(p,q) áp dụng cho I(d) được gọi là mô hình ARIMA(p,d,q).

SARIMA

Trong mô hình ARIMA nếu chúng ta tính toán sai phân bậc nhất với độ trễ lớn hơn 1 để khử tính mùa vụ như sau wt = Yt – Yt-s, với s là số kỳ giữa các mùa thì mô hình được gọi là SARIMA hay ARIMA có tính mùa vụ.

Phương pháp luận Box-Jenkins

Phương pháp luận Box-Jenkins cho mô hình ARIMA có bốn bước như sau:

Bước 1: Xác lập mô hình ARIMA(p,d,q)

Dùng các đồ thị để xác định bậc sai phân cần thiết để đồ thị có tính dừng. Giả sử dữ liệu dùng ở I(d). Dùng đồ thị SAC và SPAC của I(d) để xác định p và q.

Triển khai dạng của mô hình.

Bước 2: Tính toán các tham số của mô hình.

Trong một số dạng ARIMA đơn giản chúng ta có thể dùng phương pháp bình phương tối thiểu. Một số dạng ARIMA phức tạp đòi hỏi phải sử dụng các ước lượng phi tuyến. Chúng ta không phải lo lắng về việc ước lượng tham số vì các phần mềm kinh tế lượng sẽ tính giúp chúng ta. Quay lại bước 1 xây dựng mô hình với cặp (p,q) khác dường như cũng phù hợp. Giả sử chúng ta ước lượng được m mô hình ARIMA.

Bước 3: Kiểm tra chẩn đoán

So sánh các mô hình ARIMA đã ước lượng với các mô hình truyền thống(tuyến tính, đường xu hướng, san bằng số mũ,…) và giữa các mô hình ARIMA với nhau để chọn mô hình tốt nhất.

Bước 4: Dự báo

Trong đa số trường hợp mô hình ARIMA cho kết quả dự báo ngắn hạn đáng tin cậy nhất trong các phương pháp dự báo. Tuy nhiên giới hạn của của ARIMA là:

Số quan sát cần cho dự báo phải lớn.

Chỉ dùng để dự báo ngắn hạn

Không thể đưa các yếu tố thay đổi có ảnh hưởng đến biến số cần dự báo của thời kỳ cần dự báo vào mô hình.

Xây dựng mô hình ARIMA theo phương pháp luận Box-Jenkins có tính chất nghệ thuật hơn là khoa học, hơn nữa kỹ thuật và khối lượng tính toán khá lớn nên đòi hỏi phải có phần mềm kinh tế lượng chuyên dùng.

MỘT SỐ GIÁ TRỊ Z THƯỜNG ĐƯỢC SỬ DỤNG

Nguồn: hàm Normsinv của Excel.

MỘT SỐ GIÁ TRỊ t THƯỜNG ĐƯỢC SỬ DỤNG

Nguồn: hàm Tinv của Excel.

MỘT SỐ GIÁ TRỊ F TỚI HẠN TRÊN THƯỜNG ĐƯỢC SỬ DỤNG

Mức ý nghĩa α size 12{α} {} = 5%

Nguồn: hàm Finv của Excel.

MỘT SỐ GIÁ TRỊ TỚI HẠN TRÊN THƯỜNG ĐƯỢC SỬ DỤNG

Mức ý nghĩa α size 12{α} {} = 5%

Nguồn: Hàm Chiinv của Excel