Phương trình kiểm định nghiệm đơn vị

Kiểm tra tính dừng của chuỗi dữ liệu bảng (Panel Unit Root Test) là bước đầu tiên quan trọng nhất trong quy trình ước lượng và kiểm định dữ liệu bảng. Tùy vào tính đồng nhất và tính độc lập của các đơn vị bảng mà có nhiều nhóm phương pháp kiểm tra tính dừng dữ liệu bảng như nhóm kiểm định đồng nhất (LLC, Breitung, Hardi), nhóm kiểm định không đồng nhất (IPS, Fisher) hoặc nhóm có sự phụ thuộc chéo như Pesaran (2003)… Trên Stata, chúng ta có thể thực hiện kiểm tra nghiệm đơn vị bảng qua các lệnh như xtunitroot, multpurt

Tham khảo bài viết:

Phương trình kiểm định nghiệm đơn vị
Phương trình kiểm định nghiệm đơn vị

Hồi quy mơ hồ (spurious regression) thường được sử dụng khi đề cập đến vấn đề phân tích hồi quy giữa các chuỗi không dừng. Bởi thông thường tổ hợp tuyến tính của các chuỗi không dừng sẽ là một chuỗi không dừng. Vì vậy, các thống kê chuẩn như t, F hay R2 sẽ không còn phù hợp. Bài viết sẽ trình bày một số quy tắc kinh nghiệm kiểm chứng vấn đề hồi quy mơ hồ, cũng như trình bày một số công cụ kiểm định tính dừng của một chuỗi.

Phần lớn các công cụ thống kê được xây dựng cho các chuỗi dừng, nghĩa là các chuỗi có các moment xác định. Khi điều kiện này không được giữ vững thì những thống kê này sẽ bị sai lệch.

Giả sử chúng ta có 2 chuỗi độc lập lẫn nhau và 2 chuỗi này đều có xu hướng tăng (positive trend). Bây giờ, nếu bạn phân tích mối quan hệ giữa chúng bằng một công cụ truyền thống là tương quan tuyến tính bạn sẽ thấy rằng chúng có tương quan dương với nhau. Đây là một ví dụ về mối quan hệ mập mờ (spurious).

Điều này cũng đúng cho trường hợp phân tích hồi quy: nếu bạn có 2 hoặc nhiều hơn các biến không dừng và bạn chạy hồi quy lên chúng thì nhiều khả năng bạn sẽ tìm thấy một mối quan hệ giữa chúng, mặc dù chúng là độc lập lẫn nhau. (Granger and Newbold 1974)

Vậy vấn đề ở đây là gì?

Thông thường, tổ hợp tuyến tính của các chuỗi không dừng sẽ là một chuỗi không dừng. Như vậy, chúng ta có thể thấy phần dư của một phương trình hồi quy dữ liệu thời gian là không dừng. Trong khi đó, tất cả các thống kê chuẩn từ thống kê t đến R2 đều dựa trên ý tưởng rằng các phần dư là dừng. Trường hợp này được gọi là hồi quy mơ hồ. Chúng ta hãy xét ví dụ sau:

Giả sử, chúng  tạo ra 2 chuỗi hoàn toàn độc lập, nghĩa là x không giải thích cho y và ngược lại. Bây giờ, thực hiện hồi quy phương trình sau: \({y_t} = {\beta _0} + {\beta _1}{x_t} + {u_t}\)  Nếu các chuỗi là độc lập lẫn nhau thì  \({\beta _1} = 0\)

Tuy nhiên, trong trường hợp các chuỗi không dừng sẽ cho kết quả ước lượng cho thấy hệ số \({\beta _1} \ne 0\) và có ý nghĩa thống kê. Kết quả này sai và đây là một trường hợp điển hình của hồi quy mơ hồ. Vậy dấu hiệu nhận biết các vấn đề này như thế nào?

  • Đầu tiên, nếu phần dư là không dừng thì nó sẽ có sự tự tương quan mạnh \({u_t} = \rho {u_{t – 1}} + {\varepsilon _t}\) với giá trị thống kê Durbin Watson là:

\(DW = \frac{{\sum\limits_{t = 2}^T {{{\left( {{u_t} – {u_{t – 1}}} \right)}^2}} }}{{\sum\limits_{t = 1}^T {u_t^2} }} \approx 2\left( {\rho  – 1} \right)\). Vì vậy, nếu  r = 1 thì DW = 0 và đây là dấu hiệu đầu tiên.

  • Thứ hai, giá trị R2 gần bằng 0 vì x không có bất kì sự giải thích nào cho y. Vì vậy, trong trường hợp hồi quy mơ hồ thì thống kê R2 có xu hướng hội tụ đến một giá trị dương, mà giá trị này có thể khá lớn. Sử dụng quy tắc kinh nghiệm rằng nếu giá trị thống kê DW nhỏ hơn giá trị R2, bạn cần lưu ý đến vấn đề hồi quy mơ hồ.
  • Sử dụng kiểm định tính dừng của chuỗi phần dư.

2. Loại bỏ nghiệm đơn vị, bậc tích hợp

Đầu tiên, chúng ta sẽ tìm hiểu cách chuỗi một chuỗi không dừng thành chuỗi dừng. Cách đơn  giản nhất là sử dụng sai phân bậc 1.

Giả sử chúng ta có một quá trình bước ngẫu nhiên như sau:

\({y_t} = {y_{t – 1}} + {\varepsilon _t}\begin{array}{*{20}{c}},&{{\varepsilon _t} \sim iid(0,\sigma _\varepsilon ^2}\end{array})\) thì \(\Delta {y_t} = {y_t} – {y_{t – 1}} = {\varepsilon _t}\) là dừng

Chúng ta có thể áp dụng phương pháp sai phân cho các chuỗi không dừng khác chẳng hạn như một quá trình bước ngẫu nhiên với drift: \({y_t} = \alpha  + {y_{t – 1}} + {\varepsilon _t}\begin{array}{*{20}{c}},&\Delta \end{array}{y_t} = \alpha  + {\varepsilon _t}\) và một quá trình ngẫu nhiên với xu thế xác định (deterministic trend): \({y_t} = \alpha  + \delta t + {\varepsilon _t}\begin{array}{*{20}{c}},&\Delta \end{array}{y_t} = \delta  + \Delta {\varepsilon _t}\)

Trong trường hợp chuỗi có xu thế xác định, việc bổ sung thành phần xu thế trong hàm hồi quy sẽ hiệu quả và phù hợp để loại bỏ vấn đề hồi quy mơ hồ. Vì lí do này, quá trình ngẫu nhiên được gọi là dừng sai phân (difference stationary), trong khi quá trình có xu thế xác định được gọi là dừng xu thế (trend stationary).

Một chuỗi phải dừng khi lấy sai phân bậc 1 được gọi là chuỗi tích hợp bậc 1 hay I(1). Tương tự như vậy, nếu một chuỗi dừng khi lấy sai phân d lần thì được gọi là chuỗi tích hợp bậc d hay I(d).

Toán tử sai phân là: \({\Delta ^d} = {\left( {1 – L} \right)^d}\), trong đó d là một số nguyên không âm. Trong kinh tế và khoa học xã hội, bậc tích hợp I(0) và I(1) là phổ biến nhất. Đôi khi chúng ta gặp các trường hợp I(2). Bậc tích hợp I(3) rất hiếm gặp trừ khi sự thay đổi mức giá trong các thời kì siêu lạm phát (hyperinflations)

\(\begin{array}{l}{\Delta ^d}{y_t} = {\left( {1 – L} \right)^d}{y_t} = {\varepsilon _t}\\ \Rightarrow {y_t} = {\left( {1 – L} \right)^{ – d}}{\varepsilon _t}\end{array}\)

Theo Hamilton (1997) thì:

\({\left( {1 – L} \right)^{ – d}} = 1 + dL + \frac{{\left( {d + 1} \right){L^2}}}{{2!}} + \frac{{\left( {d + 1} \right)\left( {d + 2} \right){L^3}}}{{3!}} + …\)

Và điều này dẫn đến 1 chuỗi MA vô tận của các sai số.

3. Kiểm tra bậc tích hợp

Bằng cách xem xét dạng phân phối của chuỗi để đánh giá sơ bộ tính dừng của chuỗi, cũng như các thành phần của chuỗi chẳng hạn như có drift hoặc trend hay không. Ví dụ, xét 2 chuỗi sau: (i) \({y_t} = \alpha  + {y_{t – 1}} + {\varepsilon _t}\) bao gồm 1 bước ngẫu nhiên với drift và (ii) \({x_t} = \alpha t + {\eta _t}\) – mô hình xu thế xác định hay còn gọi là dừng xu thế.

Phương trình kiểm định nghiệm đơn vị

Giá trị kì vọng của cả 2 chuỗi sẽ là: \(E\left( {{y_t}} \right) = \alpha t\), \(E\left( {{x_t}} \right) = \alpha t\) (giá trị khởi đầu bằng 0)

Bậc tích hợp hay tính dừng của chuỗi được kiểm tra thông qua các kiểm định nghiệm đơn vị. Đầu tiên và cơ bản nhất đó chính là kiểm định Dickey Fuller:

Có 3 trường hợp sau:

  • Quá trình phát dữ liệu (DGP) là một bước ngẫu nhiên: \({y_t} = {y_{t – 1}} + {u_t}\begin{array}{*{20}{c}},&{{u_t} \sim iid\left( {0,\sigma _u^2} \right)}\end{array}\). Trong trường hợp, phương trình cần kiểm tra là: \(\Delta {y_t} = \rho {y_{t – 1}} + {u_t}\) với H0: r = 0. Phương trình được ước lượng bằng OLS, tuy nhiên, do phân phối của các hệ số không hội tụ đến phân phối chuẩn nên không sử dụng thống kê t để tìm các giá trị tới hạn. Thay vào đó, các giá trị tới hạn được cung cấp (tính toán) sẵn ở các bảng tra. Xem thêm: https://www.vietlod.com/gia-tri-toi-han-cho-kiem-dinh-nghiem-don-vi-adf
  • Quá trình phát dữ liệu (DGP) hoặc là một bước ngẫu nhiên với một hằng số hoặc một bước ngẫu nhiên với drift: \({y_t} = \alpha + {y_{t – 1}} + {u_t}\begin{array}{*{20}{c}},&{{u_t} \sim iid\left( {0,\sigma _u^2} \right)}\end{array}\). Trong trường hợp, phương trình cần kiểm tra là: \(\Delta {y_t} = \beta  + \rho {y_{t – 1}} + {u_t}\) với H0: r = 0.
  • Quá trình phát dữ liệu (DGP) là một bước ngẫu nhiên với một hằng số và một thành phần xác định xu thế: \({y_t} = \alpha + {y_{t – 1}} + \delta t + {u_t}\begin{array}{*{20}{c}},&{{u_t} \sim iid\left( {0,\sigma _u^2} \right)}\end{array}\). Trong trường hợp, phương trình cần kiểm tra là: \(\Delta {y_t} = {\beta _0} + \rho {y_{t – 1}} + {\beta _1}t + {u_t}\) với H0: r = 0. Nếu chúng ta bác bỏ H0 nhưng tìm được một \({\beta _1} \ne 0\) thì chuỗi được xem là dừng xu thế.

Để kiểm định DF tính toán đúng thì phần dư phải không có sự tự tương quan. Nhưng giả thuyết này là quá mạnh. Tại sao lại như vậy?

Bạn có thể quan sát thấy rằng kiểm định DF sử dụng mô hình AR(1) để kiểm tra tính dừng của một chuỗi. Nhưng điều gì sẽ xảy ra nếu quá trình phát dữ liệu thực là một mô hình AR bậc cao hơn?

Chẳng hạn: \({y_t} = 0.7{y_{t – 1}} + 0.3{y_{t – 2}} + {\varepsilon _t}\). Đây là một chuỗi không dừng vì tổng của 2 hệ số bằng 1 (hoặc kiểm tra thông qua các nghiệm đặc trưng, ở đây, phương trình đặc trưng có 2 nghiệm lần lượt là -1.43 và 1).

Sau khi lấy sai phân, quá trình phát dữ liệu thực trở thành: \(\Delta {y_t} =  – 0.3{y_{t – 1}} + 0.3{y_{t – 2}} + {\varepsilon _t}\)

Nếu bạn lấy gần đúng phương trình trên bằng một mô hình AR(1) bạn sẽ có hệ số gần bằng 0 nhưng việc bỏ qua các độ trễ có thể dẫn đến vấn đề tự tương quan trong phần dư.

Có 2 giải pháp như sau:

  • Điều chỉnh kiểm định thống kê của kiểm định DF cho vấn đề tự tương quan và phương sai thay đổi (nếu có): đây là kiểm định Phillips-Perron gọi tắt là PP test.
  • Bổ sung các độ trễ cho biến phụ thuộc trong phương trình kiểm định để ghi nhận sự tự tương quan: đây là kiểm định Augmented Dickey-Fuller hay gọi tắt là ADF test.

Kiểm định ADF sẽ kiểm tra các phương trình có dạng:

\(\begin{array}{l}\Delta {y_t} = \rho {y_{t – 1}} + \sum\limits_{i = 1}^q {\Delta {y_{t – i}}}  + {u_t}\\\Delta {y_t} = \beta  + \rho {y_{t – 1}} + \sum\limits_{i = 1}^q {\Delta {y_{t – i}}}  + {u_t}\\\Delta {y_t} = {\beta _0} + \rho {y_{t – 1}} + {\beta _1}t + \sum\limits_{i = 1}^q {\Delta {y_{t – i}}}  + {u_t}\end{array}\)

Việc lựa chọn độ trễ q có thể được thực hiện tự động dựa trên các thống kê lựa chọn mô hình như AIC hoặc BIC.

Ngoài ra, còn có những dạng biến đổi khác của kiểm định DF như kiểm định DF-GLS bằng cách sử dụng ước lượng GLS thay OLS để kiểm tra giả thuyết H0. Vấn đề chính của loại kiểm định DF là tính giải thích thấp. Điều này tương ứng với khả năng mắc sai lầm loại II là cao. Chẳng hạn, khi bạn có một quá trình DPG có sự tương quan dương cao (gần bằng 1) thì kiểm định sẽ không bác bỏ H0.

Giải pháp thay thế: sử dụng kiểm định KPSS:

Kwiatkowski, Phillips, Schmidt and Shin đề nghị một kiểm định với giả thuyết H0 là chuỗi dừng (kiểm định này còn gọi là kiểm định KPSS). Theo H0 thì chuỗi có thể là dừng hoặc dừng xu thế tùy thuộc vào phương trình cần kiểm tra là \({y_t} = \alpha  + {\hat u_t}\) hay  \({y_t} = \alpha  + \delta t + {\hat u_t}\)

Kiểm định thống kê được tính trên phần dư như sau:

\({S_t} = \sum\limits_{s = 1}^t {{{\hat u}_s}} \) là một dạng tổng đệ quy của phần dư

Kiểm định KPSS được tính: \(KPSS = \frac{{\sum\limits_{s = 1}^t {S_t^2} }}{{{T^2}{{\hat \sigma }^2}}}\), trong đó: \({\hat \sigma ^2}\) là ước lượng phương sai dài hạn của \(\hat u\)

Bậc tích hợp của chuỗi được xác định dựa trên các nghiệm đơn vị như sau:

  • Thực hiện kiểm định nghiệm đơn vị lên giá trị sơ khởi (level) của y: nếu nó dừng thì tích hợp bậc 0 hay I(0). Nếu không, chúng ta lấy sai phân bậc 1 của chuỗi.
  • Thực hiện kiểm định nghiệm đơn vị lên chuỗi sai phân bậc 1. Nếu chuỗi dừng thì nó tích hợp bậc 1 hay I(1), nếu không, chúng ta lấy sai phân bậc cao hơn.
  • Thực hiện tương tự đến khi chuỗi cần xác định là dừng.

4. Sai phân quá mức

Chúng ta có thể gặp phải vấn đề sai phân quá mức khi tiếp tục lấy sai phân của một chuỗi dừng. Điều này sẽ dẫn đến một mô hình tự hồi quy đặc biệt.

Giả sử, chúng ta có một chuỗi y là dừng

\({y_t} = {\varepsilon _t}\begin{array}{*{20}{c}},&{{\varepsilon _t} \sim iid(0,\sigma _\varepsilon ^2}\end{array})\)

Khi đó, tiếp tục lấy sai phân bậc 1 của yt \({x_t} = \Delta {y_t} = {\varepsilon _t} – {\varepsilon _{t – 1}}\) sẽ dẫn đến:

  • Chuỗi sai phân có phương sai lớn hơn: \(\sigma _x^2 = \sigma _{{\varepsilon _t}}^2 + \sigma _{{\varepsilon _{t – 1}}}^2 = 2\sigma _\varepsilon ^2\)
  • Chuỗi sai phân có xu hướng bị tự tương quan

\(\begin{array}{l}Cov\left( {{x_t},{x_{t – 1}}} \right) = E\left[ {\left( {{\varepsilon _t} – {\varepsilon _{t – 1}}} \right)\left( {{\varepsilon _{t – 1}} – {\varepsilon _{t – 2}}} \right)} \right] =  – \sigma _\varepsilon ^2\\{\gamma _1} = \frac{{Cov\left( {{x_t},{x_{t – 1}}} \right)}}{{\sigma _x^2}} =  – 0.5\begin{array}{*{20}{c}},&{{\gamma _j} = }\end{array}\frac{{Cov\left( {{x_t},{x_{t – j}}} \right)}}{{\sigma _x^2}} = 0\begin{array}{*{20}{c}}{}&{\forall j > 1}\end{array}\end{array}\)

Nghĩa là nếu chúng ta có một biến sau khi lấy sai phân mà có tự tương quan quan bậc 1 quanh -0.5 thì chúng ta có lý do để tin rằng đã sai phân quá mức nó.