sábado, 26 de noviembre de 2011

Metodología de Box-Jenkins para pronosticar Series de Tiempo


Proyección de la producción agrícola en 2011-2016

Los siguientes datos son obtenidos:
http://www.inei.gob.pe/web/aplicaciones/siemweb/index.asp?id=003


Grafica original de la data




NOTA: observamos que existe tendencia creciente. Se recomienda verificar a que modelo se ajusta mejor a esta serie, ya que de acuerdo a esto, se recomienda el número de diferencias a realizar.

MODELO MEJOR AJUSTADO

 si queremos un análisis mas minucioso respecto a la tendencia, presentamos los ajustes.

a)    AJUSTE LINEAL



b)  AJUSTE CUADRÁTICO


Se concluye con estos gráficos que la serie se ajusta mejor a un modelo lineal, por lo tanto decimos que existe una tendencia lineal

nota: mejor tendencia, elegir el  mínimo MAD

DIAGRAMA DE CAJAS

NOTA: se recomienda hacer un grafico de cajas, ya que este nos ayuda a verificar la existencia de la tendencia.


Se observa que existe un crecimiento en el transcurso del tiempo, no presenta valores extremos.

ANVA

NOTA: También se recomienda realizar el análisis de varianza para verificar si existen diferencias significativas entre los año.

Ho = LAS MEDIAS DE TODOS LOS AÑOS SON IGUALES
H1= AL MENOS UNA MEDIA ES DIFERENTE EN EL TIEMPO.

Si Ho se acepta existe estacionalidad.


ANOVA unidireccional: Y vs. AÑO

Fuente   GL      SC     MC     F      P
AÑO      16  186419  11651  3.90  0.000
Error   187  559356   2991
Total   203  745775

S = 54.69   R-cuad. = 25.00%   R-cuad.(ajustado) = 18.58%


                              ICs de 95% individuales para la media
                              basados en Desv.Est. agrupada
Nivel   N   Media  Desv.Est.  ------+---------+---------+---------+---
1994   12  100.00      34.82  (-----*-----)
1995   12  110.15      40.70    (-----*-----)
1996   12  122.13      43.86      (-----*------)
1997   12  125.57      46.10       (-----*-----)
1998   12  125.64      39.32       (-----*-----)
1999   12  141.92      50.75          (-----*------)
2000   12  151.41      57.51            (-----*------)
2001   12  149.31      53.78            (-----*-----)
2002   12  159.14      58.64              (-----*-----)
2003   12  161.19      61.67              (-----*-----)
2004   12  158.25      54.41             (------*-----)
2005   12  164.87      59.90               (-----*-----)
2006   12  178.73      60.57                  (-----*-----)
2007   12  182.26      59.03                  (-----*------)
2008   12  195.66      64.35                     (-----*-----)
2009   12  197.33      64.32                     (-----*------)
2010   12  205.60      66.25                       (-----*-----)
                              ------+---------+---------+---------+---
                                  100       150       200       250

Desv.Est. agrupada = 54.69


Se rechaza Ho, no existe diferencia significativa entre los años. es decir no existe estacionalidad, se recomienda realizar la diferenciación. Pero antes de eso falta corroborar la estabilidad de la varianza

Luego procedemos a realizar la  prueba de homogeneidad.


PRUEBA DE HOMOGENEIDAD DE VARIANZAS


NOTA: No es optimo el valor del p-valor en la prueba de Bartlett y Leven, las cuales son 0.778 y 0.999  respectivamente.
Según la prueba de Bartlett  existe homogeneidad de varianzas.
por criterio del investigador  realizamos  la transformación de datos con el fin de obtener un p valor mayor.

NOTA: como lo que menos deseamos es perder información, procedemos también por ello a realizar una transformación a la variable

TRANSFORMACION DE DATOS REALIZADO

Los  datos son transformados con el fin de que en la prueba de homogeneidad de varianzas, de un  resultado sea óptimo.
 Del gráfico se puede decir que los p_valor para cada prueba han aumentado.
ESTACIONALIDAD

 Se realiza  las diferencias. Para encontrar estacionalidad



ANOVA unidireccional: D1 vs. AÑO

Fuente   GL       SC       MC     F      P
AÑO      16  0.00162  0.00010  0.01  1.000
Error   186  1.50249  0.00808
Total   202  1.50411

S = 0.08988   R-cuad. = 0.11%   R-cuad.(ajustado) = 0.00%


                                ICs de 95% individuales para la media
                                basados en Desv.Est. agrupada
Nivel   N     Media  Desv.Est.  --------+---------+---------+---------+-
1994   11   0.00514    0.09286    (-----------------*-----------------)
1995   12  -0.00076    0.08946   (----------------*----------------)
1996   12   0.00660    0.09185     (----------------*----------------)
1997   12   0.00075    0.09054   (----------------*----------------)
1998   12   0.00706    0.08610     (----------------*----------------)
1999   12  -0.00410    0.08976  (----------------*----------------)
2000   12   0.00344    0.09493    (----------------*----------------)
2001   12  -0.00129    0.08780   (----------------*----------------)
2002   12   0.00317    0.09271    (----------------*----------------)
2003   12  -0.00137    0.09484  (-----------------*----------------)
2004   12   0.00189    0.08953    (----------------*----------------)
2005   12   0.00267    0.09269    (----------------*----------------)
2006   12   0.00261    0.08786    (----------------*----------------)
2007   12   0.00377    0.08521    (----------------*----------------)
2008   12   0.00086    0.08765   (----------------*----------------)
2009   12   0.00117    0.08576   (----------------*----------------)
2010   12   0.00312    0.08782    (----------------*----------------)
                                --------+---------+---------+---------+-
                                     -0.030     0.000     0.030     0.060

Desv.Est. agrupada = 0.08988


Haciendo la diferenciación, se acepta la hipótesis, por tanto decimos que la series es estacional (posee media y varianza estable).


ANALISIS DE AUTOCORRELACION Y CORRELACION PARCIAL

Realizamos los gráficos de auto correlación y auto correlación parcial para encontrar el mejor modelo.

PARA LOG(Y)

PARA D1


PARA D2


REALIZACION DEL METODO ARIMA PARA LA ESTIMACIÓN

EMPEZAMOS A PROBAR LOS VALORES, PARA EL MODELO DEFINITIVO, A PREDECIR.


SE LOCALIZO EL MODELOS DE PROYECCION INDICADO

AUTO ……….1……..0
D1…………… 1……..1
MOVIL……....1……..1

Estimados finales de los parámetros

Tipo              Coef  Coef. de EE      T      P
AR   1          0.5813       0.0831   7.00  0.000
MA   1          0.9117       0.0437  20.86  0.000
SMA  12         0.6455       0.0586  11.01  0.000
Constante  -0.00005085   0.00006264  -0.81  0.418


Diferenciación: 1 regular, 1 estacional de orden 12
Número de observaciones:  Serie original 204, después de diferenciar 191
Residuos:    SC =  0.101922 (se excluyeron pronósticos retrospectivos)
              MC =  0.000545  GL = 187


Estadística chi-cuadrada modificada de Box-Pierce (Ljung-Box)

Desfase          12     24     36     48
Chi-cuadrada   12.4   19.7   25.7   40.3
GL                8     20     32     44
Valor P       0.134  0.477  0.775  0.630

NOTA: para el modelo Arima se eligen los valores de 1, 1, 1. (este es el modelo escogido)  ya que este proporciona un mayor p-valor y menor cuadrado medio del error, además que los parámetros estimados son significativos.



GRÁFICA DE PROYECCIÓN









No hay comentarios:

Publicar un comentario