David M. Drukker, Director Ejecutivo de Econometría - Stata Corp.
Resumen
En la estadística frecuentista, los estimadores son variables aleatorias porque son
funciones de datos aleatorios. Las distribuciones de muestra finita de la mayoría de
los estimadores que utilizamos en nuestras labores empíricas no son conocidas, dado
que los estimadores son funciones complejas y no lineales de los datos. Sin
embargo, estos estimadores tienen propiedades de convergencia en muestras
grandes, que podemos utilizar para aproximar su comportamiento en muestras
finitas.
Dos propiedades clave de la convergencia son la consistencia y la normalidad
asintótica. Un estimador consistente se acerca cada vez más en probabilidad al
valor verdadero. La distribución de un estimador asintóticamente normal se
acerca cada vez más a la distribución normal conforme aumenta el tamaño
de la muestra. Podemos utilizar una versión recentrada y escalada de esta
distribución normal para aproximar la distribución de muestra finita de nuestros
estimadores.
Aquí ilustraré el significado de la consistencia y la normalidad asintótica utilizando
simulación Monte Carlo.
Estimador consistente
Un estimador consistente se acerca cada vez más en probabilidad al valor verdadero
conforme aumenta el tamaño de la muestra. En otras palabras, la probabilidad de
que un estimador consistente esté fuera del vecindario del valor verdadero converge a
cero conforme aumenta el tamaño de la muestra. La Figura 1 ilustra esta
convergencia para un estimador $theta$, con muestras de 100, 1000 y 5000
observaciones, cuando el valor verdadero es 0. Conforme aumenta el tamaño de la
muestra, la densidad se distribuye de manera más y más compacta alrededor del
valor verdadero. Con una muestra infinita, la densidad se colapsa a un solo pico sobre
el valor verdadero.
Figura 1. Distribuciones de estimador con muestras de 100, 1000, 5000 y
$\infty$
Ahora ilustraremos esto mostrando que la media muestral es un estimador
consistente de la media de una variable aleatoria, siempre que nuestra muestra sea
independiente e idénticamente distribuida (i.i.d.), y que la media y la varianza sean
finitas. En este ejemplo, los datos provienen de una distribución $\chi^2$ con 1
grado de libertad. El valor verdadero es 1, puesto que la media de la distribución
$\chi^2(1)$ es 1.
Este primer bloque de código (Bloque 1) implementa una simulación Monte Carlo de
las medias muestrales de 1,000 muestras de 1,000 observaciones i.i.d. con distribución
$\chi^2(1)$.
Bloque 1. Código de media1000.do
La línea 1 limpia la memoria de Stata y la línea 2 determina el seed del generador
de números aleatorios. La línea 3 utiliza el comando postfile para crear un espacio
en la memoria con nombre sim, en donde se almacenarán las observaciones de la
variable m1000, y que será una base de datos llamada sim1000. Note que la palabra
using separa el nombre de la nueva variable y el nombre de la nueva base de datos.
La opción replace especifica que el archivo sim1000.dta se debe reemplazar, en
caso de que ya exista.
Las líneas 5 y 11 utilizan un ciclo forvalues para repetir el código de las
líneas 6 a 10 un total de 1,000 veces. En cada vuelta del ciclo forvalues, la
línea 6 elimina la variable y, la línea 7 abre 1,000 observaciones, la línea
8 genera una muestra de 1,000 observaciones i.i.d. $\chi^2(1)$, la linea
9 estima la media de esa muestra, y la línea 10 utiliza el comando post
para almacenar la media estimada en lo que será la nueva variable m1000.
La línea 12 pasa todo lo almacenado en sim a una base de datos llamada
sim100.dta.
En el Ejemplo 1, corremos el archivo media1000.do y hacemos un resumen de los
resultados.
Ejemplo 1. Salida al ejecutar media1000.do. Resumen de la variable.
La media de nuestros 1,000 estimados es cercana al número 1. La desviación estándar
de nuestros 1,000 estimados es de 0.442, y esta medida nos indica qué tan dispersa es
la distribución alrededor del valor verdadero 1.
El código del Bloque 2 es el archivo media100000.do, que implementa la misma
simulación Monte Carlo pero con muestras de 100,000 observaciones...
Bloque 2. Código de media100000.do.
...y el Ejemplo 2 muestra la salida que resulta de ejecutar este archivo. Luego, se
genera un resumen de los datos.
Ejemplo 2. Salida al ejecutar media100000.do. Resumen de la variable.
La desviación estándar de 0.0043 indica que la distribución del estimador con un
tamaño de muestra de 100,000 está mucho más concentrada alrededor del
valor verdadero 1 que la distribución del estimador con tamaño de muestra
1,000.
El código del Ejemplo 3 combina las dos bases de datos de estimados, para graficar
las distribuciones que resultan con estos dos tamaños de muestra (Figura 2). La
distribución del estimador con muestras de 100,000 observaciones está mucho más
concentrada alrededor del valor verdadero 1 que la distribución del estimador con
muestras de 1,000.
Ejemplo 3. Código para combinar bases y generar la Figura 2.
Figura 2. Densidades del estimador media muestral, con N=1,000 y
N=100,000.
La media muestral es un estimador consistente de la media de una variable aleatoria
$\chi^2(1)$ gracias a la ley débil de los grandes números. De acuerdo a ese
teorema, la media muestral converge en probabilidad a la media verdadera si los
datos son i.i.d., la media es finita y la varianza es finita. Otras versiones de este
teorema relajan el supuesto i.i.d. o los supuestos de los momentos (ver Cameron &
Trivedi (2005, sec. A.3), Wasserman (2003, sec. 5.3), y Wooldridge (2010, 41-42) para
más detalles).
Normalidad asintótica
Así que la buena noticia es que la distribución de un estimador consistente tiende a
concentrase alrededor del valor verdadero. La mala noticia es que la distribución del
estimador cambia con el tamaño de la muestra, como se puede apreciar en las Figuras
1 y 2.
Si conociéramos la distribución de nuestro estimador para cualquier tamaño de
muestra, podríamos utilizarla para realizar inferencia con su distribución
de muestra finita, también conocida como la distribución exacta. Pero la
distribución exacta de la mayoría de los estimadores que utilizamos en nuestros
análisis no es conocida. Afortunadamente, la distribución de una versión
recentrada y escalada de estos estimadores converge hacia la distribución normal
conforme aumenta el tamaño de la muestra; a los estimadores que tienen esta
propiedad les llamamos estimadores asintóticamente normales, y utilizamos esta
distribución de muestra grande para aproximar la distribución de muestra
finita.
En la Figura 2 se observa que la distribución de la media muestral se colapsa hacia el
valor verdadero conforme el tamaño de la muestra aumenta. En vez de enfocarnos en
la distribución del estimador $\hat{\theta}_N$ para un tamaño de muestra $N$,
consideremos ahora la distribución de $\sqrt{N}(\hat{\theta}_N-\theta_0)$,
donde $\theta_0$ es el valor verdadero hacia el que colapsa $\hat{\theta}_N$.
El Ejemplo 4 estima las distribuciones de estos estimadores recentrados y escalados,
que se muestran en la Figura 3.
Ejemplo 4. Densidades del estimador recentrado y escalado.
Figura 3. Densidades del estimador recentrado y escalado, con N=1,000 y
N=100,000.
Las densidades de los estimadores recentrados y escalados en la Figura 3 son
prácticamente iguales, y cercanos a la distribución normal. El teorema del límite
central de Lindberg-Levy garantiza que la distribución de la media muestral
recentrada y escalada de variables aleatorias i.i.d. con media finita $\mu$ y varianza
finita $\sigma^2$ converge hacia una distribución normal con media 0 y varianza
$\sigma^2$ conforme aumenta el tamaño de la muestra. En otras palabras,
la distribución de $\sqrt{N}(\hat{\theta}_N-\mu)$ converge hacia la
distribución $N(0,\theta^2)$ conforme $N\rightarrow\infty$, donde
$\hat{\theta}_N=1/N\sum_{i=1}^{N}y_i$, siendo $y_i$ observaciones i.i.d. de la
variable aleatoria. Esta convergencia en distribución justifica nuestro uso de la
distribución $\hat{\theta}_N\sim N\left(\mu,\frac{\sigma^2}{N}\right)$ en
la práctica.
Dado que $\sigma^2=2$ para la distribución $\chi^2(1)$, en el Ejemplo 5
agregamos a la gráfica una densidad Normal con media 0 y varianza 2 para
comparar.
Ejemplo 5. Densidades del estimador recentrado y escalado.
Vemos que las densidades de estos estimadores recentrados y escalados son prácticamente idénticas a la distribución normal con media 0 y varianza 2, tal como lo predice la teoría.
Figura 4. Densidades de estimadores recentrados y escalados, y distribución
Normal(0,2).
Otras versiones del teorema del límite central relajan el supuesto i.i.d. o los supuestos de los momentos. Ver Cameron & Trivedi (2005, sec. A.3), Wasserman (2003, sec. 5.3) y Wooldrige (2010, 41-42) para más detalles).
¡Listo!
Utilizamos simulación Monte Carlo para ilustrar el hecho de que la media
muestral es un estimador consistente y asintóticamente normal, siempre
que los datos sean observaciones i.i.d. de una variable con media y varianza
finitas.
Muchos estimadores de método de momentos, máxima verosimilitud, y
estimadores tipo M son consistentes y asintóticamente normales bajo ciertos
supuestos sobre el proceso generador de información y sobre los estimadores mismos.
Ver Cameron & Trivedi (2005, sec. 5.3), Newey & McFadden (1994), Wasserman
(2003, cap. 9), y Wooldridge (2010, cap. 12) para más información.
Referencias
Cameron, A. C., y P. K. Trivedi. 2005. Microeconometrics: Methods and
Applications. Cambridge: Cambridge University Press.
Newey, W. K., y D. McFadden. 1994. Large sample estimation and hypothesis
testing. En Handbook of Econometrics, ed. R. F. Engle y D. McFadden, vol. 4,
2111–2245. Amsterdam: Elsevier.
Wasserman, L. A. 2003. All of Statistics: A Concise Course in Statistical Inference.
New York: Springer.
Wooldridge, J. M. 2010. Econometric Analysis of Cross Section and Panel Data. 2da ed. Cambridge, Massachusetts: MIT Press.
Gracias por un post tan bien explicado! Muy útil.
ResponderBorrar