jueves, 21 de febrero de 2019

Programando un comando de estimación en Stata: Dónde almacenar tus cosas.

¡Hola! La siguiente entrada es la segunda de la serie #StataProgramming

Artículo original escrito por David M. Drukker, Director Ejecutivo de Econometría.

Si me dices "yo programo en Stata", eso me hace feliz, pero no sé a qué te refieres. ¿Escribes scripts para hacer reproducible tu investigación, o escribes comandos de Stata que cualquiera puede usar y reutilizar? En la serie #StataProgramming, te mostraré cómo escribir tus propios comandos, pero empiezo por el principio. La discusión de la diferencia entre scripts y comandos aquí presenta algunos conceptos y construcciones de programación esenciales que utilizo para escribir scripts y comandos.

Este es el segundo post de la serie Programando un comando de estimación en Stata. Te recomiendo que empieces por el principio. Consulte  Programming an estimation command in Stata: A map to posted entries para un mapa de todas las publicaciones de esta serie.


Scripts versus comandos

Un script es un programa que siempre realiza las mismas tareas en las mismas entradas y produce exactamente los mismos resultados. Los scripts en Stata se conocen como archivos do y los archivos que los contienen terminan en .do. Por ejemplo, podría escribir un archivo do para

  1. leer en el conjunto de datos del Estudio Nacional Longitudinal de la Juventud (NLSY),
  2. limpiar los datos,
  3. formar una muestra para alguna población, y
  4. ejecutar un montón de regresiones en la muestra.

Esta estructura está en el corazón de la investigación reproducible; producir los mismos resultados a partir de las mismas entradas cada vez que se ejecute el archivo. Los do-files tienen una estructura única. Por ejemplo, no podría decirle a este do-file que quiero que realice las tareas análogas en el Estudio Panel sobre Dinámica de Ingresos (PSID). Los comandos son programas reutilizables que toman argumentos para realizar una tarea en cualquier tipo de datos. Por ejemplo, la regresión realiza mínimos cuadrados ordinarios en las variables especificadas independientemente de que provengan de NLSY, PSID o cualquier otro conjunto de datos. Los comandos de Stata se escriben en el lenguaje automático do-file (ado); los archivos que los contienen terminan en .ado. Los comandos de Stata escritos en el lenguaje ado se conocen como comandos ado.


Un ejemplo de do-file

Los comandos en el bloque de código 1 están contenidos en el archivo doex.do en el directorio de trabajo actual de mi computadora.


Ejecutamos los comandos al escribir do doex lo cual produce

Ejemplo 1: Resultado de do doex



  1. La línea 1 en doex.do es un comentario que ayuda a documentar el código, pero no es ejecutado por Stata. Los símbolos // inician un comentario. Todo lo que sigue a los signos // en esa línea es ignorado por Stata.
  2. En el comentario en la línea 1, puse un número de versión y la fecha en que cambié este archivo por última vez. La fecha y la versión me ayudan a realizar un seguimiento de los cambios que realizo mientras trabajo en el proyecto. Esta información también me ayuda a responder preguntas de otras personas con las que he compartido una versión de este archivo.
  3. La línea 2 especifica la definición del lenguaje Stata que uso. Stata cambia con el tiempo. La configuración de la versión garantiza que el archivo Do se siga ejecutando y que los resultados no cambien a medida que evolucione el lenguaje Stata.
  4. La línea 3 lee el conjunto de datos accident.dta.
  5. La línea 4 resume las variables accidents y tickets.


Almacenando cosas en Stata

Programar en Stata es como poner cosas en cajas, hacer que Stata cambie las cosas en las cajas y sacar las cosas cambiadas de las cajas. Por ejemplo, el bloque de código 2 contiene el código para doex2.do, cuya salida muestro en el ejemplo 2.



Ejemplo 2: Resultado de do doex2


En la línea 4 del bloque de código 2 genero la nueva variable In_traffic la cual resumo en la línea 5. doex2.do usa generate para cambiar lo que está dentro de la caja In_traffic y utiliza summarize para sacar una función de las cosas cambiadas de la caja. Las variables son el tipo de caja frecuentemente más utilizado en Stata, pero cuando estás programando, también lo serán las matrices.

Solo puede haber una variable llamada traffic en un conjunto de datos Stata y su contenido se puede ver o cambiar de forma interactiva, mediante un archivo do o un comando ado-file. De manera similar, solo puede haber una matriz de Stata llamada beta en una sesión de Stata y su contenido se puede ver o modificar de forma interactiva, mediante un do-file o un comando ado-file. Las variables de Stata y las matrices de Stata son cuadros globales porque solo puede haber una variable de Stata o una matriz de Stata en una sesión de Stata y su contenido se puede ver o cambiar en cualquier lugar de una sesión de Stata.

Lo opuesto a lo global es local. Si es local en Stata, solo se puede acceder a su contenido o cambiarlo en la sesión interactiva, en un archivo particular do, o en un archivo particular ado.

Aunque estoy discutiendo do-files en este momento, recuerde que estamos aprendiendo técnicas para escribir comandos. Es esencial comprender las diferencias entre las macros globales y las macros locales para programar comandos en Stata. Las macros globales, como las variables, podrían contener datos que los usuarios de su comando no desean cambiar. Por ejemplo, un comando que escribas nunca debe cambiar la variable de un usuario de una manera que no fue solicitada.


Niveles en Stata

La noción de que hay niveles en Stata puede ayudar a explicar la diferencia entre las macros globales y las macros locales. Supongamos que ejecuto 2 do-files o ado-files. Piense en la sesión interactiva de Stata como el nivel 0, y piense que cada archivo do o ado son los niveles 1 y 2 de Stata. Las macros globales como variables y matrices viven en la memoria global a la que se puede acceder o cambiar desde un comando ejecutado en el nivel 0, 1 o 2. Las macros locales solo pueden ser accedidas o cambiadas por un comando dentro de un nivel particular de Stata. (Esta descripción no es exactamente cómo funciona Stata, pero los detalles sobre cómo Stata realmente manejan los niveles no son importantes aquí).

La figura 1 muestra esta estructura.

Memoria por nivel en Stata


La figura 1 aclara

  • que los comandos ejecutados en todos los niveles de Stata pueden acceder y cambiar los objetos en la memoria global,
  • que solo los comandos ejecutados en el nivel 0 de Stata pueden acceder y cambiar los objetos locales al nivel 0 de Stata,
  • que solo los comandos ejecutados en el nivel 1 de Stata pueden acceder y cambiar los objetos locales al nivel 1 de Stata, y
  • que solo los comandos ejecutados en el nivel 2 de Stata pueden acceder y cambiar los objetos locales al nivel 2 de Stata.


Macros globales y locales: almacenamiento y extracción

Las macros son cajas de Stata que contienen información como caracteres, también conocidos como cadenas. Stata tiene macros globales y macros locales. Las macros globales son globales y las macros locales son locales. Se pueden acceder y cambiar a las macros globales mediante un comando ejecutado en cualquier nivel de Stata. A las macros locales se puede acceder y cambiar solo mediante un comando ejecutado en un nivel de Stata específico.

La forma más fácil de comenzar a entender las macros globales es poner algo en una macro global y luego volver a sacarla. El bloque de código 3 contiene el código para global1.do que almacena y recupera información de una macro global.



Ejemplo 3: Resultado de global1.do


La línea 3 del bloque de código 3 coloca la cadena y x1 x2 en la macro global llamada vlist. Para extraer lo que pongo en una macro global, prefijo el nombre de macro global con un $. La línea 4 del bloque de código y su salida en el ejemplo 3 ilustran este uso al extraer y mostrar el contenido de vlist.

El bloque de código 4 contiene el código para local1.do y su salida se muestra en el ejemplo 4. Ilustran cómo colocar algo en una macro local y cómo extraer algo de ella.



Ejemplo 4: Resultado de local1.do


La línea 3 del bloque de código 4 coloca la cadena y x1 x2 en la macro local llamada vlist. Para extraer lo que pongo en una macro local, encierro el nombre de la macro local entre una comilla a la izquierda (`) y una comilla a la derecha ('). La línea 4 del bloque de código 3 muestra lo que está contenido en la macro local vlist y su salida en el ejemplo 4 ilustra este uso.


Obteniendo cosas de los comandos de Stata

Ahora que tenemos las cajas, te mostraré cómo almacenar cosas computadas por Stata en estas cajas. Los comandos de análisis, como summarize, almacenan sus resultados en r(). Los comandos de estimación, como regress, almacenan sus resultados en e(). Algo tautológico, los comandos que almacenan sus resultados en r() también se conocen como comandos r-class y los comandos que almacenan sus resultados en e() también se conocen como comandos e-class.

Puedo usar return list para ver los resultados almacenados por un comando r-class. A continuación, enumero lo que summarize ha almacenado en r() y calculo la media a partir de los resultados almacenados. 


Ejemplo 5: Obteniendo resultados de un comando r-class


Los comandos de estimación son más formales que los comandos de análisis, así que guardan más cosas.

Los comandos oficiales de estimación de Stata guardan muchas cosas, porque siguen muchas reglas que facilitan la postestimación para los usuarios. No se alarme por la cantidad de cosas almacenadas por poisson. A continuación, enumero los resultados almacenados por poisson y creo una matriz de Stata que contiene las estimaciones de coeficientes. 


Ejemplo 6: Obteniendo resultados de un comando e-class




Hecho y sin hacer

En este segundo post de la serie #StataProgramming, discutí la diferencia entre scripts y comandos, proporcioné una introducción a los conceptos de objetos de memoria global y local, comenté sobre las macros globales y las macros locales, y mostré cómo acceder a los resultados almacenados por otros comandos

En la siguiente publicación de la serie #StataProgramming, analizo un ejemplo que ilustra las diferencias entre las macros globales y las macros locales.

¡Gracias por leernos!

Este blog es administrado por MultiON Consulting S.A. de C.V.