miércoles, 19 de febrero de 2020

Programando un comando de estimación en Stata: Usando una subrutina para analizar una opción compleja.


David M. Drukker, Director Ejecutivo de Econometría.

Realizo dos mejoras en el comando que implementa el estimador de mínimos cuadrados ordinarios (OLS) que discutí en Programando un comando de estimación en Stata: Permitiendo opciones. 

Primero, agrego una opción para un estimador robusto por conglomerados de la varianza-covarianza del estimador (VCE). En segundo lugar, hago que el comando acepte la sintaxis moderna para un estimador robusto o un clúster robusto del VCE. En el proceso, uso subrutinas en mi programa ado para facilitar el análisis y analizo algunos trucos de análisis avanzados. 

Esta es la décima publicación de la serie Programando un comando de estimación en Stata: Permitir restricciones de muestra y variables factor. Te recomiendo que empieces por el principio. 

Permitiendo un estimador robusto o robusto por conglomerados (VCE)
La sintaxis de myregress9, la cual discuto en Programando un comando de estimación en Stata: Permitiendo opciones, es 

myregress9 depvar [indepvars] [if] [in] [, robust noconstant

La sintaxis de myregress10, el cual analizo aquí, es 

myregress10 depvar [indepvars] [if] [in] [, vce(robust | cluster clustervar) noconstant

Por defecto, myregress10 estima el VCE asumiendo que los errores son independientes e idénticamente distribuidos (IID). Si la opción vce(robust) se especifica, myregress10 usa el estimador robusto de el VCE. Si la opción vce(cluster clustervar) se especifica, myregress10 usa el estimador robusto por conglomerados del VCE. Vea Cameron y Trivedi (2005), Stock y Watson (2010), Wooldridge (2015) para una introducción a OLS; vea Programando un comando de estimación en Stata: Usado comandos matriciales y funciones para calcular objetos MCO para las formulas y las implementaciones matriciales en Stata. 

Recomiendo que dé un clic en el nombre del archivo para descargar el código para mi myregress10.ado. Para evadir el desplazamiento, vea el código en el editor de archivos do, o en su editor de texto favorito para ver los números de línea. 

Code block 1: myregress10.ado





El comando syntax en la línea 5 pone cualquier cosa que el usuario especifique en vce() dentro de una macro local llamada vce. Por ejemplo, si el usuario escribe:




La macro local vce contendrá “hello there”. Si el usuario no especifica algo en la opción vce(), la macro local vce estará vacía. La línea 14 usa está condición para ejecutar las líneas 15-21 solo si el usuario ha especificado algo en la opción vce.

Cuando el usuario especifica algo en la opción vce, la línea 15 llama a la subrutina ado my_vce_parse para analizar qué hay en la macro local vce. my_vce_parse guarda el nombre de la variable clúster en r(clustervar) y aborda condiciones de error, tal como analizo a continuación. La línea 16 guarda “robust” dentro de la macro local vcetype, y la línea 17 guarda el contenido de la macro local r(clustervar) creada por my_vce_parse dentro de la macro local clustervar. 

Si el usuario no especifica algo en vce(), la macro local vcetype estará vacía y la línea 36 asegura que myregress10 calcule un estimador IID del VCE.

Las líneas 19 y 20 se ejecutan solamente si la macro local clustervar no está vacía. La línea 19 la variable a utilizar, cuyo nombre está guardado en la macro local touse, para abordar valores faltantes en la variable clúster, cuyo nombre está guardado en clustervar. La línea 20 ordena la base de datos en orden ascendente de la variable clúster. Los usuarios no quieren comandos de estimación reordenando sus datos. En la línea 2, especifico la opción sortpreserve en program define para mantener la base de datos en el orden en el que estaba cuando myregress fue ejecutado por el usuario.


Las líneas 36-65 calculan el estimador requerido para el VCE. Recuerde que la macro local vcetype está vacía o contiene “robust” y que la macro local clustervar está vacía o contiene el nombre de la variable clúster. Las condicionales if y else usan los valores guardados en vcetype y clustervar para ejecutar uno o tres bloques de código.


1. Las líneas 38-42 calculan un estimador robusto del VCE cuando vcetype contiene “robust” y clustervar está vacía.

2. Las líneas 45-53 calcula un estimador robusto por conglomerados del VCE cuando vcetype contiene “robust” y clustervar contiene el nombre de la variable clúster.

3. Las líneas 60-64 calculan un estimador IID del VCE cuando vcetype no contiene “robust”.


La línea 73 guarda el nombre de la variable clúster en e(clustervar), si la macro local clustervar no está vacía. 

Las líneas 78-111 define la rclass subrutina ado my_vce_parse, la cual realiza dos tareas. Primero, guarda el nombre de la variable clúster en la macro local r(cluster) cuando el usuario especifica vce(cluster clustervar). Segundo, encuentra casos en los cuales el usuario especifique un error de sintaxis en vce() y reporta un error en tales casos. 

Poniendo estos detalles de análisis dentro de una subrutina hace al comando principal más fácil de seguir. Recomiendo que encapsulen detalles en las subrutinas. 

La subrutina ado my_vce_parse es local al comando ado myregress10; el nombre my_vce_parse está en un espacio para nombres local en myregress10, y my_vce_parse puede ser ejecutado solamente desde myregress10

La línea 79 usa syntax para guardar lo que sea que el usuario especifique en la opción vce() de la macro local vce, La línea 81 pone el número de letras en vce dentro de la macro local case. La línea 83 provoca que la subrutina ado my_vce_error despliegue un mensaje de error y reporte un código de error 498 cuando haya más de dos palabras en vce. (RTecuerde que vce debe contener robust, o bien, cluster clustervar.) 

Habiendo descartado los casos con más de dos palabras, la línea 87 guarda lo que la macro local vce contenga en la macro local 0. La línea 88 usa syntax para analizar lo que está en la macro local 0. Si el usuario especifica vce(robust), o una abreviación válida del mismo, syntax guarda “robust” en la macro local robust; de otra manera, la macro local robust estará vacía. Si el usuario especifica vce(cluster algo), o una abreviación válida de cluster, syntax guarda “cluster” en la macro local cluster; de otra manera, la macro local cluster estará vacía. La opción * hace que syntax ponga cualquier opción remanente dentro de la macro local options. En este caso, syntax guardará el algo en la macro local options. 

Recuerde el truco utilizado en las líneas 87 y 88. La opción de analizar es frecuentemente mucho más fácil al guardar lo que la macro local contiene en la macro local 0 y usando syntax para analizarlo. 

Cuando hay dos palabras en la macro local vce, las líneas 91-100 aseguran que la primera palabra sea “cluster” y que la segunda palabra, guardada en la macro local options, sea el nombre de una variable numérica. Cuando todo está bien, la línea 100 guarda el nombre de esta variable numérica en la macro local clustervar. Las líneas 95-98 usan una construcción delicada para desplegar un error personalizado. En lugar de dejar que confirm despliegue un mensaje de error, las líneas 95-98 usan capture y una condicional if para desplegar nuestro mensaje personalizado de error. En detalle, la línea 95 usa confirm para confirmar que la macro local options contenga el nombre de una variable numérica. capture pone el código producido por confirm en el escalar _rc. Cuando options contenga el nombre de una variable numérica, confirm produce el código de retorno 0 y capture guarda este código de retorno positivo en _rc. 

Cuando todo está bien, la línea 109 limpia lo que sea que esté en r(), y la línea 110 guarda el nombre de la variable clúster en r(clustervar). 

Las líneas 113-118 definen la subrutina ado my_vce_error, la cual despliega un mensaje personalizado de error. Semejante a my_vce_parse, ,my_vce_error es local en myregress10.ado. 

Hecho y sin hacer

Agregué una opción para el estimador robusto por conglomerados del VCE, e hice que myregress10 aceptara la sintaxis moderna tanto para un estimador robusto como uno robusto por conglomerados para el VCE. En el proceso, utilice subrutinas en myregress10.ado para facilitar el análisis de sintaxis, y utilice algunos trucos avanzados sobre esto. 

Leer myregress10.ado hubiera sido más difícil de leer si no hubiera usado subrutinas para simplificar la rutina principal. 

Aunque parezca que he cubierto todos los matices posibles, solo he tratado algunos. Escriba help syntax para obtener más detalles sobre las opciones de análisis mediante el comando syntax. 

Referencias
Cameron, A. C., and P. K. Trivedi. 2005. Microeconometrics: Methods and applications. Cambridge: Cambridge University Press.

Stock, J. H., and M. W. Watson. 2010. Introduction to Econometrics. 3rd ed. Boston, MA: Addison Wesley New York.

Wooldridge, J. M. 2010. Econometric Analysis of Cross Section and Panel Data. 2nd ed. Cambridge, Massachusetts: MIT Press.

Wooldridge, J. M. 2015. Introductory Econometrics: A Modern Approach. 6th ed. Cincinnati, Ohio: South-Western.



viernes, 3 de enero de 2020

Programando un comando de estimación en Stata: Permitiendo opciones.


David M. Drukker, Director Ejecutivo de Econometría.

Realizó tres mejoras al comando que implementa el estimador de mínimos cuadrados ordinarios (OLS) que discutí en Programando un comando de estimación en Stata: Permitir restricciones de muestra y variables factor. Primero, permito al usuario que solicite un estimador robusto de la varianza-covarianza del estimador (VCE). En segundo lugar, permito que el usuario suprima el término constante. Tercero, almaceno los grados de libertad residuales en e(df_r) para que test use la distribución t o F en lugar de la distribución normal o chi cuadrada para calcular el p-value de las pruebas de Wald. 

Esta es la novena publicación de la serie Programando un comando de estimación en Stata: Permitir restricciones de muestra y variables factor. Te recomiendo que empieces por el principio. 

Permitiendo errores estándar robustos

La sintaxis de myregress6, la cual discuto en Programando un comando de estimación en Stata: Permitir restricciones de muestra y variables factor, es 

myregress6 depvar [indepvars] [if] [in]

Donde las variables independientes pueden ser series de tiempo o variables factor. myregress7 tiene la sintaxis

myregress7 depvar [indepvars] [if] [in] [,robust]

Por defecto, myregress7 estima el vce asumiendo que los errores son independientes e idénticamente distribuidos (IID). Si la opción robust se especifica, myregress7 usa el estimador robusto de el VCE. Vea Cameron y Trivedi (2005), Stock y Watson (2010), Wooldridge (2015) para una introducción a OLS; vea Programando un comando de estimación en Stata: Usando comandos matriciales y funciones para calcular objetos MCO para las formulas y las implementaciones matriciales en Stata. Dé un clic en el nombre del archivo para descargar cualquier bloque de código. Vea el código en el editor de archivos do, o en su editor de texto favorito para ver los números de línea.


Code block 1: myregress7.ado








El usuario puede especificar la opción robust escribiendo robust, robus, robu, rob, ro o r. En otras palabras, r es la mínima abreviación de la opción robust, la línea 5 de myregress7 implementa esta sintaxis. Especificar robust es opcional porque Robust está entre corchetes. r es la abreviación mínima porque R está en mayúscula y las letras restantes están en minúsculas. 


Si el usuario especifica robust, o una abreviación valida, la macro local robust contendrá la palabra “robust”; de otra manera, la macro local robust estará vacía. La línea 25 usa este hecho para determinar cuál VCE debería ser calculada; especifica que las líneas 26 a 31 deberán ser ejecutadas si la macro local robust está vacía y que las líneas 32 a 36 deberían ejecutarle de otro modo. Las líneas 26-31 computan el estimador IID de del VCE. Las líneas 32-34 calculan el estimador robusto del VCE. Las líneas 35 y 36 colocan “robust” y “Robust” dentro de las macros locales vce y vcetype respectivamente. 

La línea 41 coloca el contenido de la macro local vce dentro de la macro local e(vce), la cual informa a los usuarios y a los comandos posteriores a la estimación qué estimador de VCE se utilizó. Por convención, e(vce) está vacío para el caso IID. La línea 42 coloca el contenido de la macro local vcetype dentro de la macro local e(vcetype), la cual se utiliza por ereturn display para etiquetar correctamente los errores estándar como robustos. 

Ahora ejecutaré una regresión con errores estándar robustos. 

Ejemplo 1: myregress7 con errores estándar robustos




Suprimiendo el término constante
 myregress8 tiene la sintaxis 
myregress8 depvar [indepvars] [if] [in] [,robust noconstant]



Code block 2: myregress8.ado















































El comando syntax en la linea 5 coloca “noconstant” dentro de la macro local constant si el usuario escribe nocons, noconst, noconsta, noconstan o noconstant; de otra forma, la macro local constant está vacía. La abreviación minima de la opción noconstant es nocons porque el no en minusculas está seguidop por CONStant. Note que especificar la opción crea la macro local constant porque el no es seguido por letras mayusculas que especifican la abreviación minima.

Para implementar la opción, especifico qué contiene la macro local constant como una opción en el comando  matrix accum en la linea 14 y en el comando matriz accum repartidos en las lineas 33 y 34. El comando matrix accum que comienza en la linea 33 es muy largo para una linea. Usé /// para continuar el comando en la linea 34.
Ahora ilustro la opción noconstant.

Ejemplo 2: myregress8 con la opción noconstant


Usando distribuciones t o F

Las tablas de resultados resportadas en los ejemplos 1 y 2 usan la distribución normal para calcular los p-values y lo sintervalos de confianza, porque los comandos de estimación basados en Wald como test y ereturn display usan la normal o la distribución chi cuadrada a menos que los grados de libertad residuales se almacenen en e(df_r).


Code block 3: myregress9.ado


La línea 42 de myregress9.ado guarda los grados de libertad residuales en e(df_r).
El ejemplo 3 ilustra que ereturn display y test ahora usan la distribución t y F.

Ejemplo 3: distribuciones t o F después de myregress9


Hecho y sin hacer

Agregué una opción para el estimador robusto del VCE, agregué una opción para suprimir el término constante y guardé los grados de libertad residuales en e(df_r) con lo cual los comandos postestimación basados en Wald usarán las distribuciones t o F. Ilustré el análisis de opciones con los ejemplos, pero omití la teoría general y muchos detalles. Escriba . help syntax para más detalles sobre opciones de análisis de gramática usando el comando syntax.
En la siguiente publicación, implementaré la sintaxis moderna para errores estándar robustos y tipo clúster.


Referencias
Cameron, A. C., and P. K. Trivedi. 2005. Microeconometrics: Methods and applications. Cambridge: Cambridge University Press.
Stock, J. H., and M. W. Watson. 2010. Introduction to Econometrics. 3rd ed. Boston, MA: Addison Wesley New York.
Wooldridge, J. M. 2015. Introductory Econometrics: A Modern Approach. 6th ed. Cincinnati, Ohio: South-Western.



¡Gracias por leernos!




jueves, 28 de noviembre de 2019

Stata en la Nube


Kevin Crow, Desarrollador Principal de Software.



A medida que más organizaciones trasladan sus necesidades de TI, gestión de datos y análisis de datos a la nube, a menudo tengo que responder estas preguntas:

¿Puede Stata ejecutarse en la nube?
¿Puedo ejecutar mi copia de Stata en la nube?
¿Cuál es la mejor configuración para Stata en la nube?
¿Cómo funciona Stata en la nube?

Antes de responder estas preguntas, definamos qué es la computación en la nube. Wikipedia define la computación en la nube como la siguiente:

“La computación en la nube es la disponibilidad a pedido de los recursos del sistema informático, especialmente el almacenamiento de datos y la potencia informática, sin una gestión activa directa por parte del usuario. El término se usa generalmente para describir los centros de datos disponibles para muchos usuarios a través de Internet ".

La razón principal por la que veo que nuestros usuarios usan la computación en la nube es para que puedan agregar fácilmente más recursos informáticos (memoria y núcleos) a los proyectos en los que están trabajando para acelerar el desarrollo y el análisis. Lo bueno de los servicios en la nube es que proporcionan una manera fácil de agregar recursos on demand. Básicamente, pagan por los recursos de hardware solo cuando los necesita, lo que ahorra tiempo y dinero y le permite escalar diferentes proyectos en consecuencia.

Ahora hablemos de plataformas en la nube. Las dos plataformas principales que veo que usan nuestros usuarios son Amazon Web Services y Microsoft Azure. Hay otras plataformas, pero estas son las principales plataformas sobre las que escucho preguntas.
Entonces, ¿puede Stata ejecutarse en la nube? Sí, Stata puede. La mayoría de las computadoras en la nube son máquinas virtuales que ejecutan sistemas operativos Linux o Windows, y Stata se ejecuta en ambos. Ahora, ¿qué flavor de Stata deberías usar, IC, SE o MP? Definitivamente recomiendo usar Stata/MP en la nube si está trabajando con grandes conjuntos de datos y los comandos de Stata que desea usar están altamente paralelizados. Para ver una lista de todos los comandos que se han acelerado y cuánto, consulte el Informe de rendimiento de Stata / MP.

Los usuarios a menudo preguntan si se les permite usar su licencia Stata en la nube. La respuesta es absolutamente. No distinguimos entre una estación de trabajo o servidor local, una máquina virtual local y una máquina virtual equivalente en la nube. Su licencia de Stata es suya para usar en cualquier computadora que desee: real, virtual o virtual en la nube.

La pregunta tres es un poco más difícil de responder. La mejor configuración depende en gran medida de sus necesidades específicas. Algunas preguntas que deberá responder son estas:

¿Con qué sistema operativo se sienten cómodos usted o sus usuarios?
¿Cuál es el tamaño típico de los datos con los que trabajará su organización?
¿Cuántos núcleos y cuánta memoria vas a asignar en la nube?
¿Cuántos usuarios accederán a esta máquina virtual en la nube al mismo tiempo?

Tenga en cuenta que estas preguntas no son específicas de la nube y realmente se aplican a cualquier configuración, en la nube o local, donde los recursos se comparten entre los usuarios. La última pregunta es importante. Una vez que su máquina en la nube (o local) tiene varios usuarios que usan Stata simultáneamente, debe asegurarse de tener una máquina lo suficientemente grande con suficiente memoria y núcleos para todos los usuarios. Por ejemplo, si tiene una licencia Stata / MP de 4 núcleos para 2 usuarios, querrá tener una máquina en la nube con al menos 8 núcleos asignados, 4 núcleos para cada usuario de Stata. O querrá activar varias instancias en la nube, dando a los usuarios sus propias máquinas virtuales.

La siguiente consideración es la memoria. Si los usuarios trabajan cada uno con un conjunto de datos Stata de 5 GB de tamaño, necesitará al menos 16 GB de RAM asignados a la máquina Cloud, 10 GB de RAM para los datos en la memoria y un poco más para la sobrecarga del sistema operativo al ejecutarse. O puede asignar dos máquinas en la nube con 8 GB de RAM cada una.

El problema más frecuente que escucho acerca de las personas que usan Stata en la nube es que los usuarios a veces compiten por la RAM porque varios usuarios están tratando de cargar grandes conjuntos de datos en la RAM al mismo tiempo en la misma computadora. La forma más fácil de evitar esto es usar la nube de la forma en que fue diseñada: ponga en funcionamiento múltiples computadoras virtuales para escalar la carga. También es fácil entrenar a los usuarios de Stata para que usen la memoria de manera eficiente. La forma de hacerlo es hacer que carguen solo las variables que necesitan analizar del conjunto de datos en el espacio de memoria de Stata y no llevar a ciegas todo el conjunto de datos a la memoria. Por ejemplo, supongamos que su usuario está trabajando con un conjunto de datos del censo de EE. UU. Que contiene 20,000 variables, pero al usuario realmente le interesa analizar solo 100 de esas variables. Stata tiene la capacidad de cargar solo las variables que necesita de un conjunto de datos de Stata con el comando use.

Si no está seguro de qué variables cargar o necesita buscar las variables exactas para cargar, puede usar la GUI de Stata 16 para buscar fácilmente las variables. Vea el video a continuación para ver cómo.


Una vez que tenga el comando de uso exacto, copie el comando en un archivo do y guárdelo para cargar datos en el futuro.

La pregunta final, sobre qué tan bien funciona Stata en la Nube, depende nuevamente de los mismos problemas discutidos anteriormente. Y no es diferente de hacer la misma pregunta sobre cómo se desempeña Stata en una computadora local.

¿Cuál es el tamaño típico de los conjuntos de datos con los que trabajará su organización? ¿Qué tipo de máquinas virtuales en la nube está utilizando, cuántos núcleos y cuánta memoria le va a asignar? ¿Cuántos usuarios accederán a esta máquina virtual en la nube al mismo tiempo? ¿Qué comandos y modelos de Stata estás usando? Los proveedores de la nube publican las especificaciones de las instancias de máquinas virtuales que puede usar, y Stata funcionará en ellas tal como lo haría en máquinas físicas equivalentes.

El tamaño de los datos, los recursos asignados y la cantidad de personas que usan los recursos simultáneamente serán los principales problemas a considerar al construir su entorno.




¡Gracias por leernos!

martes, 29 de octubre de 2019

Programando un comando de estimación en Stata: Permitir restricciones de muestra y variables factor

David M. Drukker, Director Ejecutivo de Econometría.


Modificaré el comando de mínimos cuadrados ordinarios (OLS) que se discutió en Programando un comando de estimación en Stata: Un mejor comando para MCO para permitir restricciones en la muestra, manejar valores perdidos, permitir variables factor, y para lidiar con la perfecta colinealidad de las variables.

Esta es la octava publicación de la serie programando un comando de estimación en Stata. Te recomiendo que empieces por el principio.

Restricciones en la muestra

El comando myregress4 descrito en programando un comando de estimación en Stata: Un mejor comando para MCO tiene la sintaxis

myregress4 depvar [indepvars]

Donde indepvars pueden ser variables con operadores de series de tiempo. myregress5 permite restricciones en la muestra y valores perdidos. Tiene la sintaxis

myregress5 depvar [indepvars] [if] [in]

Un usuario puede opcionalmente especificar una expresión if o un rango in para restringir la muestra. También hice que myregress5 manejara valores perdidos en las variables especificadas por el usuario.




El comando syntax en la línea 5 especifica que el usuario puede opcionalmente restringir la muestra al especificar una expresión if o un rango in. Cuando el usuario especifica una expresión if, syntax lo pone dentro de una macro local if; de otra manera, la macro local if estará vacía. Cuando el usuario especifica un rango in, syntax lo pone dentro de una macro local in; de otra manera, la macro local in estará vacía.

Podemos usar las macros locales if e in para manejar restricciones en la muestra especificadas por el usuario, pero estos no se encargan de los valores perdidos en las variables especificadas por los usuarios. 

El comando marksample en la línea 6 crea una macro local llamada touse, la cual contiene el nombre de una variable temporal que es una variable identificadora de la muestra. Cada observación en la variable identificadora de la muestra tiene el valor cero o uno. Es uno si la observación está incluida en la muestra. 
Es cero si la observación está excluida de la muestra. Una observación se puede excluir de la muestra por una expresión if del usuario, por un rango in especificado por el usuario, o porque hay un valor perdido en una de las variables especificadas.

Las líneas 20 a 23 usan la variable identificadora de muestra contenida en la macro local touse para hacer que se cumplan las restricciones en los cálculos MCO.

La línea 28 envía la variable identificadora de muestra dentro de e(sample), la cual es uno si la observación fue incluida en la muestra de estimación y es cero si la observación fue excluida de la muestra de estimación.

La línea 29 guarda el número de observaciones de la muestra en e(N).
El ejemplo 1 ilustra que myregress5 ejecuta la regresión solicitada en la muestra que respeta los valores faltantes en rep78 y a la expresión if



Ejemplo 1: myregress5 con valores faltantes y una expresión if



Permitiendo variables factor



El ejemplo 1 incluye el número de repartaciones como una variable continua, pero puede tratarse mejor como un factor discreto. myregress6 acepta factores. Las listas de variables factor generalmente implican listas de variables que contienen variables perfectamente colineales, por lo que myregress6 también maneja variables perfectamente colineales.



El fv en el parentesis despues de varlist en el comando syntax de la linea 5 modifica el varlist para aceptar variables factor. Cualquier variable factor especificada es guardada en la macro local varlist en una forma canonica.

Los comandos de estimación no permiten que la variable deoendiuente sea una variable factor. El comando _fv_check_deovar en la linea 9 saldrá con un error si la macro local depvar contiene una variable factor.


La línea 15 guarda el número de columnas en la matriz formada por matrix accum en la macro local p. La línea 19 guarda el número de columnas linealmente independientes en la macro local k. Este caculo utiliza diag0cnt() para tener en cuenta las variables perfectamente colineales que se descartaron. (Cada variable descartada pone un cero en la diagonal del inverso generalizado calculado por symin() y diag0cnt() devuelve el número de ceros en la diagonal.)

Sobre la línea 29, especifico la opción builddfvinfo en ereturn post para guardar información escondida que ereturn display, contrast, margins, y pwcompare usan para etiquetar tablas y para decidir cuáles funciones de los parámetros son estimables.

La línea 31 guarda el número de variables linealmente independientes en e(rank) para comandos postestimación.


Ahora, utilizo myregress6 para incluir rep78 como una variable que puede utilizar operadores factoriales. La categoría base es descartada porque se incluye un término constante.



Ejemplo 2: myregress6 con una variable factor




Hecho y sin hacer

Modifiqué el comando de mínimos cuadrados ordinarios (OLS) que se discutió en Programando un comando de estimación en Stata: Un mejor comando para MCO para permitir restricciones en la muestra, manejar valores faltantes, permitir variables factor, y para lidiar con la perfecta colinealidad de las variables. En la siguiente publicación, muestro cómo permitir opciones para errores estándar robustos y para suprimir el término constante.


Gracias por leernos. Siga al pendiente de nuestras próximas entradas y siéntase libre de compartir este blog con sus colegas y amigos.


Para cualquier información referente a Stata, escríbanos a: info@multion.com 


Este blog es administrado por MultiON Consulting S.A. de C.V.

martes, 24 de septiembre de 2019

Programando un comando de estimación en Stata: Un mejor comando para MCO

Por David M. Drukker, Director Ejecutivo de Econometría.


Utilizaré el comando syntax para mejorar el comando que se implementa un estimador de MCO, que se discutió en Programando un comando de estimación en Stata: Un primer comando para MCO. Muestro cómo requerir que las variables sean numércias y cómo hacer que el comando acepte variables operadas por series de tiempo.

Esta es la séptima publicación de la serie Programando un comando de estimación en Stata. Te recomiendo que empieces por el principio.

Sintaxis de Stata y el comando syntax

El comando myregress2 descrito en Programando un comando de estimación en Stata: Un primer comando para MCO tiene la sintaxis
myregress2 depvar [indepvars]

La sintaxis requiere que la variable dependiente sea especificada porque depvars no está encerrada entre corchetes. Las variables independientes son opcionales porque indepvars está encerrado entre corchetes. Escriba


Para una introducción a la lectura de diagramas de sintaxis de Stata.

La sintaxis es implementada por el comando syntax en la línea 5 de myregress.ad, el cual comento ampliamente en Programando un comando de estimación en Stata: Un primer comando para MCO. El usuario debe especificar una lista de nombres de variables porque varlist no está encerrada entre corchetes. La sintaxis de el comando syntax sigue las reglas de un diagrama de sintaxis.



El ejemplo 1 ilustra que myregress2 ejecuta la regresión requerida cuando yo especifico una lista de variables.


Ejemplo 1: myregress2 con variables especificas




El ejemplo 2 ilustra que el comando syntax despliega un mensaje de error y detiene la ejecución cuando yo no especifico una lista de variables. Utilizaré set trace on para ver cada línea del código y el resultado que produce.

Ejemplo 2: myregress2 sin lista de variables





El ejemplo 3 ilustra que el comando syntax está verificando que las variables especificadas se encuentren en la base de datos actual. El comando arroja un error porque DoesNotExist no es una variable en la base de datos actual.

Ejemplo 3: myregress2 con una variable que no está en la base de datos






Ya que el comando syntax en la línea 5 no está restringiendo que las variables especificadas a ser numéricas, obtengo el error no observations en el ejemplo 4 en lugar de un error que indique el problema real, el cual es la variable string make.

Ejemplo 4: myregress2 con una variable string



En la línea 5 de myregress3, modifico varlistpara que sólo acepte variables numéricas. Este cambio produce un mensaje de error más informativo cuando trato de incluir una variable string en la regresión.



Ejemplo 5: myregress3 con una variable string



En la línea 5 de myregress4, modifico varlist para que acepte series de tiempo (ts). El comando syntax pone variables de series de tiempo en una forma canónica que es guardarlas en una macro local varlist, que se ilustra en la línea 6 dentro del ejemplo 6.


Ejemplo 6: myregress4 con series de tiempo




Hecho y sin hacer

Uso el comando syntax para mejorar cómo myregress2 maneja las variables especificadas por el usuario. Mostré cómo pedir que todas las variables sean numéricas y cómo hacer que el comando acepte variables series de tiempo. En la siguiente publicación, muestro cómo hacer que el comando permita restricciones en la muestra, cómo lidiar con valores perdidos, cómo permitir variables factor, y cómo lidiar con variables perfectamente colineales.


Gracias por leernos. Siga al pendiente de nuestras próximas entradas y siéntase libre de compartir este blog con sus colegas y amigos.

Para cualquier información referente a Stata, escríbanos a: info@multion.com