miércoles, 31 de octubre de 2018

Colapsando bases de datos en Stata

Hoy en nuestro blog daremos un breve recorrido por las opciones que tiene Stata para que podamos colapsar bases de datos a través del comando collapse, pues a veces resulta de mayor utilidad las estadísticas descriptivas de nuestras variables, así como sus características y con este comando podremos obtener una nueva base de datos a partir de estas.


A continuación, abrimos una base que contiene las características de la estadística de sacrificio de ganado 
según la especie:


Las variables Año y Mes son variables de texto que identifican el año y mes de las cifras de nuestras variables, donde podemos observar que tenemos cuatro especies (bovino, porcino, ovino y caprino) por número de cabezas y, para cada una de ellas tenemos la producción medida en toneladas y el valor de la producción medido en miles de pesos[1]. A través de ejecutar el comando summarize podemos observar estadística descriptiva de nuestras variables a lo largo de toda la muestra; sin embargo, utilizaremos collapse para producir nuevas bases de datos según nuestros requerimientos.


Nuestro primer paso es utilizar el comando de manera sencilla:


Al utilizar simplemente el comando seguido de una lista de variables obtenemos que nuestra base de datos ha colapsado a sólo cuatro datos: el promedio de cabezas de ganado por especie. Estos datos son los mismos que observamos en la salida del comando summarize.

Por lo cual, la opción que viene predeterminada en el comando collapse calcula los promedios de las variables especificadas. De tal forma, nosotros podemos especificar qué estadístico deseamos que se calcula al realizar la contracción de la base original; a continuación, indicaremos que necesitamos la sumatoria de las variables con la especificación (sum) antecediendo a la lista de variables, así, este estadístico será calculado para cada una de las variables hasta que Stata encuentre una nueva especificación.


Esto resulta de mayor utilidad cuando introducimos mayores especificaciones, tal como la siguiente.


En la nueva base obtuvimos la sumatoria anual de cabezas de ganado de las cuatro especies, gracias a la opción by() pudimos referirle a Stata la variable que tenía incluida las categorías por las cuales debíamos realizar el colapso de datos. Nuestra base cuenta con una observación más que contiene solo casillas en blanco, de ahí que la primera fila contenga el valor faltante (.) y sus valores correspondientes (0).


Como se mencionó líneas atrás, Stata aplicará el estadístico indicado a la lista de variables hasta que encuentre una nueva especificación; sin embargo, no podemos utilizar dos veces una variable existente en nuestra base original, pues Stata arrojará el siguiente error:


Por ello, podemos crear nuevas variables a partir de las que tenemos en nuestra base original, pero nombrándolas de distinta manera.


En esta ocasión hemos nombrado nuevas variables (vp_*), en las que se calcula la media ((mean)), en base a nuestras variables de valor por especie originales (Valor*).

Por último, también podemos realizar el colapso de información utilizando expresiones condicionales como if.



Gracias por leernos. Espere pronto la próxima entrada.

Solicite su cotización ahora: jcervantes@multion.com

Este blog es administrado por MultiON Consulting S.A. de C.V.