Hoy
en nuestro blog daremos un breve recorrido por las opciones que tiene Stata
para que podamos colapsar bases de datos a través del comando collapse, pues a veces resulta de mayor utilidad
las estadísticas descriptivas de nuestras variables, así como sus
características y con este comando podremos obtener una nueva base de datos a
partir de estas.
A
continuación, abrimos una base que contiene las características de la
estadística de sacrificio de ganado
según la especie:
Las
variables Año y Mes son variables de texto que identifican el año y mes de las
cifras de nuestras variables, donde podemos observar que tenemos cuatro
especies (bovino, porcino, ovino y caprino) por número de cabezas y, para cada
una de ellas tenemos la producción medida en toneladas y el valor de la
producción medido en miles de pesos[1].
A través de ejecutar el comando summarize podemos observar estadística
descriptiva de nuestras variables a lo largo de toda la muestra; sin embargo,
utilizaremos collapse
para producir nuevas bases de datos según nuestros requerimientos.
Al utilizar simplemente el comando seguido de una lista de variables obtenemos que nuestra base de datos ha colapsado a sólo cuatro datos: el promedio de cabezas de ganado por especie. Estos datos son los mismos que observamos en la salida del comando summarize.
Por lo cual, la opción que viene predeterminada en el comando collapse calcula los promedios de las variables especificadas. De tal forma, nosotros podemos especificar qué estadístico deseamos que se calcula al realizar la contracción de la base original; a continuación, indicaremos que necesitamos la sumatoria de las variables con la especificación (sum) antecediendo a la lista de variables, así, este estadístico será calculado para cada una de las variables hasta que Stata encuentre una nueva especificación.
Esto
resulta de mayor utilidad cuando introducimos mayores especificaciones, tal
como la siguiente.
En
la nueva base obtuvimos la sumatoria anual de cabezas de ganado de las cuatro
especies, gracias a la opción by() pudimos referirle a Stata la variable que tenía incluida las categorías
por las cuales debíamos realizar el colapso de datos. Nuestra base cuenta con
una observación más que contiene solo casillas en blanco, de ahí que la primera
fila contenga el valor faltante (.) y sus valores
correspondientes (0).
Como
se mencionó líneas atrás, Stata aplicará el estadístico indicado a la lista de
variables hasta que encuentre una nueva especificación; sin embargo, no podemos
utilizar dos veces una variable existente en nuestra base original, pues Stata
arrojará el siguiente error:
Por
ello, podemos crear nuevas variables a partir de las que tenemos en nuestra base
original, pero nombrándolas de distinta manera.
En esta ocasión hemos nombrado nuevas
variables (vp_*),
en las que se calcula la media ((mean)), en base a nuestras variables de valor por especie originales (Valor*).
Gracias por leernos. Espere pronto la próxima entrada.
Solicite su cotización ahora: jcervantes@multion.com
Este blog es administrado por MultiON Consulting S.A. de C.V.
Hoy aprendí algo más con stata, gracias por compartir
ResponderBorrar