Chuck Huber, Director Asociado de Alcance Estadístico.
En
mi última publicación, mencioné que no quería distribuir mi archivo covid19.ado
porque "podría volverse inútil si Johns Hopkins cambia sus datos".
Escribí eso el 19 de marzo de 2020, y los datos cambiaron el 23 de marzo de
2020. Es probable que esto vuelva a suceder (y una y otra vez ...). Puedo
publicar actualizaciones en el futuro a medida que cambien los datos, pero es
posible que deba adaptarse antes de lo que puedo publicar. Entonces, veamos
cómo podemos actualizar nuestro código para adaptarlo a los datos cambiantes.
Comencemos
ejecutando el código de mi última publicación de blog.
Algo
luce mal cuando describimos nuestros datos.
Tenemos variables con nombres
similares, como provincestate y province_state, countryregion y country_region, y así sucesivamente. Los nombres de las variables han cambiado en los
archivos sin formato más nuevos. Pero debemos tener los mismos nombres de
variables cuando agregamos (append) los datos.
Revisé los archivos de datos sin
procesar más recientes e identifiqué la fecha en que cambiaron los datos. Puede
hacer esto sin abrir los archivos. Simplemente puede describir los datos de su
disco local o cuenta en la nube.
Los datos sin procesar del 22 de
marzo de 2020 utilizan los nombres de variables anteriores.
Los datos sin procesar del 23 de marzo del 2020 usan
los nuevos nombres de las variables.
Podríamos escribir un código inteligente para
distinguir entre archivos creados antes y después del 23 de marzo. Pero una
alternativa simple es usar capture rename para
cambiar los nombres de las variables cuando sea necesario en los archivos de
datos sin procesar.
Probemos esto en el archivo de datos sin procesar
del 23 de marzo antes de incorporarlo al resto de nuestro código.
Los nombres de las variables en los datos nuevos
ahora coinciden con los nombres de las variables en los datos antiguos. Algunas
variables en los datos más nuevos no aparecían en los datos antiguos. Esas
nuevas variables se agregarán al conjunto de datos final, pero no contendrán
datos de fechas anteriores al 23 de marzo.
El código actualizado a continuación importará los
datos sin procesar del repositorio GitHub de
Johns Hopkins a partir del 23 de marzo de 2020. He mostrado los
nuevos comandos en rojo.
Podemos verificar que esto funcionó describiendo los
datos resultantes.
Vamos a guardar esta base de datos para poder
utilizarla después.
Tenga en cuenta que no hemos verificado ni limpiado
estos datos. El código anterior y los datos resultantes deben usarse solo con
fines educativos.
En mi próxima publicación, le mostraré cómo
convertir los datos sin procesar en datos de series temporales.
¡Gracias por leernos!
kudos por el excelente esfuerzo
ResponderBorrar