jueves, 26 de marzo de 2020

Actualización del post sobre importación de datos del COVID-19


Chuck Huber, Director Asociado de Alcance Estadístico.

En mi última publicación, mencioné que no quería distribuir mi archivo covid19.ado porque "podría volverse inútil si Johns Hopkins cambia sus datos". Escribí eso el 19 de marzo de 2020, y los datos cambiaron el 23 de marzo de 2020. Es probable que esto vuelva a suceder (y una y otra vez ...). Puedo publicar actualizaciones en el futuro a medida que cambien los datos, pero es posible que deba adaptarse antes de lo que puedo publicar. Entonces, veamos cómo podemos actualizar nuestro código para adaptarlo a los datos cambiantes.

Comencemos ejecutando el código de mi última publicación de blog.



Algo luce mal cuando describimos nuestros datos.




Tenemos variables con nombres similares, como provincestate y province_state, countryregion y country_region, y así sucesivamente. Los nombres de las variables han cambiado en los archivos sin formato más nuevos. Pero debemos tener los mismos nombres de variables cuando agregamos (append) los datos.

Revisé los archivos de datos sin procesar más recientes e identifiqué la fecha en que cambiaron los datos. Puede hacer esto sin abrir los archivos. Simplemente puede describir los datos de su disco local o cuenta en la nube.

Los datos sin procesar del 22 de marzo de 2020 utilizan los nombres de variables anteriores.


Los datos sin procesar del 23 de marzo del 2020 usan los nuevos nombres de las variables.


Podríamos escribir un código inteligente para distinguir entre archivos creados antes y después del 23 de marzo. Pero una alternativa simple es usar capture rename para cambiar los nombres de las variables cuando sea necesario en los archivos de datos sin procesar.


Probemos esto en el archivo de datos sin procesar del 23 de marzo antes de incorporarlo al resto de nuestro código.


Los nombres de las variables en los datos nuevos ahora coinciden con los nombres de las variables en los datos antiguos. Algunas variables en los datos más nuevos no aparecían en los datos antiguos. Esas nuevas variables se agregarán al conjunto de datos final, pero no contendrán datos de fechas anteriores al 23 de marzo.
El código actualizado a continuación importará los datos sin procesar del repositorio GitHub de Johns Hopkins a partir del 23 de marzo de 2020. He mostrado los nuevos comandos en rojo.


Podemos verificar que esto funcionó describiendo los datos resultantes.


Vamos a guardar esta base de datos para poder utilizarla después.




Tenga en cuenta que no hemos verificado ni limpiado estos datos. El código anterior y los datos resultantes deben usarse solo con fines educativos.

En mi próxima publicación, le mostraré cómo convertir los datos sin procesar en datos de series temporales.

¡Gracias por leernos! 

1 comentario: