Kevin Crow, Desarrollador Principal de Software.
A
medida que más organizaciones trasladan sus necesidades de TI, gestión de datos
y análisis de datos a la nube, a menudo tengo que responder estas preguntas:
¿Puede Stata ejecutarse en la nube?
¿Puedo ejecutar mi copia de Stata en
la nube?
¿Cuál es la mejor configuración para
Stata en la nube?
¿Cómo funciona
Stata en la nube?
Antes de responder
estas preguntas, definamos qué es la computación en la nube. Wikipedia define
la computación en la nube como la siguiente:
“La computación en la nube es la
disponibilidad a pedido de los recursos del sistema informático, especialmente
el almacenamiento de datos y la potencia informática, sin una gestión activa
directa por parte del usuario. El término se usa generalmente para describir
los centros de datos disponibles para muchos usuarios a través de Internet
".
La razón principal por la que veo que nuestros usuarios usan
la computación en la nube es para que puedan agregar fácilmente más recursos
informáticos (memoria y núcleos) a los proyectos en los que están trabajando
para acelerar el desarrollo y el análisis. Lo bueno de los servicios en la nube
es que proporcionan una manera fácil de agregar recursos on demand.
Básicamente, pagan por los recursos de hardware solo cuando los necesita, lo
que ahorra tiempo y dinero y le permite escalar diferentes proyectos en
consecuencia.
Ahora
hablemos de plataformas en la nube. Las dos plataformas principales que veo que
usan nuestros usuarios son Amazon Web Services y Microsoft Azure. Hay otras
plataformas, pero estas son las principales plataformas sobre las que escucho
preguntas.
Entonces,
¿puede Stata ejecutarse en la nube? Sí, Stata puede. La mayoría de las
computadoras en la nube son máquinas virtuales que ejecutan sistemas operativos
Linux o Windows, y Stata se ejecuta en ambos. Ahora, ¿qué flavor de
Stata deberías usar, IC, SE o MP? Definitivamente recomiendo usar Stata/MP en
la nube si está trabajando con grandes conjuntos de datos y los comandos de
Stata que desea usar están altamente paralelizados. Para ver una lista de todos
los comandos que se han acelerado y cuánto, consulte el Informe de
rendimiento de Stata / MP.
Los
usuarios a menudo preguntan si se les permite usar su licencia Stata en la
nube. La respuesta es absolutamente. No distinguimos entre una estación de
trabajo o servidor local, una máquina virtual local y una máquina virtual
equivalente en la nube. Su licencia de Stata es suya para usar en cualquier
computadora que desee: real, virtual o virtual en la nube.
La
pregunta tres es un poco más difícil de responder. La mejor configuración
depende en gran medida de sus necesidades específicas. Algunas preguntas que
deberá responder son estas:
¿Con qué sistema operativo se sienten
cómodos usted o sus usuarios?
¿Cuál es el tamaño típico de los
datos con los que trabajará su organización?
¿Cuántos núcleos y cuánta memoria vas
a asignar en la nube?
¿Cuántos
usuarios accederán a esta máquina virtual en la nube al mismo tiempo?
Tenga
en cuenta que estas preguntas no son específicas de la nube y realmente se aplican
a cualquier configuración, en la nube o local, donde los recursos se comparten
entre los usuarios. La última pregunta es importante. Una vez que su máquina en
la nube (o local) tiene varios usuarios que usan Stata simultáneamente, debe
asegurarse de tener una máquina lo suficientemente grande con suficiente
memoria y núcleos para todos los usuarios. Por ejemplo, si tiene una licencia
Stata / MP de 4 núcleos para 2 usuarios, querrá tener una máquina en la nube con
al menos 8 núcleos asignados, 4 núcleos para cada usuario de Stata. O querrá
activar varias instancias en la nube, dando a los usuarios sus propias máquinas
virtuales.
La
siguiente consideración es la memoria. Si los usuarios trabajan cada uno con un
conjunto de datos Stata de 5 GB de tamaño, necesitará al menos 16 GB de RAM
asignados a la máquina Cloud, 10 GB de RAM para los datos en la memoria y un
poco más para la sobrecarga del sistema operativo al ejecutarse. O puede
asignar dos máquinas en la nube con 8 GB de RAM cada una.
El
problema más frecuente que escucho acerca de las personas que usan Stata en la
nube es que los usuarios a veces compiten por la RAM porque varios usuarios
están tratando de cargar grandes conjuntos de datos en la RAM al mismo tiempo
en la misma computadora. La forma más fácil de evitar esto es usar la nube de
la forma en que fue diseñada: ponga en funcionamiento múltiples computadoras
virtuales para escalar la carga. También es fácil entrenar a los usuarios de
Stata para que usen la memoria de manera eficiente. La forma de hacerlo es
hacer que carguen solo las variables que necesitan analizar del conjunto de
datos en el espacio de memoria de Stata y no llevar a ciegas todo el conjunto
de datos a la memoria. Por ejemplo, supongamos que su usuario está trabajando
con un conjunto de datos del censo de EE. UU. Que contiene 20,000 variables,
pero al usuario realmente le interesa analizar solo 100 de esas variables.
Stata tiene la capacidad de cargar solo las variables que necesita de un
conjunto de datos de Stata con el comando use.
Si
no está seguro de qué variables cargar o necesita buscar las variables exactas
para cargar, puede usar la GUI de Stata 16 para buscar fácilmente las
variables. Vea el video a continuación para ver cómo.
Una
vez que tenga el comando de uso exacto, copie el comando en un archivo do y
guárdelo para cargar datos en el futuro.
La
pregunta final, sobre qué tan bien funciona Stata en la Nube, depende
nuevamente de los mismos problemas discutidos anteriormente. Y no es diferente
de hacer la misma pregunta sobre cómo se desempeña Stata en una computadora
local.
¿Cuál
es el tamaño típico de los conjuntos de datos con los que trabajará su
organización? ¿Qué tipo de máquinas virtuales en la nube está utilizando,
cuántos núcleos y cuánta memoria le va a asignar? ¿Cuántos usuarios accederán a
esta máquina virtual en la nube al mismo tiempo? ¿Qué comandos y modelos de
Stata estás usando? Los proveedores de la nube publican las especificaciones de
las instancias de máquinas virtuales que puede usar, y Stata funcionará en
ellas tal como lo haría en máquinas físicas equivalentes.
El
tamaño de los datos, los recursos asignados y la cantidad de personas que usan
los recursos simultáneamente serán los principales problemas a considerar al
construir su entorno.
¡Gracias por leernos!