Aprendizaje automático en multi-nube con datos locales y Google Cloud Vertex
Tabla de Contenido:
- Introducción
- Evolución de las empresas en la era de la nube
- Conexión a múltiples proveedores de la nube
- Procesamiento de datos en la nube
- Entrenamiento e inferencia para el aprendizaje automático en múltiples nubes
- Introducción a Google Cloud Vertex AI Platform
- Transferencia de datos on-premises a GCV
- Entrenamiento de modelos AI basados en datos extraídos de una base de datos empresarial
- Solución de IA para la industria financiera
- Solución de IA para el sector de la salud
Introducción
El avance de la tecnología ha llevado a las empresas a evolucionar su infraestructura de computación en la era de la nube. Con el fin de satisfacer sus necesidades específicas, las organizaciones se conectan a múltiples proveedores de la nube. Esto ha resultado en la proliferación de procesamiento de datos, entrenamiento e inferencia para el aprendizaje automático a través de diferentes nubes. En este artículo, exploraremos una solución que destaca el entrenamiento en Google Cloud Vertex AI Platform utilizando datos extraídos de una base de datos empresarial que se ejecuta en Google Cloud VMware Engine.
Evolución de las empresas en la era de la nube
En la era de la nube, las empresas han experimentado una evolución significativa en su enfoque de computación. Anteriormente, las organizaciones solían confiar en infraestructuras locales para sus operaciones. Sin embargo, con los avances tecnológicos y la creciente demanda de mayor escalabilidad y flexibilidad, las empresas están migrando sus cargas de trabajo a la nube. Esto les permite aprovechar las ventajas de la informática en la nube, como el acceso bajo demanda a recursos informáticos y la capacidad de escalar rápidamente según sea necesario.
Conexión a múltiples proveedores de la nube
A medida que las empresas adoptan la computación en la nube, también están eligiendo conectarse a múltiples proveedores de la nube. Esto se debe a que cada proveedor de la nube tiene sus propias fortalezas y capacidades únicas. Al elegir diferentes proveedores de la nube, las empresas pueden utilizar una combinación de servicios que mejor se ajusten a sus requisitos específicos. Por ejemplo, un proveedor de la nube puede tener excelentes capacidades de procesamiento de datos, mientras que otro puede ofrecer una infraestructura de aprendizaje automático altamente sofisticada.
Procesamiento de datos en la nube
Uno de los aspectos clave de la evolución de las empresas en la nube es el procesamiento de datos. A medida que las organizaciones acumulan grandes cantidades de datos, necesitan una forma eficiente de procesar y analizar esa información para generar ideas y tomar decisiones informadas. La computación en la nube ofrece una plataforma escalable y rentable para el procesamiento de datos. Las empresas pueden aprovechar los servicios en la nube para realizar tareas como la extracción, transformación y carga de datos (ETL), así como el análisis de datos en tiempo real.
Entrenamiento e inferencia para el aprendizaje automático en múltiples nubes
Otro aspecto importante de la evolución de las empresas en la era de la nube es el entrenamiento e inferencia para el aprendizaje automático. El aprendizaje automático es una técnica que permite a las computadoras aprender y mejorar automáticamente a partir de la experiencia sin la necesidad de una programación explícita. Para entrenar modelos de aprendizaje automático, se requiere una gran cantidad de poder computacional y datos. Las empresas que se conectan a múltiples proveedores de la nube pueden distribuir las tareas de entrenamiento e inferencia en diferentes nubes para aprovechar sus capacidades y recursos.
Introducción a Google Cloud Vertex AI Platform
Google Cloud Vertex AI Platform es una plataforma unificada de ML Ops que ayuda a los científicos de datos y a los ingenieros de ML a aumentar la experimentación, implementar más rápidamente y gestionar modelos con confianza. Esta plataforma ofrece herramientas personalizadas para la construcción de modelos de aprendizaje automático avanzados. Dos aplicaciones basadas en IA para los sectores financiero y de salud se destacan en esta solución.
Transferencia de datos on-premises a GCV
La solución comienza con la transferencia de datos desde una infraestructura local (on-premises) a Google Cloud Vertex (GCV). Los datos almacenados en una base de datos empresarial que se ejecuta en Google Cloud VMware Engine se extraen y se transfieren a Google Cloud Storage, que servirá como repositorio de datos para el entrenamiento de modelos de aprendizaje automático.
Entrenamiento de modelos AI basados en datos extraídos de una base de datos empresarial
Una vez que los datos se han transferido a Google Cloud Storage, se utilizan para el entrenamiento de modelos de IA basados en aprendizaje automático. En el caso de la industria financiera, se entrena un modelo de predicción del mercado de valores utilizando instancias de Google Cloud aceleradas por GPU. Se realiza una verificación para asegurarse de que los datos no contengan valores nulos y se procede a dividir los datos en conjuntos de entrenamiento y prueba. A continuación, se entrena un modelo LSTM (Long Short-Term Memory) utilizando el historial de datos del mercado de valores. Una vez completado el entrenamiento, se guarda el modelo en Google Datastore.
Solución de IA para la industria financiera
La solución incluye una aplicación de IA diseñada específicamente para la industria financiera. Esta aplicación utiliza datos almacenados en un repositorio empresarial basado en Microsoft SQL Server en Google Cloud Vertex (GCV). Los datos del mercado de valores se replican desde una base de datos SQL local a una instancia de Microsoft SQL Server basada en GCV. Estos datos se extraen en formato CSV y se copian a Google Cloud Storage. A continuación, se utiliza Google Cloud Vertex AI Platform para entrenar un modelo de predicción del mercado de valores utilizando instancias de Google Cloud aceleradas por GPU.
Pros:
- La solución permite a las empresas aprovechar los servicios de Google Cloud Vertex AI Platform para entrenar y desplegar modelos de aprendizaje automático en entornos multi-nube.
- Los datos de diferentes fuentes se pueden extraer y utilizar para el entrenamiento de modelos de IA personalizados según las necesidades de cada empresa.
- La solución es escalable y rentable, ya que utiliza recursos en la nube para el procesamiento y entrenamiento de datos.
Contras:
- La transferencia de datos desde infraestructuras locales a la nube puede ser un proceso lento y complicado, especialmente para grandes volúmenes de datos.
- Los costos asociados con el uso de recursos en la nube, como instancias de GPU, pueden ser altos, especialmente para proyectos de aprendizaje automático a gran escala.
Solución de IA para el sector de la salud
La solución también incluye una aplicación de IA para el sector de la salud que se centra en la detección de imágenes de COVID-19 basadas en escaneos de tomografía computarizada (CT scans). Las imágenes de los escaneos de CT se cargan desde Google Cloud Vertex (GCV) a Google Cloud Storage y luego se accede a ellas desde Google Cloud Vertex para el entrenamiento del modelo de detección de COVID-19. Se utilizan instancias especializadas de Google Cloud con GPU para acelerar el proceso de entrenamiento del modelo.
Pros:
- La solución permite a los profesionales de la salud utilizar la potencia de la IA para mejorar la detección y diagnóstico de COVID-19 utilizando escaneos de tomografía computarizada.
- Al utilizar recursos en la nube para el entrenamiento de modelos de IA, se pueden procesar grandes volúmenes de datos de manera eficiente y rápida.
- El uso de instancias de Google Cloud aceleradas por GPU permite un entrenamiento más rápido y preciso del modelo de detección de COVID-19.
Contras:
- La precisión de los modelos de IA en la detección de COVID-19 basada en escaneos de CT puede variar y no debe utilizarse como único método de diagnóstico.
- El acceso a escaneos de CT y datos de pacientes puede estar sujeto a regulaciones de privacidad y seguridad, por lo que es importante garantizar el cumplimiento de las normas correspondientes.
En resumen, la combinación de Google Cloud ML y aplicaciones de IA puede brindar una solución eficaz y rentable para implementar IA o ML de extremo a extremo en una arquitectura de múltiples nubes. Las empresas pueden aprovechar Google Cloud Vertex AI para ampliar sus capacidades de procesamiento y datos a la nube, y los científicos de datos y los ingenieros de ML pueden acceder y utilizar de manera efectiva las capacidades de vanguardia de Google Cloud Vertex AI para desarrollar y gestionar modelos de IA o ML. VMware-based multi-cloud permite una distribución eficiente de los modelos de IA o ML desarrollados en Google Cloud a través de diferentes bordes y puntos finales.
FAQ:
Q: ¿Cuál es la ventaja de utilizar múltiples proveedores de la nube?
A: Al utilizar múltiples proveedores de la nube, las empresas pueden aprovechar las fortalezas y capacidades únicas de cada proveedor para satisfacer sus necesidades específicas. Esto les brinda mayor flexibilidad y les permite utilizar una combinación de servicios y recursos que mejor se adapten a sus requisitos.
Q: ¿Cómo se pueden transferir los datos desde infraestructuras locales a la nube?
A: La transferencia de datos desde infraestructuras locales a la nube se puede realizar a través de diferentes métodos, como la extracción y carga de datos (ETL) o la replicación de datos. Esto se hace asegurando que los datos estén en un formato compatible y utilizando herramientas y servicios de transferencia de datos proporcionados por los proveedores de la nube.
Q: ¿Cuáles son los beneficios de utilizar instancias aceleradas por GPU para el entrenamiento de modelos de IA?
A: Las instancias aceleradas por GPU proporcionan una enorme potencia de procesamiento y aceleración para el entrenamiento de modelos de IA. Esto permite un procesamiento de datos más rápido y un entrenamiento más eficiente de los modelos, lo que a su vez puede conducir a resultados más precisos y mejorados en el aprendizaje automático.
Recursos: