Aprende a escalar XGBoost de forma distribuida con FlightAware y Ray

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News ES Aprende a escalar XGBoost de forma distribuida con FlightAware y Ray

Aprende a escalar XGBoost de forma distribuida con FlightAware y Ray

Índice de contenido

Introducción
Antecedentes de FlightAware
Caso de uso: predicción de pistas de aterrizaje
Cómo funciona xgboost distribuido en Ray
1. Ventajas de Ray para la escalabilidad de xgboost
2. Cómo superar los cuellos de botella en el entrenamiento de modelos
Métricas y costos
Optimización del proceso de carga de datos
1. Implementación de sistemas de archivos en red
2. Velocidad de la carga de datos desde EFS y FSx para Lustre
Optimización de la memoria
1. Elección correcta de instancias de Alta memoria
2. Uso de discos NVMe adicionales para almacenamiento en caché
Métricas de rendimiento
1. Comparación de la carga de datos desde S3 y desde sistemas de archivos en red
2. Tiempo de entrenamiento reducido con instancias x2i
Costos y consideraciones finales
Conclusiones

1. Introducción

En este artículo, exploraremos cómo FlightAware escaló xgboost para entrenar con conjuntos de datos muy grandes utilizando Ray. Discutiremos el caso de uso de predicción de pistas de aterrizaje y compartiré algunos consejos y trucos aprendidos durante el proceso. También analizaremos las métricas y costos asociados con este proyecto.

2. Antecedentes de FlightAware

FlightAware es una empresa fundada en 2005 que comenzó como un proyecto para rastrear aviones en tiempo real. A lo largo de los años, ha crecido hasta convertirse en una plataforma global que rastrea aviones comerciales, militares y de carga en todo el mundo. La compañía recopila datos de más de 50 fuentes diferentes y los utiliza para crear feeds de información en tiempo real sobre el estado y la posición de cada avión.

3. Caso de uso: predicción de pistas de aterrizaje

Uno de los casos de uso de FlightAware es predecir en qué pista de aterrizaje aterrizará un avión en su destino. Para Ello, utilizan el algoritmo de aprendizaje automático xgboost, que es conocido por su capacidad para manejar grandes conjuntos de datos y resolver problemas de clasificación. El equipo de FlightAware evaluó diferentes arquitecturas de redes neuronales para este caso de uso, pero finalmente optaron por xgboost debido a su eficiencia y precisión.

4. Cómo funciona xgboost distribuido en Ray

FlightAware decidió utilizar Ray como plataforma para distribuir el entrenamiento de xgboost en grandes conjuntos de datos. Ray es una biblioteca de código abierto que facilita la programación distribuida y el escalado de algoritmos de aprendizaje automático. La integración de xgboost con Ray es sencilla y permite aprovechar todas las capacidades de escalabilidad de Ray.

4.1 Ventajas de Ray para la escalabilidad de xgboost

Ray proporciona una serie de beneficios clave para el entrenamiento distribuido de xgboost. En primer lugar, es fácil de usar y compatible con diferentes configuraciones de plataforma. También ofrece una interfaz de usuario intuitiva y métricas de rendimiento detalladas que permiten controlar el uso de recursos y el progreso del entrenamiento. Además, Ray proporciona capacidades de carga de datos distribuida, lo que significa que cada trabajador solo carga los datos necesarios para su parte específica del modelo. Esto reduce significativamente el tiempo de carga de datos y evita cuellos de botella innecesarios.

4.2 Cómo superar los cuellos de botella en el entrenamiento de modelos

El equipo de FlightAware identificó tres posibles cuellos de botella en el entrenamiento distribuido de xgboost y desarrolló estrategias para superarlos:

Velocidad de carga de datos: Por defecto, xgboost carga los datos desde S3 utilizando las API HTTPS, lo cual puede ser lento cuando se tiene que cargar una gran cantidad de datos. FlightAware implementó sistemas de archivos en red, como EFS y FSx para Lustre, para acelerar la carga de datos. Estos sistemas proporcionan una latencia muy baja y un alto rendimiento de transferencia de datos.
Uso de memoria: xgboost requiere que todo el conjunto de datos de entrenamiento se cargue en memoria para su procesamiento. Esto puede suponer un desafío cuando se trabaja con conjuntos de datos grandes. El equipo de FlightAware eligió instancias de alta memoria (x2i) que pueden soportar hasta cuatro terabytes de memoria por instancia. También utilizaron discos NVMe adicionales para almacenar en caché los datos y reducir el impacto en la memoria principal.
Velocidad de acceso a disco: Durante el entrenamiento, los trabajadores de Ray escriben datos en su propio almacenamiento temporal. Si este almacenamiento se llena, los datos se escriben en disco, lo que puede ser más lento. FlightAware optimizó el rendimiento de acceso a disco utilizando discos NVMe adicionales de alta velocidad en cada instancia y configurando correctamente los parámetros de almacenamiento en caché.

5. Métricas y costos

FlightAware analizó las métricas y costos asociados con el entrenamiento distribuido de xgboost en Ray. Al utilizar sistemas de archivos en red y discos NVMe, lograron reducir significativamente los tiempos de carga de datos y entrenamiento. Esto les permitió entrenar modelos en conjuntos de datos de seis meses en aproximadamente cuatro horas, en comparación con las nueve a diez horas que requería anteriormente.

En cuanto a los costos, FlightAware descubrió que escalando eficientemente el proceso y utilizando las instancias de menor costo para la carga de datos, pudieron entrenar modelos en seis meses de datos por aproximadamente $350 dólares. Este costo fue considerado muy razonable en comparación con las alternativas, como el entrenamiento en GPU.

6. Optimización del proceso de carga de datos

FlightAware implementó sistemas de archivos en red, como EFS y FSx para Lustre, para optimizar el proceso de carga de datos en el entrenamiento de xgboost en Ray. Estos sistemas permitieron una carga de datos más rápida desde S3 y redujeron significativamente el tiempo de preparación antes de iniciar el entrenamiento de los modelos.

6.1 Implementación de sistemas de archivos en red

Para optimizar la velocidad de carga de datos, FlightAware utilizó sistemas de archivos en red como EFS y FSx para Lustre. Estos sistemas se configuran antes de iniciar el entrenamiento y actúan como caché de alto rendimiento para los datos necesarios. Esto permitió una carga de datos más rápida y eficiente durante el entrenamiento de xgboost en Ray.

6.2 Velocidad de carga de datos desde EFS y FSx para Lustre

Los sistemas de archivos en red, como EFS y FSx para Lustre, proporcionan una mayor velocidad de carga de datos en comparación con las API HTTPS utilizadas por defecto. FlightAware logró velocidades de carga de datos de más de 500 megabytes por segundo utilizando estos sistemas, lo que permitió una preparación más rápida antes de iniciar el entrenamiento del modelo.

7. Optimización de la memoria

FlightAware optimizó el uso de memoria en el entrenamiento distribuido de xgboost utilizando instancias de alta memoria (x2i) y discos NVMe adicionales. Estas estrategias permitieron cargar conjuntos de datos más grandes en memoria y reducir el impacto en la memoria principal durante el entrenamiento.

7.1 Elección correcta de instancias de alta memoria

FlightAware utilizó instancias de alta memoria (x2i) para el entrenamiento distribuido de xgboost. Estas instancias tienen una alta relación de memoria a CPU y pueden soportar hasta cuatro terabytes de memoria por instancia. Al utilizar instancias de alta memoria, FlightAware pudo cargar conjuntos de datos más grandes en memoria y reducir los problemas de falta de memoria durante el entrenamiento.

7.2 Uso de discos NVMe adicionales para almacenamiento en caché

FlightAware utilizó discos NVMe adicionales para almacenar en caché los datos durante el entrenamiento. Estos discos proporcionan una alta velocidad de acceso a datos y ayudan a reducir la carga en la memoria principal. Al utilizar discos NVMe adicionales, FlightAware logró un rendimiento óptimo en el acceso a datos y aceleró aún más el proceso de entrenamiento.

8. Métricas de rendimiento

FlightAware observó mejoras significativas en las métricas de rendimiento al utilizar sistemas de archivos en red y discos NVMe adicionales. La velocidad de carga de datos se incrementó en más de 30 veces, lo que permitió una preparación más rápida antes del entrenamiento. Además, los tiempos de entrenamiento se redujeron en aproximadamente un 50%, lo que resultó en una mayor eficiencia del proceso de entrenamiento.

8.1 Comparación de la carga de datos desde S3 y desde sistemas de archivos en red

FlightAware Comparó la velocidad de carga de datos desde S3 y desde sistemas de archivos en red. Utilizando sistemas de archivos en red como EFS y FSx para Lustre, lograron una velocidad de carga de datos de más de 500 megabytes por segundo, en comparación con los 18 megabytes por segundo que se obtenían utilizando las API HTTPS por defecto. Esta mejora significativa en la velocidad de carga de datos permitió una preparación más rápida antes del entrenamiento y aceleró todo el proceso.

8.2 Tiempo de entrenamiento reducido con instancias x2i

FlightAware experimentó una reducción significativa en los tiempos de entrenamiento al utilizar instancias de alta memoria (x2i). En comparación con instancias más pequeñas, las instancias x2i permitieron cargar conjuntos de datos más grandes en memoria, lo que resultó en un procesamiento más rápido y eficiente. Esto se tradujo en una reducción del tiempo de entrenamiento de aproximadamente la mitad, lo que permitió acelerar el desarrollo y la optimización de los modelos.

9. Costos y consideraciones finales

En cuanto a los costos, FlightAware logró entrenar modelos en conjuntos de datos de seis meses por aproximadamente $350 dólares. Esto incluye los costos de las instancias de alto rendimiento, los sistemas de archivos en red y los discos NVMe adicionales. Considerando los beneficios en términos de eficiencia y productividad, estos costos fueron considerados muy razonables.

En general, FlightAware demostró que el uso de Ray para el entrenamiento distribuido de xgboost en conjuntos de datos grandes es una estrategia efectiva y rentable. Al optimizar el proceso de carga de datos y el uso de recursos de memoria, lograron acelerar significativamente el tiempo de entrenamiento y mejorar la eficiencia del proceso.

10. Conclusiones

En este artículo, hemos explorado cómo FlightAware escaló xgboost utilizando Ray para entrenar en conjuntos de datos grandes. Discutimos el caso de uso de predicción de pistas de aterrizaje y compartimos algunos consejos y trucos aprendidos durante el proceso. También analizamos las métricas y costos asociados con el entrenamiento distribuido de xgboost en Ray. En conclusión, el uso de Ray para distribuir el entrenamiento de xgboost en conjuntos de datos grandes resultó ser una estrategia eficaz y rentable para FlightAware.

Entrenamiento de relé de protección de alimentación VR (Basado en ABB REF615) | Oculus Quest

Rumores sobre GPT 4.5 y los avances de seguridad de OpenAI