YOLO-World: Detección de Objetos en Tiempo Real Explicada
Contenido
- Introducción
- ¿Qué es YOLO World?
- Arquitectura de YOLO World
- Problemas con los modelos de detección de objetos tradicionales
- Los desafíos de los detectores de cero disparo
- YOLO World vs. Grounding DYO
- Cómo usar YOLO World en Google Collab
- Ejemplos de código
- Mejorando la precisión de las detecciones
- Procesamiento de videos con YOLO World
- Limitaciones y recomendaciones de uso
- Futuras aplicaciones de YOLO World
YOLO World: Un Detector de Objetos de Cero Disparo más Rápido y Preciso 🚀
Con cada vez más aplicaciones que requieren detectar objetos en tiempo real, la búsqueda de modelos más rápidos y precisos se ha vuelto fundamental. ¿Qué pasaría si te dijera que hay un modelo capaz de detectar objetos sin necesidad de entrenamiento? Y lo que es aún mejor, ¡puede funcionar en tiempo real! En este artículo, te presentaré YOLO World, un detector de objetos de cero disparo que se dice es 20 veces más rápido que sus predecesores. Discutiremos su arquitectura, las razones detrás de su velocidad y, sobre todo, te mostraré cómo ejecutarlo en Google Collab para procesar imágenes y videos.
Introducción
Los modelos tradicionales de detección de objetos, como Faster R-CNN, SSD o YOLO, están diseñados para detectar objetos dentro de un conjunto predefinido de categorías. Por ejemplo, los modelos entrenados en conjuntos de datos de Coco están limitados a 80 categorías. Si deseas que un modelo detecte nuevos objetos, necesitarías crear un nuevo conjunto de datos con imágenes que representen los objetos que deseas detectar, anotarlos y entrenar tu detector. Esto, por supuesto, lleva tiempo y es costoso.
Ante esta limitación, los investigadores comenzaron a desarrollar modelos de vocabulario abierto. Hace menos de un año te mostré Grounding DYO, un detector de objetos de cero disparo que en ese momento me dejó impresionado y, para ser honesto, todavía me sorprenden sus capacidades. Todo lo que necesitas hacer es proporcionar una lista de clases que deseas buscar al modelo, ¡y eso es todo! No se requiere entrenamiento.
Sin embargo, el inconveniente de Grounding DYO era su velocidad. Tardaba alrededor de 1 segundo en procesar una imagen individual, lo cual está bien si no te importa la latencia, pero bastante lento si estás pensando en procesar transmisiones de video en vivo.
Y eso nos lleva a YOLO World, un detector de objetos de cero disparo que, según el paper, es igual de preciso y 20 veces más rápido que sus predecesores.
Arquitectura de YOLO World
YOLO World consta de tres partes clave: el detector YOLO, el codificador de texto y las redes personalizadas que realizan una fusión multimodal a nivel multinivel entre las características de la imagen y las incrustaciones de texto. Una de las razones por las que YOLO World es tan rápido es que utiliza una red neuronal convolucional más ligera y rápida como su columna vertebral.
La forma en que YOLO World aborda la necesidad de un texto en tiempo real es a través del paradigma "Prompt then detect". En lugar de codificar tu texto en cada ejecución, YOLO World utiliza CLIP para convertir el texto en incrustaciones y las guarda en caché. Esto evita la necesidad de codificación de texto en tiempo real y acelera aún más la velocidad de detección.
En el próximo apartado, te mostraré cómo usar YOLO World en Google Collab y te proporcionaré ejemplos de código para que puedas comenzar a experimentar tú mismo.