YOLO-World: Detección de Objetos en Tiempo Real Explicada

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home Hardware-es YOLO-World: Detección de Objetos en Tiempo Real Explicada

YOLO-World: Detección de Objetos en Tiempo Real Explicada

Contenido

Introducción
¿Qué es YOLO World?
Arquitectura de YOLO World
Problemas con los modelos de detección de objetos tradicionales
Los desafíos de los detectores de cero disparo
YOLO World vs. Grounding DYO
Cómo usar YOLO World en Google Collab
Ejemplos de código
Mejorando la precisión de las detecciones
Procesamiento de videos con YOLO World
Limitaciones y recomendaciones de uso
Futuras aplicaciones de YOLO World

YOLO World: Un Detector de Objetos de Cero Disparo más Rápido y Preciso 🚀

Con cada vez más aplicaciones que requieren detectar objetos en tiempo real, la búsqueda de modelos más rápidos y precisos se ha vuelto fundamental. ¿Qué pasaría si te dijera que hay un modelo capaz de detectar objetos sin necesidad de entrenamiento? Y lo que es aún mejor, ¡puede funcionar en tiempo real! En este artículo, te presentaré YOLO World, un detector de objetos de cero disparo que se dice es 20 veces más rápido que sus predecesores. Discutiremos su arquitectura, las razones detrás de su velocidad y, sobre todo, te mostraré cómo ejecutarlo en Google Collab para procesar imágenes y videos.

Introducción

Los modelos tradicionales de detección de objetos, como Faster R-CNN, SSD o YOLO, están diseñados para detectar objetos dentro de un conjunto predefinido de categorías. Por ejemplo, los modelos entrenados en conjuntos de datos de Coco están limitados a 80 categorías. Si deseas que un modelo detecte nuevos objetos, necesitarías crear un nuevo conjunto de datos con imágenes que representen los objetos que deseas detectar, anotarlos y entrenar tu detector. Esto, por supuesto, lleva tiempo y es costoso.

Ante esta limitación, los investigadores comenzaron a desarrollar modelos de vocabulario abierto. Hace menos de un año te mostré Grounding DYO, un detector de objetos de cero disparo que en ese momento me dejó impresionado y, para ser honesto, todavía me sorprenden sus capacidades. Todo lo que necesitas hacer es proporcionar una lista de clases que deseas buscar al modelo, ¡y eso es todo! No se requiere entrenamiento.

Sin embargo, el inconveniente de Grounding DYO era su velocidad. Tardaba alrededor de 1 segundo en procesar una imagen individual, lo cual está bien si no te importa la latencia, pero bastante lento si estás pensando en procesar transmisiones de video en vivo.

Y eso nos lleva a YOLO World, un detector de objetos de cero disparo que, según el paper, es igual de preciso y 20 veces más rápido que sus predecesores.

Arquitectura de YOLO World

YOLO World consta de tres partes clave: el detector YOLO, el codificador de texto y las redes personalizadas que realizan una fusión multimodal a nivel multinivel entre las características de la imagen y las incrustaciones de texto. Una de las razones por las que YOLO World es tan rápido es que utiliza una red neuronal convolucional más ligera y rápida como su columna vertebral.

La forma en que YOLO World aborda la necesidad de un texto en tiempo real es a través del paradigma "Prompt then detect". En lugar de codificar tu texto en cada ejecución, YOLO World utiliza CLIP para convertir el texto en incrustaciones y las guarda en caché. Esto evita la necesidad de codificación de texto en tiempo real y acelera aún más la velocidad de detección.

En el próximo apartado, te mostraré cómo usar YOLO World en Google Collab y te proporcionaré ejemplos de código para que puedas comenzar a experimentar tú mismo.

AMD Ryzen 7 6800H vs AMD Ryzen 7 7735HS: ¿Cuál es mejor?

¡Combo AM5 B650E & DDR5 en oferta! ¡No te pierdas esta oportunidad en Micro Center!