YOLO-World: Detección de Objetos en Tiempo Real Explicada

Find AI Tools
No difficulty
No complicated process
Find ai tools

YOLO-World: Detección de Objetos en Tiempo Real Explicada

Contenido

  1. Introducción
  2. ¿Qué es YOLO World?
  3. Arquitectura de YOLO World
  4. Problemas con los modelos de detección de objetos tradicionales
  5. Los desafíos de los detectores de cero disparo
  6. YOLO World vs. Grounding DYO
  7. Cómo usar YOLO World en Google Collab
  8. Ejemplos de código
  9. Mejorando la precisión de las detecciones
  10. Procesamiento de videos con YOLO World
  11. Limitaciones y recomendaciones de uso
  12. Futuras aplicaciones de YOLO World

YOLO World: Un Detector de Objetos de Cero Disparo más Rápido y Preciso 🚀

Con cada vez más aplicaciones que requieren detectar objetos en tiempo real, la búsqueda de modelos más rápidos y precisos se ha vuelto fundamental. ¿Qué pasaría si te dijera que hay un modelo capaz de detectar objetos sin necesidad de entrenamiento? Y lo que es aún mejor, ¡puede funcionar en tiempo real! En este artículo, te presentaré YOLO World, un detector de objetos de cero disparo que se dice es 20 veces más rápido que sus predecesores. Discutiremos su arquitectura, las razones detrás de su velocidad y, sobre todo, te mostraré cómo ejecutarlo en Google Collab para procesar imágenes y videos.

Introducción

Los modelos tradicionales de detección de objetos, como Faster R-CNN, SSD o YOLO, están diseñados para detectar objetos dentro de un conjunto predefinido de categorías. Por ejemplo, los modelos entrenados en conjuntos de datos de Coco están limitados a 80 categorías. Si deseas que un modelo detecte nuevos objetos, necesitarías crear un nuevo conjunto de datos con imágenes que representen los objetos que deseas detectar, anotarlos y entrenar tu detector. Esto, por supuesto, lleva tiempo y es costoso.

Ante esta limitación, los investigadores comenzaron a desarrollar modelos de vocabulario abierto. Hace menos de un año te mostré Grounding DYO, un detector de objetos de cero disparo que en ese momento me dejó impresionado y, para ser honesto, todavía me sorprenden sus capacidades. Todo lo que necesitas hacer es proporcionar una lista de clases que deseas buscar al modelo, ¡y eso es todo! No se requiere entrenamiento.

Sin embargo, el inconveniente de Grounding DYO era su velocidad. Tardaba alrededor de 1 segundo en procesar una imagen individual, lo cual está bien si no te importa la latencia, pero bastante lento si estás pensando en procesar transmisiones de video en vivo.

Y eso nos lleva a YOLO World, un detector de objetos de cero disparo que, según el paper, es igual de preciso y 20 veces más rápido que sus predecesores.

Arquitectura de YOLO World

YOLO World consta de tres partes clave: el detector YOLO, el codificador de texto y las redes personalizadas que realizan una fusión multimodal a nivel multinivel entre las características de la imagen y las incrustaciones de texto. Una de las razones por las que YOLO World es tan rápido es que utiliza una red neuronal convolucional más ligera y rápida como su columna vertebral.

La forma en que YOLO World aborda la necesidad de un texto en tiempo real es a través del paradigma "Prompt then detect". En lugar de codificar tu texto en cada ejecución, YOLO World utiliza CLIP para convertir el texto en incrustaciones y las guarda en caché. Esto evita la necesidad de codificación de texto en tiempo real y acelera aún más la velocidad de detección.

En el próximo apartado, te mostraré cómo usar YOLO World en Google Collab y te proporcionaré ejemplos de código para que puedas comenzar a experimentar tú mismo.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.