YOLO-World: Detecção de Objetos em Tempo Real Sem Treinamento

Find AI Tools
No difficulty
No complicated process
Find ai tools

YOLO-World: Detecção de Objetos em Tempo Real Sem Treinamento

Título: YOLO World: Um Detector de Objetos de Visão Computacional de Zero-Shot 20x Mais Rápido

Índice

  • Introdução
  • A Era dos Modelos de Detecção de Objetos Tradicionais
  • Limitações dos Modelos de Detecção de Objetos Tradicionais
  • A Era dos Modelos de Vocabulário Aberto
  • Apresentando o YOLO World: Um Detector de Objetos de Visão Computacional de Zero-Shot 20x Mais Rápido
  • Arquitetura do YOLO World
  • O Conceito do Prompt-then-Detect no YOLO World
  • Executando o YOLO World com GPU Acelerada pelo Google Colab
  • Ajustando Parâmetros para Melhorar os Resultados do YOLO World
  • Aplicando o YOLO World para Vídeos e Filmes
  • Comparando o YOLO World com Modelos Tradicionais de Detecção de Objetos
  • Conclusão

YOLO World: Um Detector de Objetos de Visão Computacional de Zero-Shot 20x Mais Rápido

A detecção de objetos na visão computacional é uma área fascinante em constante evolução. Até recentemente, os modelos de detecção de objetos tradicionais exigiam treinamento em um conjunto de dados pré-definido, o que limitava a capacidade de detectar novos objetos. No entanto, pesquisadores desenvolveram modelos de vocabulário aberto, como o YOLO World, que são capazes de detectar objetos sem a necessidade de treinamento prévio.

Introdução

Você já imaginou um modelo capaz de detectar objetos sem a necessidade de treinamento? Pois é exatamente isso que o YOLO World oferece. Esse detector de objetos de visão computacional de zero-shot é 20 vezes mais rápido do que seus predecessores e tem se mostrado surpreendentemente preciso. Neste artigo, vamos explorar a arquitetura do YOLO World, discutir as razões por trás de sua velocidade e aprender a executá-lo no Google Colab para processar imagens e vídeos.

A Era dos Modelos de Detecção de Objetos Tradicionais

Antes de mergulharmos no YOLO World, é importante entender como funcionam os modelos de detecção de objetos tradicionais. Esses modelos, como Faster R-CNN, SSD e YOLO, são projetados para detectar objetos dentro de um conjunto pré-definido de categorias. Por exemplo, modelos treinados no conjunto de dados Coco estão limitados a detectar apenas 80 categorias.

Limitações dos Modelos de Detecção de Objetos Tradicionais

A principal limitação dos modelos de detecção de objetos tradicionais é a necessidade de treinamento em um conjunto de dados específico. Se desejamos que um modelo detecte novos objetos, é preciso criar um novo conjunto de dados com imagens desses objetos, realizar a anotação das imagens e treinar o detector. Esse processo é demorado e caro.

A Era dos Modelos de Vocabulário Aberto

Em resposta a essa limitação, pesquisadores começaram a desenvolver modelos de vocabulário aberto. Há cerca de um ano, o modelo Grounding DYO foi introduzido, um detector de objetos de zero-shot que impressionou muitas pessoas, incluindo eu. Com o Grounding DYO, tudo o que você precisa fazer é informar o modelo quais classes você está procurando sem a necessidade de treinamento.

Apresentando o YOLO World: Um Detector de Objetos de Visão Computacional de Zero-Shot 20x Mais Rápido

O YOLO World é um detector de objetos de imagens desenvolvido para alcançar a mesma precisão dos modelos tradicionais, mas com 20 vezes mais velocidade. Segundo o artigo que descreve o modelo, o YOLO World é igualmente preciso e 20 vezes mais rápido do que seus predecessores. Isso é um avanço significativo na área de detecção de objetos de zero-shot.

Arquitetura do YOLO World

O YOLO World é composto por três partes principais: o detector YOLO, o codificador de texto e as redes customizadas para fusão entre características de imagem e incorporação de texto. O YOLO detector extrai características multiescala da imagem de entrada, enquanto o codificador de texto converte o texto em incorporações de texto. A fusão entre características de imagem e incorporação de texto é realizada por meio de uma rede customizada.

O Conceito do Prompt-then-Detect no YOLO World

Para evitar a necessidade de codificação de texto em tempo real, o YOLO World utiliza o paradigma Prompt then Detect. Esse paradigma usa o conjunto de dados CLIP para converter o texto em incorporações de texto, que são armazenadas em cache e reutilizadas a cada inferência. Isso elimina a necessidade de codificação de texto em tempo real, tornando o processo mais rápido e eficiente.

Executando o YOLO World com GPU Acelerada pelo Google Colab

Para executar o YOLO World, podemos aproveitar a aceleração de GPU oferecida pelo Google Colab. Primeiro, precisamos garantir que o ambiente de execução esteja acelerado por GPU. Podemos fazer isso executando o comando "Nvidia SMI" e verificando as informações sobre a versão do CUDA e a placa gráfica instalada.

Ajustando Parâmetros para Melhorar os Resultados do YOLO World

Para obter os melhores resultados com o YOLO World, é importante ajustar alguns parâmetros. Podemos definir as classes que queremos detectar usando o método "set_classes" do YOLO World, especificando a lista de classes desejadas. Além disso, é possível ajustar o limiar de confiança para os resultados de detecção e otimizar as visualizações das detecções.

Aplicando o YOLO World para Vídeos e Filmes

O YOLO World brilha especialmente quando processamos vídeos e filmes. Segundo o artigo, ele consegue alcançar até 50 FPS em uma GPU Nvidia V100. Durante os experimentos, foram obtidos 15 FPS em uma GPU Nvidia T4, uma alternativa mais acessível. O processo de transição do processamento de uma única imagem para o processamento de vídeos é bastante simples. Basta iterar sobre cada frame do vídeo e executar a inferência para cada um deles.

Comparando o YOLO World com Modelos Tradicionais de Detecção de Objetos

Embora o YOLO World seja 20 vezes mais rápido do que seus predecessores, ainda existem vários cenários em que modelos treinados em conjuntos de dados personalizados são preferíveis. O YOLO World é menos preciso e confiável do que modelos treinados em conjuntos de dados personalizados. Além disso, ainda há problemas de latência em comparação com os modelos de detecção de objetos em tempo real mais recentes.

Conclusão

O YOLO World é um avanço significativo na área de detecção de objetos de zero-shot. Ele permite que detectemos objetos sem a necessidade de treinamento prévio, oferecendo uma excelente velocidade de processamento. No entanto, é importante ter em mente suas limitações e considerar modelos treinados em conjuntos de dados personalizados quando necessário. O YOLO World abre portas para novas aplicações, como processamento de vídeo com vocabulário aberto, mas ainda há espaço para melhorias e refinamentos futuros.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.