Tech

YOLO-World: Detecção de objetos de vocabulário aberto em tempo real

A detecção de objetos tem sido um desafio basic na indústria de visão computacional, com aplicações em robótica, compreensão de imagens, veículos autônomos e reconhecimento de imagens. Nos últimos anos, o trabalho inovador em IA, especialmente através de redes neurais profundas, avançou significativamente na detecção de objetos. No entanto, estes modelos possuem um vocabulário fixo, limitado à detecção de objetos dentro das 80 categorias do conjunto de dados COCO. Esta limitação decorre do processo de treinamento, onde os detectores de objetos são treinados para reconhecer apenas categorias específicas, limitando assim a sua aplicabilidade.

Para superar isso, apresentamos o YOLO-World, uma abordagem inovadora que visa aprimorar a estrutura YOLO (You Solely Look As soon as) com recursos abertos de detecção de vocabulário. Isto é conseguido através do pré-treinamento da estrutura em conjuntos de dados de grande escala e da implementação de uma abordagem de modelagem de linguagem de visão. Especificamente, o YOLO-World emprega uma Rede de Agregação de Caminho de Visão-Linguagem Re-parametrizável (RepVL-PAN) e perda contrastiva de região-texto para promover a interação entre informações linguísticas e visuais. Por meio do RepVL-PAN e da perda contrastiva de texto de região, o YOLO-World pode detectar com precisão uma ampla variedade de objetos em uma configuração de tiro zero, mostrando desempenho notável em segmentação de vocabulário aberto e tarefas de detecção de objetos.

Este artigo tem como objetivo fornecer uma compreensão completa dos fundamentos técnicos, arquitetura de modelo, processo de treinamento e cenários de aplicação do YOLO-World. Vamos mergulhar.

YOLO ou You Solely Look As soon as é um dos métodos mais populares para detecção de objetos modernos na indústria de visão computacional. Conhecido pela sua incrível velocidade e eficiência, o advento do mecanismo YOLO revolucionou a forma como as máquinas interpretam e detectam objetos específicos em imagens e vídeos em tempo actual. As estruturas tradicionais de detecção de objetos implementam uma abordagem de detecção de objetos em duas etapas: na primeira etapa, a estrutura propõe regiões que podem conter o objeto e a estrutura classifica o objeto na próxima etapa. A estrutura YOLO, por outro lado, integra essas duas etapas em um único modelo de rede neural, uma abordagem que permite que a estrutura olhe para a imagem apenas uma vez para prever o objeto e sua localização dentro da imagem e, portanto, o nome YOLO ou Você Olhe apenas uma vez.

Além disso, a estrutura YOLO trata a detecção de objetos como um problema de regressão e prevê as probabilidades de classe e as caixas delimitadoras diretamente da imagem completa em uma única olhada. A implementação deste método não só aumenta a velocidade do processo de detecção, mas também melhora a capacidade do modelo de generalizar a partir de dados complexos e diversos, tornando-o uma escolha adequada para aplicações que operam em tempo actual, como condução autônoma, detecção de velocidade ou número. reconhecimento de placas. Além disso, o avanço significativo das redes neurais profundas nos últimos anos também contribuiu significativamente no desenvolvimento de estruturas de detecção de objetos, mas o sucesso das estruturas de detecção de objetos ainda é limitado, uma vez que são capazes de detectar objetos apenas com vocabulário limitado. Isso ocorre principalmente porque, uma vez definidas e rotuladas as categorias de objetos no conjunto de dados, os detectores treinados na estrutura são capazes de reconhecer apenas essas categorias específicas, limitando assim a aplicabilidade e a capacidade de implantação de modelos de detecção de objetos em cenários abertos e em tempo actual.

Seguindo em frente, modelos de linguagem de visão desenvolvidos recentemente empregam conhecimento de vocabulário destilado de codificadores de linguagem para abordar a detecção de vocabulário aberto. Embora essas estruturas tenham melhor desempenho do que os modelos tradicionais de detecção de objetos na detecção de vocabulário aberto, elas ainda têm aplicabilidade limitada devido à escassa disponibilidade de dados de treinamento com diversidade de vocabulário limitada. Além disso, estruturas selecionadas treinam detectores de objetos de vocabulário aberto em escala e categorizam detectores de objetos de treinamento como pré-treinamento de linguagem visible em nível de região. No entanto, a abordagem ainda tem dificuldades na detecção de objetos em tempo actual devido a dois motivos principais: processo complexo de implantação para dispositivos de borda e requisitos computacionais pesados. Do lado positivo, essas estruturas demonstraram resultados positivos no pré-treinamento de grandes detectores para empregá-los com capacidades de reconhecimento aberto.

A estrutura YOLO-World visa alcançar uma detecção altamente eficiente de objetos de vocabulário aberto e explorar a possibilidade de abordagens de pré-treinamento em larga escala para aumentar a eficiência dos detectores YOLO tradicionais para detecção de objetos de vocabulário aberto. Ao contrário dos trabalhos anteriores em detecção de objetos, a estrutura YOLO-World apresenta notável eficiência com altas velocidades de inferência e pode ser implantada em aplicações downstream com facilidade. O modelo YOLO-World segue a arquitetura YOLO tradicional e codifica textos de entrada aproveitando os recursos de um codificador de texto CLIP pré-treinado. Além disso, a estrutura YOLO-World inclui um componente Re-parameterizable Imaginative and prescient-Language Path Aggregation Community (RepVL-PAN) em sua arquitetura para conectar recursos de imagem e texto para representações visual-semânticas aprimoradas. Durante a fase de inferência, a estrutura take away o codificador de texto e parametriza novamente os embeddings de texto em pesos RepVL-PAN, resultando em uma implantação eficiente. A estrutura também inclui aprendizagem contrastiva de texto regional em sua estrutura para estudar métodos de pré-treinamento de vocabulário aberto para os modelos YOLO tradicionais. O método de aprendizagem contrastivo região-texto unifica dados de imagem-texto, dados de aterramento e dados de detecção em pares região-texto. Com base nisso, a estrutura YOLO-World pré-treinada em pares região-texto demonstra capacidades notáveis ​​para detecção de vocabulário amplo e aberto. Além disso, a estrutura YOLO-World também explora um paradigma de alertar e detectar com o objetivo de aumentar a eficiência da detecção de objetos de vocabulário aberto em cenários do mundo actual e em tempo actual.

Conforme demonstrado na imagem a seguir, os detectores de objetos tradicionais concentram-se na detecção de vocabulário fixo com categorias predefinidas, enquanto os detectores de vocabulário aberto detectam objetos codificando prompts do usuário com codificadores de texto para vocabulário aberto. Em comparação, a abordagem de alerta e detecção do YOLO-World primeiro constrói um vocabulário off-line (vocabulário variado para necessidades variadas) codificando os prompts do usuário, permitindo que os detectores interpretem o vocabulário off-line em tempo actual sem ter que recodificar os prompts.

YOLO-World: Método e Arquitetura

Pares Região-Texto

Tradicionalmente, as estruturas de detecção de objetos, incluindo a família YOLO de detectores de objetos, são treinadas usando anotações de instância que contêm rótulos de categoria e caixas delimitadoras. Em contraste, a estrutura YOLO-World reformula as anotações de instância como pares região-texto onde o texto pode ser a descrição do objeto, sintagmas nominais ou nome da categoria. Vale ressaltar que o framework YOLO-World adota tanto os textos quanto as imagens como caixas previstas de entrada e saída com seus correspondentes embeddings de objetos.

Arquitetura do modelo

Em sua essência, o modelo YOLO-World consiste em um codificador de texto, um detector YOLO e o componente Re-parameterizable Imaginative and prescient-Language Path Aggregation Community (RepVL-PAN), conforme ilustrado na imagem a seguir.

2 1

Para um texto de entrada, o componente codificador de texto codifica o texto em incorporações de texto seguido pela extração de recursos multiescala da imagem de entrada pelos detectores de imagem no componente detector YOLO. O componente Re-parameterizable Imaginative and prescient-Language Path Aggregation Community (RepVL-PAN) explora a fusão de modalidades cruzadas entre o texto e os embeddings de recursos para aprimorar as representações de texto e imagem.

Detector YOLO

O modelo YOLO-World é construído sobre a estrutura YOLOv8 existente que contém um componente spine Darknet como seu codificador de imagem, um cabeçote para incorporação de objetos e regressão de caixa delimitadora e um PAN ou Path Aggression Community para pirâmides de recursos em várias escalas.

Codificador de texto

Para um determinado texto, o modelo YOLO-World extrai os embeddings de texto correspondentes, adotando um codificador de texto CLIP Transformer pré-treinado com um certo número de substantivos e dimensão de incorporação. A principal razão pela qual a estrutura YOLO-World adota um codificador de texto CLIP é porque ele oferece melhor desempenho visual-semântico para conectar textos com objetos visuais, superando significativamente os codificadores tradicionais de linguagem somente de texto. No entanto, se o texto de entrada for uma legenda ou uma expressão de referência, o modelo YOLO-World opta por um algoritmo de n-gramas mais simples para extrair as frases. Essas frases são então alimentadas no codificador de texto.

Cabeça contrastante de texto

A cabeça desacoplada é um componente utilizado por modelos anteriores de detecção de objetos, e a estrutura YOLO-World adota uma cabeça desacoplada com convoluções duplas 3×3 para regredir incorporações de objetos e caixas delimitadoras para um número fixo de objetos. A estrutura YOLO-World emprega uma cabeça contrastiva de texto para obter a similaridade objeto-texto usando a abordagem de normalização L2 e incorporações de texto. Além disso, o modelo YOLO-World também emprega a abordagem de transformação afim com um fator de mudança e um fator de escala que pode ser aprendido, com a normalização L2 e a transformação afim aumentando a estabilidade do modelo durante o treinamento de texto regional.

Treinamento de vocabulário on-line

Durante a fase de treinamento, o modelo YOLO-World constrói um vocabulário on-line para cada amostra de mosaico composto por 4 imagens cada. O modelo coleta amostras de todos os substantivos positivos incluídos nas imagens do mosaico e coleta amostras aleatórias de alguns substantivos negativos do conjunto de dados correspondente. O vocabulário para cada amostra consiste em no máximo n substantivos, sendo o valor padrão 80.

Inferência de vocabulário offline

Durante a inferência, o modelo YOLO-World apresenta uma estratégia de alertar e detectar com vocabulário offline para aumentar ainda mais a eficiência do modelo. O usuário primeiro outline uma série de prompts personalizados que podem incluir categorias ou até legendas. O modelo YOLO-World obtém então incorporações de vocabulário offline utilizando o codificador de texto para codificar esses prompts. Como resultado, o vocabulário offline para inferência ajuda o modelo a evitar cálculos para cada entrada e também permite que o modelo ajuste o vocabulário de forma flexível de acordo com os requisitos.

Rede de agressão de caminho de linguagem de visão re-parametrizável (RevVL-PAN)

A figura a seguir ilustra a estrutura da Rede de Agressão de Caminho de Visão-Linguagem Reparametrizável proposta que segue os caminhos de cima para baixo e de baixo para cima para estabelecer a pirâmide de recursos com imagens de recursos em múltiplas escalas.

3 1

Para melhorar a interação entre recursos de texto e imagem, o modelo YOLO-World propõe uma Atenção de Pool de Imagens e um CSPLayer guiado por Texto (Cross-Stage Partial Layers) com o objetivo last de melhorar as representações semânticas visuais para capacidades de vocabulário aberto. Durante a inferência, o modelo YOLO-World parametriza novamente as incorporações de vocabulário offline nos pesos das camadas lineares ou convolucionais para uma implantação eficaz.

Como pode ser visto na figura acima, o modelo YOLO-World utiliza o CSPLayer após a fusão de cima para baixo ou de baixo para cima e incorpora orientação de texto em recursos de imagem em várias escalas, formando o CSPLayer guiado por texto, estendendo assim o CSPLayer. Para qualquer recurso de imagem e sua incorporação de texto correspondente, o modelo adota a atenção max-sigmóide após o último bloco de gargalo para agregar recursos de texto em recursos de imagem. O recurso de imagem atualizado é então concatenado com os recursos de estágio cruzado e é apresentado como saída.

Seguindo em frente, o modelo YOLO-World agrega recursos de imagem para atualizar a incorporação de texto, introduzindo a camada Picture Pooling Consideration para aprimorar a incorporação de texto com informações de reconhecimento de imagem. Em vez de usar a atenção cruzada diretamente nos recursos da imagem, o modelo aproveita o pooling máximo em recursos multiescala para obter regiões 3×3, resultando em 27 tokens de patch com o modelo atualizando os embeddings de texto na próxima etapa.

Esquemas de pré-treinamento

O modelo YOLO-World segue dois esquemas primários de pré-treinamento: Aprendizagem com perda contrastiva região-texto e pseudo-rotulagem com dados de imagem-texto. Para o esquema primário de pré-treinamento, o modelo gera previsões de objetos junto com anotações para um determinado texto e amostras de mosaico. A estrutura YOLO-World combina as previsões com anotações verdadeiras, seguindo e aproveitando a atribuição de rótulos atribuídos à tarefa, e atribui previsões positivas individuais com um índice de texto que serve como rótulo de classificação. Por outro lado, o esquema de pré-treinamento de Pseudo Rotulagem com Dados de Imagem-Texto propõe o uso de uma abordagem de rotulagem automatizada em vez de usar pares imagem-texto para gerar pares região-texto. A abordagem de rotulagem proposta consiste em três etapas: extrair frases nominais, pseudo-rotulagem e filtragem. A primeira etapa utiliza o algoritmo n-gram para extrair sintagmas nominais do texto de entrada, a segunda etapa adota um detector de vocabulário aberto pré-treinado para gerar pseudocaixas para um determinado sintagma nominal para imagens individuais, enquanto a terceira e última etapa emprega uma estrutura CLIP pré-treinada para avaliar a relevância dos pares região-texto e texto-imagem, após o que o modelo filtra pseudoimagens e anotações de baixa relevância.

YOLO-Mundo: Resultados

Uma vez pré-treinado, o modelo YOLO-World é avaliado diretamente no conjunto de dados LVIS em uma configuração zero-shot, com o conjunto de dados LVIS consistindo em mais de 1.200 categorias, significativamente mais do que os conjuntos de dados de pré-treinamento usados ​​pelas estruturas existentes para teste seu desempenho na detecção de grande vocabulário. A figura a seguir demonstra o desempenho da estrutura YOLO-World com algumas das estruturas de detecção de objetos de última geração existentes no conjunto de dados LVIS em uma configuração zero-shot.

4 1

Como pode ser observado, a estrutura YOLO-World supera a maioria das estruturas existentes em termos de velocidades de inferência e desempenho zero-shot, mesmo com estruturas como Grounding DINO, GLIP e GLIPv2 que incorporam mais dados. No geral, os resultados demonstram que modelos de detecção de pequenos objetos como o YOLO-World-S, com apenas 13 milhões de parâmetros, podem ser utilizados para pré-treinamento em tarefas de linguagem visible com notáveis ​​capacidades de vocabulário aberto.

Pensamentos finais

Neste artigo, falamos sobre YOLO-World, uma abordagem inovadora que visa aprimorar as habilidades da estrutura YOLO ou You Solely Look As soon as com recursos de detecção de vocabulário aberto, pré-treinando a estrutura em conjuntos de dados em grande escala e implementando o abordagem de modelagem de linguagem de visão. Para ser mais específico, a estrutura YOLO-World propõe implementar uma Rede de Agregação de Caminho de Linguagem de Visão Re-parametrizável ou RepVL-PAN juntamente com perda contrastiva de texto de região para facilitar uma interação entre a informação linguística e visible. Ao implementar RepVL-PAN e perda contrastiva de texto de região, a estrutura YOLO-World é capaz de detectar com precisão e eficácia uma ampla gama de objetos em uma configuração de disparo zero.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button