DIAMOND: Detalhes visuais são importantes no Atari e na difusão para modelagem de mundo

Foi em 2018, quando a ideia de aprendizado por reforço no contexto de um modelo de mundo de rede neural foi introduzida pela primeira vez, e brand, esse princípio elementary foi aplicado em modelos de mundo. Alguns dos modelos proeminentes que implementam aprendizado por reforço foram o framework Dreamer, que introduziu o aprendizado por reforço do espaço latente de um modelo de espaço de estado recorrente. O DreamerV2 demonstrou que o uso de latentes discretos pode resultar em erros de composição reduzidos, e o framework DreamerV3 foi capaz de atingir desempenho semelhante ao humano em uma série de tarefas em diferentes domínios com hiperparâmetros fixos.

Além disso, paralelos podem ser traçados entre modelos de geração de imagem e modelos de mundo, indicando que o progresso feito em modelos de visão generativa poderia ser replicado para beneficiar os modelos de mundo. Desde que o uso de transformadores em estruturas de processamento de linguagem pure ganhou popularidade, as estruturas DALL-E e VQGAN surgiram. As estruturas implementaram autocodificadores discretos para converter imagens em tokens discretos e foram capazes de construir modelos generativos de texto para imagem altamente poderosos e eficientes, alavancando as habilidades de modelagem de sequência dos transformadores autorregressivos. Ao mesmo tempo, os modelos de difusão ganharam força e, hoje, os modelos de difusão se estabeleceram como um paradigma dominante para geração de imagem de alta resolução. Devido às capacidades oferecidas pelos modelos de difusão e aprendizado por reforço, estão sendo feitas tentativas de combinar as duas abordagens, com o objetivo de aproveitar a flexibilidade dos modelos de difusão como modelos de trajetória, modelos de recompensa, planejadores e como política para aumento de dados no aprendizado por reforço offline.

Os modelos mundiais oferecem um método promissor para treinar agentes de aprendizado por reforço de forma segura e eficiente. Tradicionalmente, esses modelos usam sequências de variáveis latentes discretas para simular a dinâmica do ambiente. No entanto, essa compressão pode ignorar detalhes visuais cruciais para o aprendizado por reforço. Ao mesmo tempo, os modelos de difusão ganharam popularidade para geração de imagens, desafiando métodos tradicionais que usam latentes discretos. Inspirados por essa mudança, neste artigo, falaremos sobre o DIAMOND (DIffusion As a Mannequin Of eNvironment Desires), um agente de aprendizado por reforço treinado em um modelo mundial de difusão. Exploraremos as escolhas de design necessárias para tornar a difusão adequada para a modelagem mundial e mostraremos que detalhes visuais aprimorados levam a um melhor desempenho do agente. O DIAMOND outline um novo padrão no teste competitivo Atari 100k, alcançando uma pontuação média normalizada humana de 1,46, a mais alta para agentes treinados inteiramente em um modelo mundial.

Modelos de mundo ou modelos generativos de ambientes estão emergindo como um dos componentes mais importantes para agentes generativos planejarem e raciocinarem sobre seus ambientes. Embora o uso de aprendizado por reforço tenha alcançado sucesso considerável nos últimos anos, modelos que implementam aprendizado por reforço são conhecidos por serem ineficientes em termos de amostra, o que limita significativamente suas aplicações no mundo actual. Por outro lado, modelos de mundo demonstraram sua capacidade de treinar eficientemente agentes de aprendizado por reforço em diversos ambientes com uma eficiência de amostra significativamente melhorada, permitindo que o modelo aprenda com experiências do mundo actual. Estruturas recentes de modelagem de mundo geralmente modelam a dinâmica do ambiente como uma sequência de variáveis latentes discretas, com o modelo discretizando o espaço latente para evitar erros compostos em horizontes de tempo de várias etapas. Embora a abordagem possa fornecer resultados substanciais, ela também está associada a uma perda de informações, levando à perda da qualidade da reconstrução e à perda de generalidade. A perda de informações pode se tornar um obstáculo significativo para cenários do mundo actual que exigem que as informações sejam bem definidas, como o treinamento de veículos autônomos. Em tais tarefas, pequenas mudanças ou detalhes na entrada visible, como a cor do semáforo ou o indicador de direção do veículo da frente, podem mudar a política de um agente. Embora aumentar o número de latentes discretos possa ajudar a evitar perda de informações, isso reduz significativamente os custos de computação.

Além disso, nos últimos anos, modelos de difusão surgiram como a abordagem dominante para estruturas de geração de imagens de alta qualidade, uma vez que estruturas construídas em modelos de difusão aprendem a reverter um processo de ruído e competem diretamente com algumas das abordagens mais bem estabelecidas que modelam tokens discretos e, portanto, oferecem uma alternativa promissora para eliminar a necessidade de discretização na modelagem mundial. Modelos de difusão são conhecidos por sua capacidade de serem facilmente condicionados e de modelar de forma flexível distribuições complexas e multimodais sem colapso de modo. Esses atributos são cruciais para a modelagem mundial, pois o condicionamento permite que um modelo mundial reflita com precisão as ações de um agente, levando a uma atribuição de crédito mais confiável. Além disso, a modelagem de distribuições multimodais oferece uma maior diversidade de cenários de treinamento para o agente, aprimorando seu desempenho geral.

Com base nessas características, DIAMOND, (DIffusion As a Mannequin Of eNvironment Desires), um agente de aprendizado por reforço treinado em um modelo de mundo de difusão. A estrutura DIAMOND faz escolhas de design cuidadosas para garantir que seu modelo de mundo de difusão permaneça eficiente e estável em horizontes de tempo longos. A estrutura fornece uma análise qualitativa para demonstrar a importância dessas escolhas de design. DIAMOND outline um novo estado da arte com uma pontuação média normalizada humana de 1,46 no benchmark Atari 100k bem estabelecido, o mais alto para agentes treinados inteiramente em um modelo de mundo. Operar no espaço de imagem permite que o modelo de mundo de difusão do DIAMOND substitua perfeitamente o ambiente, oferecendo maiores insights sobre o modelo de mundo e os comportamentos do agente. Notavelmente, o desempenho aprimorado em certos jogos é atribuído à melhor modelagem de detalhes visuais críticos. A estrutura DIAMOND modela o ambiente como um POMDP padrão ou Processo de Decisão de Markov Parcialmente Observável com um conjunto de estados, um conjunto de ações discretas e um conjunto de observações de imagem. As funções de transição descrevem a dinâmica do ambiente, e a função de recompensa mapeia as transições para recompensas escalares. A função de observação descreve as probabilidades de observação e emite observações de imagem, que são então usadas pelos agentes para ver os ambientes, uma vez que eles não podem acessar diretamente os estados. O objetivo principal da abordagem period obter uma política que mapeasse observações para ações com a tentativa de maximizar o retorno de desconto esperado com um fator de desconto. Os modelos de mundo são modelos generativos do ambiente, e os modelos de mundo podem ser usados para criar ambientes simulados para treinar agentes de aprendizagem por reforço no ambiente actual e treinar agentes de aprendizagem por reforço no ambiente do modelo de mundo. A Figura 1 demonstra a imaginação que se desenrola da estrutura DIAMOND ao longo do tempo.

DIAMOND: Metodologia e Arquitetura

Em sua essência, os modelos de difusão são uma classe de modelos generativos que geram uma amostra revertendo o processo de ruído e se inspiram fortemente na termodinâmica de não equilíbrio. A estrutura DIAMOND considera um processo de difusão indexado por uma variável de tempo contínua com marginais e condições de contorno correspondentes com uma distribuição anterior não estruturada tratável. Além disso, para obter um modelo generativo, que mapeia do ruído para os dados, a estrutura DIAMOND deve reverter o processo, com o processo de reversão também sendo um processo de difusão, rodando para trás no tempo. Além disso, em qualquer ponto dado no tempo, não é trivial estimar a função de pontuação, uma vez que a estrutura DIAMOND não acessa a função de pontuação verdadeira, e o modelo supera esse obstáculo implementando o objetivo de correspondência de pontuação, uma abordagem que facilita uma estrutura para treinar um modelo de pontuação sem conhecer a função de pontuação subjacente. O modelo de difusão baseado em pontuação fornece um modelo generativo incondicional. No entanto, um modelo generativo condicional de dinâmica ambiental é necessário para servir como um modelo mundial, e para servir a esse propósito, a estrutura DIAMOND analisa o caso geral da abordagem POMDP, na qual a estrutura pode fazer uso de observações e ações passadas para aproximar o estado Markoviano desconhecido. Conforme demonstrado na Figura 1, a estrutura DIAMOND faz uso desse histórico para condicionar um modelo de difusão, para estimar e gerar a próxima observação diretamente. Embora a estrutura DIAMOND possa recorrer a qualquer solucionador SDE ou ODE em teoria, há uma compensação entre NFE ou Número de Avaliações de Funções e a qualidade da amostra que impacta significativamente o custo de inferência dos modelos de difusão.

Com base nos aprendizados acima, vamos agora olhar para a realização prática da estrutura DIAMOND de um modelo mundial baseado em difusão, incluindo os coeficientes de deriva e difusão correspondentes a uma escolha specific de abordagem de difusão. Em vez de optar por DDPM, um candidato naturalmente adequado para a tarefa, a estrutura DIAMOND se baseia na formulação EDM e considera um kernel de perturbação com uma função de tempo de difusão de valor actual chamada de cronograma de ruído. A estrutura seleciona os pré-condicionadores para manter a variância de entrada e saída para qualquer nível de voz. O treinamento de rede mistura sinal e ruído de forma adaptativa, dependendo do nível de degradação, e quando o ruído é baixo, o alvo se torna a diferença entre o sinal limpo e o perturbado, ou seja, o ruído gaussiano adicionado. Intuitivamente, isso evita que o objetivo do treinamento se torne trivial no regime de baixo ruído. Na prática, esse objetivo é alta variância nos extremos do cronograma de ruído, então o modelo amostra o nível de ruído de uma distribuição log-normal escolhida empiricamente para concatenar o treinamento em torno das regiões de ruído médio. O framework DIAMOND faz uso de um componente U-Web 2D padrão para o campo vetorial e mantém um buffer de observações e ações passadas que o framework usa para se condicionar. O framework DIAMOND então concatena essas observações passadas para a próxima observação ruidosa e ações de entrada por meio de camadas de normalização de grupo adaptáveis nos blocos residuais do U-Web.

DIAMOND: Experimentos e Resultados

Para uma avaliação abrangente, a estrutura DIAMOND opta pelo benchmark Atari 100k. O benchmark Atari 100k consiste em 26 jogos projetados para testar uma ampla gama de capacidades de agentes. Em cada jogo, um agente é limitado a 100 mil ações no ambiente, o que é aproximadamente equivalente a 2 horas de jogo humano, para aprender o jogo antes da avaliação. Para comparação, agentes Atari irrestritos normalmente treinam para 50 milhões de passos, representando um aumento de 500 vezes na experiência. Treinamos o DIAMOND do zero usando 5 sementes aleatórias para cada jogo. Cada execução de treinamento exigiu cerca de 12 GB de VRAM e levou aproximadamente 2,9 dias em uma única Nvidia RTX 4090, totalizando 1,03 anos de GPU no complete. A tabela a seguir fornece a pontuação para todos os jogos, a média e o IQM ou média interquartil das pontuações normalizadas por humanos.

Seguindo as limitações das estimativas pontuais, a estrutura DIAMOND fornece confiança bootstrap estratificada na média e no IQM ou média interquartil de pontuações normalizadas por humanos, juntamente com perfis de desempenho e métricas adicionais, conforme resumido na figura a seguir.

Os resultados mostram que o DIAMOND tem um desempenho excepcionalmente bom em todo o benchmark, superando jogadores humanos em 11 jogos e alcançando um HNS médio sobre-humano de 1,46, estabelecendo um novo recorde para agentes treinados inteiramente dentro de um modelo mundial. Além disso, o IQM do DIAMOND é comparável ao STORM e excede todas as outras linhas de base. O DIAMOND se destaca em ambientes onde capturar pequenos detalhes é essential, como Asterix, Breakout e RoadRunner. Além disso, conforme discutido anteriormente, a estrutura DIAMOND tem a flexibilidade de implementar qualquer modelo de difusão em seu pipeline, embora opte pela abordagem EDM, teria sido uma escolha pure optar pelo modelo DDPM, uma vez que já está sendo implementado em vários aplicativos geradores de imagem. Para comparar a abordagem EDM com a implementação DDPM, a estrutura DIAMOND treina ambas as variantes com a mesma arquitetura de rede no mesmo conjunto de dados estáticos compartilhados com mais de 100 mil quadros coletados com uma política especializada. O número de etapas de redução de ruído está diretamente relacionado ao custo de inferência do modelo mundial e, portanto, menos etapas reduzirão o custo de treinamento de um agente em trajetórias imaginadas. Para garantir que nosso modelo mundial permaneça computacionalmente comparável a outras linhas de base, como o IRIS, que requer 16 NFE por passo de tempo, pretendemos usar no máximo dezenas de etapas de redução de ruído, de preferência menos. No entanto, definir o número de etapas de redução de ruído muito baixo pode degradar a qualidade visible, levando a erros compostos. Para avaliar a estabilidade de diferentes variantes de difusão, exibimos trajetórias imaginadas geradas autorregressivamente até t = 1000 passos de tempo na figura a seguir, usando diferentes números de etapas de redução de ruído n ≤ 10.

Observamos que usar DDPM (a), neste regime, resulta em erros de composição severos, fazendo com que o modelo mundial saia rapidamente da distribuição. Em contraste, o modelo mundial de difusão baseado em EDM (b) permanece muito mais estável em horizontes de tempo longos, mesmo com uma única etapa de redução de ruído. Trajetórias imaginadas com modelos mundiais de difusão baseados em DDPM (esquerda) e EDM (direita) são mostradas. A observação inicial em t = 0 é a mesma para ambos, e cada linha corresponde a um número decrescente de etapas de redução de ruído n. Observamos que a geração baseada em DDPM sofre de erros de composição, com números menores de etapas de redução de ruído levando a um acúmulo de erro mais rápido. Em contraste, o modelo mundial baseado em EDM do DIAMOND permanece muito mais estável, mesmo para n = 1. A previsão ótima de etapa única é a expectativa sobre possíveis reconstruções para uma entrada ruidosa dada, que pode estar fora de distribuição se a distribuição posterior for multimodal. Enquanto alguns jogos, como Breakout, têm transições determinísticas que podem ser modeladas com precisão com uma única etapa de redução de ruído, outros jogos exibem observabilidade parcial, resultando em distribuições de observação multimodais. Nesses casos, um solucionador iterativo é necessário para guiar o procedimento de amostragem em direção a um modo específico, conforme ilustrado no jogo Boxing na figura a seguir. Consequentemente, o framework DIAMOND definiu n = 3 em todos os nossos experimentos.

A figura acima compara amostragem de etapa única (linha superior) e de várias etapas (linha inferior) no Boxe. Os movimentos do jogador preto são imprevisíveis, fazendo com que a redução de ruído de etapa única interpole entre os resultados possíveis, resultando em previsões borradas. Em contraste, a amostragem de várias etapas produz uma imagem clara ao guiar a geração em direção a um modo específico. Curiosamente, como a política controla o jogador branco, suas ações são conhecidas pelo modelo mundial, eliminando a ambiguidade. Assim, tanto a amostragem de etapa única quanto a de várias etapas preveem corretamente a posição do jogador branco.

Na figura acima, as trajetórias imaginadas pelo DIAMOND geralmente exibem maior qualidade visible e são mais fiéis ao ambiente actual em comparação com aquelas imaginadas pelo IRIS. As trajetórias geradas pelo IRIS contêm inconsistências visuais entre os quadros (destacadas por caixas brancas), como inimigos sendo exibidos como recompensas e vice-versa. Embora essas inconsistências possam afetar apenas alguns pixels, elas podem impactar significativamente o aprendizado por reforço. Por exemplo, um agente normalmente visa atingir recompensas e evitar inimigos, então essas pequenas discrepâncias visuais podem tornar mais desafiador aprender uma política ótima. A figura mostra quadros consecutivos imaginados com IRIS (esquerda) e DIAMOND (direita). As caixas brancas destacam inconsistências entre quadros, que só aparecem em trajetórias geradas com IRIS. Em Asterix (linha superior), um inimigo (laranja) se torna uma recompensa (vermelho) no segundo quadro, então reverte para um inimigo no terceiro, e novamente para uma recompensa no quarto. Em Breakout (linha do meio), os tijolos e a pontuação são inconsistentes entre os quadros. Em Street Runner (linha inferior), as recompensas (pequenos pontos azuis na estrada) são renderizadas inconsistentemente entre os quadros. Essas inconsistências não ocorrem com DIAMOND. Em Breakout, a pontuação é atualizada de forma confiável em +7 quando um tijolo vermelho é quebrado.

Conclusão

Neste artigo, falamos sobre o DIAMOND, um agente de aprendizado por reforço treinado em um modelo de mundo de difusão. A estrutura DIAMOND faz escolhas de design cuidadosas para garantir que seu modelo de mundo de difusão permaneça eficiente e estável em horizontes de tempo longos. A estrutura fornece uma análise qualitativa para demonstrar a importância dessas escolhas de design. O DIAMOND outline um novo estado da arte com uma pontuação normalizada humana média de 1,46 no benchmark Atari 100k bem estabelecido, o mais alto para agentes treinados inteiramente em um modelo de mundo. Operar no espaço de imagem permite que o modelo de mundo de difusão do DIAMOND substitua perfeitamente o ambiente, oferecendo maiores insights sobre o modelo de mundo e os comportamentos do agente. Notavelmente, o desempenho aprimorado em certos jogos é atribuído à melhor modelagem de detalhes visuais críticos. A estrutura DIAMOND modela o ambiente como um POMDP padrão ou Processo de Decisão de Markov Parcialmente Observável com um conjunto de estados, um conjunto de ações discretas e um conjunto de observações de imagem. As funções de transição descrevem a dinâmica do ambiente, e a função de recompensa mapeia as transições para recompensas escalares.

Unite AI Mobile Newsletter 1