Tech

OpenVoice: clonagem instantânea versátil de voz

Na síntese de texto para fala (TTS), a clonagem instantânea de voz (IVC) permite que o padrão TTS clone a voz de qualquer locutor de referência usando uma pequena modelo de áudio, sem exigir treinamento suplementar para o locutor de referência. Essa técnica também é conhecida uma vez que Síntese de conversão de texto em fala Zero-Shot. A abordagem de Clonagem Instantânea de Voz permite a personalização maleável da voz gerada e demonstra valor significativo em uma ampla gama de situações do mundo real, incluindo chatbots personalizados, geração de teor e interações entre humanos e Large Language Models (LLMs).

Embora as atuais estruturas de clonagem de voz façam muito o seu trabalho, elas estão repletas de alguns desafios no campo, incluindo Controle maleável de estilo de voz ou seja, os modelos não têm a capacidade de manipular estilos de voz de forma maleável posteriormente a clonagem da voz. Outro grande tropeço encontrado pelas atuais estruturas de clonagem instantânea é Clonagem de voz multilíngue Zero-Shot ou seja, para fins de treinamento, os modelos atuais exigem aproximação a um extenso conjunto de dados multilíngues ou MSML de falantes massivos, independentemente do linguagem.

Para resolver esses problemas e contribuir para o aprimoramento dos modelos de clonagem instantânea de voz, os desenvolvedores trabalharam no OpenVoice, uma estrutura versátil de clonagem instantânea de voz que replica a voz de qualquer usuário e gera fala em vários idiomas usando um pequeno clipe de áudio do locutor de referência. . OpenVoice demonstra que os modelos de clonagem instantânea de voz podem replicar a cor do tom do locutor de referência e obter controle granular sobre estilos de voz, incluindo sotaque, ritmo, entonação, pausas e até emoções. O que é mais impressionante é que a estrutura OpenVoice também demonstra capacidades notáveis ​​na obtenção de clonagem de voz multilíngue de disparo zero para idiomas externos ao conjunto de dados MSML, permitindo que o OpenVoice clone vozes em novos idiomas sem extenso pré-treinamento para esse linguagem. O OpenVoice consegue fornecer resultados superiores de clonagem de voz instantânea e, ao mesmo tempo, ser computacionalmente viável, com custos operacionais até 10 vezes menores que as APIs atualmente disponíveis com desempenho subordinado.

Neste cláusula, falaremos detalhadamente sobre a estrutura OpenVoice e descobriremos sua arquitetura que permite oferecer desempenho superior em tarefas instantâneas de clonagem de voz. Logo vamos iniciar.

Conforme mencionado anteriormente, a Clonagem Instantânea de Voz, também conhecida uma vez que Zero-Shot Text to Speech Synthesis, permite que o padrão TTS clone a voz de qualquer locutor de referência usando uma pequena modelo de áudio sem a urgência de qualquer treinamento suplementar para o locutor de referência. A clonagem instantânea de voz sempre foi um tópico de pesquisa importante com trabalhos existentes, incluindo estruturas XTTS e VALLE que extraem a incorporação de alto-falante e/ou tokens acústicos do áudio de referência que serve uma vez que exigência para o padrão auto-regressivo. O padrão auto-regressivo gera tokens acústicos sequencialmente e decodifica esses tokens em uma forma de vaga de áudio bruta.

Embora os modelos auto-regressivos de clonagem instantânea de voz clonem notavelmente a cor do tom, eles falham na manipulação de outros parâmetros de estilo, incluindo sotaque, emoção, pausas e ritmo. Ou por outra, os modelos auto-regressivos também apresentam baixa velocidade de inferência e seus custos operacionais são bastante elevados. As abordagens existentes, uma vez que a estrutura YourTTS, empregam uma abordagem não autorregressiva que demonstra uma fala de inferência significativamente mais rápida em relação às estruturas de abordagem autorregressiva, mas ainda são incapazes de fornecer a seus usuários um controle maleável sobre os parâmetros de estilo. Ou por outra, as estruturas de clonagem instantânea de voz baseadas em autoregressão e não autorregressiva precisam de aproximação a um grande conjunto de dados MSML ou multilíngue de alto-falante para clonagem de voz multilíngue.

Para enfrentar os desafios enfrentados pelas atuais estruturas de clonagem instantânea de voz, os desenvolvedores trabalharam no OpenVoice, uma livraria de código desobstruído de clonagem instantânea de voz que visa resolver os seguintes desafios enfrentados pelas atuais estruturas IVC.

  1. O primeiro duelo é permitir que as estruturas IVC tenham controle maleável sobre os parâmetros de estilo, além da cor do tom, incluindo acento, ritmo, entonação e pausas. Os parâmetros de estilo são cruciais para gerar conversas e fala naturais no contexto, em vez de narrar o texto de ingressão monotonamente.
  2. O segundo duelo é permitir que as estruturas IVC clonem vozes multilíngues em um envolvente zero-shot.
  3. O duelo final é compreender altas velocidades de inferência em tempo real sem estragar a qualidade.

Para enfrentar os dois primeiros obstáculos, a arquitetura da estrutura OpenVoice foi projetada de forma a desacoplar os componentes da voz da melhor maneira verosímil. Ou por outra, o OpenVoice gera tons, idiomas e outros recursos de voz de forma independente, permitindo que a estrutura manipule com flexibilidade tipos de linguagem e estilos de voz individuais. A estrutura OpenVoice aborda o terceiro duelo por padrão, pois a estrutura desacoplada reduz a dificuldade computacional e os requisitos de tamanho do padrão.

OpenVoice: Metodologia e Arquitetura

A estrutura técnica do OpenVoice é eficiente e surpreendentemente simples de implementar. Não é nenhum sigilo que clonar a cor do tom de qualquer alto-falante, somar novo linguagem e permitir o controle maleável dos parâmetros de voz simultaneamente pode ser um duelo. Isso ocorre porque a realização dessas três tarefas simultaneamente requer que os parâmetros controlados se cruzem usando uma grande segmento de conjuntos de dados combinatórios. Ou por outra, na síntese regular de texto para fala de um único locutor, para tarefas que não exigem clonagem de voz, é mais fácil somar controle sobre outros parâmetros de estilo. Com base nisso, a estrutura OpenVoice visa desacoplar as tarefas de Clonagem Instantânea de Voz em subtarefas. O padrão propõe usar um padrão Text to Speech de alto-falante essencial para controlar os parâmetros de linguagem e estilo, e emprega um conversor de cores de tons para incluir a cor de tons de referência na voz gerada. A figura a seguir demonstra a arquitetura da estrutura.

Em sua origem, a estrutura OpenVoice emprega dois componentes: um conversor de tons e cores e um padrão base de texto para fala ou TTS do locutor. O padrão de conversão de texto em fala do locutor base é um padrão de alto-falante único ou de vários alto-falantes, permitindo controle preciso sobre parâmetros de estilo, linguagem e sotaque. O padrão gera uma voz que é portanto passada para o conversor de tons, que altera a cor do tom do alto-falante base para a cor do tom do alto-falante de referência.

A estrutura OpenVoice oferece muita flexibilidade quando se trata do padrão base de texto para fala do locutor, uma vez que pode empregar o padrão VITS com pequenas modificações, permitindo admitir incorporações de linguagem e estilo em seu preditor de duração e codificador de texto. A estrutura também pode empregar modelos uma vez que o Microsoft TTS, que são comercialmente baratos, ou pode implantar modelos uma vez que o InstructTTS, que são capazes de admitir prompts de estilo. Por enquanto, a estrutura OpenVoice emprega o padrão VITS, embora os outros modelos também sejam uma opção viável.

Chegando ao segundo componente, o Tone Color Metamorfosear é um componente codificador-decodificador que abriga um fluxo de normalização invertível no núcleo. O componente codificador no conversor de tom e cor é uma CNN unidimensional que aceita o espectro transformado de Fourier de limitado prazo do padrão de texto para fala do falante base uma vez que sua ingressão. O codificador portanto gera mapas de recursos uma vez que saída. O extrator de cor de tom é uma CNN bidimensional simples que opera no espectrograma mel da voz de ingressão e gera um único vetor de características uma vez que saída que codifica a informação da cor de tom. As camadas de fluxo de normalização aceitam os mapas de recursos gerados pelo codificador uma vez que ingressão e geram uma representação de recursos que preserva todas as propriedades de estilo, mas elimina as informações de cor de tom. A estrutura OpenVoice portanto aplica as camadas de fluxo de normalização na direção inversa e toma as representações de recursos uma vez que ingressão e saída das camadas de fluxo de normalização. A estrutura portanto decodifica as camadas de fluxo de normalização em formas de vaga brutas usando uma rima de convoluções unidimensionais transpostas.

Toda a arquitetura da estrutura OpenVoice é alimentada sem o uso de qualquer componente auto-regressivo. O componente conversor de tons e cores é semelhante à conversão de voz em um nível conceitual, mas difere em termos de funcionalidade, objetivos de treinamento e um viés indutivo na estrutura do padrão. As camadas de fluxo de normalização compartilham a mesma estrutura dos modelos de texto para fala baseados em fluxo, mas diferem em termos de funcionalidade e objetivos de treinamento.

Ou por outra, existe uma abordagem dissemelhante para extrair representações de recursos, o método implementado pela estrutura OpenVoice oferece melhor qualidade de áudio. Também vale a pena notar que a estrutura OpenVoice não tem intenção de inventar componentes na arquitetura do padrão, em vez disso, ambos os componentes principais, ou seja, o conversor de tom e cor e o padrão TTS do alto-falante base, são ambos provenientes de trabalhos existentes. O objetivo principal da estrutura OpenVoice é formar uma estrutura dissociada que separe o controle de linguagem e o estilo de voz da clonagem de tons e cores. Embora a abordagem seja bastante simples, ela é bastante eficiente, mormente em tarefas que controlam estilos e sotaques, ou tarefas de generalização de novidade linguagem. Obter o mesmo controle ao empregar uma estrutura acoplada requer uma grande quantidade de computação e dados, e não pode ser generalizado muito para novas linguagens.

Basicamente, a filosofia principal da estrutura OpenVoice é dissociar a geração de linguagem e estilos de voz da geração de tons e cores. Um dos principais pontos fortes da estrutura OpenVoice é que a voz do clone é fluente e de subida qualidade, desde que o TTS de alto-falante único fale fluentemente.

OpenVoice: experimento e resultados

Calcular tarefas de clonagem de voz é um objetivo difícil por vários motivos. Para iniciar, os trabalhos existentes muitas vezes empregam diferentes dados de treinamento e teste, o que torna a conferência desses trabalhos intrinsecamente injusta. Embora o crowdsourcing possa ser usado para julgar métricas uma vez que Mean Opinion Score, a dificuldade e a heterogeneidade dos dados do teste influenciarão significativamente o resultado universal. Em segundo lugar, diferentes métodos de clonagem de voz têm diferentes dados de treinamento, e a heterogeneidade e a graduação desses dados influenciam significativamente os resultados. Finalmente, o objectivo principal das obras existentes difere frequentemente entre si, pelo que diferem na sua funcionalidade.

Devido às três razões mencionadas supra, é injusto confrontar numericamente as estruturas existentes de clonagem de voz. Em vez disso, faz muito mais sentido confrontar estes métodos qualitativamente.

Clonagem precisa de cores de tons

Para investigar seu desempenho, os desenvolvedores constroem um conjunto de testes com indivíduos anônimos, personagens de jogos e celebridades que formam a base de alto-falantes de referência e tem uma ampla distribuição de voz, incluindo amostras neutras e vozes expressivas únicas. A estrutura OpenVoice é capaz de clonar a cor do tom de referência e gerar fala em vários idiomas e sotaques para qualquer um dos falantes de referência e os 4 alto-falantes base.

3

Controle maleável em estilos de voz

Um dos objetivos da estrutura OpenVoice é controlar os estilos de fala de maneira maleável usando o conversor de tons e cores que pode modificar o tom da cor enquanto preserva todos os outros recursos e propriedades da voz.

Experimentos indicam que o padrão preserva os estilos de voz posteriormente a conversão para a cor do tom de referência. Em alguns casos, porém, o padrão neutraliza ligeiramente as emoções, um problema que pode ser resolvido passando menos informações para as camadas de fluxo, de modo que elas não consigam se livrar da emoção. A estrutura OpenVoice é capaz de preservar os estilos da voz base graças ao uso de um conversor de tons e cores. Ele permite que a estrutura OpenVoice manipule o padrão base de texto em fala do locutor para controlar facilmente os estilos de voz.

2

Clone de voz multilíngue

A estrutura OpenVoice não inclui dados de falantes massivos para um linguagem incógnito, mas é capaz de obter clonagem de voz quase interlingual em uma formato zero-shot. Os recursos de clonagem de voz multilíngue da estrutura OpenVoice são duplos:

  1. O padrão é capaz de clonar a cor do tom do falante de referência com precisão quando o linguagem do falante de referência não é visto no conjunto de dados multilíngue ou MSML de vários alto-falantes.
  2. Ou por outra, no mesmo caso em que o linguagem do locutor de referência não seja visto, a estrutura OpenVoice é capaz de clonar a voz do locutor de referência e falar no linguagem, desde que o padrão de texto para fala do locutor base suporte o linguagem.

Pensamentos finais

Neste cláusula falamos sobre o OpenVoice, uma estrutura versátil de clonagem instantânea de voz que replica a voz de qualquer usuário e gera fala em vários idiomas usando um pequeno clipe de áudio do locutor de referência. A principal percepção por trás do OpenVoice é que, desde que um padrão não precise realizar a clonagem da cor do tom do locutor de referência, uma estrutura pode empregar um padrão TTS do locutor base para controlar o linguagem e os estilos de voz.

OpenVoice demonstra que os modelos de clonagem instantânea de voz podem replicar a cor do tom do locutor de referência e obter controle granular sobre estilos de voz, incluindo sotaque, ritmo, entonação, pausas e até emoções. O OpenVoice consegue fornecer resultados superiores de clonagem de voz instantânea e, ao mesmo tempo, ser computacionalmente viável, com custos operacionais até 10 vezes menores que as APIs atualmente disponíveis com desempenho subordinado.

join the future newsletter Unite AI Mobile Newsletter 1

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button