Impacto do Transformer: A tradução automática foi resolvida?

O Google anunciou recentemente o lançamento de 110 novos idiomas no Google Translate como parte de sua iniciativa de 1000 idiomas lançada em 2022. Em 2022, no início, eles adicionaram 24 idiomas. Com os últimos 110, agora são 243 idiomas. Essa rápida expansão foi possível graças à Zero-Shot Machine Translation, uma tecnologia em que modelos de aprendizado de máquina aprendem a traduzir para outro idioma sem exemplos anteriores. Mas no futuro veremos juntos se esse avanço pode ser a solução definitiva para o desafio da tradução automática e, enquanto isso, podemos explorar as maneiras como isso pode acontecer. Mas primeiro sua história.

Como period antes?

Tradução Automática Estatística (SMT)

Este foi o método authentic que o Google Translate usou. Ele se baseou em modelos estatísticos. Eles analisaram grandes corpora paralelos, coleções de traduções de frases alinhadas, para determinar as traduções mais prováveis. Primeiro, o sistema traduziu o texto para o inglês como uma etapa intermediária antes de convertê-lo para o idioma de destino, e precisou fazer referências cruzadas de frases com conjuntos de dados extensos de transcrições das Nações Unidas e do Parlamento Europeu. É diferente das abordagens tradicionais que necessitavam compilar regras gramaticais exaustivas. E sua abordagem estatística permitiu que ele se adaptasse e aprendesse com os dados sem depender de estruturas linguísticas estáticas que poderiam rapidamente se tornar completamente desnecessárias.

Mas também há algumas desvantagens nessa abordagem. Primeiro, o Google Translate usou tradução baseada em frases, onde o sistema dividia as sentenças em frases e as traduzia individualmente. Isso foi uma melhoria em relação à tradução palavra por palavra, mas ainda tinha limitações como fraseado estranho e erros de contexto. Ele simplesmente não entendia completamente as nuances como nós. Além disso, o SMT depende muito de ter corpora paralelos, e qualquer idioma relativamente raro seria difícil de traduzir porque não tem dados paralelos suficientes.

Tradução Neural Automática (NMT)

Em 2016, o Google fez a mudança para a Tradução Automática Neural. Ela usa modelos de aprendizado profundo para traduzir frases inteiras como um todo e de uma vez, dando traduções mais fluentes e precisas. A NMT opera de forma semelhante a ter um assistente multilíngue sofisticado dentro do seu computador. Usando uma arquitetura de sequência para sequência (seq2seq), a NMT processa uma frase em um idioma para entender seu significado. Então, gera uma frase correspondente em outro idioma. Este método usa enormes conjuntos de dados para aprendizado, em contraste com a Tradução Automática Estatística, que depende de modelos estatísticos que analisam grandes corpora paralelos para determinar as traduções mais prováveis. Ao contrário da SMT, que se concentrava na tradução baseada em frases e precisava de muito esforço handbook para desenvolver e manter regras linguísticas e dicionários, o poder da NMT de processar sequências inteiras de palavras permite que ela seize o contexto matizado da linguagem de forma mais eficaz. Portanto, ela melhorou a qualidade da tradução em vários pares de idiomas, muitas vezes atingindo níveis de fluência e precisão comparáveis aos tradutores humanos.

Na verdade, os modelos NMT tradicionais usavam Redes Neurais Recorrentes – RNNs – como a arquitetura principal, uma vez que elas são projetadas para processar dados sequenciais mantendo um estado oculto que evolui conforme cada nova entrada (palavra ou token) é processada. Esse estado oculto serve como uma espécie de memória que captura o contexto das entradas precedentes, permitindo que o modelo aprenda dependências ao longo do tempo. Mas, as RNNs eram computacionalmente caras e difíceis de paralelizar efetivamente, o que estava limitando o quão escaláveis elas eram.

Introdução de transformadores

Em 2017, o Google Analysis publicou o artigo intitulado “Atenção é tudo o que você precisa”, apresentando transformadores ao mundo e marcando uma mudança elementary das RNNs na arquitetura de redes neurais.

Os transformadores dependem apenas do mecanismo de atenção, – autoatenção, que permite que os modelos de tradução automática neural se concentrem seletivamente nas partes mais críticas das sequências de entrada. Ao contrário das RNNs, que processam palavras em uma sequência dentro de frases, a autoatenção avalia cada token em todo o texto, determinando quais outros são cruciais para entender seu contexto. Essa computação simultânea de todas as palavras permite que os transformadores capturem efetivamente dependências de curto e longo alcance sem depender de conexões recorrentes ou filtros convolucionais.

Portanto, ao eliminar a recorrência, os transformadores oferecem vários benefícios importantes:

Paralelizabilidade: Mecanismos de atenção podem computar em paralelo em diferentes segmentos da sequência, o que acelera o treinamento em {hardware} moderno, como GPUs.
Eficiência do treinamento: Eles também exigem significativamente menos tempo de treinamento em comparação aos modelos tradicionais baseados em RNN ou CNN, proporcionando melhor desempenho em tarefas como tradução automática.

Tradução automática Zero-Shot e PaLM 2

Em 2022, o Google lançou suporte para 24 novos idiomas usando a Zero-Shot Machine Translation, marcando um marco significativo na tecnologia de tradução automática. Eles também anunciaram a 1.000 Languages Initiative, com o objetivo de dar suporte aos 1.000 idiomas mais falados do mundo. Eles já lançaram mais 110 idiomas. A Zero-Shot Machine Translation permite a tradução sem dados paralelos entre os idiomas de origem e de destino, eliminando a necessidade de criar dados de treinamento para cada par de idiomas — um processo anteriormente custoso e demorado, e para alguns idiomas de pares também impossível.

Esse avanço se tornou possível por causa da arquitetura e dos mecanismos de autoatenção dos transformadores. A capacidade do modelo do transformador de aprender relações contextuais entre idiomas, como uma combinação com sua escalabilidade para lidar com vários idiomas simultaneamente, permitiu o desenvolvimento de sistemas de tradução multilíngues mais eficientes e eficazes. No entanto, os modelos zero-shot geralmente mostram qualidade inferior aos treinados em dados paralelos.

Então, com base no progresso dos transformadores, o Google introduziu o PaLM 2 em 2023, que abriu caminho para o lançamento de 110 novos idiomas em 2024. O PaLM 2 melhorou significativamente a capacidade do Translate de aprender idiomas intimamente relacionados, como Awadhi e Marwadi (relacionados ao Hindi) e crioulos franceses como o crioulo seichelense e o crioulo mauriciano. As melhorias no PaLM 2, como dimensionamento otimizado para computação, conjuntos de dados aprimorados e design refinado, permitiram um aprendizado de idiomas mais eficiente e apoiaram os esforços contínuos do Google para tornar o suporte a idiomas melhor e maior e acomodar diversas nuances linguísticas.

Podemos afirmar que o desafio da tradução automática foi totalmente enfrentado com transformadores?

A evolução da qual estamos falando levou 18 anos, da adoção do SMT pelo Google até os recentes 110 idiomas adicionais usando a Zero-Shot Machine Translation. Isso representa um salto enorme que pode potencialmente reduzir a necessidade de uma extensa coleta paralela de corpus — uma tarefa histórica e muito trabalhosa que a indústria vem perseguindo há mais de duas décadas. Mas, afirmar que a tradução automática é completamente abordada seria prematuro, considerando considerações técnicas e éticas.

Os modelos atuais ainda lutam com contexto e coerência e cometem erros sutis que podem mudar o significado que você pretendia para um texto. Esses problemas estão muito presentes em frases mais longas e complexas, onde manter o fluxo lógico e entender as nuances é necessário para obter resultados. Além disso, nuances culturais e expressões idiomáticas muitas vezes se perdem ou perdem o significado, causando traduções que podem ser gramaticalmente corretas, mas não têm o impacto pretendido ou soam artificiais.

Dados para pré-treinamento: O PaLM 2 e modelos similares são pré-treinados em um corpus de texto multilíngue diverso, superando seu predecessor PaLM. Esse aprimoramento equipa o PaLM 2 para se destacar em tarefas multilíngues, ressaltando a importância contínua dos conjuntos de dados tradicionais para melhorar a qualidade da tradução.

Idiomas específicos de domínio ou raros: Em domínios especializados como campos jurídicos, médicos ou técnicos, corpora paralelos garantem que os modelos encontrem terminologias específicas e nuances de linguagem. Modelos avançados podem ter dificuldades com jargões específicos de domínio ou tendências de linguagem em evolução, apresentando desafios para a Tradução Automática Zero-Shot. Além disso, as Linguagens de Poucos Recursos ainda são mal traduzidas, porque não têm os dados necessários para treinar modelos precisos

Avaliação comparativa: Corpora paralelos continuam essenciais para avaliar e comparar o desempenho do modelo de tradução, particularmente desafiador para idiomas sem dados de corpus paralelos suficientes. Métricas automatizadas como BLEU, BLERT e METEOR têm limitações para avaliar nuances na qualidade da tradução além da gramática. Mas então, nós, humanos, somos prejudicados por nossos preconceitos. Além disso, não há muitos avaliadores qualificados por aí, e encontrar o avaliador bilíngue perfeito para cada par de idiomas para detectar erros sutis.

Intensidade de recursos: A natureza intensiva de recursos do treinamento e da implantação de LLMs continua sendo uma barreira, limitando a acessibilidade para alguns aplicativos ou organizações.

Preservação cultural. A dimensão ética é profunda. Como Isaac Caswell, um cientista de pesquisa do Google Translate, descreve a Zero-Shot Machine Translation: “Você pode pensar nisso como um poliglota que conhece muitos idiomas. Mas, além disso, ele consegue ver texto em mais 1.000 idiomas que não são traduzidos. Você pode imaginar que se você é um grande poliglota e começa a ler romances em outro idioma, você pode começar a juntar as peças do que isso pode significar com base no seu conhecimento da linguagem em geral.” No entanto, é essential considerar o impacto de longo prazo em línguas menores sem corpora paralelos, afetando potencialmente a preservação cultural quando a dependência se afasta das próprias línguas.

Unite AI Mobile Newsletter 1