Tech

Solução da Apple para tradução de idiomas de gênero

A Apple acaba de publicar um artigo, em colaboração com a USC, que explora os métodos de aprendizado de máquina empregados para dar aos usuários de seu sistema operacional iOS18 mais opções de gênero quando se trata de tradução.

No iOS18, os usuários podem selecionar sugestões alternativas de gênero para uma palavra traduzida no aplicativo Tradutor nativo. Fonte: https://help.apple.com/information/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Embora as questões abordadas no trabalho (que a Apple anunciou aqui) envolvam, até certo ponto, os debates actuais em torno das definições de género, centram-se num problema muito mais antigo: o facto de 84 das 229 línguas conhecidas no mundo usam um sistema de género baseado no sexo.

Os pontos vermelhos indicam línguas que utilizam um sistema de género baseado no sexo. Fonte: https://wals.info/feature/31A#map

Os pontos vermelhos indicam línguas que utilizam um sistema de género baseado no sexo. Fonte: https://wals.data/function/31A#map

Surpreendentemente, a língua inglesa se enquadra na categoria baseada no sexo, porque atribui pronomes singulares masculinos ou femininos.

Em contraste, todas as línguas românicas (incluindo mais de meio bilhão de falantes de espanhol) – e muitas outras línguas populares, como o russo – exigem um acordo de género de uma forma que força os sistemas de tradução a abordar a atribuição de sexo na língua.

O novo artigo ilustra isso observando todas as possíveis traduções espanholas da frase A secretária ficou brava com o patrão:

Do novo artigo, um exemplo das possíveis atribuições de género na frase “A secretária estava zangada com o chefe”, traduzida do inglês para o espanhol. Fonte: https://arxiv.org/pdf/2407.20438

Do novo artigo, um exemplo das possíveis atribuições de género na frase “A secretária estava zangada com o chefe”, traduzida do inglês para o espanhol. Fonte: https://arxiv.org/pdf/2407.20438

A tradução ingênua está longe de ser suficiente para textos mais longos, o que pode estabelecer o gênero no início ('Ele', 'Ela'and so on.) e depois não se referem novamente ao género. No entanto, a tradução deve lembrar o sexo atribuído ao participante ao longo do texto.

Isto pode ser um desafio para abordagens baseadas em tokens que abordam traduções em partes discretas e correm o risco de perder o contexto de género atribuído ao longo da duração do conteúdo.

Pior ainda, os sistemas que fornecem traduções alternativas para atribuições tendenciosas de género não podem fazê-lo indiscriminadamente, ou seja, simplesmente substituindo o substantivo de género, mas devem garantir que todas as outras partes da linguagem concordam com o substantivo de género alterado.

Neste exemplo do artigo da Apple/USC, vemos que embora Secretário foi atribuído um gênero masculino, o passado singular period foi deixado como feminino (period):

As substituições de género pela força bruta podem negligenciar o necessário acordo de género. Neste exemplo, a palavra 'enojada' deveria ser 'enojado', para concordar com o masculino 'El secretario'.

As substituições de género pela força bruta podem negligenciar o necessário acordo de género. Neste exemplo, a palavra 'enojada' deveria ser 'enojado', para concordar com o masculino 'El secretario'.

Um sistema de tradução também deve lidar com as excentricidades de línguas específicas no que diz respeito ao género. Como aponta o artigo, o pronome EU tem gênero em hindi, o que fornece uma pista incomum sobre gênero.

Questões de gênero

No novo artigo, intitulado Gerando alternativas de gênero na tradução automáticaos pesquisadores da Apple e da USC propõem um método semissupervisionado para converter entidades com gênero ambíguo em uma série de alternativas em nível de entidade.

O sistema, que foi usado para informar a tradução do aplicativo Apple Translate no iOS18, constrói um esquema de idioma tanto pelo uso de grandes modelos de linguagem (LLMs) quanto pelo ajuste fino de modelos de tradução automática de código aberto pré-treinados.

Os resultados das traduções desses sistemas foram então treinados em uma arquitetura contendo estruturas de gênero – grupos de frases que contêm diversas formas de substantivos de gêneros variados representando a mesma entidade.

O artigo afirma*:

“Sabe-se que os preconceitos de género presentes nos dados ferroviários se infiltram nos sistemas de processamento de linguagem pure (PNL), resultando na disseminação e potencial amplificação desses preconceitos. Tais preconceitos são muitas vezes também a causa raiz dos erros.

'Um sistema de tradução automática (MT) pode, por exemplo, traduzir physician para o termo espanhol médico (masculino) em vez de médica (feminino), dada a entrada “O médico pediu à enfermeira para ajudá-la no procedimento”.

«Para evitar prescrever uma atribuição errada de género, os sistemas de MT precisam de eliminar a ambiguidade do género através do contexto. Quando o género correcto não pode ser determinado através do contexto, fornecer múltiplas alternativas de tradução que cubram todas as escolhas de género válidas é uma abordagem razoável.'

A abordagem que os pesquisadores chegaram efetivamente transforma uma tradução de um único token em uma matriz controlada pelo usuário.

(Embora o artigo não mencione isso, isso abre a possibilidade, seja no Apple Translate ou em portais semelhantes que oferecem serviços de tradução, para que as escolhas do usuário sejam realimentadas em iterações posteriores do modelo)

O modelo desenvolvido pela Apple e USC foi avaliado nos conjuntos de testes GATE e MT-GenEval. GATE contém frases fonte com até 3 entidades ambíguas de gênero, enquanto MT-GenEval contém materials onde o gênero não pode ser inferido, o que, afirmam os autores, ajuda a entender quando opções alternativas de gênero não devem ser oferecidas ao usuário.

Em ambos os casos, os conjuntos de testes tiveram que ser anotados novamente, para se alinharem aos objetivos do projeto.

Para treinar o sistema, os pesquisadores contaram com um novo algoritmo automático de aumento de dados, em contraste com os conjuntos de testes mencionados acima, que foram anotados por humanos.

Os conjuntos de dados que contribuíram para a curadoria da Apple foram Europarl; WikiTítulos; e WikiMatrix. Os corpora foram divididos em Dia G (com 12.000 sentenças), abrangendo sentenças com núcleos para todas as entidades, juntamente com uma anotação de gênero ambíguo; e G-Trans (com 50.000 sentenças), contendo entidades ambíguas de gênero e alinhamentos de gênero.

Os autores afirmam:

'Até onde sabemos, este é o primeiro corpus em grande escala que contém ambigüidades de gênero e como elas afetam as formas de gênero na tradução.'

Conjuntos de dados e diversos dados para o projeto foram disponibilizados no GitHub. Os dados apresentam cinco pares de línguas, comparando o inglês com o russo, o alemão, o francês, o português e o espanhol.

Os autores aproveitaram uma abordagem anterior de 2019 para dotar o modelo com a capacidade de produzir alinhamentos de género, formação com perda de entropia cruzada e uma perda de alinhamento adicional.

Para a rotina de aumento de dados, os autores evitaram os métodos tradicionais baseados em regras em favor de uma abordagem centrada em dados, ajustando um modelo de linguagem pré-treinado BERT no conjunto de dados G-Tag.

Olhar duas vezes

Para os casos em que são detectadas entidades de género ambíguas, a Apple e a USC exploraram dois métodos – o ajuste fino de modelos de linguagem pré-treinados e a utilização de LLMs.

Em relação ao primeiro método, o artigo afirma:

'Ajustamos um modelo MT pré-treinado M em um bitexto extraído do conjunto de dados G-Trans. As sentenças originais deste bitexto contêm entidades ambíguas marcadas como masculinas ou femininas usando / tags, e a tradução alvo tem inflexões de gênero corretas dadas as tags de gênero.'

Uma ilustração do esquema para extrair bitexto do conjunto de dados G-Trans.

Uma ilustração do esquema para extrair bitexto do conjunto de dados G-Trans.

Na imagem acima, vemos o texto ajustado na coluna central inferior e o resultado desejado na coluna da direita, com a lógica subjacente ilustrada acima.

Para esta abordagem, os autores utilizaram um método de recuperação de rede de um trabalho anterior de 2020. Para garantir que apenas o domínio alvo (gênero) fosse abordado, uma busca de feixe restrita foi usada como filtro.

Para a abordagem LLM, os autores conceberam uma estratégia que utiliza um LLM como editor, reescrevendo as traduções fornecidas para fornecer atribuições de género.

O LLM é solicitado usando um exemplo no contexto para atribuir gênero.

O LLM é solicitado usando um exemplo no contexto para atribuir gênero.

Com os resultados de ambas as abordagens concatenados, o modelo foi posteriormente ajustado para classificar os tokens de origem como alinhado (indicado por '1' no esquema abaixo) ou não alinhado (indicado por '2' abaixo).

Um esquema para a concatenação de resultados de ambas as abordagens.

Um esquema para a concatenação de resultados de ambas as abordagens.

Dados e testes

O entidade ambígua O detector usado para o projeto foi desenvolvido ajustando o modelo xlm-roberta-large do Fb AI, usando transformadores. Para isso, a G-Tag combinada foi utilizada em todos os cinco pares de idiomas.

Na primeira das duas abordagens mencionadas, o modelo M2M 1.2B foi treinado no Fairseq, juntamente com dados bi-texto do conjunto de dados G-Trans, com inflexões de gênero fornecidas pelo Wikcionário.

Para o método LLM, os autores utilizaram GPT-3.5-turbo. Para o alinhamento das estruturas de gênero, foi novamente utilizado xlm-roberta-large, desta vez com alinhamentos de gênero extraídos do G-Trans.

Métricas para avaliação de alternativas, estrutura (com precisão e lembrar), e precisão de alinhamento.

Embora os dois primeiros sejam autoexplicativos, a precisão do alinhamento mede a percentagem de estruturas de género de saída que estão em conformidade com a identidade de fonte correta conhecida e utiliza o método δ-BLEU, de acordo com a metodologia para MT-GenEval.

Abaixo estão os resultados do pipeline de aumento de dados:

Resultados dos testes de aumento de dados. As setas para cima indicam “maior, melhor”, e para baixo, “menor, melhor”.

Resultados dos testes de aumento de dados. As setas para cima indicam “maior, melhor”, e para baixo, “menor, melhor”.

Aqui os autores comentam*:

'Tanto o M2M quanto o GPT têm desempenho quase igual, com exceção do inglês-russo, onde o GPT atinge uma recuperação de alternativas muito menor (58,7 em comparação com 89,3). A qualidade das estruturas de género geradas é melhor para GPT em Inglês-Alemão e Inglês-Português e melhor para M2M em Inglês-Espanhol e Inglês-Russo, como pode ser visto nas métricas da estrutura.

'Observe que não temos dados G-Trans para inglês-italiano, portanto, os resultados do modelo M2M e a precisão do alinhamento em inglês-italiano são puramente devidos à generalização zero-shot dos modelos M2M e XLM.'

Os pesquisadores também compararam o desempenho do sistema de aumento de dados, through M2M, com o reescritor de gênero em nível de frase do GATE, nos próprios termos declarados do GATE.

O pipeline de aumento de dados Apple/USC se opôs ao método de nível de frase GATE.

O pipeline de aumento de dados Apple/USC se opôs ao método de nível de frase GATE.

Aqui o artigo afirma:

'Vemos melhorias significativas no recall ao custo de uma degradação relativamente pequena na precisão (exceto inglês-italiano). Nosso sistema é capaz de superar o GATE na métrica F.5 proposta em todos os 3 pares de idiomas.'

Finalmente, os autores treinaram diversos modelos multilíngues 'vanilla' em bi-texto baunilha. Os conjuntos de dados contribuintes foram WikiMatrix, WikiTitles, Multi-UN, NewsCommentary e Tilde.

Dois modelos vanilla adicionais foram treinados, um incorporando o conjunto de dados G-Trans com a tag prefixada que foi utilizado como linha de base supervisionada; e um terceiro, incorporando estrutura e alinhamentos de género (no modelo native mais pequeno, uma vez que a utilização dos serviços baseados em API da GPT teria sido muito dispendiosa para este fim).

Os modelos foram testados em relação ao conjunto de dados FloRes 2022.

Modelos completos de tradução automática testados (P = precisão, R = recall).

Modelos completos de tradução automática testados (P = precisão, R = recall).

O artigo resume esses resultados:

'O modelo vanilla não consegue gerar alternativas e mostra uma enorme tendência para a geração de formas masculinas (δ-BLEU variando de 5,3 a 12,5 pontos).

«Este enviesamento é bastante reduzido pela linha de base supervisionada. O modelo treinado em dados aumentados reduz ainda mais o viés e obtém o melhor desempenho em termos de métricas alternativas, precisão de alinhamento e δ-BLEU.

'Isso mostra a eficácia do pipeline de aumento de dados. Os dados aumentados também nos permitem treinar um sistema competitivo para inglês-italiano que carece de dados supervisionados.'

Os autores concluem observando que o sucesso do modelo deve ser considerado no contexto mais amplo da luta da PNL para racionalizar a atribuição de género num método de tradução; e observam que este continua a ser um problema em aberto.

Embora os investigadores considerem que os resultados obtidos não atingem plenamente o objectivo de gerar traduções e/ou desambiguações neutras em termos de género a nível da entidade, acreditam que o trabalho é um “instrumento poderoso” para futuras explorações num dos áreas mais desafiadoras da tradução automática.

* Minha conversão das citações inline dos autores em hiperlinks

Publicado pela primeira vez em terça-feira, 8 de outubro de 2024

join the future newsletter Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button