Tech

O estado dos LLMs multilíngues: indo além do inglês

LifeTechWebFebruary 10, 2024

0 5 minutes read

361bebd218b7575c15cdb8a04c5252a9 resized

De concórdia com uma pesquisa da Microsoft, muro de 88% das línguas do mundo, faladas por 1,2 milénio milhões de pessoas, não têm aproximação a Large Language Models (LLMs). Isso ocorre porque a maioria dos LLMs são centrados no inglês, ou seja, são construídos principalmente com dados em inglês e para falantes de inglês. Esse domínio do inglês também prevalece no desenvolvimento do LLM e resultou em uma vazio no linguagem do dedo, excluindo potencialmente a maioria das pessoas dos benefícios dos LLMs. Para resolver nascente problema para LLMs, é necessário um LLM que possa ser treinado em diferentes idiomas e executar tarefas em diferentes idiomas. Entre em LLMs multilíngues!

O que são LLMs multilíngues?

Um LLM multilíngue pode compreender e gerar texto em vários idiomas. Eles são treinados em conjuntos de dados que contêm idiomas diferentes e podem realizar diversas tarefas em mais de um linguagem a partir de um prompt do usuário.

Os aplicativos multilíngues de LLM são enormes, incluem tradução de literatura para dialetos locais, notícia multilíngue em tempo real, geração de teor multilíngue, etc. Eles ajudariam todos a acessar informações e conversar facilmente entre si, independentemente do linguagem.

Ou por outra, os LLMs multilingues abordam desafios porquê a falta de nuances culturais e de contexto, limitações de dados de formação e a potencial perda de conhecimento durante a tradução.

Porquê funcionam os LLMs multilíngues?

Erigir um LLM multilíngue envolve preparar cuidadosamente um corpus equilibrado de texto em vários idiomas e selecionar uma arquitetura e técnica de treinamento adequadas para treinar o padrão, de preferência um padrão Transformer, que é perfeito para aprendizagem multilíngue.

Manadeira: Imagem do responsável

Uma técnica é compartilhar embeddings, que capturam o significado semântico das palavras em diferentes idiomas. Isso faz com que o LLM aprenda as semelhanças e diferenças de cada linguagem, permitindo-lhe compreender melhor os diferentes idiomas.

Leste conhecimento também capacita o LLM a adaptar-se a várias tarefas linguísticas, porquê trasladar línguas, ortografar em estilos diferentes, etc. Outra técnica utilizada é a aprendizagem por transferência poliglota, onde o padrão é pré-treinado num grande corpus de dados multilingues antes de ser ajustado em tarefas específicas.

Leste processo de duas etapas garante que o padrão tenha uma base sólida na compreensão de idiomas multilíngues, tornando-o adaptável a vários aplicativos posteriores.

Exemplos de modelos multilíngues de grandes idiomas

Gráfico de comparação LLM multilíngue

Manadeira: Ruder.io

Surgiram vários exemplos notáveis de LLMs multilíngues, cada um atendendo a necessidades linguísticas e contextos culturais específicos. Vamos explorar alguns deles:

1. FLOR

BLOOM é um LLM multilíngue de aproximação desobstruído que prioriza diversos idiomas e acessibilidade. Com 176 bilhões de parâmetros, o BLOOM pode mourejar com tarefas em 46 linguagens naturais e 13 linguagens de programação, tornando-o um dos maiores e mais diversos LLMs.

A natureza de código desobstruído do BLOOM permite que pesquisadores, desenvolvedores e comunidades linguísticas se beneficiem de suas capacidades e contribuam para seu aprimoramento.

2. FEZ 2

YAYI 2 é um LLM de código desobstruído projetado especificamente para línguas asiáticas, considerando as complexidades e nuances culturais da região. Foi pré-treinado do zero em um corpus multilíngue de mais de 16 idiomas asiáticos contendo 2,65 trilhões de tokens filtrados.

Isso faz com que o padrão dê melhores resultados, atendendo às exigências específicas dos idiomas e culturas da Ásia.

3. PoliLM

PolyLM é um LLM 'poliglota' de código desobstruído que se concentra em enfrentar os desafios de linguagens de poucos recursos, oferecendo capacidades de adaptação. Ele foi treinado em um conjunto de dados de muro de 640 bilhões de tokens e está disponível em dois tamanhos de padrão: 1,7B e 13B. PolyLM conhece mais de 16 idiomas diferentes.

Ele permite que modelos treinados em linguagens com muitos recursos sejam ajustados para linguagens com poucos recursos e dados limitados. Essa flexibilidade torna os LLMs mais úteis em diferentes situações e tarefas linguísticas.

4.XGLM

XGLM, com 7,5 bilhões de parâmetros, é um LLM multilíngue treinado em um corpus que cobre um conjunto diversificado de mais de 20 idiomas usando a técnica de aprendizagem de poucas tentativas. Faz segmento de uma família de LLMs multilíngues de grande graduação treinados em um enorme conjunto de dados de texto e código.

Pretende abranger completamente muitas línguas, razão pela qual se concentra na inclusão e na multiplicidade linguística. O XGLM demonstra o potencial para a construção de modelos que atendam às necessidades de diversas comunidades linguísticas.

5.mT5

O mT5 (transformador de transferência de texto para texto massivamente multilíngue) foi desenvolvido pela Google AI. Treinado no conjunto de dados de rastreamento geral, o mt5 é um LLM multilíngue de última geração que pode mourejar com 101 idiomas, desde espanhol e chinês amplamente falados até idiomas com menos recursos, porquê vasconço e quíchua.

Também é supimpa em tarefas multilíngues, porquê tradução, resumo, resposta a perguntas, etc.

É provável um LLM universal?

O noção de um LLM com linguagem neutra, capaz de compreender e gerar uma linguagem sem preconceitos em relação a qualquer linguagem específico, é intrigante.

Embora o desenvolvimento de um LLM verdadeiramente universal ainda esteja longe, os atuais LLMs multilíngues demonstraram um sucesso significativo. Uma vez plenamente desenvolvidos, podem satisfazer as necessidades de línguas sub-representadas e de comunidades diversas.

Por exemplo, a investigação mostra que a maioria dos LLMs multilingues pode facilitar a transferência interlinguística zero-shot de uma língua rica em recursos para uma língua privada de recursos, sem dados de formação específicos da tarefa.

Ou por outra, modelos porquê YAYI e BLOOM, que se concentram em línguas e comunidades específicas, demonstraram o potencial das abordagens centradas na língua para impulsionar o progresso e a inclusão.

Para erigir um LLM universal ou melhorar os LLMs multilíngues atuais, indivíduos e organizações devem fazer o seguinte:

Crowdsourcing de falantes nativos para envolvimento da comunidade e curadoria dos conjuntos de dados linguísticos.
Apoie os esforços da comunidade em relação a contribuições de código desobstruído e financiamento para pesquisas e desenvolvimentos multilíngues.

Desafios dos LLMs multilíngues

Embora o noção de LLMs multilingues universais seja muito promissor, eles também enfrentam vários desafios que devem ser abordados antes de podermos beneficiar deles:

1. Quantidade de dados

Os modelos multilíngues requerem um vocabulário maior para simbolizar tokens em muitos idiomas do que os modelos monolíngues, mas muitos idiomas carecem de conjuntos de dados em grande graduação. Isso torna difícil treinar esses modelos de forma eficiente.

2. Preocupações com a qualidade dos dados

Prometer a precisão e a adequação cultural dos resultados multilíngues do LLM em todos os idiomas é uma preocupação significativa. Os modelos devem ser treinados e ajustados com atenção meticulosa às nuances linguísticas e culturais para evitar preconceitos e imprecisões.

3. Limitações de recursos

O treinamento e a realização de modelos multilíngues exigem recursos computacionais substanciais, porquê GPUs poderosas (por exemplo, GPU NVIDIA A100). O saliente dispêndio coloca desafios, mormente para línguas com poucos recursos e comunidades com aproximação restringido à infraestrutura computacional.

4. Arquitetura do padrão

Ajustar arquiteturas de modelos para acomodar diversas estruturas e complexidades linguísticas é um repto uniforme. Os modelos devem ser capazes de mourejar com idiomas com diferentes ordens de palavras, variações morfológicas e sistemas de escrita, mantendo sobranceiro desempenho e eficiência.

5. Complexidades de avaliação

Determinar o desempenho dos LLMs multilíngues além dos benchmarks em inglês é fundamental para medir sua verdadeira eficiência. Requer considerar nuances culturais, peculiaridades linguísticas e requisitos específicos de domínio.

Os LLMs multilingues têm o potencial de quebrar barreiras linguísticas, capacitar línguas com poucos recursos e facilitar a notícia eficiente entre diversas comunidades.

Não perdida as últimas notícias e análises em IA e ML – visite unite.ai hoje mesmo.

join the future newsletter Unite AI Mobile Newsletter 1

O estado dos LLMs multilíngues: indo além do inglês

O que são LLMs multilíngues?

Porquê funcionam os LLMs multilíngues?