MOSEL: Avanço na recolha de dados de fala para todas as línguas europeias

O desenvolvimento de modelos linguísticos de IA tem sido largamente dominado pelo inglês, deixando muitas línguas europeias sub-representadas. Isto criou um desequilíbrio significativo na forma como as tecnologias de IA compreendem e respondem a diferentes línguas e culturas. O MOSEL pretende mudar esta narrativa criando uma coleção abrangente e de código aberto de dados de fala para as 24 línguas oficiais da União Europeia. Ao fornecer dados linguísticos diversos, o MOSEL procura garantir que os modelos de IA sejam mais inclusivos e representativos do rico panorama linguístico da Europa.

A diversidade linguística é essential para garantir a inclusão no desenvolvimento da IA. Confiar excessivamente em modelos centrados no inglês pode resultar em tecnologias menos eficazes ou mesmo inacessíveis para falantes de outras línguas. Conjuntos de dados multilíngues ajudam a criar sistemas de IA que atendem a todos, independentemente do idioma que falem. Abraçar a diversidade linguística melhora a acessibilidade à tecnologia e garante uma representação justa de diferentes culturas e comunidades. Ao promover a inclusão linguística, a IA pode refletir verdadeiramente as diversas necessidades e vozes dos seus utilizadores.

Visão geral do MOSEL

MOSEL, ou Large Open-source Speech knowledge for European Languages, é um projeto inovador que visa construir uma extensa coleção de dados de fala de código aberto cobrindo todas as 24 línguas oficiais da União Europeia. Desenvolvido por uma equipe internacional de pesquisadores, o MOSEL integra dados de 18 projetos diferentes, como CommonVoice, LibriSpeech e VoxPopuli. Esta coleção inclui gravações de fala transcritas e dados de áudio não rotulados, oferecendo um recurso significativo para o avanço do desenvolvimento de IA multilíngue.

Uma das principais contribuições do MOSEL é a inclusão de dados transcritos e não rotulados. Os dados transcritos fornecem uma base confiável para o treinamento de modelos de IA, enquanto os dados de áudio não rotulados podem ser usados ​​para pesquisas e experimentações adicionais, especialmente para idiomas com poucos recursos. A combinação destes conjuntos de dados cria uma oportunidade única para desenvolver modelos linguísticos mais inclusivos e capazes de compreender a diversidade da paisagem linguística da Europa.

Preenchendo a lacuna de dados para idiomas sub-representados

A distribuição dos dados de fala entre as línguas europeias é altamente desigual, com o inglês dominando a maioria dos conjuntos de dados disponíveis. Este desequilíbrio apresenta desafios significativos para o desenvolvimento de modelos de IA que possam compreender e responder com precisão a línguas menos representadas. Muitas das línguas oficiais da UE, como o maltês ou o irlandês, dispõem de dados muito limitados, o que prejudica a capacidade das tecnologias de IA para servir eficazmente estas comunidades linguísticas.

A MOSEL pretende preencher essa lacuna de dados aproveitando o modelo Whisper da OpenAI para transcrever automaticamente 441.000 horas de dados de áudio anteriormente não rotulados. Esta abordagem expandiu significativamente a disponibilidade de materials de formação, especialmente para línguas que careciam de extensos dados transcritos manualmente. Embora a transcrição automática não seja perfeita, ela fornece um ponto de partida valioso para um maior desenvolvimento, permitindo a construção de modelos linguísticos mais inclusivos.

No entanto, os desafios são particularmente evidentes para determinadas línguas. Por exemplo, o modelo Whisper teve dificuldades com o maltês, alcançando uma taxa de erro de palavras superior a 80%. Essas altas taxas de erro destacam a necessidade de trabalho adicional, incluindo a melhoria dos modelos de transcrição e a coleta de mais dados transcritos manualmente de alta qualidade. A equipa MOSEL está empenhada em continuar estes esforços, garantindo que mesmo as línguas com poucos recursos possam beneficiar dos avanços na tecnologia de IA.

O papel do acesso aberto na promoção da inovação em IA

A disponibilidade de código aberto do MOSEL é um fator chave para impulsionar a inovação na investigação europeia em IA. Ao tornar os dados de fala acessíveis gratuitamente, o MOSEL capacita pesquisadores e desenvolvedores a trabalhar com conjuntos de dados extensos e de alta qualidade que antes não estavam disponíveis ou eram limitados. Esta acessibilidade incentiva a colaboração e a experimentação, promovendo uma abordagem orientada para a comunidade para o avanço das tecnologias de IA para todas as línguas europeias.

Pesquisadores e desenvolvedores podem aproveitar os dados do MOSEL para treinar, testar e refinar modelos de linguagem de IA, especialmente para linguagens que têm sido sub-representadas no cenário de IA. A natureza aberta destes dados também permite que organizações mais pequenas e instituições académicas participem em investigação de ponta em IA, quebrando barreiras que muitas vezes favorecem grandes empresas tecnológicas com recursos exclusivos.

Direções Futuras e o Caminho a Seguir

Olhando para o futuro, a equipa do MOSEL planeia continuar a expandir o conjunto de dados, especialmente para línguas sub-representadas. Ao recolher mais dados e melhorar a precisão das transcrições automatizadas, a MOSEL pretende criar um recurso mais equilibrado e inclusivo para o desenvolvimento de IA. Estes esforços são cruciais para garantir que todas as línguas europeias, independentemente do número de falantes, tenham um lugar no panorama em evolução da IA.

O sucesso do MOSEL também poderá inspirar iniciativas semelhantes a nível mundial, promovendo a diversidade linguística na IA fora da Europa. Ao estabelecer um precedente para o acesso aberto e o desenvolvimento colaborativo, o MOSEL abre caminho para projetos futuros que priorizem a inclusão e a representação na IA, contribuindo, em última análise, para um futuro tecnológico mais equitativo.

join the future newsletter

Exit mobile version