Tech

Os fones de ouvido AI permitem que você ouça uma pessoa no meio de uma multidão

Em um ambiente lotado e barulhento, você já desejou desligar todas as conversas de fundo e focar apenas na pessoa que está tentando ouvir? Embora os fones de ouvido com cancelamento de ruído tenham feito grandes avanços na criação de uma tela em branco auditivo, eles ainda lutam para permitir a filtragem de sons específicos do ambiente ao redor do usuário. Mas e se seus fones de ouvido pudessem ser treinados para captar e amplificar a voz de uma única pessoa, mesmo enquanto você se transfer por uma sala repleta de outras conversas?

Goal Speech Listening to (TSH), um sistema inovador de IA desenvolvido por pesquisadores da Universidade de Washington, está fazendo progressos nesta área.

Como funciona a audição da fala alvo

Para usar o TSH, uma pessoa que usa fones de ouvido especialmente equipados precisa simplesmente olhar para a pessoa que deseja ouvir por alguns segundos. Este breve período de “inscrição” permite que o sistema de IA aprenda e se apegue aos padrões vocais exclusivos do locutor alvo.

Veja como funciona nos bastidores:

  1. O usuário toca em um botão enquanto direciona a cabeça para o alto-falante desejado por 3 a 5 segundos.
  2. Microfones em ambos os lados do fone de ouvido captam as ondas sonoras da voz do locutor simultaneamente (com uma margem de erro de 16 graus).
  3. Os fones de ouvido transmitem este sinal de áudio para um computador integrado integrado.
  4. O software program de aprendizado de máquina analisa a voz e cria um modelo das características vocais distintas do locutor.
  5. O sistema de IA usa esse modelo para isolar e amplificar a voz do locutor registrado em tempo actual, mesmo quando o usuário se movimenta em um ambiente barulhento.

Quanto mais tempo o locutor alvo fala, mais dados de treinamento o sistema recebe, permitindo focar melhor e esclarecer a voz desejada. Esta abordagem inovadora à “audição seletiva” abre um mundo de possibilidades para melhorar a comunicação e a acessibilidade em ambientes auditivos desafiadores.

Shyam Gollakota é o autor sênior do artigo e professor da UW na Escola Paul G. Allen de Ciência da Computação e Engenharia

“Tendemos a pensar na IA agora como chatbots baseados na net que respondem a perguntas. Mas neste projeto desenvolvemos IA para modificar a percepção auditiva de qualquer pessoa que use fones de ouvido, de acordo com suas preferências. Com nossos dispositivos agora você pode ouvir claramente um único alto-falante, mesmo se estiver em um ambiente barulhento com muitas outras pessoas conversando.” – Gollakota

Testando fones de ouvido AI com TSH

Para testar a Audição da Fala Alvo, a equipe de pesquisa conduziu um estudo com 21 participantes. Cada sujeito usou fones de ouvido habilitados para TSH e registrou um alto-falante alvo em um ambiente barulhento. Os resultados foram impressionantes – em média, os usuários avaliaram a clareza da voz do locutor inscrito como quase duas vezes mais alta em comparação com o feed de áudio não filtrado.

Esta descoberta baseia-se no trabalho anterior da equipe sobre “audição semântica”, que permitiu aos usuários filtrar seu ambiente auditivo com base em classificações sonoras predefinidas, como o chilrear dos pássaros ou vozes humanas. O TSH leva esse conceito um passo adiante ao permitir a amplificação seletiva da voz de um indivíduo específico.

As implicações são significativas, desde a melhoria das conversas pessoais em ambientes barulhentos até à melhoria da acessibilidade para pessoas com deficiência auditiva. À medida que a tecnologia se desenvolve, ela poderá mudar fundamentalmente a forma como experimentamos e interagimos com o nosso mundo auditivo.

Melhorando os fones de ouvido com IA e superando limitações

Embora a audição de fala alvo represente um grande avanço na IA auditiva, o sistema tem algumas limitações em sua forma atual:

  • Inscrição de palestrante único: A partir de agora, o TSH só pode ser treinado para focar em um alto-falante por vez. Ainda não é possível inscrever vários palestrantes simultaneamente.
  • Interferência de fontes de áudio semelhantes: Se outra voz alta vier da mesma direção do locutor alvo durante o processo de inscrição, o sistema poderá ter dificuldades para isolar os padrões vocais do indivíduo desejado.
  • Reinscrição guide: Se o usuário não estiver satisfeito com a qualidade do áudio após o treinamento inicial, ele deverá registrar novamente manualmente o locutor alvo para melhorar a clareza.

Apesar destas restrições, a equipa da Universidade de Washington está a trabalhar activamente no refinamento e expansão das capacidades do TSH. Um dos seus principais objetivos é miniaturizar a tecnologia, permitindo que ela seja perfeitamente integrada em produtos de consumo, como fones de ouvido e aparelhos auditivos.

À medida que os investigadores continuam a ultrapassar os limites do que é possível com a IA auditiva, as aplicações potenciais são vastas, desde o aumento da produtividade em ambientes de escritório que distraem até à facilitação de uma comunicação mais clara para socorristas e militares em situações de alto risco. O futuro da audição seletiva parece brilhante e a audição alvo da fala está preparada para desempenhar um papel elementary na sua formação.

Unite AI Mobile Newsletter 1

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button