Tech

Matt Hocking, cofundador e CEO da WellSaid Labs – série de entrevistas

LifeTechWebApril 10, 2024

0 11 minutes read

Matt Hocking é cofundador e CEO da WellSaid Labs, um gerador de voz de IA de nível empresarial líder. Ele tem mais de 15 anos de experiência liderando equipes e fornecendo soluções de tecnologia em escala.

Sua formação é bastante empreendedora. Como você se envolveu inicialmente com IA?

Acho que sempre me considerei bastante empreendedor. Comecei meu primeiro negócio depois da faculdade e, com experiência em design de produtos, comecei a gravitar em torno de ajudar as pessoas com ideias em estágio inicial. Ao longo da minha carreira, tive a sorte de trabalhar com uma série de startups que tiveram resultados incríveis. Durante essas experiências, tive contato direto com muitos grandes fundadores, o que por sua vez me inspirou a perseguir minhas próprias ideias como fundador. A IA period relativamente nova para mim quando entrei na AI2; no entanto, essa experiência me proporcionou a oportunidade de aplicar minhas lentes de produto e startup em algumas pesquisas realmente incríveis e imaginar como esses novos avanços seriam capazes de ajudar muitas pessoas nos próximos anos. Meu objetivo desde o início tem sido desenvolver negócios reais para pessoas reais, e acredito que a IA tem o potencial de criar muitas oportunidades e eficiências interessantes em nosso futuro, se aplicada cuidadosamente.

Você poderia compartilhar a história de como a ideia do WellSaid Labs foi concebida quando você period um empresário residente no Allen Institute for AI?

Entrei no Instituto Allen de Inteligência Synthetic (AI2) como Empreendedor Residente em 2018. Indiscutivelmente a incubadora mais inovadora do mundo, a AI2 abriga as mentes mais brilhantes em IA que aplicam soluções desde o limite do que é possível hoje até produtos tangíveis que resolvem problemas em todo o mundo. Minha experiência em design e tecnologia alimentou um interesse de longa information pelos campos criativos e, com o increase da IA que todos testemunhamos hoje, eu queria explorar uma maneira de conectar os dois. Fui apresentado a Michael Petrochuk (cofundador e CTO do WellSaid Labs) enquanto desenvolvia um aplicativo de saúde interativo que guiava o paciente por vários cenários delicados. Durante o processo de desenvolvimento do conteúdo da experiência, minha equipe trabalhou com dubladores para pré-gravar milhares de falas de narração para o avatar. Quando fui exposto a alguns dos avanços que Michael havia alcançado durante sua pesquisa, nós dois rapidamente percebemos o valor de como a conversão de texto em fala (TTS) com paridade humana poderia transformar não apenas o produto em que eu estava trabalhando, mas também impactar uma série de de outras aplicações e indústrias. A tecnologia e as ferramentas lutaram para acompanhar as necessidades dos produtores que criam com a voz como meio. Vimos um caminho para colocar esta tecnologia nas mãos de todos os criadores, permitindo que a voz seja parte integrante de todas as histórias.

WellSaid Labs é uma das poucas empresas que oferece aos dubladores um caminho para o espaço de locução de IA. Por que você acreditou que period importante integrar vozes reais ao produto?

Nossa resposta para isso tem duas vertentes: primeiro, queríamos criar soluções que complementassem as capacidades dos dubladores profissionais, ampliando as oportunidades para voz. E segundo, nos esforçamos para ter o mais alto nível de qualidade humana em nossos produtos. Nossos dubladores são parceiros colaborativos de longo prazo e recebem remuneração e participação nas receitas tanto por seus dados de voz quanto pelo conteúdo subsequente produzido com eles. Cada dublador que contratamos para criar um avatar de voz de IA com base na semelhança de sua voz é pago com base em quanto sua voz é usada em nossa plataforma. Incentivamos talentos a fazer parceria conosco; uma compensação justa pelas suas contribuições é extremamente importante para nós.

Para oferecer o mais alto nível de produtos de qualidade humana no mercado, devemos ser rigorosos sobre onde obtemos os nossos dados. Esse processo nos dá mais controle sobre a qualidade, à medida que treinamos nossos modelos de aprendizagem profunda para atender tanto à paridade humana quanto a estilos específicos contextualmente relevantes. Não criamos apenas uma voz que recita a informação fornecida. Nossos modelos oferecem uma variedade de estilos de voz que executam o que está na página. Quer os usuários estejam criando narrações usando um avatar de nossa biblioteca ou criando narrações com uma voz personalizada para sua marca, usamos dados de voz reais para garantir um processo contínuo e uma plataforma fácil de usar. Se nossos clientes tivessem que manipular e editar nossas vozes na pós-produção, o processo de obtenção do resultado desejado seria desajeitado e longo. Nossas vozes pegam o contexto do conteúdo escrito e fornecem uma leitura contextualmente precisa. Oferecemos vozes para todos os tipos de casos de uso – seja lendo notícias, fazendo um anúncio de áudio ou suporte automatizado de name middle – portanto, a parceria com talentos profissionais de voz específicos para cada caso de uso nos fornece o contexto e dados de voz de alta qualidade .

Atualizamos e adicionamos regularmente novos estilos e detalhes à nossa biblioteca de avatares para garantir que representamos as vozes de nossos clientes. No WellSaid Labs Studio, clientes e marcas podem ouvir diferentes vozes com base na região, estilo e caso de uso, permitindo uma produção mais integrada e unificada de conteúdo de áudio personalizado de acordo com as necessidades do fabricante. Depois que uma gravação inicial é amostrada, os usuários podem sugerir palavras, grafias e pronúncias específicas para garantir que a IA atenda consistentemente às suas necessidades.

WellSaid Labs está se afirmando como a primeira plataforma ética de voz de IA. Por que a ética da IA é importante para você?

À medida que a adoção da IA aumenta e se torna mais generalizada, os receios de casos de utilização prejudiciais e de maus atores estão no centro de todas as conversas – e estas preocupações são, infelizmente, validadas por ocorrências do mundo actual. A voz AI não é exceção; quase todos os dias, um novo relato de uma celebridade, figura pública ou político sendo falsificado para fins publicitários ou políticos chega às manchetes. Embora a regulamentação federal formal relativa a esta tecnologia ainda esteja em evolução, a detecção e o combate a intervenientes maliciosos e à utilização de voz sintética tornar-se-ão cada vez mais difíceis à medida que a tecnologia continua a avançar.

Vindo da AI2, onde a ética da IA é um princípio elementary, Michael e eu tivemos essas conversas no primeiro dia. O desenvolvimento da tecnologia de fala de IA acarreta responsabilidades significativas em relação ao consentimento, privacidade e segurança geral. Sabemos que nós, como desenvolvedores, devemos construir a nossa tecnologia com segurança, abordar questões éticas e estabelecer as bases para o desenvolvimento futuro de vozes sintéticas. Reconhecemos o potencial da tecnologia de fala de IA para uso indevido e assumimos a nossa responsabilidade de reduzir o potencial uso indevido do nosso produto. Precisamos estabelecer esta base desde o primeiro dia, em vez de correr rápido e cometer erros ao longo do caminho. Isso não seria correto por parte de nossos clientes corporativos e dubladores, que contam conosco para construir um produto confiável e de alta qualidade.

Apoiamos plenamente o apelo à legislação neste domínio; no entanto, não esperaremos que as regulamentações federais sejam promulgadas. Sempre priorizamos e continuaremos a priorizar práticas que apoiam a privacidade, a segurança, a transparência e a responsabilidade.

Cumprimos rigorosamente o código ético de intenções da nossa empresa, que se baseia na construção com inovação responsável em cada decisão que tomamos. Isto é do melhor interesse dos nossos clientes globais – marcas empresariais.

Como você desenvolve uma plataforma ética de voz de IA?

WellSaid Labs está comprometido com a inovação ética desde o início. Centralizamos a confiança e a transparência através do uso de modelos de dados internos, requisitos de consentimento explícitos, nosso programa de moderação de conteúdo e nosso compromisso com a proteção da marca. Na WellSaid, apoiamo-nos nos princípios da IA Responsável para moldar as nossas decisões e designs, e esses princípios estendem-se ao uso das nossas vozes. Nosso código de ética representa esses princípios como Responsabilidade, Transparência, Privacidade e Segurança e Justiça.

Responsabilidade: Mantemos padrões rígidos para conteúdo apropriado, proibindo o uso de nossas vozes para conteúdo prejudicial, odioso, fraudulento ou destinado a incitar a violência. Nossa equipe de Confiança e Segurança mantém esses padrões com um rigoroso programa de moderação de conteúdo, bloqueando e removendo usuários que tentem violar nossos Termos de Serviço.

Transparência: exigimos consentimento explícito antes de criar uma voz sintética com os dados de voz de alguém. Os usuários não podem fazer add de dados de voz de políticos, celebridades ou qualquer outra pessoa para criar um clone de sua voz, a menos que tenhamos o consentimento explícito e por escrito dessa pessoa.

Privacidade e segurança: protegemos as identidades de nossos dubladores usando imagens de banco de imagens e pseudônimos para representar as vozes sintéticas. Também os encorajamos a ter cautela sobre como e com quem partilham a sua associação com o WellSaid Labs ou outras empresas de voz sintética para reduzir a oportunidade de uso indevido da sua voz.

Justiça: Compensamos todos os dubladores que fornecem dados de voz para nossa plataforma e oferecemos a eles uma participação contínua na receita pelo uso da voz sintética que construímos com seus dados.

Juntamente com estes princípios, também respeitamos rigorosamente a propriedade intelectual. Não reivindicamos propriedade sobre o conteúdo fornecido por nossos usuários ou dubladores. Priorizamos a integridade, a justiça e a transparência em tudo o que fazemos, garantindo que a nossa tecnologia de fala sintética seja usada de forma responsável e ética. Procuramos ativamente parcerias com vozes de diversas origens e experiências para garantir que damos voz a todos.

Nosso compromisso com a inovação responsável e o desenvolvimento de tecnologia de voz de IA com a ética em mente nos diferencia de outros no espaço que buscam capitalizar uma indústria nova e não regulamentada por qualquer meio. Nossos investimentos iniciais em ética, segurança e privacidade estabelecem confiança e lealdade entre nossos dubladores e clientes, que buscam cada vez mais produtos e serviços feitos de forma ética por parte de empresas na vanguarda da inovação.

WellSaid Labs criou seu próprio modelo interno de IA que permitiu que suas vozes de IA alcançassem a paridade humana, e conseguiu isso trazendo as imperfeições que os humanos têm para as conversas. O que há nessas imperfeições que tornam a IA melhor e como essas imperfeições são implementadas?

WellSaid Labs não é apenas mais um gerador de TTS. Onde a tecnologia TTS inicial period incapaz de reconhecer as qualidades da fala humana, como tom, tom e dialeto, que transmitem o contexto e a emoção por trás das palavras, as vozes WellSaid alcançaram a paridade humana, trazendo imperfeições exclusivamente humanas à fala gerada por IA.

Nossa principal medida de qualidade de voz é e sempre foi a naturalidade humana. Essa crença orientadora moldou nossa tecnologia em todos os estágios, desde as bibliotecas de scripts que construímos até as instruções que damos aos talentos e, mais recentemente, como iteramos em nossos principais algoritmos TTS.

Treinamos vocalizações humanas autênticas. Nosso talento vocal lê seus roteiros de forma autêntica e envolvente quando gravam para nós. A perfeição da fala, por outro lado, é um conceito mecânico que leva a uma saída robótica perfeita e não pure. Quando o talento vocal profissional atua, sua velocidade de fala flutua. Seu quantity se transfer em conjunto com o conteúdo que estão lendo. Seu tom vocal pode aumentar em uma passagem que exige uma leitura animada e cair novamente em uma linha mais sombria. Essas variações dinâmicas constituem uma efficiency vocal humana envolvente.

Ao construir processos de IA que funcionam em coordenação com o desempenho dinâmico dos nossos talentos profissionais, construímos uma plataforma TTS verdadeiramente pure. Desenvolvemos o primeiro sistema TTS de formato longo com controles preditivos durante todo o processo criativo. Nossa biblioteca fonética contém uma coleção diversificada de dados de áudio, permitindo que os usuários incorporem dicas vocais específicas, como orientação de pronúncia ou controlabilidade, no modelo durante a fase de produção. Em uma plataforma, os usuários do WellSaid podem gravar, editar e estilizar sua narração sem precisar importar dados externos.

Você poderia discutir alguns dos desafios por trás da construção de uma empresa de IA de conversão de texto em fala (TTS)?

O desenvolvimento da tecnologia de voz de IA criou um conjunto inteiramente novo de obstáculos tanto para os seus produtores como para os consumidores. Um dos principais desafios é não se deixar levar pelo barulho e pela agitação que inunda o setor da IA. Por ser uma tecnologia nova e movimentada, muitas organizações estão tentando lucrar com os desenvolvimentos de narração de IA de curto prazo. Queremos dar voz a todos, guiados por princípios éticos centrais e autenticidade. Esta adesão à autenticidade pode atrasar o desenvolvimento e a implantação das nossas tecnologias, mas solidifica a segurança das vozes WellSaid e dos seus dados.

Outro desafio do desenvolvimento da nossa plataforma TTS foi o desenvolvimento de diretrizes de consentimento específicas para garantir que as organizações ou atores individuais não utilizarão indevidamente a nossa tecnologia. Para enfrentar esse desafio, buscamos parcerias colaborativas e de longo prazo e estamos totalmente envolvidos no desenvolvimento de narrações para aumentar a responsabilidade, a transparência e a segurança do usuário. Buscamos ativamente parcerias com dubladores de diversas origens, organizações e experiências para garantir que a biblioteca de vozes do WellSaid Labs reflita seus criadores e públicos. Esses processos são projetados para serem intencionais e detalhados para garantir que nossa tecnologia seja usada da maneira mais segura e ética possível, o que pode retardar o desenvolvimento e o cronograma de lançamento.

Qual é a sua visão para o futuro das vozes generativas de IA?

Durante muito tempo, a tecnologia de fala de IA não atingiu qualidade suficiente para permitir que as empresas criassem conteúdo significativo em grande escala. Agora que a tecnologia de áudio não requer mais equipamentos e {hardware} caros, todo o conteúdo escrito pode ser produzido e publicado em formato de áudio para criar experiências envolventes e multimodais.

Hoje, as vozes de IA podem produzir áudio semelhante ao humano e capturar as nuances necessárias para tornar a narrativa digital mais acessível e pure. O futuro da voz generativa de IA serão experiências audíveis abrangentes que afetam todos os aspectos de nossas vidas. À medida que a tecnologia continua a avançar, veremos vozes sintéticas cada vez mais naturais e expressivas confundirem a linha entre a fala humana e a fala gerada por máquinas – abrindo novas portas para os negócios, as comunicações, a acessibilidade e a forma como interagimos com o mundo que nos rodeia.

As empresas encontrarão personalização aprimorada nas interfaces de voz de IA e as usarão para tornar as interações com assistentes virtuais mais imersivas e fáceis de usar. Essas melhorias já estão acontecendo, desde agentes inteligentes de name middle até drive-thrus de fast-food. A criação de conteúdos, incluindo publicidade, advertising and marketing de produtos, narração de notícias, podcasts, audiolivros e outros conteúdos multimédia, terá uma maior eficiência através da utilização de ferramentas para desenvolver conteúdos envolventes – aumentando, em última análise, o aumento e a receita para as organizações, especialmente agora que os modelos multilingues podem expandir o alcance de uma empresa de um único ponto de origem para ter uma presença world. As equipes de produção encontrarão grandes benefícios nas vozes sintéticas para criar vozes feitas sob medida para as necessidades da marca ou personalizadas para o ouvinte.

Antes da introdução da IA, a tecnologia TTS não possuía as habilidades humanas cruciais de emoção, entonação e pronúncia necessárias para contar uma história completa em grande escala e com facilidade. Agora, o TTS com tecnologia de IA oferece experiências mais imersivas e acessíveis, incluindo recursos de fala em tempo actual e agentes de conversação interativos.

Alcançar capacidades de fala semelhantes às humanas tem sido uma jornada, mas agora que é possível, estamos testemunhando o escopo completo da voz da IA para criar valor comercial actual para as organizações.

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar o WellSaid Labs.

Unite AI Mobile Newsletter 1