Tech

Explorando o Gemini 1.5: como o mais recente modelo de IA multimodal do Google eleva o cenário da IA além de seu antecessor

LifeTechWebFebruary 20, 2024

0 4 minutes read

No cenário em rápida evolução da perceptibilidade sintético, o Google continua a liderar com os seus desenvolvimentos pioneiros em tecnologias de IA multimodais. Pouco depois da estreia do Gemini 1.0, seu protótipo multimodal de grande linguagem de última geração, o Google lançou agora o Gemini 1.5. Esta iteração não só aumenta a capacidade estabelecida pelo Gemini 1.0, mas também traz melhorias significativas na metodologia do Google para processamento e integração de dados multimodais. Leste cláusula fornece uma exploração do Gemini 1.5, esclarecendo sua abordagem inovadora e características distintivas.

Gêmeos 1.0: Estabelecendo a Instalação

Lançado pelo Google DeepMind e Google Research em 6 de dezembro de 2023, o Gemini 1.0 introduziu uma novidade geração de modelos de IA multimodais capazes de compreender e gerar teor em vários formatos, uma vez que texto, áudio, imagens e vídeo. Isto marcou um passo significativo na IA, alargando o contextura de gestão de diversos tipos de informação.

O recurso de destaque do Gemini é sua capacidade de combinar perfeitamente vários tipos de dados. Ao contrário dos modelos convencionais de IA que podem se pormenorizar em um único formato de dados, o Gemini integra texto, recursos visuais e áudio. Essa integração permite executar tarefas uma vez que indagar notas manuscritas ou interpretar diagramas complexos, resolvendo assim um vasto espectro de desafios complexos.

A família Gemini oferece modelos para diversas aplicações: o protótipo Ultra para tarefas complexas, o protótipo Pro para velocidade e escalabilidade em grandes plataformas uma vez que Google Bard e os modelos Nano (Nano-1 e Nano-2) com 1,8 bilhão e 3,25 bilhões de parâmetros , respectivamente, projetados para integração em dispositivos uma vez que o smartphone Google Pixel 8 Pro.

O Salto para Gêmeos 1.5

A versão mais recente do Google, Gemini 1.5, aprimora a funcionalidade e a eficiência operacional de seu predecessor, Gemini 1.0. Esta versão adota uma novidade arquitetura Mixture-of-Experts (MoE), dissemelhante da abordagem de protótipo unificado e grande vista em seu predecessor. Essa arquitetura incorpora uma coleção de modelos de transformadores menores e especializados, cada um deles capaz de gerenciar segmentos específicos de dados ou tarefas distintas. Essa formato permite que o Gemini 1.5 envolva dinamicamente o profissional mais adequado com base nos dados recebidos, simplificando a capacidade do protótipo de aprender e processar informações.

Esta abordagem inovadora eleva significativamente a eficiência de treinamento e implantação do protótipo, ativando unicamente os especialistas necessários para as tarefas. Consequentemente, o Gemini 1.5 é capaz de dominar rapidamente tarefas complexas e fornecer resultados de subida qualidade com mais eficiência do que os modelos convencionais. Esses avanços permitem que as equipes de pesquisa do Google acelerem o desenvolvimento e o aprimoramento do protótipo Gemini, ampliando as possibilidades no domínio da IA.

Expandindo Capacidades

Um progresso notável no Gemini 1.5 é a sua capacidade expandida de processamento de informações. A janela de contexto do protótipo, que é a quantidade de dados do usuário que ele pode indagar para gerar respostas, agora se estende para até 1 milhão de tokens – um aumento suculento em relação aos 32.000 tokens do Gemini 1.0. Esse aprimoramento significa que o Gemini 1.5 Pro pode processar simultaneamente grandes quantidades de dados, uma vez que uma hora de teor de vídeo, onze horas de áudio ou grandes bases de código e documentos de texto. Também foi testado com sucesso com até 10 milhões de tokens, demonstrando sua capacidade sensacional de compreender e interpretar enormes conjuntos de dados.

Um vislumbre das capacidades do Gemini 1.5

As melhorias arquitetônicas do Gemini 1.5 e a janela de contexto expandida permitem que ele execute análises sofisticadas em grandes conjuntos de informações. Seja investigando os detalhes intrincados das transcrições da missão Apollo 11 ou interpretando um filme mudo, o Gemini 1.5 demonstra habilidades incomparáveis de solução de problemas, principalmente com longos blocos de código.

Desenvolvido nos aceleradores TPUv4 avançados do Google, o Gemini 1.5 Pro foi treinado em um conjunto de dados diversificado, abrangendo vários domínios e incluindo teor multimodal e multilíngue. Esta ampla base de treinamento, combinada com o ajuste fino fundamentado em dados de preferência humana, garante que os resultados do Gemini 1.5 Pro ressoem muito com as percepções humanas.

Através de rigorosos testes de benchmark contra uma infinidade de tarefas, o Gemini 1.5 Pro não unicamente supera seu predecessor na grande maioria das avaliações, mas também está em pé de paridade com o protótipo maior Gemini 1.0 Ultra. O Gemini 1.5 Pro apresenta fortes capacidades de “aprendizagem no contexto”, adquirindo efetivamente novos conhecimentos a partir de instruções detalhadas, sem a premência de ajustes adicionais. Isto ficou particularmente evidente no seu desempenho no benchmark Machine Translation from One Book (MTOB), onde traduziu do inglês para Kalamang – uma língua falada por um pequeno número de pessoas – com proficiência comparável à da aprendizagem humana, sublinhando a sua adaptabilidade e eficiência de aprendizagem.

Entrada de visualização restringido

Gemini 1.5 Pro agora está disponível em uma versão prévia limitada para desenvolvedores e clientes corporativos por meio do AI Studio e Vertex AI, com planos para um lançamento mais vasto e opções personalizáveis no horizonte. Esta período de visualização oferece uma oportunidade única de explorar sua janela de contexto expandida, com melhorias antecipadas na velocidade de processamento. Desenvolvedores e clientes corporativos interessados no Gemini 1.5 Pro podem se registrar por meio do AI Studio ou entrar em contato com as equipes de conta da Vertex AI para obter mais informações.

O resultado final

Gemini 1.5 representa um progresso notável no desenvolvimento da IA multimodal. Com base nas bases estabelecidas pelo Gemini 1.0, esta novidade versão traz métodos aprimorados para processamento e integração de diferentes tipos de dados. A introdução de uma novidade abordagem arquitetônica e capacidades expandidas de processamento de dados destacam o esforço contínuo do Google para aprimorar a tecnologia de IA. Com seu potencial para gerenciamento de tarefas mais eficiente e aprendizagem avançado, o Gemini 1.5 mostra a evolução contínua da IA. Atualmente disponível para um grupo seleto de desenvolvedores e clientes empresariais, ele sinaliza possibilidades interessantes para o porvir da IA, com maior disponibilidade e novos avanços no horizonte.

Unite AI Mobile Newsletter 1