Tech

A mente da IA revelada: como a Anthropic está desmistificando o funcionamento interno dos LLMs

LifeTechWebJune 4, 2024

0 6 minutes read

Em um mundo onde a IA parece funcionar como mágica, a Anthropic fez avanços significativos na decifração do funcionamento interno dos Massive Language Fashions (LLMs). Ao examinar o “cérebro” do seu LLM, Claude Sonnet, estão a descobrir como estes modelos pensam. Este artigo explora a abordagem inovadora da Anthropic, revelando o que eles descobriram sobre o funcionamento interno de Claude, as vantagens e desvantagens dessas descobertas e o impacto mais amplo no futuro da IA.

Os riscos ocultos de grandes modelos de linguagem

Os Massive Language Fashions (LLMs) estão na vanguarda de uma revolução tecnológica, impulsionando aplicações complexas em vários setores. Com seus recursos avançados de processamento e geração de texto semelhante ao humano, os LLMs realizam tarefas complexas, como recuperação de informações em tempo actual e resposta a perguntas. Esses modelos têm valor significativo em saúde, direito, finanças e suporte ao cliente. No entanto, funcionam como “caixas negras”, proporcionando transparência e explicabilidade limitadas relativamente à forma como produzem determinados resultados.

Ao contrário dos conjuntos de instruções predefinidos, os LLMs são modelos altamente complexos com inúmeras camadas e conexões, aprendendo padrões intrincados a partir de grandes quantidades de dados da Web. Esta complexidade não torna claro quais informações específicas influenciam os seus resultados. Além disso, a sua natureza probabilística significa que podem gerar respostas diferentes para a mesma pergunta, acrescentando incerteza ao seu comportamento.

A falta de transparência nos LLMs levanta sérias preocupações de segurança, especialmente quando utilizados em áreas críticas como aconselhamento jurídico ou médico. Como podemos confiar que eles não fornecerão respostas prejudiciais, tendenciosas ou imprecisas se não conseguimos compreender o seu funcionamento interno? Esta preocupação é agravada pela sua tendência de perpetuar e potencialmente amplificar os preconceitos presentes nos seus dados de formação. Além disso, existe o risco de estes modelos serem utilizados indevidamente para fins maliciosos.

Abordar estes riscos ocultos é essential para garantir a implantação segura e ética de LLMs em sectores críticos. Embora investigadores e programadores tenham trabalhado para tornar estas ferramentas poderosas mais transparentes e fiáveis, a compreensão destes modelos altamente complexos continua a ser um desafio significativo.

Como o Anthropic aumenta a transparência dos LLMs?

Pesquisadores antrópicos fizeram recentemente um avanço no aumento da transparência do LLM. Seu método revela o funcionamento interno das redes neurais dos LLMs, identificando atividades neurais recorrentes durante a geração de respostas. Ao focar em padrões neurais em vez de neurônios individuais, que são difíceis de interpretar, os pesquisadores mapearam essas atividades neurais em conceitos compreensíveis, como entidades ou frases.

Este método aproveita uma abordagem de aprendizado de máquina conhecida como aprendizado de dicionário. Pense assim: assim como as palavras são formadas pela combinação de letras e as frases são compostas de palavras, cada característica em um modelo LLM é composta por uma combinação de neurônios, e cada atividade neural é uma combinação de características. A Anthropic implementa isso por meio de autoencoders esparsos, um tipo de rede neural synthetic projetada para aprendizado não supervisionado de representações de recursos. Os autoencoders esparsos compactam os dados de entrada em representações menores e mais gerenciáveis e, em seguida, os reconstroem de volta à sua forma unique. A arquitetura “esparsa” garante que a maioria dos neurônios permaneça inativa (zero) para qualquer entrada, permitindo que o modelo interprete as atividades neurais em termos de alguns conceitos mais importantes.

Revelando o conceito de organização em Claude 3.0

Os pesquisadores aplicaram este método inovador ao Claude 3.0 Sonnet, um grande modelo de linguagem desenvolvido pela Anthropic. Eles identificaram vários conceitos que Claude usa durante a geração de respostas. Esses conceitos incluem entidades como cidades (São Francisco), pessoas (Rosalind Franklin), elementos atômicos (Lítio), campos científicos (imunologia) e sintaxe de programação (chamadas de função). Alguns destes conceitos são multimodais e multilingues, correspondendo tanto às imagens de uma determinada entidade como ao seu nome ou descrição em vários idiomas.

Além disso, os pesquisadores observaram que alguns conceitos são mais abstratos. Isso inclui ideias relacionadas a bugs em códigos de computador, discussões sobre preconceitos de gênero nas profissões e conversas sobre como guardar segredos. Ao mapear atividades neurais em conceitos, os pesquisadores conseguiram encontrar conceitos relacionados medindo uma espécie de “distância” entre atividades neurais com base em neurônios compartilhados em seus padrões de ativação.

Por exemplo, ao examinar conceitos próximos à “Ponte Golden Gate”, eles identificaram conceitos relacionados, como a Ilha de Alcatraz, a Praça Ghirardelli, os Golden State Warriors, o governador da Califórnia, Gavin Newsom, o terremoto de 1906 e o filme de Alfred Hitchcock, ambientado em São Francisco, “Vertigem”. .” Esta análise sugere que a organização interna dos conceitos no cérebro do LLM se assemelha um pouco às noções humanas de similaridade.

Prós e contras do avanço da Anthropic

Um aspecto essential deste avanço, além de revelar o funcionamento interno dos LLMs, é o seu potencial para controlar estes modelos a partir de dentro. Ao identificar os conceitos que os LLMs usam para gerar respostas, esses conceitos podem ser manipulados para observar mudanças nos resultados do modelo. Por exemplo, os pesquisadores da Antrópico demonstraram que o aprimoramento do conceito da “Ponte Golden Gate” fez com que Claude respondesse de maneira incomum. Quando questionado sobre sua forma física, em vez de dizer “Não tenho forma física, sou um modelo de IA”, Claude respondeu: “Eu sou a Ponte Golden Gate… minha forma física é a própria ponte icônica”. Essa alteração deixou Claude excessivamente fixado na ponte, mencionando-a em respostas a diversas perguntas não relacionadas.

Embora esta inovação seja benéfica para controlar comportamentos maliciosos e retificar preconceitos de modelos, também abre a porta para permitir comportamentos prejudiciais. Por exemplo, os pesquisadores encontraram um recurso que é ativado quando Claude lê um e-mail fraudulento, o que apoia a capacidade do modelo de reconhecer esses e-mails e alertar os usuários para não responderem. Normalmente, se solicitado a gerar um e-mail fraudulento, Claude recusará. No entanto, quando esse recurso é fortemente ativado artificialmente, ele supera o treinamento de inocuidade de Claude e responde redigindo um e-mail fraudulento.

Esta natureza ambígua do avanço da Anthropic destaca tanto o seu potencial como os seus riscos. Por um lado, oferece uma ferramenta poderosa para melhorar a segurança e a fiabilidade dos LLMs, permitindo um controlo mais preciso sobre o seu comportamento. Por outro lado, sublinha a necessidade de salvaguardas rigorosas para evitar a utilização indevida e garantir que estes modelos sejam utilizados de forma ética e responsável. À medida que o desenvolvimento dos LLM continua a avançar, a manutenção de um equilíbrio entre transparência e segurança será basic para aproveitar todo o seu potencial e, ao mesmo tempo, mitigar os riscos associados.

O impacto do avanço da Anthropic além do LLMS

À medida que a IA avança, há uma ansiedade crescente sobre o seu potencial para dominar o controlo humano. Uma das principais razões por trás deste medo é a natureza complexa e muitas vezes opaca da IA, tornando difícil prever exatamente como ela poderá se comportar. Esta falta de transparência pode fazer com que a tecnologia pareça misteriosa e potencialmente ameaçadora. Se quisermos controlar a IA de forma eficaz, primeiro precisamos de compreender como ela funciona a partir de dentro.

O avanço da Anthropic no aumento da transparência do LLM marca um passo significativo em direção à desmistificação da IA. Ao revelar o funcionamento interno destes modelos, os investigadores podem obter insights sobre os seus processos de tomada de decisão, tornando os sistemas de IA mais previsíveis e controláveis. Esta compreensão é essential não só para mitigar os riscos, mas também para aproveitar todo o potencial da IA de uma forma segura e ética.

Além disso, este avanço abre novos caminhos para a investigação e desenvolvimento de IA. Ao mapear atividades neurais para conceitos compreensíveis, podemos projetar sistemas de IA mais robustos e confiáveis. Essa capacidade nos permite ajustar o comportamento da IA, garantindo que os modelos operem dentro dos parâmetros éticos e funcionais desejados. Também fornece uma base para abordar preconceitos, aumentar a justiça e prevenir o uso indevido.

O resultado last

O avanço da Antrópico no aumento da transparência dos Grandes Modelos de Linguagem (LLMs) é um passo significativo na compreensão da IA. Ao revelar como funcionam estes modelos, a Anthropic está a ajudar a resolver preocupações sobre a sua segurança e fiabilidade. No entanto, estes progressos também trazem novos desafios e riscos que necessitam de ser cuidadosamente considerados. À medida que a tecnologia da IA avança, encontrar o equilíbrio certo entre transparência e segurança será essential para aproveitar os seus benefícios de forma responsável.

Unite AI Mobile Newsletter 1