MARKLLM: Um kit de ferramentas de código aberto para marca d'água LLM

A marca d'água LLM, que integra sinais imperceptíveis, mas detectáveis, dentro de saídas de modelo para identificar texto gerado por LLMs, é important para evitar o uso indevido de grandes modelos de linguagem. Essas técnicas de marca d'água são divididas principalmente em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saída com marca d'água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. O viés é introduzido nos logits de tokens de lista verde durante a geração de texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limite é estabelecido para distinguir entre texto com marca d'água e sem marca d'água. Os aprimoramentos do método KGW incluem particionamento de lista aprimorado, melhor manipulação de logit, maior capacidade de informações de marca d'água, resistência a ataques de remoção de marca d'água e a capacidade de detectar marcas d'água publicamente.

Por outro lado, a Christ Household altera o processo de amostragem durante a geração de texto LLM, incorporando uma marca d'água ao alterar como os tokens são selecionados. Ambas as famílias de marcas d'água visam equilibrar a detectabilidade da marca d'água com a qualidade do texto, abordando desafios como robustez em configurações de entropia variadas, aumentando a capacidade de informação da marca d'água e protegendo contra tentativas de remoção. Pesquisas recentes se concentraram em refinar o particionamento de listas e manipulação de logit), aprimorando a capacidade de informação da marca d'água, desenvolvendo métodos para resistir à remoção da marca d'água e permitindo a detecção pública. Por fim, a marca d'água LLM é essential para o uso ético e responsável de grandes modelos de linguagem, fornecendo um método para rastrear e verificar o texto gerado pelo LLM. A KGW e a Christ Households oferecem duas abordagens distintas, cada uma com pontos fortes e aplicações únicas, evoluindo continuamente por meio de pesquisa e inovação contínuas.

Devido à capacidade das estruturas de marca d'água LLM de incorporar sinais detectáveis algoritmicamente em saídas de modelos para identificar o texto gerado por uma estrutura LLM está desempenhando um papel essential na mitigação dos riscos associados ao uso indevido de grandes modelos de linguagem. No entanto, há uma abundância de estruturas de marca d'água LLM no mercado atualmente, cada uma com suas próprias perspectivas e procedimentos de avaliação, dificultando assim que os pesquisadores experimentem essas estruturas facilmente. Para combater esse problema, o MarkLLM, um equipment de ferramentas de código aberto para marca d'água, oferece uma estrutura extensível e unificada para implementar algoritmos de marca d'água LLM, ao mesmo tempo em que fornece interfaces amigáveis para garantir facilidade de uso e acesso. Além disso, a estrutura MarkLLM oferece suporte à visualização automática dos mecanismos dessas estruturas, aumentando assim a compreensibilidade desses modelos. A estrutura MarkLLM oferece um conjunto abrangente de 12 ferramentas que abrangem três perspectivas juntamente com dois pipelines de avaliação automatizados para avaliar seu desempenho. Este artigo tem como objetivo cobrir o framework MarkLLM em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do framework junto com sua comparação com frameworks de última geração. Então, vamos começar.

O surgimento de grandes estruturas de modelos de linguagem como LLaMA, GPT-4, ChatGPT e mais progrediram significativamente a capacidade dos modelos de IA de executar tarefas específicas, incluindo escrita criativa, compreensão de conteúdo, recuperação de formação e muito mais. No entanto, junto com os benefícios notáveis associados à proficiência excepcional dos atuais grandes modelos de linguagem, certos riscos surgiram, incluindo ghostwriting de artigos acadêmicos, notícias falsas e representações geradas por LLM e representação particular person, para citar alguns. Dados os riscos associados a esses problemas, é important desenvolver métodos confiáveis com a capacidade de distinguir entre conteúdo gerado por LLM e humano, um requisito importante para garantir a autenticidade da comunicação digital e evitar a disseminação de desinformação. Nos últimos anos, a marca d'água LLM tem sido recomendada como uma das soluções promissoras para distinguir conteúdo gerado por LLM de conteúdo humano e, ao incorporar recursos distintos durante o processo de geração de texto, as saídas LLM podem ser identificadas exclusivamente usando detectores especialmente projetados. No entanto, devido à proliferação e aos algoritmos relativamente complexos das estruturas de marca d'água LLM, juntamente com a diversificação de métricas e perspectivas de avaliação, tornou-se incrivelmente difícil experimentar essas estruturas.

Para preencher a lacuna atual, a estrutura MarkLLM tenta fazer as seguintes contribuições. MARKLLM oferece interfaces consistentes e fáceis de usar para carregar algoritmos, gerar texto com marca d'água, conduzir processos de detecção e coletar dados para visualização. Ele fornece soluções de visualização personalizadas para as duas principais famílias de algoritmos de marca d'água, permitindo que os usuários vejam como diferentes algoritmos funcionam em várias configurações com exemplos do mundo actual. O equipment de ferramentas inclui um módulo de avaliação abrangente com 12 ferramentas que abordam detectabilidade, robustez e impacto na qualidade do texto. Além disso, ele apresenta dois tipos de pipelines de avaliação automatizados que oferecem suporte à personalização do usuário de conjuntos de dados, modelos, métricas de avaliação e ataques, facilitando avaliações flexíveis e completas. Projetado com uma arquitetura modular e frouxamente acoplada, o MARKLLM aprimora a escalabilidade e a flexibilidade. Esta escolha de design oferece suporte à integração de novos algoritmos, técnicas de visualização inovadoras e à extensão do equipment de ferramentas de avaliação por futuros desenvolvedores.

Vários algoritmos de marca d'água foram propostos, mas suas abordagens de implementação exclusivas geralmente priorizam requisitos específicos em detrimento da padronização, o que leva a vários problemas

Falta de padronização no design de courses: Isso exige um esforço significativo para otimizar ou estender os métodos existentes devido a projetos de classe insuficientemente padronizados.
Falta de uniformidade em interfaces de chamada de nível superior: Interfaces inconsistentes tornam o processamento em lote e a replicação de diferentes algoritmos trabalhosos e trabalhosos.
Problemas com padrões de código: Os desafios incluem a necessidade de modificar configurações em vários segmentos de código e documentação inconsistente, complicando a personalização e o uso efetivo. Valores codificados e tratamento de erros inconsistente dificultam ainda mais a adaptabilidade e os esforços de depuração.

Para abordar essas questões, nosso equipment de ferramentas oferece uma estrutura de implementação unificada que permite a invocação conveniente de vários algoritmos de última geração sob configurações flexíveis. Além disso, nossa estrutura de classe meticulosamente projetada abre caminho para futuras extensões. A figura a seguir demonstra o design dessa estrutura de implementação unificada.

Devido ao design distributivo da estrutura, é simples para os desenvolvedores adicionar interfaces de nível superior adicionais a qualquer classe específica de algoritmo de marca d'água sem se preocupar em impactar outros algoritmos.

MarkLLM: Arquitetura e Metodologia

As técnicas de marca d'água LLM são divididas principalmente em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saída com marca d'água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. O viés é introduzido nos logits dos tokens da lista verde durante a geração do texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limite é estabelecido para distinguir entre texto com marca d'água e sem marca d'água. Os aprimoramentos do método KGW incluem particionamento de lista aprimorado, melhor manipulação de logit, maior capacidade de informações de marca d'água, resistência a ataques de remoção de marca d'água e a capacidade de detectar marcas d'água publicamente.

Avaliação abrangente automatizada

Avaliar um algoritmo de marca d'água LLM é uma tarefa complexa. Primeiro, requer consideração de vários aspectos, incluindo detectabilidade de marca d'água, robustez contra adulteração e impacto na qualidade do texto. Segundo, avaliações de cada perspectiva podem exigir diferentes métricas, cenários de ataque e tarefas. Além disso, conduzir uma avaliação normalmente envolve várias etapas, como seleção de modelo e conjunto de dados, geração de texto com marca d'água, pós-processamento, detecção de marca d'água, adulteração de texto e computação métrica. Para facilitar a avaliação conveniente e completa dos algoritmos de marca d'água LLM, o MarkLLM oferece doze ferramentas fáceis de usar, incluindo várias calculadoras métricas e invasores que cobrem as três perspectivas de avaliação mencionadas acima. Além disso, o MARKLLM fornece dois tipos de pipelines de demonstração automatizados, cujos módulos podem ser personalizados e montados de forma flexível, permitindo fácil configuração e uso.

Para o aspecto de detectabilidade, a maioria dos algoritmos de marca d'água, em última análise, requer a especificação de um limite para distinguir entre textos com marca d'água e sem marca d'água. Fornecemos uma calculadora básica de taxa de sucesso usando um limite fixo. Além disso, para minimizar o impacto da seleção de limite na detectabilidade, também oferecemos uma calculadora que suporta seleção dinâmica de limite. Esta ferramenta pode determinar o limite que produz a melhor pontuação F1 ou selecionar um limite com base em uma taxa de falso positivo (FPR) alvo especificada pelo usuário.

Para o aspecto de robustez, o MARKLLM oferece três ataques de adulteração de texto em nível de palavra: exclusão aleatória de palavras em uma proporção especificada, substituição aleatória de sinônimos usando o WordNet como conjunto de sinônimos e substituição de sinônimos com reconhecimento de contexto utilizando BERT como modelo de incorporação. Além disso, dois ataques de adulteração de texto em nível de documento são fornecidos: parafraseando o contexto through OpenAI API ou o modelo Dipper. Para o aspecto de qualidade do texto, o MARKLLM oferece duas ferramentas de análise direta: uma calculadora de perplexidade para avaliar a fluência e uma calculadora de diversidade para avaliar a variabilidade dos textos. Para analisar o impacto da marca d'água na utilidade do texto em tarefas específicas de downstream, fornecemos uma calculadora BLEU para tarefas de tradução automática e um julgador de aprovação ou não para tarefas de geração de código. Além disso, dados os métodos atuais para comparar a qualidade de texto com marca d'água e sem marca d'água, que incluem o uso de um LLM mais forte para julgamento, o MarkLLM também oferece um discriminador GPT, utilizando GPT-4 para comparar a qualidade do texto.

Pipelines de avaliação

Para facilitar a avaliação automatizada dos algoritmos de marca d'água LLM, o MARKLLM fornece dois pipelines de avaliação: um para avaliar a detectabilidade da marca d'água com e sem ataques, e outro para analisar o impacto desses algoritmos na qualidade do texto. Seguindo esse processo, implementamos dois pipelines: WMDetect3 e UWMDetect4. A principal diferença entre eles está na fase de geração de texto. O primeiro requer o uso do método generate_watermarked_text do algoritmo de marca d'água, enquanto o último depende do parâmetro text_source para determinar se deve recuperar diretamente o texto pure de um conjunto de dados ou invocar o método generate_unwatermarked_text.

Para avaliar o impacto da marca d'água na qualidade do texto, pares de textos com e sem marca d'água são gerados. Os textos, juntamente com outras entradas necessárias, são então processados e alimentados em um analisador de qualidade de texto designado para produzir resultados detalhados de análise e comparação. Seguindo esse processo, implementamos três pipelines para diferentes cenários de avaliação:

DirectQual.5: Este pipeline é projetado especificamente para analisar a qualidade de textos comparando diretamente as características de textos com marca d'água com aquelas de textos sem marca d'água. Ele avalia métricas como perplexidade (PPL) e diversidade de log, sem a necessidade de quaisquer textos de referência externos.
RefQual.6: Este pipeline avalia a qualidade do texto comparando textos com e sem marca d'água com um texto de referência comum. Ele mede o grau de similaridade ou desvio do texto de referência, tornando-o splendid para cenários que exigem tarefas downstream específicas para avaliar a qualidade do texto, como tradução automática e geração de código.
ExDisQual.7: Este pipeline emprega um julgador externo, como o GPT-4 (OpenAI, 2023), para avaliar a qualidade de textos com e sem marca d'água. O discriminador avalia os textos com base nas descrições de tarefas fornecidas pelo usuário, identificando qualquer degradação ou preservação potencial da qualidade devido à marca d'água. Este método é particularmente valioso quando uma análise avançada baseada em IA dos efeitos sutis da marca d'água é necessária.

MarkLLM: Experimentos e Resultados

Para avaliar seu desempenho, a estrutura MarkLLM realiza avaliações em nove algoritmos diferentes e avalia seu impacto, robustez e detectabilidade na qualidade do texto.

A tabela acima contém os resultados da avaliação da detectabilidade de nove algoritmos suportados no MarkLLM. O ajuste de limite dinâmico é empregado para avaliar a detectabilidade de marca d'água, com três configurações fornecidas: sob um FPR alvo de 10%, sob um FPR alvo de 1% e sob condições para desempenho de pontuação F1 splendid. 200 textos com marca d'água são gerados, enquanto 200 textos sem marca d'água servem como exemplos negativos. Fornecemos TPR e pontuação F1 sob ajustes de limite dinâmico para 10% e 1% FPR, juntamente com TPR, TNR, FPR, FNR, P, R, F1, ACC em desempenho splendid. A tabela a seguir contém os resultados da avaliação da robustez de nove algoritmos suportados no MarkLLM. Para cada ataque, 200 textos com marca d'água são gerados e subsequentemente adulterados, com 200 textos adicionais sem marca d'água servindo como exemplos negativos. Relatamos o TPR e a pontuação F1 em desempenho splendid em cada circunstância.

Pensamentos finais

Neste artigo, falamos sobre o MarkLLM, um equipment de ferramentas de código aberto para marca d'água que oferece uma estrutura extensível e unificada para implementar algoritmos de marca d'água LLM, ao mesmo tempo em que fornece interfaces amigáveis para garantir facilidade de uso e acesso. Além disso, a estrutura MarkLLM suporta visualização automática dos mecanismos dessas estruturas, aumentando assim a compreensibilidade desses modelos. A estrutura MarkLLM oferece um conjunto abrangente de 12 ferramentas que abrangem três perspectivas, juntamente com dois pipelines de avaliação automatizados para avaliar seu desempenho.

join the future newsletter Unite AI Mobile Newsletter 1