Tech

Como detectar código gerado por IA com CodeLeaks

LifeTechWebMay 23, 2024

0 4 minutes read

Com os LLMs em alta na educação, os professores são forçados a se adaptar, implementando ferramentas de detecção de IA em seu arsenal. No entanto, a maioria dos detectores de IA se estende apenas a texto, mas todos sabemos que existe mais de um tipo de atribuição.

Por exemplo, e o código?

Não se preocupe – o CopyLeaks oferece aos professores cobertura com seu recurso chamado CodeLeaks. A única questão é: quão preciso é realmente? Isso é o que discutiremos neste artigo, juntamente com como usar o CodeLeaks e minha opinião geral sobre o assunto. Fique atento!

O que é CopyLeaks?

Copiar vazamentos é uma plataforma feita para garantir que o uso indevido e o plágio da IA sejam contidos ao mínimo. É um conjunto de ferramentas que utiliza algoritmos avançados e tecnologias emergentes para dissecar textos, documentos e até códigos.

Fiel ao seu slogan de “Fortalecendo a Originalidade e Inspirando Autenticidade” Os recursos mais populares do CopyLeaks são o verificador de plágio e o detector de conteúdo de IA. Testamos este último usando nosso próprio conjunto de dados e descobrimos que ele tem 75% de precisão em testes verdadeiros positivos (superando conteúdos em escala e originalidade) e 80% em testes falsos positivos (que é a segunda pontuação mais alta em oito detectores). ).

O que é CodeLeaks?

Vazamentos de código é um recurso específico do CopyLeaks que visa código plagiado de bases de código pré-existentes ou de um LLM. Cada entrada de código gerará um relatório completo com destaque para o código copiado e de onde ele veio, porcentagem de plágio e muito mais. Iremos nos aprofundar nisso mais tarde.

Como detectar código AI usando CodeLeaks?

Passo #1: Crie uma conta

Para começar a detectar código usando CodeLeaks, você precisa de uma conta. Basta acessar o painel e selecionar o botão “Login” ou “Criar conta” no canto superior esquerdo da tela.

Etapa 2: carregue seu código

Agora, você deve ter acesso whole ao painel deles. Para confirmar, você deverá ver essas seis opções no centro da tela. A partir daí, selecione o “Código” opção.

Depois de entrar, basta arrastar um arquivo de código para o painel e tudo o que resta fazer agora é a última etapa.

Etapa 3: Obtenha um relatório detalhado

Antes de prosseguirmos, deixe-me gerar um código Python usando ChatGPT e salvá-lo como um arquivo .py. Então, pedi ao ChatGPT para criar um código baseado no Fizzbuzz, uma pergunta standard do Leetcode.

O exercício é assim: Você precisa imprimir com eficiência todos os números de 1 a 100, mas para múltiplos de 3, deve haver um “FIZZ” em vez do número; para múltiplos de 5, deve haver um “BUZZ” e para múltiplos de ambos, a saída deve ser “FIZZBUZZ”.

Aqui está o que ChatGPT me deu:

Vamos salvá-lo como um arquivo .py e carregá-lo no CodeLeaks. Aqui está o resultado:

Em comparação com a análise de plágio de código, a análise de código de IA fornece apenas uma informação importante sobre a entrada: a probabilidade percentual de que ela tenha vindo de uma IA.

Quão preciso é o CodeLeaks?

Agora que você sabe como o CodeLeaks funciona, é hora de testar e descobrir quão preciso ele é na detecção de código de IA. Este teste será dividido em duas partes: verdadeiro positivo e falso positivo. O último é para código gerado por IA, enquanto o último medirá se o CodeLeaks pode detectar código humano. Então, sem mais delongas…

Testes Verdadeiros Positivos

Teste nº 1 – IA detectada com sucesso!
Pontuação de probabilidade de IA: 100%

Teste nº 2 – IA detectada com sucesso!
Pontuação de probabilidade de IA: 100%

Teste nº 3 – IA detectada com sucesso!
Pontuação de probabilidade de IA: 100%

Teste nº 4 – IA detectada com sucesso!
Pontuação de probabilidade de IA: 100%

Teste nº 5 – IA detectada com sucesso!
Pontuação de probabilidade de IA: 100%

Testes falsos positivos

Teste nº 1 – Falha, IA detectada em conteúdo humano.
Pontuação de probabilidade de IA: 100%

Teste nº 2 – Conteúdo humano detectado com sucesso!
Pontuação de probabilidade de IA: 0%

Teste nº 3 – Conteúdo humano detectado com sucesso!
Pontuação de probabilidade de IA: 0%

Pontuação computada e reflexões sobre a precisão do CodeLeaks

Eu não esperava que o CodeLeaks fosse tão preciso, mas é. Apesar de ter um resultado falso positivo, o fato de ter detectado com sucesso os dados da amostra como IA ou humanos 7 em 8 vezes é um feito notável por si só. Além do mais, o CodeLeaks estava absolutamente certo (pontuações de probabilidade de IA de 0% ou 100%) de sua análise, que em sua maioria se mostrou correta.

Também é interessante ver que o CopyLeaks parece ser mais preciso na detecção de IA no código do que no texto tradicional. Acredito que os comentários desempenham um grande papel nesses resultados, pois a única coisa que os códigos gerados pela IA e o único teste falso positivo tinham em comum period uma abundância de comentários e anotações.

O resultado last

Num mundo onde a detecção de IA recebe tanto escrutínio, o CopyLeaks continua a não decepcionar. Já sabemos que é um detector de IA capaz para texto, mas quem diria que também period tão bom na detecção de código de IA?

É um bom sinal de que a detecção de IA, seja texto ou código, esteja caminhando em uma direção mais positiva. OpenA foi criticado por dizer que a detecção não é confiável, embora eles estivessem absolutamente certos. Mas agora, as ferramentas de detecção de IA estão evoluindo junto com os LLMs – e o CopyLeaks pode estar na vanguarda dessa mudança.

Quer saber mais sobre CopyLeaks? Você pode ler mais sobre isso em nossos artigos como este. Boa sorte!