Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 48] A queda do Roshan: o jailbreak que quebrou o high ground dos LLMs

17 de fevereiro de 2026
[IA na veIA nº 48] A queda do Roshan: o jailbreak que quebrou o high ground dos LLMs

Sumário


O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

IA na veIA nº 48
IA na veIA nº 48.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

A corrida entre quem constrói modelos e quem tenta quebrá-los nunca foi tão intensa, e a sensação é de assistir Vingadores contra Thanos em loop infinito. Desde os primeiros LLMs expostos ao público, pesquisadores vêm mostrando que bastam alguns truques linguísticos para extrair respostas que deveriam estar bloqueadas. Shen et al mapearam uma verdadeira Pokédex de jailbreaks in the wild, enquanto Zou et al demonstraram como sufixos universais podem sequestrar a atenção do modelo como se fosse um genjutsu do Naruto.

O problema é que a indústria reagiu, e reagiu pesado. Sharma et al apresentaram os Constitutional Classifiers, sistemas auxiliares projetados para resistir a milhares de horas de red teaming humano, como um boss secreto de Dark Souls que só morre depois de 300 tentativas coordenadas. Cunningham et al avançaram ainda mais com classificadores de produção que prometem robustez contra jailbreaks universais, tentando fechar a porta que Zou et al haviam escancarado.

Só que aqui está a tensão central: quanto mais sofisticadas as defesas, mais opacas elas se tornam para quem tenta auditá-las. Métodos como GCG de Zou et al e ataques baseados em logprob de Sadasivan et al assumem acesso a gradientes ou scores internos, algo que no mundo real simplesmente não existe. É como tentar derrotar um chefe em WoW sem ver a barra de vida dele, só sabendo se você tomou wipe ou não.

E é exatamente aí que mora o perigo científico. Se só conseguimos quebrar sistemas com acesso privilegiado, podemos criar uma falsa sensação de segurança quando esses sinais não estão disponíveis. Brendel et al já haviam mostrado no domínio de visão que ataques baseados apenas na decisão final do modelo são não só possíveis, mas devastadores, lembrando que o fato de não ver o gradiente não significa que a fronteira não exista.

Resolver essa limitação não é apenas uma questão acadêmica, é uma questão estrutural para a segurança de IA. Se classificadores robustos forem vulneráveis a ataques totalmente black-box, então estamos construindo muralhas com portas invisíveis. E ignorar isso é o equivalente científico de subestimar o Loki porque ele parece fraco, até perceber que o caos já está instalado.


Boundary Point Jailbreaking: hackeando a Matrix só com um bit

O paper de Davies et al entra nesse campo como um rogue level 99 que decidiu explorar o mapa inteiro usando apenas o minimapa. Eles propõem o Boundary Point Jailbreaking, ou BPJ, um ataque totalmente black-box que usa apenas um único bit por consulta: foi flagrado ou não foi flagrado. Nada de gradiente, nada de probabilidade, nada de score contínuo.

A ideia central é quase elegante demais para não ser perigosa. Em vez de atacar diretamente a string nociva final, Davies et al transformam o alvo em um currículo de dificuldades progressivas. É como treinar contra mobs fracos antes de enfrentar o dragão final, interpolando entre texto completamente ruidoso e o texto nocivo real.

Currículo como modo história antes do boss final

A primeira inovação é o uso explícito de curriculum learning. Eles aplicam ruído à string nociva, substituindo caracteres por símbolos aleatórios, criando versões progressivamente mais difíceis. Quanto mais ruído, mais fácil passar pelo classificador, porque o modelo não entende bem o conteúdo.

Isso resolve um problema clássico: quando o alvo final é extremamente bloqueado, qualquer modificação inicial parece igualmente ruim. Sem sinal de melhoria, a busca vira random walk. O currículo cria uma rampa suave onde pequenas melhorias já produzem diferença observável.

Boundary points como sensores na borda do mapa

A segunda sacada é a noção de boundary points. Em vez de avaliar candidatos em pontos aleatórios do currículo, eles filtram apenas exemplos onde alguns ataques passam e outros falham. Esses pontos estão próximos da fronteira de decisão do classificador.

É como testar builds diferentes exatamente na linha onde o boss quase te mata. Se todos morrem ou todos sobrevivem, você não aprende nada. Mas se metade morre e metade vive, ali está o ouro experimental.

Essa combinação permite que o algoritmo evolutivo selecione mutações que realmente empurram a fronteira. E o resultado é perturbador: Davies et al relatam sucesso contra Constitutional Classifiers e até contra o classificador de entrada do GPT-5, sem depender de sementes humanas.


E se esse boss nunca tivesse sido enfrentado

Imagine o cenário alternativo onde BPJ não existe. Defenderíamos classificadores robustos com base em falhas humanas isoladas e ataques com acesso privilegiado. Seria como avaliar a segurança de um servidor só tentando senhas óbvias.

Sem um ataque automatizado black-box eficaz, poderíamos concluir que certas defesas são praticamente inquebráveis. A narrativa pública seria de vitória quase definitiva contra jailbreaks universais.

Mas a ausência de evidência não é evidência de ausência. Como em Star Wars, destruir uma Estrela da Morte não significa que não exista outra sendo construída. Se um método como BPJ é possível, então a superfície de ataque é mais ampla do que muitos gostariam de admitir.

Ignorar isso criaria complacência. E complacência em segurança de IA é o equivalente a deixar o Anel do Poder jogado na mesa achando que ninguém vai notar.


A engenharia do ataque: evoluindo prefixos como se fossem Pokémons raros

Antes de mergulhar nos experimentos, vale dissecar o método como se estivéssemos analisando uma build competitiva.

Modelo de ameaça estilo stealth mission

O atacante só observa um bit binário por consulta. O classificador é determinístico e responde flag ou não flag. O objetivo é encontrar um prefixo universal que, quando concatenado à pergunta nociva, evite o bloqueio.

Nada de gradiente. Nada de feedback rico. Só sim ou não. Isso é literalmente jogar xadrez vendo apenas se sua peça foi capturada.

Interpolação por ruído como distorção de feitiço

A interpolação substitui n caracteres da string nociva por símbolos como colchetes. Com n alto, o texto vira quase ruído total. Com n zero, é o alvo real.

Esse parâmetro controla a dificuldade como um slider de dificuldade em The Witcher. A probabilidade de flag diminui gradualmente conforme o ruído aumenta, criando uma função de fitness contínua aproximada.

Algoritmo evolutivo digno de laboratório de genética

O ataque mantém uma população de prefixos. A cada iteração, escolhe um candidato, aplica mutação aleatória de token e avalia nos boundary points. Se o novo candidato resolve mais pontos do que pelo menos um dos atuais melhores, ele entra na população.

É seleção elitista pura. Holland ficaria orgulhoso. Só que aqui o fitness é definido por sobreviver à fronteira do classificador.

Substituição e avanço de currículo como boss phases

Quando todos os ataques resolvem certos boundary points, esses pontos são descartados e novos são gerados. Quando a taxa de sucesso ultrapassa um limiar, o ruído é reduzido.

É como fases de boss que mudam o padrão de ataque quando você reduz a barra de vida. O sistema força adaptação contínua até que n chegue a zero.

Comparado a Best-of-N de Hughes et al, que é essencialmente rolar dados até dar sorte, BPJ aprende. Comparado a ataques com gradiente de Zou et al, ele opera no escuro. E ainda assim converge.


Resultados que quebram a narrativa do invencível

Aqui começa a parte que deveria deixar qualquer pesquisador desconfortável. Os experimentos não são em brinquedos acadêmicos irrelevantes. Eles incluem um classificador baseado em GPT-4.1-nano, os Constitutional Classifiers de Sharma et al e o classificador de entrada do GPT-5.

Convergência no classificador GPT-4.1-nano: o tutorial sangra

No cenário inicial, o ruído começa alto e diminui ao longo de cerca de 25 a 30 mil consultas. Em três execuções distintas, o padrão é consistente, com redução suave do nível de ruído.

Comparando métodos, BPJ converge cerca de cinco vezes mais rápido que usar apenas currículo sem boundary points. Best-of-N praticamente não converge no orçamento de consultas testado. É como comparar grind estratégico com loot aleatório.

Transferência: um ataque treinado em uma pergunta domina outras

Talvez o resultado mais intrigante seja a transferência. Otimizando contra apenas uma pergunta do HarmBench de Mazeika et al, o prefixo aprendido começa a funcionar em outras perguntas não vistas.

As taxas de pass@1 e pass@10 sobem progressivamente ao longo da otimização. Isso ecoa resultados de Ben-Tov et al sobre sufixos universais como sequestradores de atenção.

Ou seja, estamos vendo indícios de que a fronteira aprendida não é específica da pergunta, mas captura fragilidades estruturais do classificador.

Constitutional Classifiers: de 0% a quase 40% no máximo

No caso dos Constitutional Classifiers, a pontuação média em rubricas de bio misuse sai de 0% para 25,5% em respostas não vazias, com máximo de 39,9% em até 50 consultas. Com elicitação básica, o máximo chega a 80,4%.

Foram necessárias cerca de 660 mil consultas e 330 dólares. Parece muito. Mas para um atacante automatizado com recursos, isso é grind aceitável.

GPT-5 input classifier: o dragão também sangra

No classificador de entrada do GPT-5, a média salta de 0% para 75,6%, com máximo de 94,3% em até 50 consultas. O custo foi de 800 mil consultas e cerca de 210 dólares.

Isso não é uma falha marginal. É uma ruptura narrativa. Se um ataque totalmente automatizado e black-box consegue isso, então a robustez proclamada precisa ser reinterpretada.

Claro, há um caveat importante. O ataque gera muitos flags durante a otimização, o que sugere que monitoramento em lote pode detectar o comportamento. Mas isso já muda o jogo. A defesa deixa de ser puramente por interação e passa a ser comportamental e agregada.

E aqui está a reflexão incômoda: talvez o futuro da segurança em LLMs não seja impedir que a fronteira seja encontrada, mas detectar quem está tentando mapeá-la.


A hype da invencibilidade caiu como castelo de cartas

A indústria ama vender a narrativa do modelo alinhado, do classificador robusto, da muralha inexpugnável. Cada system card soa como relatório de vitória definitiva.

Mas BPJ expõe algo desconfortável. Classificadores baseados em ML têm fronteiras contínuas. Onde há fronteira, há gradiente implícito. Onde há gradiente implícito, há possibilidade de exploração, mesmo que só com um bit por consulta.

Tratar jailbreak como bug pontual é ingenuidade. O próprio paper deixa claro que BPJ não é uma vulnerabilidade específica a ser patchada, mas uma classe de ataque que explora propriedades fundamentais.

Se você ainda acredita que basta treinar mais um classificador e pronto, talvez esteja no mesmo estágio de negação de quem achava que a primeira Estrela da Morte era única.


O futuro será entre fronteiras adaptativas e vigilância sistêmica

Então para onde vamos? A primeira lição é que defesas single-turn não bastam. Monitoramento em lote, análise de padrões de consulta e telemetria comportamental precisam entrar no core da arquitetura.

A segunda é que precisamos entender formalmente por que ataques aprendidos em uma pergunta transferem para outras. A teoria apresentada por Davies et al sugere condições de alinhamento entre objetivo relaxado e objetivo base. Isso abre uma linha de pesquisa profunda sobre a geometria da fronteira de decisão.

A terceira é desconfortável: talvez precisemos aceitar que qualquer classificador determinístico binário exposto por API é, em princípio, explorável. A pergunta passa a ser custo, detecção e resposta, não invulnerabilidade.

Para você que está pesquisando LLMs e segurança, este paper é leitura obrigatória. Ele não só apresenta um ataque engenhoso, mas também fornece uma moldura teórica que ajuda a pensar a dinâmica evolutiva por trás da exploração.

Se você quer entender como fronteiras de decisão podem ser sistematicamente mapeadas mesmo no escuro, mergulhe no paper completo de Davies et al. Ele é um lembrete brutal de que, em IA, o boss final raramente é realmente final.


Categoria

Lista de tags