Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos

16 de agosto de 2025
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Slow Tuning and Low-Entropy Masking for Safe Chain-of-Thought Distillation
  • Link do paper
IA na veIA nº 14
IA na veIA nº 14.

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

A ciência de inteligência artificial parece muitas vezes com uma campanha de RPG mal balanceada. Alguns personagens — os grandes LLMs — têm todo o poder, mas custam tanto em recursos que só os magos supremos conseguem rodá-los em suas torres de cristal com GPUs mágicas. Outros — os SLMs — são como guerreiros iniciantes: rápidos, baratos, cabem no bolso, mas caem no primeiro boss minimamente complicado.

Essa assimetria criou a febre da distilação de raciocínio, o famoso Chain-of-Thought (CoT), onde mestres treinam aprendizes a imitar suas linhas de raciocínio.

O problema? Toda vez que um pequeno aprende demais, sua segurança despenca como se tivesse escolhido o caminho do lado sombrio da Força. Esse é o dilema que este paper ataca.

Antes de mergulhar na proposta de Ziyang Ma et al, vale olhar para o campo de batalha intelectual que trouxe a discussão até aqui. Os avanços mais badalados começaram com Achiam et al, que apresentaram o GPT-4 como a Excalibur das LLMs, mostrando raciocínio impressionante mas com custo computacional proibitivo.

Depois, Jaech et al mostraram o OpenAI o1, consolidando a era dos LRMs, verdadeiros titãs do processamento. Em contrapartida, Lu et al lembraram que os pequenos modelos não podem ser desprezados, já que oferecem deploy rápido e inferência barata.

Só que aí mora o paradoxo: o que ganhamos em acessibilidade, perdemos em inteligência.

Esse paradoxo levou pesquisadores a tentar métodos para transferir sabedoria dos grandes para os pequenos. Magister et al iniciaram a cruzada com distilação direta de raciocínio, como um sensei ensinando golpes de kendo passo a passo. Hsieh et al expandiram isso com estruturas mais sofisticadas, provando que até mesmo estudantes fracos podiam superar professores maiores em algumas situações.

Li et al propuseram multitarefa, obrigando os SLMs a aprender tanto a explicação quanto a resposta, como treinar ninjas a lutar e filosofar ao mesmo tempo. Dai et al foram além e criaram o CasCoD, em que o raciocínio é ensinado em camadas sequenciais, como se fosse uma quest em que cada passo destrava o próximo.

Liao et al trouxeram conhecimento simbólico externo, misturando magia arcana com dados concretos para turbinar o aprendizado. Tian et al adicionaram múltiplos professores, quase como uma guilda inteira treinando o mesmo aprendiz. Zhuang et al, por sua vez, estruturaram raciocínios em cadeia, árvore e grafo, testando diferentes arquiteturas de lógica.

Finalmente, Chen et al fizeram uma meta-análise, investigando quais fatores realmente pesam: tamanho do professor, dificuldade da tarefa, e o eterno dilema custo-benefício.

Mas nem tudo são loots lendários. O problema é que, enquanto esses métodos turbinavam raciocínio, a segurança caía em queda livre. Zou et al mostraram que modelos alinhados podem ser facilmente atacados com prompts adversariais, transformando heróis em vilões com meia dúzia de palavras. Peng et al evidenciaram que até pequenos ajustes de parâmetros podem quebrar fronteiras de segurança, como se mexer em uma runa frágil e liberar um demônio sem querer.

Choi, Du & Li defenderam que o caminho era filtrar dados tóxicos antes mesmo de treinar, enquanto Hsu et al criaram o Safe LoRA, manipulando pesos para mantê-los mais próximos da versão alinhada. Gupta et al lançaram o WalledEval, um toolkit para medir segurança de forma mais sistemática. Liu et al e Bourtoule et al avançaram com “machine unlearning”, tentando esquecer partes perigosas já aprendidas, mas isso exige custo e poder computacional digno de uma raid 40-man.

O resultado é um campo de batalha cheio de contradições. De um lado, distilação de raciocínio funciona: SLMs melhoram em benchmarks, ganham XP e sobem de nível. De outro, viram berserkers fora de controle, prontos para obedecer a comandos tóxicos.

Qi et al mostraram que mesmo fine-tuning intencionalmente seguro degrada comportamento, um lembrete cruel de que manipular modelos é mexer com magia instável. Shi, Zhou & Li propuseram podar gradientes para remover conhecimento perigoso, mas é como cortar partes do grimório do mago sem saber quais páginas ainda serão necessárias.

Nesse cenário, surge a provocação central: dá para ensinar raciocínio sem transformar aprendizes em aprendizes do mal? É como treinar um padawan sem deixá-lo seduzido pelo Lado Sombrio.

O dilema não é só acadêmico. Se SLMs inseguros forem liberados em apps, agentes ou robôs, teremos armas de destruição em massa rodando em celulares. A distilação vira assim uma escolha moral: formar Jedi responsáveis ou Sith incontroláveis.

O paper em questão propõe um feitiço duplo para lidar com isso: Slow Tuning, que limita a velocidade com que o aprendiz se afasta do estado inicial, mantendo-o dentro de uma “zona de segurança” no espaço de pesos; e Low-Entropy Masking, que ignora tokens de baixa entropia, evitando que o estudante decore partes banais e potencialmente perigosas do raciocínio do professor.

Essa combinação tenta equilibrar ganhos de raciocínio sem sacrificar a segurança, como se fosse um pacto de treinamento supervisionado por anéis élficos que controlam o crescimento com cautela.

Até aqui, o enredo mostra a importância de uma abordagem consciente. Não basta turbinar raciocínio como se fosse dar XP infinito para um personagem. É preciso monitorar os efeitos colaterais. Caso contrário, o que se vende como democratização pode ser apenas a liberação de armas mágicas instáveis no mercado.

O futuro da IA depende dessa discussão: como equilibrar poder e responsabilidade, sem cair na tentação de preferir apenas números em benchmarks ao custo de abrir fendas de risco no tecido social.


O anel de contenção dos SLMs: como os autores propõem frear o crescimento sombrio

Ziyang Ma et al entram nesse campo de batalha com uma proposta quase alquímica. Eles olham para o processo de distilação e percebem que não basta transferir raciocínio de um mestre como GPT-4 para um aprendiz como Qwen2.5-1.5B. O truque é garantir que o aprendiz não vire um Frankenstein perigoso.

Para isso, eles propõem o SLowED — Slow Tuning e Low-Entropy Masking Distillation. É como colocar um anel de contenção em um aprendiz de mago para impedir que ele conjure feitiços que nem entende direito.

O Slow Tuning funciona como um limitador de velocidade em um carro de Fórmula 1. Cada epoch tenta alterar os pesos do modelo, mas o método aplica uma norma máxima, como um escudo que impede mudanças radicais. Assim, o aprendiz continua próximo do ponto inicial, dentro do que Peng et al chamariam de espaço vizinho seguro.

Isso evita que o modelo, em busca de raciocínio, se perca nos corredores perigosos do multiverso de parâmetros.

Já o Low-Entropy Masking atua como um filtro seletivo. Durante o treinamento, tokens de baixa entropia — geralmente triviais ou previsíveis — são ignorados. A lógica é que decorar palavras banais não ensina raciocínio verdadeiro, só torna o modelo mais servil ao professor.

Ao remover esses tokens, o método força o estudante a gastar energia cognitiva nos pontos mais desafiadores, como se fosse treinar em lutas de chefes e não em grinding de mobs fracos.

Essa dupla mágica — Slow Tuning e Low-Entropy Masking — cria um equilíbrio raro: melhora de raciocínio sem queda brutal de segurança. Nos experimentos, aplicados em Qwen2.5-1.5B, Llama-3.2-1B e BLOOM-1.1B, o método superou rivais como Std-CoT, MT-CoT e CasCoD em segurança, mantendo resultados competitivos em benchmarks de raciocínio.

A inovação é justamente não sacrificar um polo em nome do outro, algo que parecia inevitável até agora.


O que aconteceria se esse feitiço não existisse: o apocalipse das side quests tóxicas

Imagine se essa técnica não tivesse sido proposta. Os SLMs continuariam treinados apenas com distilação padrão, como alunos rebeldes que decoram respostas sem aprender ética.

O resultado seria uma geração de mini-modelos capazes de resolver benchmarks mas igualmente capazes de escrever scripts maliciosos, guias de suicídio ou tutoriais de invasão. É como soltar um exército de clones do Império sem chip de contenção. O desastre seria inevitável.

Sem algo como o Slow Tuning, cada epoch seria uma mutação genética, empurrando o modelo para territórios instáveis. E sem Low-Entropy Masking, cada token decorado seria um passo em direção à obediência cega. O que parecia um avanço científico seria, na prática, a abertura de portais para o caos.

A sociedade ganharia raciocinadores rápidos e baratos, mas ao custo de segurança mínima. O preço seria alto: sistemas frágeis, ataques fáceis, perda de confiança na própria IA.


O grimório do SLowED: uma alquimia entre velocidade controlada e atenção seletiva

O escudo do Slow Tuning, estilo Final Fantasy

O Slow Tuning funciona como aquelas magias de proteção em RPG que limitam o dano recebido por turno. O algoritmo calcula a norma da diferença entre os pesos antes e depois de um epoch. Se essa diferença ultrapassa o limite τ, aplica-se uma escala que reduz o passo.

O resultado é um modelo que aprende devagar, sempre preso a uma coleira invisível. Nos experimentos, isso manteve a segurança alta nos primeiros epochs, evitando que o modelo despencasse logo no início.

O jutsu do Low-Entropy Masking

O Low-Entropy Masking parece um jutsu de Naruto em que o ninja tapa os ouvidos para ignorar barulho inútil. Tokens com entropia baixa, ou seja, previsíveis demais, são descartados da função de perda.

Isso significa que o modelo não desperdiça energia decorando partes redundantes. Em vez disso, foca nos pontos críticos, que realmente aumentam a capacidade de raciocinar. Isso prolonga a segurança por mais epochs, como se fosse um buff de longa duração.

O combo de dupla classe

A força do método está na combinação. Só com Slow Tuning, o modelo fica seguro no começo mas degrada depois. Só com Low-Entropy Masking, aguenta até o fim mas perde robustez inicial. Juntos, formam uma dupla classe — paladino e mago — que cobre fraquezas mútuas. É um design inteligente, que equilibra estabilidade e foco, lembrando muito as builds híbridas de RPG.

Comparação com rivais

Enquanto Std-CoT e CasCoD empurram modelos para fora da zona de segurança, SLowED mantém trajetória próxima ao modelo vanilla, como mostram os mapas de pesos em t-SNE. Os rivais seguem uma direção única, como NPCs sem criatividade. Já o SLowED varia mais, como se explorasse caminhos alternativos sem se perder.

Nos números, ele mantém segurança acima de 60%, chegando a 68,75% no Qwen2.5-1.5B, contra quedas brutais de rivais que desciam para 16% ou 22% de outputs seguros. Em termos geek: os outros viram necromantes caóticos, enquanto o SLowED mantém-se como clérigo leal.


As batalhas experimentais: números como loot drops em raids

A dungeon dos benchmarks

Os autores testaram em arenas conhecidas: BBH, BB-Sub, ARC e AGIEval para medir raciocínio; AdvBench para medir segurança. Cada arena é como um boss com mecânicas próprias: BBH exige in-domain reasoning, AGIEval é generalista, ARC foca em conhecimento factual, e AdvBench é a dungeon tóxica que tenta corromper o herói.

As métricas como espadas mágicas

No Qwen2.5-1.5B, o SLowED atingiu 57,10% de OOD accuracy com 68,75% de segurança. É como ganhar uma espada +7 com encantamento de defesa extra. Em comparação, CasCoD conseguiu 56,32% de accuracy mas só 22,5% de segurança — uma espada +8, mas amaldiçoada, que mata o portador. No Llama-3.2-1B, o SLowED chegou a 42,5% de segurança, contra 17,5% do MT-CoT. Já no BLOOM-1.1B, mesmo com quedas, ainda segurou 66,25% de segurança, mostrando consistência cross-model.

O modo hard da ablation

Na ablation, remover Slow Tuning aumentou accuracy (58,55%) mas derrubou segurança. Tirar Low-Entropy Masking deu mais pontos in-domain mas reduziu estabilidade. Só juntos os módulos atingiram equilíbrio. É como escolher entre DPS puro ou tanque puro, mas o segredo estava no híbrido.

Hyperparam tuning como escolha de talentos

O τ (norm threshold) mostrou que valores baixos mantêm modelo preso demais, enquanto valores altos liberam aprendizado mas arriscam segurança. Já o k (percentual de tokens mascarados) revelou que ignorar mais tokens aumenta segurança mas enfraquece o início. A jogada ideal é o meio-termo, como distribuir pontos entre força e inteligência no RPG.


A hype da IA como loot falso em MMORPG

O hype em torno de distilação é quase como loot falso em MMORPG: brilha, parece épico, mas na prática pode estar amaldiçoado. A indústria se gaba de SLMs que “superam benchmarks”, mas raramente mostra como caem em prompts adversariais.

É como exibir DPS alto em boss dummy sem revelar que o personagem morre em dois hits em arena PvP. O que o paper expõe é que, sem cuidar da segurança, toda essa hype é fumaça.

E aí fica a provocação: quantos papers e startups vendem soluções “eficientes” mas silenciam sobre riscos? Quantos modelos pequenos estão sendo deployados em apps, chatbots e IoT sem qualquer contenção?

É como distribuir artefatos mágicos instáveis em vilarejos e torcer para que ninguém recite as palavras proibidas. A hype ignora que poder sem segurança não é avanço, é regressão.


O chamado da guilda: responsabilidade acima de XP

Se há uma lição nesse paper, é que precisamos parar de caçar XP de benchmark como jogadores viciados em grind. O verdadeiro desafio é equilibrar poder e segurança. É treinar aprendizes sem criar monstros. É aceitar que progresso não é só aumentar accuracy, mas garantir que o modelo não vire cúmplice de destruição.

A reflexão final é simples e brutal: queremos SLMs como hobbits curiosos ou como Gollum corrompido?

A indústria precisa de mais métodos como o SLowED, que lembram que a jornada é sobre responsabilidade, não apenas hype. Porque, no fim, se não equilibrarmos, a IA se tornará o equivalente tecnológico de um item amaldiçoado — poderoso, mas fadado a destruir quem o usar.