Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 46] Do fine-tuning ingênuo ao subespaço estratégico: a revolução do LoRA no unlearning

16 de fevereiro de 2026
[IA na veIA nº 46] Do fine-tuning ingênuo ao subespaço estratégico: a revolução do LoRA no unlearning

Sumário


O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Quantization-Robust LLM Unlearning via Low-Rank Adaptation
  • Link do paper
IA na veIA nº 46
IA na veIA nº 46.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Se você acha que machine unlearning em LLMs é só apertar um botão e apagar memórias como o Doutor Estranho mexendo na mente do Peter Parker, sinto informar que a realidade é bem menos cinematográfica. Modelos gigantes treinados em volumes absurdos de dados carregam junto informações sensíveis, privadas e até potencialmente ilegais, e simplesmente “pedir para esquecer” não resolve o problema estrutural. Liu et al já deixaram claro que o unlearning em LLMs não é só um ajuste fino, é um conflito direto entre remover conhecimento específico e preservar capacidades gerais, como tentar apagar uma quest específica no WoW sem quebrar o servidor inteiro.

Zhang et al mostraram que métodos como Gradient Ascent e Negative Preference Optimization funcionam relativamente bem em alta precisão, mas são frágeis como um vidro temperado quando confrontados com restrições práticas de deployment. Em cenários reais, ninguém quer rodar um Llama-2-7B em BF16 consumindo memória como se fosse um boss final com barra infinita. A indústria quer quantização, compressão, eficiência, e é aí que a magia começa a falhar.

Xu et al discutem amplamente como quantização é essencial para tornar LLMs viáveis em ambientes de produção, reduzindo custo e latência. O problema é que essa redução de bits não é só uma compressão inocente, é uma brutal discretização do espaço paramétrico. Quando você desce para 4 bits, o espaço de valores possíveis vira uma grade grossa, quase como jogar Tetris com peças gigantes em um tabuleiro minúsculo.

Zhang et al foram ainda mais incisivos ao mostrar que a quantização pode reverter o unlearning, fazendo o modelo “lembrar” o que deveria ter esquecido. Isso acontece porque os updates aplicados durante o unlearning são minúsculos, distribuídos por milhões de parâmetros, como dano de tick de veneno em um chefe que regenera vida absurdamente rápido. Se o deslocamento não atravessa o limite da grade de quantização, ele simplesmente desaparece.

Hu et al introduziram LoRA como uma alternativa eficiente ao fine-tuning completo, restringindo atualizações a subespaços de baixa rank. Biderman et al argumentaram que LoRA aprende menos e esquece menos, sugerindo que há algo estruturalmente interessante nessa restrição. A pergunta que fica é provocativa: e se essa limitação for justamente a arma que precisamos para sobreviver ao massacre da quantização?

Resolver essa tensão é crucial, não só academicamente, mas socialmente. Se não conseguimos garantir que um modelo quantizado realmente esqueceu dados sensíveis, qualquer promessa de compliance vira fanfic. E ninguém quer descobrir, tarde demais, que o modelo 4-bit em produção ainda recita trechos inteiros de um livro protegido como se estivesse invocando um jutsu proibido.


LoRA como um sabre de luz contra a amnésia falsa

O trabalho é assinado por Abitante et al, um grupo que decidiu encarar de frente o elefante na sala: quantização destrói unlearning. Eles partem de uma hipótese ousada, mas elegante, usar LoRA não apenas como técnica de eficiência, mas como mecanismo de robustez estrutural contra discretização agressiva. É quase como trocar um exército espalhado por um ataque concentrado estilo Genki Dama.

A ideia central é simples e genial ao mesmo tempo. Em vez de atualizar todos os parâmetros do modelo com pequenos deslocamentos, eles congelam os pesos originais e concentram o unlearning em adaptadores de baixa rank. O update deixa de ser um sussurro distribuído e vira um grito focalizado em um subespaço controlado.

Subespaço de baixa rank como campo de batalha controlado

Abitante et al argumentam que restringir a otimização a matrizes A e B de rank reduzido cria uma atualização estruturalmente mais robusta. Como o update efetivo é BA escalado por α/r, ele pode atingir magnitudes maiores sem destruir a utilidade global. É como treinar apenas uma guilda especializada em vez de mexer em toda a população de Azeroth.

Além disso, o congelamento do modelo base impede deriva global indesejada. Isso é crucial, porque aumentar learning rate em fine-tuning completo pode enviesar o modelo para o retain set, criando outro tipo de distorção. Com LoRA, o aumento de taxa de aprendizado vira uma arma cirúrgica, não uma explosão nuclear.

Controle de magnitude como arma anti-quantização

O fator de escala α funciona como amplificador direto do update. Ajustando α proporcionalmente ao rank, eles conseguem empurrar os pesos efetivos para além do limiar da grade de 4 bits. Traduzindo para o mundo geek, é a diferença entre dar 1 de dano por turno ou atravessar a defesa do boss com um crítico massivo que realmente altera a barra de vida.

O impacto social disso é direto. Se modelos quantizados voltam a reter dados esquecidos, qualquer deployment eficiente pode se tornar uma bomba-relógio regulatória. Abitante et al oferecem uma alternativa concreta para alinhar eficiência computacional e responsabilidade ética, algo raro em um ecossistema dominado por hype.


O que acontece se ignorarmos isso e continuarmos fingindo que 4 bits são inofensivos?

Sem essa abordagem, o cenário é preocupante. Modelos aparentemente “limpos” em BF16 podem ressuscitar memórias indesejadas após quantização, como vilões que sempre voltam na cena pós-créditos da Marvel. Isso mina completamente a confiança em benchmarks de unlearning avaliados apenas em alta precisão.

Imagine um sistema em produção, comprimido para 4 bits para rodar em escala global, que ainda responde com trechos quase verbatim de conteúdo sensível. A empresa acredita estar em conformidade, mas o modelo guarda segredos como um Horcrux mal destruído. A consequência não é só técnica, é jurídica e reputacional.

Sem robustez estrutural, o unlearning vira ilusão estatística. Métricas bonitas em papers, mas comportamento incoerente no mundo real. É como testar build de personagem só em modo tutorial e achar que está pronto para raid mítica.


A engenharia do esquecimento: matemática, rank e fronteiras de quantização

Antes de mergulhar nos resultados, precisamos entender o motor matemático dessa proposta. O problema nasce do chamado minimal weight change constraint. Em fine-tuning completo, o learning rate precisa ser minúsculo, na ordem de 10⁻⁵ a 10⁻⁷, para evitar colapso de utilidade.

Fronteiras de quantização como grades de Tetris

Na quantização uniforme, cada peso é mapeado para um intervalo discreto. Se o update ΔW não atravessa a fronteira do intervalo, o índice quantizado permanece o mesmo. É como tentar sair de um tile em Pokémon sem dar passos suficientes para cruzar para o próximo quadrado.

Em 8 bits, existem 128 intervalos positivos, então a resolução é fina. Em 4 bits, são apenas 8 intervalos positivos. A granularidade aumenta brutalmente, e updates pequenos são simplesmente ignorados.

LoRA como restrição estrutural e amplificador implícito

Com LoRA, temos W₀ + α/r BA. Aqui, r é o rank e α controla escala. Ao permitir learning rates maiores, como 10⁻⁴ ou até 7×10⁻⁴, o acúmulo em A e B cresce rapidamente.

A restrição de rank atua como regularizador implícito. Em vez de espalhar pequenas mudanças por milhões de parâmetros, concentramos energia em um subespaço de dimensão reduzida. Isso aumenta a chance de cruzar a fronteira de quantização, garantindo que Q(W₀ + ΔW) ≠ Q(W₀).

Seleção de camadas como estratégia localizada

Abitante et al injetam LoRA em todas as camadas lineares, incluindo MLP e projeções de atenção. Essa escolha amplia a capacidade expressiva do subespaço de unlearning. É como decidir atacar tanto a linha de frente quanto os magos de suporte.

Comparado ao estado da arte que usa Full-FT, a vantagem não é apenas eficiência. É robustez numérica contra discretização. A provocação é clara, será que insistir em full fine-tuning para unlearning em cenários quantizados não é simplesmente teimosia metodológica?


Os números que doem mais que um nerf em patch notes

Agora vem a parte que realmente importa. Resultados experimentais em MUSE com Llama-2-7B, avaliando BOOKS e NEWS sob BF16, Int8 e Int4. Prepare-se, porque aqui os números contam uma história que desmonta muita confiança cega.

Full-FT em 4 bits: o colapso estilo Thanos

No cenário Full-FT com GA+GDR em BOOKS, a utilidade cai de 68.74 em BF16 para 53.79 em Int4. É uma queda de quase 15 pontos, como perder metade do time em uma teamfight decisiva. Em NEWS, a utilidade despenca para 40.06 sob 4 bits.

Com NPO+GDR, a utilidade em BOOKS vai de 60.09 para 50.17 em 4 bits. Isso é quase 10 pontos evaporando após quantização. A promessa de unlearning robusto simplesmente não sobrevive à compressão agressiva.

LoRA em 4 bits: cruzando a fronteira da grade

Quando aplicamos LoRA com GA+GDR em BOOKS, a utilidade em 4 bits sobe para 53.16 comparado a 53.79 do Full-FT, mas o ponto chave é a robustez relativa. A queda da versão LoRA é menor, mostrando estabilidade estrutural.

Em NEWS, GA+GDR com LoRA atinge 44.82 em utilidade 4-bit, contra 40.06 do Full-FT. São 4.76 pontos de ganho, o equivalente a virar uma partida que parecia perdida. Isso não é ruído estatístico irrelevante, é impacto prático.

PrivLeak: aproximando do ideal zero como fechar um portal dimensional

Para GA+KLR em BOOKS, o PrivLeak em 4 bits com Full-FT é -25.68. Com LoRA, sobe para -5.86, muito mais próximo de zero, que é o ideal. É como reduzir drasticamente a chance de membership inference distinguir o modelo unlearned de um retrained.

Essa aproximação de zero significa menos vazamento relativo. Em termos de AUC-ROC, é sair de um cenário claramente distinguível para algo muito mais alinhado com o modelo que nunca viu o dado. Em termos geek, é como trocar uma capa de invisibilidade furada por uma realmente funcional.

Estabilidade quase invariável em NPO+KLR

No caso de NPO+KLR em BOOKS, VerMem vai de 16.76 em full precision para 17.03 em 4 bits com LoRA. A utilidade permanece praticamente estável, 41.82 para 42.02. Isso é estabilidade quase perfeita sob compressão agressiva.

Compare isso com Full-FT, onde a utilidade cai de 60.25 para 48.50. A diferença é brutal. É a diferença entre manter build consistente após patch ou descobrir que todos os seus itens foram nerfados secretamente.

VerMem e KnowMem como indicadores de esquecimento real

Em GA+KLR com LoRA, KnowMem em BOOKS atinge 0.00 tanto em full quanto em 4 bits. Isso é esquecimento semântico quase total. VerMem permanece próximo de zero, indicando que o modelo não recita texto original.

Esses valores são próximos do ideal, sem sacrificar completamente utilidade. É o equilíbrio que todo mundo promete e quase ninguém entrega.

Int8 como zona de conforto, mas não solução definitiva

Int8 apresenta desempenho mais próximo do BF16 na maioria dos casos. Isso confirma a análise teórica sobre step size menor. Mas a realidade de edge deployment frequentemente empurra para 4 bits ou menos.

A pergunta provocativa é, por que continuar validando unlearning apenas em cenários confortáveis? Se o deployment real é 4-bit, qualquer avaliação que ignore isso é quase um teste em modo fácil.

Testes estatísticos e interpretação crítica

As diferenças de 4 a 8 pontos em métricas de ROUGE-L não são triviais. Em benchmarks de linguagem, variações de 1 a 2 pontos já são discutidas como relevantes. Aqui vemos ganhos de até 7.93 pontos em utilidade 4-bit para NPO+GDR em BOOKS com LoRA.

Isso é maior que muitos ganhos celebrados em papers de alignment. E ainda assim estamos falando de algo que não melhora “capacidade”, mas confiabilidade do esquecimento. Talvez isso diga algo sobre nossas prioridades como comunidade.

Trade-offs inevitáveis e escolhas conscientes

Nem todos os cenários mostram LoRA superando Full-FT em métricas absolutas de utilidade em full precision. Às vezes há pequena redução inicial. Mas a robustez sob quantização compensa amplamente.

É a diferença entre um personagem com stats ligeiramente menores mas imune a debuffs massivos. Em produção, essa imunidade pode valer mais que o pico de performance teórica.


A indústria ama hype, mas 4 bits não perdoam ilusões

A hype da IA adora narrativas de controle total. “Podemos fazer o modelo esquecer qualquer coisa”. Mas quando você desce para 4 bits, a física numérica lembra quem manda.

Se o unlearning não sobrevive à quantização, ele não sobrevive ao mundo real. É simples assim. Ignorar isso é como ignorar lag em servidor competitivo e culpar o jogador.

Precisamos parar de validar soluções apenas no ambiente idealizado de alta precisão. Deployment eficiente é a regra, não exceção. E qualquer solução que não considere isso está vendendo fantasia.


O próximo level: esquecimento estrutural e pesquisa sem ilusões

O trabalho de Abitante et al abre uma avenida de pesquisa fascinante. E se explorarmos ranks adaptativos por camada, ajustando α dinamicamente conforme estatísticas de quantização? E se combinarmos LoRA com quantization-aware training especificamente voltado para unlearning?

Há espaço para investigar limites teóricos de crossing probability em grades discretas. Podemos modelar explicitamente a probabilidade de ΔW atravessar intervalos dado N bits e distribuição de pesos. Isso é terreno fértil para quem gosta de teoria com impacto prático.

Também precisamos testar além de RTN, explorando GPTQ e AWQ sob regimes ainda mais agressivos. E se formos para 3 bits? Ou formatos híbridos por camada? A batalha entre esquecimento e discretização está só começando.

Se você é pesquisador jovem e quer fugir da hype superficial, este paper é um convite. Ele não promete poderes mágicos, mas expõe uma falha estrutural e propõe solução concreta. Leia o trabalho completo, mergulhe nos detalhes matemáticos, questione as escolhas de rank e escala, e pense como levar essa ideia adiante.

Porque no fim do dia, não basta treinar modelos gigantes. Precisamos garantir que, quando dissermos que eles esqueceram algo, isso continue verdadeiro mesmo depois que a realidade de 4 bits bater à porta.


Categoria

Lista de tags