[IA na veIA nº 26] O sabre de luz da aprendizagem contínua: como a memória esparsa pode salvar as LLMs do esquecimento catastrófico

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Continual Learning via Sparse Memory Finetuning
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

A busca por uma IA que aprenda continuamente, sem esquecer o que já sabe, é uma das maiores jornadas da pesquisa em inteligência artificial. Parece simples: queremos modelos que, como um Jedi em treinamento, acumulem conhecimento com o tempo, evoluindo com suas experiências. Mas o que enfrentamos na prática é um monstro chamado esquecimento catastrófico. Um fenômeno que ataca as redes neurais quando são ajustadas com novos dados, apagando memórias antigas como se fossem deletadas por um Sith em missão.

Esse dilema tem raízes antigas. McCloskey & Cohen já alertavam sobre esse problema em 1989. French mostrou, em 1999, como redes conexionistas esquecem com facilidade. Chen et al mostraram recentemente que a estratégia de replay pode aliviar o problema, mas consome recursos absurdos. Repetir pretraining de LLMs com replay é como tentar refazer toda a saga Star Wars só pra corrigir a fala do Yoda.

Regularizações também foram testadas. Srivastava et al propuseram dropout. Ouyang et al adicionaram penalidades KL. Kirkpatrick et al apresentaram a Elastic Weight Consolidation para preservar pesos importantes. Mas tudo isso ainda atualiza os mesmos parâmetros compartilhados. Ou seja, uma tentativa de ensinar o Darth Vader a amar sem alterar seu passado sombrio.

Outro grupo de pesquisadores como Hu et al e Houlsby et al investiram em estratégias de expansão: adicionar parâmetros sob demanda, como LoRA ou adapters. Mas como bem lembrado por Biderman et al, esses métodos aprendem menos — são como sidekicks engraçados, não heróis principais.

Já o uso de replay com buffers (Robins, 1995; Lesort et al, 2022) traz mais eficiência em aprendizado, mas às custas de um sistema pesado, pouco escalável. E no ritmo em que LLMs são pré-treinadas e alinhadas, repetir isso tudo é inviável. É como tentar gravar todas as falas do Frodo antes de ele sair do Condado.

Panigrahi et al mostraram que apenas 0,01% dos parâmetros podem ser críticos para uma tarefa. O insight é simples, mas poderoso: se pudermos isolar e atualizar só o que importa, talvez tenhamos a chave para a aprendizagem contínua sem amnésia.

O anel do poder das LLMs: memória esparsa como arma contra o esquecimento

Jessy Lin et al propõem uma alternativa revolucionária: uma técnica chamada sparse memory finetuning usando memory layers. Imagine que, em vez de reescrever todo o livro da história de um personagem, atualizamos apenas a página relevante da sua biografia. Essa é a ideia.

Essas memory layers, como introduzidas por Berges et al e He, são como bibliotecas modulares. Elas armazenam milhões de vetores de memória, mas acessam apenas um punhado em cada passo — algo como 32 entre 1 milhão. Isso reduz o risco de sobrescrever conhecimento antigo.

A inovação de Lin et al está em fazer updates apenas nos slots de memória que são altamente ativados por novos dados, usando um critério de TF-IDF. Assim como em buscas no Google, os slots que aparecem muito em um novo dado, mas pouco no histórico, são os melhores candidatos para atualização. O resultado? O modelo aprende novas informações, mas continua lembrando do que sabia antes.

Eles testaram isso em dois cenários: aprendizado de fatos com TriviaQA e aprendizado de documentos com SimpleQA. Em ambos, a abordagem de memória esparsa superou tanto o full finetuning quanto o LoRA, com uma queda de performance muito menor nos benchmarks antigos.

O apocalipse das LLMs sem memória seletiva: um futuro dominado pelo esquecimento

Sem essa técnica, os modelos LLMs estão fadados ao esquecimento catastrófico. Em testes com aprendizado de novos fatos usando full finetuning, a performance em tarefas anteriores como NaturalQuestions caiu 89%. Com LoRA, caiu 71%. Isso é como um mago que aprende um novo feitiço, mas esquece como lançar fireball.

Se a técnica de memória esparsa não existisse, os modelos continuariam presos na necessidade de retrainings massivos ou arquiteturas inchadas. Cada nova habilidade aprendida viraria um risco para o que já foi ensinado. É como treinar o Goku para uma nova forma e vê-lo esquecer o Kamehameha.

A ausência de um método como esse impediria qualquer uso realista de LLMs em ambientes que exigem adaptação constante — personalização, interação com usuários, aprendizado com erros. Simplesmente não seria viável confiar que o modelo mantenha consistência e memória sem um custo astronômico de computação.

O grimório secreto da memória seletiva: como a magia acontece sob o capô

A arquitetura proposta por Lin et al é uma versão geek refinada de um feitiço de conjuração seletiva. No centro da proposta estão as memory layers, que substituem um feedforward layer padrão em uma das camadas intermediárias de um transformer por uma estrutura de consulta a memória.

O Horcrux da informação: como a memória é acessada

Cada token gera uma query, que busca os top-k vetores mais relevantes (k=32). Esses vetores são combinados com pesos aprendidos e o resultado passa por um gating não-linear, dando o output da memória. Como cada token só ativa uma fração minúscula da memória (0.0002% a 0.03%), o risco de interferência é reduzido.

O Olho de Agamotto do aprendizado: atualizações seletivas

O truque da memória esparsa é atualizar apenas os vetores mais ativados em comparação com o histórico de pré-treinamento. Usando TF-IDF, eles identificam os slots raros em pré-treino, mas comuns nos novos dados. Isso reduz a chance de sobrescrever conhecimento anterior, como se fosse um feitiço de proteção da biblioteca de Hogwarts.

Eles usam um batch específico, com várias sequências de input, coletam os acessos aos índices de memória e ranqueiam pela fórmula de TF-IDF. Depois disso, apenas os top-t índices (por exemplo, t=500) são atualizados — o restante é congelado.

A chave mestra: eficiência computacional

Mesmo com milhões de slots de memória, cada passo de aprendizado ativa apenas uma fração — isso economiza memória e tempo de inferência. Além disso, ao usar product keys (Lample et al), a busca pelos vetores é otimizada, como se fosse um hash mágico que reduz o custo computacional.

A Batalha de Helm’s Deep contra o esquecimento: experimentos e resultados que valem uma guerra

A seção experimental do paper é um verdadeiro campo de batalha, onde os métodos se enfrentam como exércitos na guerra pela aprendizagem contínua.

A invasão dos dados escassos: aprendizado factual com TriviaQA

No experimento de aprendizado de fatos, foram usados 1000 fatos de TriviaQA, reescritos como afirmações e paraphrased para formar batches. Os resultados foram claros como o céu de Tatooine: o sparse memory finetuning alcançou F1 > 0.7 com apenas 500 parâmetros atualizados, enquanto LoRA e full finetuning colapsaram a performance em benchmarks como GSM8K e NaturalQuestions.

A performance do full finetuning chegou a cair até 89%. O LoRA, com ranks entre 32 e 256, teve quedas acima de 70%. A memória esparsa? Só 11%.

A jornada pelo conhecimento: aprendizado com documentos do SimpleQA

No segundo experimento, eles simularam o aprendizado contínuo com documentos extraídos da Wikipedia, conectados a 100 perguntas do SimpleQA. Cada documento foi dividido em 1824 trechos. Usando Active Reading (Lin et al, 2025), foram geradas várias versões sintéticas desses trechos.

Mesmo nesse cenário de dados mais diversos, a memória esparsa manteve desempenho alto e quase nenhuma perda nas tarefas anteriores. Enquanto full finetuning e LoRA sofreram novamente com o apagamento de memórias, a abordagem esparsa se manteve como um Gandalf segurando o balrog do esquecimento.

O triângulo do destino: trade-off entre aprendizado e esquecimento

O paper apresenta um gráfico estilo Marvel vs DC com o trade-off entre aprendizado (TriviaQA) e esquecimento (HellaSwag). A sparse memory claramente dominou a fronteira de Pareto, mostrando que é possível aprender mais com menos perdas.

Testes com diferentes valores de t (número de slots atualizados) e learning rates mostraram que há um ponto ótimo onde o modelo aprende bem e esquece pouco. Isso é literalmente a engenharia da força no coração de uma LLM.

O cristal da verdade: análise qualitativa das ativações de memória

Os autores investigaram se os índices ativados durante o treinamento (em paraphrases) são os mesmos usados nas perguntas. A resposta é sim. Eles definem o core set como a interseção entre os índices ativados nas paraphrases e na pergunta, e observaram que os slots mais relevantes tendem a se alinhar com entidades — ou seja, são semânticos, não sintáticos.

Com apenas 25 a 100 slots atualizados, a maioria das perguntas podia ser respondida corretamente. Um feito que mostra a precisão cirúrgica do método. Os gráficos da página 9 confirmam isso visualmente.

O feitiço anti-hype: por que a maioria das soluções para aprendizado contínuo ainda são poções placebo

Vamos ser francos: boa parte da indústria finge que LLMs conseguem aprender continuamente, mas o que temos é um teatrinho de RAGs, retrainings pesados e LoRAs que mais economizam GPU do que resolvem o problema.

O método proposto aqui não é apenas uma engenhoca teórica — é uma crítica viva ao jeito como tratamos aprendizado contínuo hoje. Em vez de adicionar camadas sobre camadas, por que não focar em aprender de forma mais seletiva, eficiente e inteligente?

Lin et al mostram que é possível sim aprender novos fatos sem esquecer tudo, sem truques e sem reinicializar o modelo como se fosse uma máquina de fliperama.

O desafio final de Konoha: repensar como queremos que nossas LLMs evoluam

Se queremos LLMs que realmente aprendem com interação humana, não podemos depender de retrainings periódicos nem armazenar tudo como um simples histórico. A evolução precisa ser seletiva, eficiente e sem esquecer o que já foi aprendido — como um ninja que evolui sem perder a honra do seu clã.

A proposta de Lin et al é um passo nessa direção. A memória esparsa é o Sharingan das LLMs: acessa o essencial, aprende com precisão e protege o conhecimento antigo.

Mas não se engane. Ainda há desafios. Escalar para modelos maiores. Adaptar t dinamicamente. Ranquear com mais inteligência. Expandir para raciocínio e código. A luta está só começando.

O que fica claro é: o futuro da aprendizagem contínua não será com soluções inchadas, mas com abordagens enxutas, seletivas e tão precisas quanto uma lâmina de vibranium.

IA na veIA

[IA na veIA nº 29] O Gollum dos agentes LLM: DeepAgent transforma ferramentas em poder bruto com…

[IA na veIA nº 28] O cavaleiro Jedi das LLMs que enfrentou Wall Street com lógica em vez de hype

[IA na veIA nº 27] Entre Paladinos e Bardos: o RPG silencioso por trás de cada decisão

[IA na veIA nº 26] O sabre de luz da aprendizagem contínua: como a memória esparsa pode salvar as…