[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A comunidade de IA anda obcecada com uma corrida onde só existe uma linha de chegada: quem tem o maior modelo. Cada nova arquitetura lançada é mais pesada, mais cara e mais difícil de treinar e de colocar em produção.

Mas será que aumentar os parâmetros é o único caminho para vencer o Império da complexidade computacional? Essa visão “quanto mais, melhor” tem se mostrado cada vez mais míope quando colocamos na balança as restrições do mundo real. Como já dizia o Mestre Yoda: “Tamanho não é tudo”.

Há uma urgência crescente em resolver esse desequilíbrio. O treinamento de famílias inteiras de LLMs com múltiplos tamanhos, voltadas para diferentes cenários de uso, é caro demais. Cada modelo precisa ser treinado do zero, consumindo trilhões de tokens. A Llama 3, por exemplo, exigiu múltiplas variantes (8B, 70B, 405B), todas partindo do zero — um verdadeiro buraco negro de custo computacional.

Rodrigues et al mostraram que técnicas de compressão como pruning estruturado e distilação de conhecimento até tentam contornar esse abismo. O problema? Ainda demandam centenas de bilhões de tokens por modelo comprimido. Não é exatamente o que se espera de uma solução eficiente.

Já Souza et al propuseram redes Matryoshka, onde submodelos elásticos compartilham pesos com o modelo pai e são extraídos sem fine-tuning. Mas mesmo essas abordagens ainda não contemplam arquiteturas híbridas ou modelos voltados para raciocínio.

Campos et al apontaram outro desafio: LLMs voltadas para raciocínio — aquelas capazes de construir cadeias lógicas longas, resolver problemas matemáticos ou gerar código passo a passo — são especialmente difíceis de comprimir. Elas exigem flexibilidade arquitetural, capacidade de lidar com sequências longas e uma estratégia de treinamento que respeite a estrutura do pensamento em etapas. Não adianta reduzir o modelo e torcer para que ele continue pensando como antes.

Machado et al alertaram que o raciocínio não é só uma questão de peso de modelo, mas sim de como o modelo processa e organiza as informações ao longo do tempo. Compressão convencional não resolve isso. Já Almeida et al mostraram que redes como Mamba, que utilizam mecanismos baseados em State Space Models (SSMs), têm mostrado ganhos de eficiência absurdos em comparação com attention puro, especialmente pela redução do cache KV e pelo processamento em tempo linear.

O desafio é: como tornar esse tipo de arquitetura elástica sem quebrar suas delicadas dependências estruturais?

Enquanto os engenheiros seguem tentando colocar um Hulk dentro de um traje do Homem de Ferro, há quem prefira transformar o traje em algo modular, que pode crescer ou encolher conforme o combate. E é exatamente aí que entra o Nemotron Elastic.

O multiverso elástico da IA: um modelo para cada universo paralelo

O time de Taghibakhshi et al não está aqui para seguir as regras do jogo. Eles vieram para hackear o sistema. A proposta do Nemotron Elastic é simples, mas subversiva: um único modelo pai (o Nemotron Nano V2 12B) abriga dentro de si versões otimizadas com 9B e 6B parâmetros — todas treinadas simultaneamente com os mesmos pesos e extraídas “zero-shot” no momento do deploy, sem fine-tuning ou ajustes.

É como se o Doutor Estranho abrisse múltiplos portais para realidades alternativas, cada uma com um modelo perfeitamente adaptado para um orçamento computacional diferente. E melhor: todos compartilham o mesmo DNA.

O diferencial está na arquitetura híbrida Mamba-Attention. Enquanto a maioria das técnicas de compressão foca em Transformers puros, o Nemotron Elastic trabalha com uma base mista, unindo o melhor dos dois mundos: o processamento linear dos SSMs com o poder contextual dos mecanismos de atenção. Isso resolve uma dor crônica da compressão de modelos de raciocínio — a capacidade de manter performance em sequências longas, algo que nem pruning nem distillation tradicionais conseguem entregar sem perda severa de qualidade.

A grande sacada é o uso de um roteador treinado de ponta a ponta. Ele é o Tony Stark da operação: define, com base na importância das camadas e componentes, quais partes da arquitetura devem ser mantidas ou descartadas em cada configuração. O roteador aprende a balancear eficiência e desempenho, e ainda adapta a estrutura do modelo conforme o desafio da tarefa. Se o input exige raciocínio longo, o roteador privilegia camadas mais profundas. Se o objetivo é baixa latência, ele escolhe um caminho mais raso.

Além disso, o sistema introduz elastificação heterogênea. Diferente de abordagens anteriores que aplicam compressão de forma homogênea (mesmo tamanho de FFN, atenção e Mamba em todas as camadas), aqui cada camada pode ter um tamanho diferente, otimizando a eficiência grão a grão. É como se cada parte do Jarvis soubesse exatamente quanta energia usar dependendo da ameaça.

Se o modelo não fosse elástico, estaríamos todos na nave errada

Agora imagine um cenário sem o Nemotron Elastic. Cada modelo — 6B, 9B e 12B — teria que ser treinado do zero. Isso significa gastar bilhões de tokens por variante. E ainda mais crítico: ter que armazenar e gerenciar checkpoints distintos, todos pesando dezenas de GBs. É o mesmo que manter três versões do Thanos em jaulas separadas. Complexo, caro e completamente sem escalabilidade.

Sem a elastificação, cada novo modelo para um novo hardware exige um ciclo completo de treinamento, compressão, distillação e tuning. É um looping temporal à la Loki. Já com o Nemotron Elastic, tudo é feito em uma única timeline. Um só modelo. Múltiplos caminhos.

E mais: sem esse sistema, a adaptação para raciocínio longo — aquele necessário para resolver AIME-2025 ou gerar código funcional em LiveCodeBench — seria impraticável. Modelos comprimidos tradicionalmente falham miseravelmente em contextos longos, justamente porque as compressões ignoram a importância de manter sequências extensas intactas. Aqui, não. O treinamento em dois estágios do Nemotron Elastic garante que mesmo os modelos reduzidos de 6B e 9B saibam manter o fio da meada.

O modo Super Sayajin do roteador: como a arquitetura aprende a se moldar

A alma do Nemotron Elastic é o roteador treinado de ponta a ponta. Ele define, com base em vetores de entrada e distribuição de custo, como “ligar” ou “desligar” partes do modelo. Isso não é feito aleatoriamente. O sistema usa Gumbel-Softmax para permitir que a escolha seja diferenciável — ou seja, dá para treinar via backpropagation. Bem diferente dos antigos mecanismos de arquitetura manual.

A nave Millennium Falcon do raciocínio: profundidade seletiva

Uma das maiores sacadas é a elastificação por profundidade. Ao invés de simplesmente cortar camadas, o sistema estima a importância de cada uma comparando o erro médio quadrático das previsões com e sem aquela camada. Assim, as camadas mais relevantes são preservadas nos modelos menores. É como se o sistema soubesse que remover o Chewbacca afeta mais do que tirar um Stormtrooper genérico.

Cada peça no lugar certo: largura sob medida

Além da profundidade, cada dimensão (embedding, atenção, FFN, Mamba) pode ser elástica. E o roteador aprende a alocar de forma ótima, usando máscaras dinâmicas que ativam ou desativam partes do modelo conforme o orçamento desejado. Se o alvo é um 6B com tempo de resposta rápido, ele reduz o número de cabeças de atenção e canais de Mamba, preservando o raciocínio essencial. Tudo isso mantendo a estrutura do modelo original intacta — o que é crucial para manter a estabilidade do SSM.

A armadura do Homem de Ferro para cada missão

O modelo pode ser cortado e extraído “zero-shot” após o treinamento, sem nenhuma reotimização. Isso muda completamente o jogo em ambientes de produção: você carrega uma única checkpoint e extrai a versão mais adequada conforme o hardware, o tempo de inferência ou o orçamento energético. Missão na nuvem? Use o 12B. Edge computing no celular? Extraia o 6B.

O impacto nos testes: de Groot a Rocket Raccoon, todos preparados para a guerra

Os experimentos são onde o Nemotron Elastic realmente mostra que não é só hype. Três modelos — 6B, 9B e 12B — foram extraídos de um único treinamento do modelo de 12B. E todos eles performaram de forma comparável (ou melhor) do que suas versões independentes da NanoV2, mesmo nas tarefas mais cabeludas como AIME-2025 e GPQA.

AIME-2025: o Exame Chunin dos modelos de raciocínio

Aqui, o modelo de 6B teve um salto de +19.8% após o segundo estágio de treinamento com contexto longo. Isso mostra que, diferente dos outros modelos comprimidos, ele de fato aprendeu a raciocinar em etapas. Não apenas copiar padrões. É como ver o Rock Lee abrir os portões internos e atingir um novo nível de combate.

LiveCodeBench: não basta responder, tem que codar

O modelo de 9B se destacou na geração de código, superando versões pré-treinadas de modelos maiores. Isso sugere que o roteador aprendeu a preservar componentes essenciais para raciocínio algorítmico. Em uma analogia geek, ele manteve o R2-D2 intacto enquanto reduzia os droids secundários.

GPQA e MMLU-Pro: o vestibular Jedi

No conjunto GPQA, mesmo o modelo de 6B manteve mais de 53% de acurácia, enquanto o 12B ultrapassou os 63%. No MMLU-Pro, todos os três modelos se mantiveram acima de 66%, com o 12B atingindo 76.2%. Esses benchmarks testam não só conhecimento, mas a capacidade de conectar fatos complexos. E o Nemotron Elastic entrega.

Comparação com QWen3 e NanoV2

Mesmo modelos como o QWen3-8B não conseguem acompanhar o desempenho médio dos elásticos. Isso confirma a eficiência da abordagem: não se trata de manter tamanho, mas sim de manter estrutura e raciocínio.

A ilusão da força bruta: a IA não precisa ser um Hulk burro

A indústria de IA está presa em um ciclo de crescimento descontrolado. Todo novo modelo precisa ser maior, mais caro, mais denso. É como se estivéssemos tentando resolver todos os problemas com mais força, esquecendo que às vezes o que resolve mesmo é o uso inteligente da Força — com F maiúsculo.

O Nemotron Elastic mostra que há um caminho alternativo. Em vez de empilhar parâmetros como se fossem peças de Lego sem critério, a ideia é usar um sistema que sabe exatamente quais peças fazem sentido para cada cenário. Sem recomeçar do zero. Sem duplicar tudo. Sem jogar tokens fora.

A rebelião elástica: chegou a hora de derrotar o Império dos modelos gigantes

Se você é um jovem padawan pesquisador, procurando por maneiras mais inteligentes de treinar, comprimir e implantar modelos de raciocínio, o Nemotron Elastic é o caminho. Mas não se iluda: isso não é um milagre. É um projeto sofisticado, cheio de camadas (literalmente) e detalhes técnicos que merecem ser estudados com calma.

Ainda há muitas portas a serem abertas: como escalar para modelos maiores? Como adaptar dinamicamente em tempo real? Como incorporar quantização nesse pipeline?

Se você quer fugir da Matrix dos parâmetros infinitos, leia o paper completo. Ele pode não ser a pílula vermelha, mas com certeza é o mapa para chegar até ela.

IA na veIA

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que…

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

O melhor palestrante na Paraíba sobre marketing digital: como contratar Celso Sousa

IA na veIA

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

Quem é Celso Sousa?

Visão geral do paper

O multiverso elástico da IA: um modelo para cada universo paralelo

Se o modelo não fosse elástico, estaríamos todos na nave errada

O modo Super Sayajin do roteador: como a arquitetura aprende a se moldar

A nave Millennium Falcon do raciocínio: profundidade seletiva

Cada peça no lugar certo: largura sob medida

A armadura do Homem de Ferro para cada missão

O impacto nos testes: de Groot a Rocket Raccoon, todos preparados para a guerra

AIME-2025: o Exame Chunin dos modelos de raciocínio

LiveCodeBench: não basta responder, tem que codar

GPQA e MMLU-Pro: o vestibular Jedi

Comparação com QWen3 e NanoV2

A ilusão da força bruta: a IA não precisa ser um Hulk burro

A rebelião elástica: chegou a hora de derrotar o Império dos modelos gigantes