[IA na veIA nº 17] O sabre de luz das LLMs: por que continuar pré-treinando pode ser a força que vai derrubar o Império dos agentes genéricos

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Scaling Agents via Continual Pre-training
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

Você já parou pra pensar por que tantos agentes baseados em LLMs são, no fundo, apenas grandes papagaios com acesso à internet? Eles repetem padrões, chamam ferramentas, geram respostas — mas não passam disso. Não é à toa que, mesmo com toneladas de fine-tuning e reinforcement learning, esses modelos continuam tropeçando quando precisam realmente pensar como agentes.

E aqui está a provocação: será que estamos tentando ensinar comportamento de agente do jeito errado?

Enquanto a hype dos agentes autônomos toma conta das timelines e conferências, um problema teimoso continua aí, firme como o Thanos antes do estalo: a ausência de modelos fundacionais realmente agentic. A maioria dos modelos ainda nasce com o DNA de preditores de tokens genéricos e só depois é empurrada para resolver tarefas complexas com múltiplos passos, chamadas de ferramentas, raciocínio e ajustes finos. É como treinar um stormtrooper para virar Jedi só com workshops de meditação.

Mas o que está em jogo aqui é mais do que desempenho em benchmarks. É a própria viabilidade de termos agentes úteis, confiáveis e adaptáveis no mundo real. Yao et al mostraram que LLMs com capacidade de raciocínio e uso de ferramentas podem operar como agentes completos, mas sem um arcabouço fundacional sólido, essas habilidades se tornam frágeis e inconsistentes.

Qin et al e Schick et al foram além, explorando o conceito de aprendizado de ferramentas dentro do pré-treinamento, mas ainda assim baseados em fundações genéricas.

Aí entra o conceito de agentic alignment, uma ampliação necessária da velha discussão sobre alinhamento de modelos. Ouyang et al já haviam mostrado como modelos podem ser ajustados para seguir preferências humanas com SFT e RLHF, mas isso é uma visão estreita quando falamos de agentes em ambientes dinâmicos.

Imagine o Geralt de Rívia aprendendo a caçar monstros só com leitura de grimórios e sem nunca colocar a mão numa espada. É isso que estamos fazendo com os LLMs.

Chung et al, Taori et al e DeepSeek-AI mostraram que mesmo com RL e SFT, modelos como WebSailor, GLM-4.5 e DeepSeek-V3.1 ficam muito atrás de sistemas fechados como o Deep Research da OpenAI. Estamos falando de gaps de mais de 20 pontos em benchmarks como BrowseComp. Ou seja, não é uma questão de mais fine-tuning — é uma questão de fundação errada.

Yang et al tentaram contornar esse problema usando modelos como Qwen2.5, incorporando trajetórias sintéticas já no meio do treinamento. Mas isso ainda é patch, não solução. Shi et al apontaram que o CPT tradicional melhora conhecimento de domínio, mas não resolve o desafio das habilidades agentic, que são transversais, contextuais e altamente adaptativas.

A urgência aqui é estrutural. Não basta corrigir comportamento com datasets específicos ou feedback humano. Precisamos mudar a fundação — e isso significa redefinir o próprio pré-treinamento com foco agentic. Lin et al sugerem que adaptar modelos de forma contínua pode evitar o esquecimento catastrófico.

Yıldız et al reforçam essa ideia com resultados consistentes até 1.5B de parâmetros. Mas ninguém tinha, até agora, estendido isso para habilidades agentic reais, com uso de ferramentas, raciocínio e tomada de decisão.

Zhou et al mostram com o AcademicBrowse que modelos precisam navegar literatura científica como verdadeiros estudiosos. Krishna et al, com Frames, evidenciam a necessidade de múltiplas perspectivas e integração coerente de fontes. Já Pham et al, com o SEAL-0, provam que resistir a informações enganosas é chave — e aí a fundação do modelo faz toda a diferença.

A proposta que começa a mudar esse jogo é simples, mas poderosa: transformar o pré-treinamento contínuo em uma fase agentic, incorporando comportamentos típicos de agentes já desde o início. Sem essa mudança, continuaremos ajustando stormtroopers e esperando que eles acertem o alvo.

O treinamento Jedi começa no berço: conhecendo os autores e o AgentFounder

O paper da Alibaba Tongyi Lab, assinado por Su et al, apresenta o AgentFounder: um modelo com 30 bilhões de parâmetros treinado com um novo pipeline que inclui pré-treinamento contínuo agentic (Agentic CPT). A ideia central é revolucionária na sua simplicidade: em vez de treinar um modelo genérico e depois tentar ensiná-lo a se comportar como agente, por que não treiná-lo desde o início com comportamentos agentic?

O AgentFounder nasce da linhagem Qwen3, mas abandona a trajetória comum para trilhar um caminho que parece saído direto de um roteiro de Naruto — onde o herói não espera um mestre surgir, ele aprende por tentativa, erro e exploração. A inovação é uma combinação de síntese de dados escalável, estratégias de raciocínio e uso de ferramentas sem execução real durante o treinamento.

A solução se divide entre FAS (First-order Action Synthesis) e HAS (Higher-order Action Synthesis). FAS trabalha com planejamento e raciocínio a partir de contextos sintetizados, e HAS foca em expandir a tomada de decisão em múltiplos passos, transformando trajetórias em processos decisórios com várias opções. Tudo isso sem APIs externas. É como construir simulações completas de batalha para treinar soldados, mas sem nunca entrar no campo real — e ainda assim preparar eles melhor do que os veteranos.

O que aconteceria se os jedis não treinassem desde padawan?

Sem Agentic CPT, o mundo dos agentes continua preso no ciclo de dependência de dados supervisionados e RL. Isso significa agentes que só funcionam bem em contextos específicos, com baixa generalização e incapacidade de navegar em ambientes ambíguos.

O impacto seria como treinar o Batman só com simulações de Gotham num dia de sol — tudo colapsa quando a chuva cai. Agentes não teriam repertório para enfrentar dados inesperados, falhas de ferramentas, informações contraditórias. Seriam lentos, imprecisos e frágeis. E mais importante: seriam fáceis de enganar.

Benchmarks como HLE e SEAL-0 escancaram esse problema. Modelos que não tiveram exposição prévia à variabilidade agentic falham repetidamente em tarefas complexas. Sem o CPT agentic, esses modelos ficam presos em padrões rígidos, repetitivos, com pouca capacidade de improvisar. A IA perde a graça — e o impacto.

Do pergaminho ao Sharingan: como funciona o Agentic CPT

A proposta do Agentic CPT é tão engenhosa quanto prática. Ela estrutura o treinamento agentic em duas fases complementares, com direito a escalabilidade offline e uso eficiente de dados.

Multi-style QA como a criação de quests em um RPG

Na base de tudo está a geração de perguntas complexas a partir de conhecimentos estáticos. Em vez de criar perguntas estilo Enem, a equipe constrói um “Open-World Knowledge Memory” ancorado em entidades. A partir dele, geram questões multiestilo que requerem raciocínio, cálculo, integração de fontes e, claro, uso de ferramentas.

É como transformar a enciclopédia Pokémon em um jogo de tabuleiro onde cada carta é uma missão diferente. E o modelo precisa aprender a jogá-las todas.

Planejamento sem invocar API: o ultimate jutsu dos pesquisadores

Usar APIs em larga escala pra gerar trajetórias completas é economicamente inviável. Por isso, o CPT agentic extrai apenas os raciocínios e decisões iniciais — os famosos “primeiros passos”. E aqui entra um insight poderoso: a qualidade do primeiro passo tem alta correlação com o sucesso final da tarefa.

Zheng et al já haviam explorado o conceito de aprendizado com múltiplas referências. A equipe aqui aplica isso no planejamento de ações. Em vez de repetir a mesma pergunta com variações de temperatura, eles criam múltiplas perguntas diferentes a partir da mesma base de conhecimento. Isso expande o espaço de ação com economia e criatividade.

Raciocínio lógico como as estratégias de um mestre de xadrez

Para a síntese de raciocínio, o modelo simula o processo em duas etapas: especula sub-respostas e depois corrige com base no conhecimento disponível. Tudo isso sem usar ferramentas externas. É como jogar um campeonato de xadrez onde o adversário muda as regras a cada rodada — e o modelo precisa se adaptar, raciocinar e concluir com coerência.

HAS: o modo “Multiverso” da decisão

A grande virada está na High-order Action Synthesis. Aqui, cada passo em uma trajetória se transforma num nó de decisão com múltiplas opções. O modelo não só vê o caminho trilhado, mas explora variações e escolhe sua opção com base em contexto, resultado e feedback.

Isso evita o vício de repetir trajetórias inteiras e promove o aprendizado real de decisão. Literalmente um modo Rogue-like de treinar: cada run é diferente, e o que importa é como você decide em cada bifurcação.

Teste de fogo: benchmarks e o ritual do campeonato Chunin

A equipe submeteu o AgentFounder-30B a 10 benchmarks de alta complexidade, incluindo BrowseComp-en/zh, GAIA, HLE, DeepResearch Bench e Academic Browse.

Resultados como o rasengan de Naruto

No BrowseComp-en, o AgentFounder bateu 39.9%, superando o DeepSeek-V3.1 em 10 pontos. No HLE, que avalia conhecimento humano profundo, o modelo quebrou a barreira dos 30% pela primeira vez no mundo open-source, alcançando 31.5%.

Em benchmarks como AcademicBrowse, o modelo atingiu 75.3% — um indicativo claro de que consegue se comportar como um assistente acadêmico de verdade. E em GAIA, atingiu 72.8%, superando até modelos fechados como o OpenAI-o3.

Escalabilidade como o buff do Kayle no late game

O modelo demonstrou que mais dados = mais desempenho. De 0B para 315B tokens no CPT, o Pass@3 médio foi de 54.2% para 62.2%. A curva é logarítmica, mas consistente. E com contexto de 128K tokens na segunda fase, os ganhos se mantêm mesmo em plateaus avançados.

Eficiência como o Flash limpando Central City

Ao comparar a perda no SFT de modelos com e sem CPT, o AgentFounder reduziu a loss final em 8%. Isso significa menor custo de fine-tuning e maior generalização. O modelo aprende mais rápido, com menos dados, e generaliza melhor.

A ilusão do Genjutsu da hype: por que o mercado ainda não entendeu o que importa

Estamos cercados por uma legião de projetos de agentes que vendem fumaça com buzzwords: “multi-hop”, “open-ended reasoning”, “autonomous planning”, “tool-augmented inference”. Mas quando colocamos esses modelos pra jogar de verdade, muitos mal conseguem sair do tutorial.

A indústria idolatra modelos gigantes, mas ignora que o problema está na base — não no tamanho. Ficar empilhando parâmetros em cima de uma fundação frágil é como colocar uma armadura de ouro num NPC nível 1. Vai brilhar, mas vai morrer no primeiro hit.

O AgentFounder mostra que é possível fazer mais com menos, desde que você mude o jeito de ensinar. Não é sobre mais dados aleatórios, é sobre dados com propósito. Não é sobre mais SFT, é sobre aprender antes de afinar.

Escolha seu caminho na árvore de habilidades: hype ou fundação?

O recado é claro: se queremos agentes que realmente pensem, ajam e decidam como humanos — ou melhor, como heróis de anime em suas melhores sagas — precisamos começar pela fundação. E essa fundação precisa ser agentic, escalável, testável e independente de ajustes supervisionados tardios.

A batalha pela próxima geração de LLMs não será vencida por quem tiver o maior modelo, mas por quem souber construir sabres de luz que se ativam no pré-treinamento. Que a força esteja com quem entende isso.

IA na veIA

O melhor palestrante de marketing digital em Salvador, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Maceió, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Fortaleza, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Goiânia, Celso Sousa, ensina como usar marketing…