[IA na veIA nº 29] O Gollum dos agentes LLM: DeepAgent transforma ferramentas em poder bruto com memória dobrável e RL tático

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

DeepAgent: A General Reasoning Agent with Scalable Toolsets
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

Enquanto a indústria inteira se distrai com a obsessão por benchmarks de múltipla escolha e GPTs que acertam questões de vestibular como se fossem o Sasuke no exame Chuunin, uma realidade muito mais dura bate na porta de quem tenta usar esses modelos em tarefas reais. A verdade é simples e desconfortável: LLMs não sabem usar ferramentas direito. Elas sonham com raciocínio profundo, mas tropeçam no básico — como buscar uma API útil ou gerenciar o que já foi feito numa tarefa longa. A consequência? Agentes frágeis, míopes e pouco adaptáveis ao caos real.

Essa dor já foi escancarada por ReAct, Plan-and-Solve e outros métodos que tentaram estruturar workflows com base em ciclos pré-definidos de raciocínio e ação. Sun et al mostraram como esses agentes falham quando precisam sair do script. Qu et al reforçaram que a capacidade de descoberta dinâmica de ferramentas ainda está presa no passado. Jin et al alertaram para a armadilha da “auto-reflexão” quando não há memória organizada. Todos tentaram tapar buracos com gambiarra.

Enquanto isso, esforços como Search-o1 (Li et al) e DeepResearcher (Zheng et al) tentaram levar ferramentas para o jogo, mas ficaram limitados a conjuntos fixos e tarefas triviais. Ao mesmo tempo, trabalhos como ToolLLM (Qin et al) e SimpleTIR (Xue et al) esbarraram na falta de integração coerente entre raciocínio e execução. Nenhum deles conseguiu atacar o cerne da questão: autonomia plena em escala aberta.

Huang et al também mostraram que sem um mecanismo de memória decente, qualquer tentativa de raciocínio de longo prazo vira um Groundhog Day mental. Feng et al alertaram que reforço com sinais esparsos leva a aprendizado míope e frágil. A indústria sabe dos sintomas. Mas ninguém pareceu disposto a reescrever a anatomia do agente.

O chip da superação: DeepAgent como o Jarvis das LLMs

Li et al apresentam um projeto ambicioso e sem medo de quebrar paradigmas: DeepAgent. O paper propõe um agente de raciocínio completo, que pensa, descobre ferramentas, age e se reorganiza sem depender de fluxos pré-definidos. Não é só mais um agente de workflow — é uma tentativa real de fazer um Jarvis funcional.

DeepAgent opera como um jogador de RPG de mesa que não precisa do mestre para tudo. Ele pode parar, repensar, lembrar o que fez, descobrir novas opções e agir com base em uma visão global da missão. A inovação central está em dois pilares: memória dobrável e aprendizado por reforço com simulação de ferramentas.

A memória dobrável (autonomous memory folding) é um mecanismo que permite ao agente “tomar fôlego”, reorganizar suas experiências passadas em três compartimentos distintos — memória episódica (trajetória), memória de trabalho (situação atual) e memória de ferramentas (interações anteriores). Tudo isso com um formato estruturado, que impede que a compressão vire um resumo inútil.

Já o ToolPO, método de RL apresentado, usa APIs simuladas por LLMs para evitar a instabilidade de treinar com ferramentas reais. Em vez de depender apenas da recompensa final, ele implementa atribuição de vantagem local — atribuindo crédito direto aos tokens que geraram chamadas corretas de ferramentas. Um mecanismo quase cirúrgico de feedback.

O resultado? Um agente que não precisa decorar quais ferramentas existem antes do jogo começar. Ele descobre, escolhe e usa ferramentas dinamicamente, como se estivesse jogando LoL com build personalizada e visão de mapa. Uma virada de chave em como entendemos agentes LLMs.

Sem o sabre de luz do DeepAgent, voltamos à idade da pedra dos agentes

Se DeepAgent não existisse, estaríamos presos num multiverso sombrio onde cada agente age como um NPC limitado, incapaz de reagir fora do script. Sem memória estruturada, as interações longas viram um episódio infinito de amnésia episódica. O agente esquece o que tentou, repete passos falhos e desperdiça tokens como um mago de D&D sem controle de mana.

Sem a capacidade de descobrir ferramentas dinamicamente, cada tarefa nova exige que alguém monte manualmente o arsenal do agente. É como mandar o Batman pra missão com uma mochila montada por um estagiário — ou pior, pedir que ele escolha os gadgets no escuro. Em ambientes como ToolHop ou GAIA, isso significa fracasso quase certo.

E sem ToolPO, a aprendizagem continua anêmica, presa a recompensas finais e pouco sensíveis ao caminho percorrido. É como tentar ensinar um aprendiz Jedi só com feedback do final do duelo — sem mostrar onde errou o bloqueio ou ignorou o perigo. A evolução seria lenta, frágil e cheia de regressões.

DeepAgent emerge como uma ruptura necessária. Um salto de paradigma que, sem ele, deixaria a promessa dos agentes LLMs apenas no papel.

O Olho de Agamotto da IA: raciocínio, memória e ferramentas em sincronia

O elmo do raciocínio contínuo

DeepAgent abandona de vez a estrutura em ciclos rígidos de Reason-Act-Observe. Em vez disso, adota um fluxo contínuo e global, onde cada passo pode envolver pensamento, busca de ferramentas, execução e reorganização da memória. É como jogar XCOM com visão completa da campanha, não só da próxima missão.

Cada ação gerada pelo modelo pode ser:

Pensamento interno
Busca de ferramenta com recuperação densa
Chamada de ferramenta com argumentos estruturados
Dobramento de memória com reorganização

A beleza está na forma como isso é tratado como linguagem natural anotada, com tags específicas. A arquitetura reconhece essas marcações e delega para componentes auxiliares (LLM secundário) tarefas como resumo de documentação, condensação de resultados e simulação de APIs. Isso permite que o modelo principal foque no raciocínio estratégico.

A mochila de Hermione: memória dobrável estruturada

A memória dobrável opera como um sistema inspirado no cérebro humano, com três partes:

Memória episódica registra decisões macro e eventos importantes.
Memória de trabalho mantém subobjetivos, obstáculos e próximos passos.
Memória de ferramentas compila histórico de uso, parâmetros eficazes, falhas comuns e padrões de resposta.

Cada uma dessas partes segue um schema em JSON, garantindo que o modelo possa reaproveitar informações sem ambiguidade. Não é apenas um resumo em linguagem natural — é um banco de dados semântico portátil.

Essa estrutura evita o colapso de raciocínio que ocorre em contextos longos, como apontado por Yang et al. Permite que o agente “dobre” a linha temporal, reinicie seu pensamento e evite loops mentais como um viajante do tempo que aprende com seus erros.

O pergaminho de técnicas secretas: ToolPO como RL sensível ao contexto

ToolPO é uma metodologia de RL que resolve os dois principais calcanhares de Aquiles dos agentes:

Treinar com APIs reais é caro e instável. Solução? Simulação com LLMs secundários.
Recompensas finais são esparsas e cegas ao processo. Solução? Atribuição de vantagem aos tokens que geraram boas chamadas.

A função de recompensa mistura sucesso global (task-level) e precisão local (tool-level). A vantagem relativa é computada para cada trajetória e aplicada globalmente (para todos os tokens) ou localmente (apenas nos tokens de chamada de ferramenta).

A função de perda usa PPO com clipping, garantindo estabilidade e precisão. O resultado é um modelo que aprende quais ferramentas usar, como usá-las e quando interromper um caminho falho para reorganizar sua estratégia.

O martelo de Thor nas mãos certas: DeepAgent como executor imbatível

A força bruta do Mjolnir: benchmarks dominados

Nos testes com ferramentas rotuladas (ToolBench, TMDB, Spotify), DeepAgent-32B-RL destrói os concorrentes. Chega a 89% de sucesso no TMDB e 75% no Spotify, deixando ReAct e CodeAct na poeira com 55% e 52%. Isso mostra que o agente aprende a usar ferramentas mesmo em domínios conhecidos, mas com raciocínio mais fluido.

Nos cenários de descoberta aberta (open-set), a coisa fica ainda mais interessante. DeepAgent lida com conjuntos de 16 mil ferramentas (ToolBench) ou 3.9 mil (ToolHop) e ainda assim acerta mais de 40% das tarefas. Para comparação, ReAct fica estagnado em 22%. Um massacre digno de Shingeki no Kyojin.

O mapa do tesouro: ferramentas descobertas dinamicamente

A comparação entre uso de ferramentas pré-recuperadas vs. descoberta autônoma é brutal. DeepAgent salta de 42% para 52% quando usa descoberta dinâmica, enquanto métodos tradicionais não passam de 28%.

Isso confirma o poder do design autônomo: descobrir ferramentas conforme o raciocínio avança é muito mais eficaz que pré-carregar opções como se fossem cartas de Yu-Gi-Oh. Em especial, tarefas como ToolHop, que exigem 7 chamadas sequenciais, se beneficiam diretamente dessa estratégia.

O crânio flamejante da persistência: tarefas longas e complexas dominadas

No GAIA, benchmark com múltiplas ferramentas, DeepAgent-32B-RL alcança 53.3% contra 34.5% do melhor workflow. Em ALFWorld, chega a 91.8%, contra 65% de concorrentes. Em WebShop, supera modelos com até o dobro do tamanho, como Qwen2.5-72B.

Em HLE, um benchmark de raciocínio nível Dark Souls, o agente atinge 20.2% — frente a 12% dos melhores concorrentes. Uma diferença pequena? Talvez. Mas num cenário onde cada ponto equivale a resolver enigmas dignos do Enigma do Milênio, é um feito respeitável.

O treinamento como o Torneio do Poder

Durante 100 passos de treino com batch size 64 e rollout de 8 trajetórias, DeepAgent não só aprende mais, como aprende de forma mais estável. As curvas de reward e validação mostram menos oscilação do que GRPO. Isso prova que a simulação de ferramentas e atribuição de vantagem local funcionam como mentores secretos que guiam o agente ao longo do caminho.

A poção da hype: agentes que agem, mas não pensam

Chega de glamour vazio com LLMs que sabem gerar “planos”, mas não sabem quando parar. A maioria dos agentes atuais ainda depende de fluxos engessados. ReAct é só um ciclo mal disfarçado. CodeAct vira engenheiro sem contexto. Plan-and-Solve desenha mapas, mas tropeça no primeiro passo.

Tudo isso cria uma ilusão de inteligência. Um cosplay de autonomia. Mas como diria o Tobi de Naruto: “você está apenas usando uma máscara”. Sem memória, sem descoberta real, sem aprendizado tático, esses agentes são só wrappers bonitos com cérebro de pedra.

DeepAgent quebra esse feitiço. Ele não se contenta com parecer inteligente. Ele se adapta, erra, reorganiza, descobre e aprende. Não é perfeito. Mas é um passo real rumo à agência verdadeira. Um lembrete de que IA não é sobre parecer esperta — é sobre ser útil quando importa.

O multiverso dos agentes depende do próximo passo

A comunidade precisa decidir: queremos agentes que fazem sentido no laboratório ou no mundo real? DeepAgent nos empurra para a segunda opção. Um mundo onde ferramentas não são acessórios estáticos, mas extensões dinâmicas do pensamento. Onde memória não é luxo, mas sobrevivência. Onde cada passo no raciocínio pode ser repensado.

A hype vai continuar vendendo LLMs como semi-deuses. Mas quem olha de perto vê que sem estrutura, sem estratégia e sem simulação, tudo desmorona na primeira tarefa séria. DeepAgent é uma resposta a essa fragilidade. Uma proposta concreta, testada e documentada.

Se você ainda está investindo em agentes que pensam como bots de 2015, talvez seja hora de atualizar seu grimório. O futuro não vai esperar.

IA na veIA

O melhor palestrante de marketing digital no Amapá, Celso Sousa, ensina como usar marketing digital…

O melhor palestrante de marketing digital no Acre, Celso Sousa, ensina como usar marketing digital…

[IA na veIA nº 30] Do multiverso cognitivo ao modelo unificado: a revolução do multi-brain-tuning

[IA na veIA nº 29] O Gollum dos agentes LLM: DeepAgent transforma ferramentas em poder bruto com…