[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

Desde que os grandes modelos de linguagem (LLMs) começaram a demonstrar habilidades impressionantes em tarefas como completar frases, responder perguntas e gerar código, a comunidade de IA passou a flertar com uma ideia tentadora: e se esses modelos pudessem virar agentes completos, capazes de interagir com o ambiente, tomar decisões, aprender com erros e, acima de tudo, agir?

Mas transformar LLMs em agentes autônomos não é só uma questão de empilhar tokens ou plugar APIs. O buraco é mais embaixo.

Bai et al já apontavam os limites da abordagem clássica de fine-tuning supervisionado para tornar modelos mais úteis. Liu et al levantaram o desafio de avaliar esses modelos de forma justa, quando atuam como agentes. Trivedi et al mostraram como tarefas como multi-hop QA escancaram as fragilidades de modelos que só completam texto.

Park et al alertaram para os riscos de simulações pouco realistas de agentes gerativos. Chowdhery et al mostraram como escalar modelos ajuda, mas não resolve os gargalos de raciocínio. Petroni et al defenderam a importância de benchmarks realmente exigentes. Guo et al destacaram a complexidade de gerenciar múltiplos agentes.

Ouyang et al já mostraram como RLHF pode ajudar, mas não cobre interações dinâmicas. Jin et al propuseram o uso de busca externa como componente ativo. Já Christiano et al fincaram a estaca: reforço é o caminho para comportamento mais alinhado.

Mesmo assim, o cenário atual lembra um Jedi tentando pilotar uma nave só com a Força: bonito na teoria, catastrófico na prática.

Reinforcement Learning (RL), o “mestre Yoda” de vários sucessos em IA, de AlphaGo a robôs de verdade, parecia o candidato ideal para treinar agentes LLMs. Mas o casamento ainda está em crise. Modelos frágeis, sinais de recompensa ruidosos, ambientes instáveis e ausência de frameworks realmente flexíveis têm travado o progresso.

Huang et al, por exemplo, destacam como modelos precisam “pensar antes de agir” em ambientes físicos. Yu et al apontam que memória de longo prazo e feedbacks ambientais ainda são pouco explorados. E mesmo ferramentas como ReAct (Yao et al) são limitadas pela rigidez de workflows pré-definidos.

A ausência de uma ponte sólida entre teoria e prática está impedindo as LLMs de deixarem de ser enciclopédias glorificadas e virarem verdadeiros protagonistas em ambientes dinâmicos. Resolver isso é urgente. Não só para avançar a pesquisa, mas para evitar que a hype continue vendendo sabres de luz de plástico como se fossem armas Jedi de verdade.

O Groot das LLMs: simples por fora, complexo por dentro

Mingyue Cheng et al propõem uma virada de chave corajosa com o Agent-R1. Não estamos falando de mais uma arquitetura colada com duct tape, mas de uma proposta sistemática para treinar LLMs como agentes completos via RL, de ponta a ponta.

A sacada do paper é duplamente estratégica. Primeiro, ao estender formalmente o framework de MDP (Markov Decision Process) para capturar a natureza multi-turn, interativa e imprevisível de agentes baseados em LLMs. Segundo, ao criar o Agent-R1, uma plataforma de treinamento modular, adaptável e altamente extensível para fazer isso acontecer de verdade.

É como se tivessem criado um Groot: parece simples, mas esconde uma estrutura poderosa capaz de enfrentar cenários complexos com múltiplos desafios.

O Agent-R1 assume que o modelo não deve apenas gerar texto. Ele deve planejar, agir, invocar ferramentas externas, interpretar respostas, ajustar sua política e continuar aprendendo. Tudo isso num loop de interação contínua com o ambiente.

E mais: o framework não depende de workflows manuais, como ReAct. Ele remove essas muletas, permitindo agentes verdadeiramente autônomos. É como evoluir de um robô de cozinha para um mordomo do Tony Stark.

Sem esse framework, as LLMs continuam sendo bibliotecas que não levantam da cadeira

Imagina um jogador de LoL que sabe todas as builds do meta, conhece cada matchup, mas não consegue clicar com o mouse. Esse é o estado atual de muitas LLMs quando são colocadas em ambientes interativos.

Elas até “sabem” o que fazer. Mas não fazem.

Sem o Agent-R1, os agentes continuam presos a interações roteirizadas, com pouco espaço para aprendizado real. Eles são como NPCs programados com três frases prontas e sem qualquer memória do que você falou antes.

A ausência de um framework de RL que suporte múltiplas interações, tool calls dinâmicos e atribuição precisa de recompensas impede que esses agentes desenvolvam comportamentos sofisticados. É como treinar um Pokémon sem poder lutar com ele — no máximo, você adivinha se ele vai ser bom ou não.

Além disso, sem uma arquitetura modular como a proposta, qualquer tentativa de adaptação a novos ambientes ou tarefas vira uma refatoração dolorosa. A pesquisa emperra, os experimentos ficam restritos, e o progresso vira um grind infinito de debugging.

O modo história dos agentes: um RPG onde cada decisão importa

Para entender como o Agent-R1 funciona, vamos pensar num RPG, tipo Mass Effect. Cada decisão do Shepard tem consequências, certo? Aqui, cada token gerado pelo agente também. Mas, diferente de uma simples escolha de diálogo, essas decisões envolvem raciocínio, chamadas de ferramenta, recepção de feedback do ambiente, e atualização de política.

A nave-mãe: o framework Agent-R1

O coração do Agent-R1 é a extensão do MDP para o universo dos agentes. Em vez de apenas gerar uma sequência estática de texto, o modelo opera em ciclos dinâmicos de decisão, ação e observação. O estado inclui não só o prompt inicial, mas também o histórico completo de interações com o ambiente.

Cada ação pode ser apenas mais um token, ou pode disparar o equivalente a uma chamada de API — tipo pedir ao oráculo do jogo um novo mapa, ou buscar um item no inventário universal do conhecimento.

As transições de estado não são determinísticas como em LLMs estáticas. Se o agente chama uma ferramenta, o resultado pode variar. Isso é crucial, pois obriga o modelo a aprender a lidar com incertezas — algo que o velho BERT jamais sonharia.

A recompensa agora é densa. O modelo não precisa esperar o final da jornada para saber se acertou. Cada passo pode render pontos (ou punições), criando um loop de aprendizado muito mais rico, como em um roguelike onde cada sala ensina algo.

O sabre de luz dividido: Tool e ToolEnv

A arquitetura do Agent-R1 separa claramente o executor (Tool) do orquestrador (ToolEnv).

Tool é o executor de ações atômicas: chamar uma API, consultar um banco de dados, rodar um script. Ele diz “o que aconteceu”.

ToolEnv interpreta isso: atualiza o estado, calcula a recompensa, decide se o episódio termina. Ele diz “o que isso significa para o agente”.

Esse design é como o sistema de turnos do Final Fantasy Tactics. Você tem o personagem que ataca, mas é o sistema que decide os efeitos do ataque no campo de batalha.

Máscaras de ação: o stealth dos updates

Para não confundir ações do agente com partes fixas do prompt ou do feedback, o Agent-R1 usa uma máscara de ação. Isso permite que apenas os tokens gerados pelo agente sejam considerados na hora de calcular vantagens e atualizar a política.

É como usar uma smoke bomb no meio do mapa: só as jogadas que você fez escondido contam para o XP final.

Aprendizado com propósito: PPO, GRPO e outros feitiços

A aprendizagem por reforço é feita com métodos como PPO, GRPO, REINFORCE++ e RLOO, todos já integrados ao Agent-R1.

Esses algoritmos usam as recompensas e vantagens mascaradas para atualizar o ator (que toma decisões) e o crítico (que avalia estados). O ajuste fino é feito com base em trajetórias completas de interação — não só uma resposta pontual.

E o Agent-R1 faz isso com compatibilidade plug-and-play com diferentes ambientes e ferramentas. Quer usar outro modelo ou ferramenta? Sem problema. O framework aceita, sem precisar reescrever tudo. É quase como jogar Skyrim com 200 mods ativos e ainda assim não travar o jogo.

Experimentos com LLMs: um campeonato de agentes em mundos paralelos

Se o Agent-R1 fosse um time de LoL, ele teria jogado em Summoner’s Rift, Howling Abyss e ainda ganhado no TFT. A diversidade dos testes mostra a robustez do framework.

Datasets como arenas: HotpotQA, 2Wiki e Musique

Os testes foram feitos em três datasets de QA multi-hop: HotpotQA, 2WikiMultihopQA e Musique.

Hotpot e 2Wiki são datasets “domésticos”, onde o agente pode treinar. Musique é o fora-da-caixa, tipo enfrentar um boss sem saber os ataques dele. É o equivalente a colocar o seu Charizard contra um Pokémon que ele nunca viu.

O agente foi treinado com 51.200 exemplos, usando o modelo Qwen2.5-3B com capacidade de função nativa (tipo um spellbook embutido). A ferramenta principal era uma busca no corpus da Wikipedia com 36 milhões de passagens.

Comparações: baseline vs. RL

Duas abordagens baseline foram usadas:

Naive RAG — busca simples, sem interação
Base Tool Call — chamada de ferramenta sem aprendizado por reforço

O desempenho médio da melhor política RL (GRPO) foi 0.3877 EM (Exact Match), contra 0.1328 do Naive RAG. É mais que o dobro. Ou seja, usar RL é como evoluir seu Pikachu para Raichu com uma Thunder Stone: o poder sobe de verdade.

Algoritmos: cada um com sua build

GRPO foi o top performer geral.

PPO teve destaque no dataset fora do domínio, mostrando robustez em cenários adversos (Musique).

REINFORCE++ foi o mais fraco, mas ganhou um boost quando usou baseline — mostrando que até builds fracas podem melhorar com bons itens.

Ablation: sem máscara, sem vitória

Remover as máscaras de ação e vantagem resultou em quedas significativas de desempenho. A média do PPO caiu de 0.3719 para 0.3022 sem a loss mask. É como tirar os itens de defesa do seu tank no meio da teamfight.

Isso comprova que o design modular e preciso do Agent-R1 não é firula. É fundamental para o sucesso.

O martelo do Thor não é para qualquer um: cuidado com a hype

Enquanto a comunidade vibra com agentes que buscam na web e falam com APIs, pouca gente está olhando para o que realmente importa: como esses modelos aprendem a interagir com o mundo. Spoiler: gerar respostas bonitas não é o mesmo que agir bem.

A hype atual lembra a Excalibur em mãos erradas: poderosa, mas inútil sem técnica.

Frameworks sem estrutura sólida viram só playgrounds de demo. Métricas sem experimentos rigorosos são só fumaça. Agentes sem aprendizado verdadeiro são só papagaios com acesso à internet.

A proposta do Agent-R1 bate de frente com essa superficialidade. Em vez de treinar modelos em tarefas simuladas com prompts fantasiosos, o paper mostra como estruturar o treinamento com base em interação real, feedback contínuo e aprendizado por reforço.

É um lembrete de que não adianta fingir ser um mago de nível 20 se você ainda está usando cajado de madeira e não sabe conjurar bola de fogo.

O MDM da próxima geração: menos hype, mais luta de verdade

O Agent-R1 não é uma solução mágica. Ele é o início de um novo tipo de batalha: aquela em que os modelos não apenas repetem respostas decoradas, mas aprendem com erros, interagem com ambientes imprevisíveis, invocam ferramentas e adaptam seu comportamento como verdadeiros protagonistas de um RPG em tempo real.

Se quisermos LLMs que deixem de ser NPCs glorificados e se tornem agentes que jogam o jogo de verdade, precisamos de frameworks como o Agent-R1. É hora de trocar a hype de prompt engineering por aulões de política ótima. De sair do power fantasy e entrar no modo hardcore.

Se você está construindo o próximo Gandalf da IA, é bom começar com uma fundação que entende que o mundo muda a cada turno — e que o agente tem que mudar junto.

IA na veIA

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que…

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

O melhor palestrante na Paraíba sobre marketing digital: como contratar Celso Sousa

IA na veIA

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

Quem é Celso Sousa?

Visão geral do paper

O Groot das LLMs: simples por fora, complexo por dentro

Sem esse framework, as LLMs continuam sendo bibliotecas que não levantam da cadeira

O modo história dos agentes: um RPG onde cada decisão importa

A nave-mãe: o framework Agent-R1

O sabre de luz dividido: Tool e ToolEnv

Máscaras de ação: o stealth dos updates

Aprendizado com propósito: PPO, GRPO e outros feitiços

Experimentos com LLMs: um campeonato de agentes em mundos paralelos

Datasets como arenas: HotpotQA, 2Wiki e Musique

Comparações: baseline vs. RL

Algoritmos: cada um com sua build

Ablation: sem máscara, sem vitória

O martelo do Thor não é para qualquer um: cuidado com a hype

O MDM da próxima geração: menos hype, mais luta de verdade