Sumário
- O que é IA na veIA?
- Quem é Celso Sousa?
- Visão geral do paper
- SKILL0 como o treinamento Jedi que elimina o sabre de treino e obriga o aprendiz a lutar de verdade
- Um mundo onde agentes nunca aprendem seria como jogar Pokémon sem evoluções eternamente
- A engenharia por trás do SKILL0 como montar uma build híbrida entre inteligência e sobrevivência
- Loop do agente como um dungeon crawler iterativo
- SkillBank como árvore de habilidades de RPG
- Renderização visual como compressão estilo HUD minimalista
- Política que aprende compressão como escolha estratégica
- Recompensa composta como sistema de XP balanceado
- Curriculum dinâmico como dificuldade progressiva em Dark Souls
- Métrica de helpfulness como detector de muletas
- Resultados que parecem cheat code mas revelam limitações escondidas no sistema
- ALFWorld como dungeon de tarefas domésticas estilo The Sims hardcore
- Search-QA como raid de conhecimento multi-hop
- Comparação com GRPO como duelo entre builds diferentes
- AgentOCR como baseline forte que ainda depende de muletas
- SkillRL como rival direto que não consegue evoluir
- Eficiência de tokens como economia de mana em combate prolongado
- Dinâmica de treino como evolução de personagem
- Curvas de reward como indicador de aprendizado genuíno
- Helpfulness como gráfico de dependência decrescente
- Ablation de budget como teste de build quebrada
- Falha de métodos sem ranking como RNG ruim em loot
- Generalização como habilidade rara estilo lendária
- A indústria de IA ainda está presa no modo tutorial enquanto finge estar no endgame
- O futuro dos agentes autônomos exige abandonar muletas e enfrentar o grind real do aprendizado
- Categoria
- Lista de tags
O que é IA na veIA?
IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A comunidade de agentes baseados em LLMs está presa em um ciclo que lembra grind infinito em MMORPG, onde o personagem nunca upa de verdade e depende eternamente de buffs externos para sobreviver. Chen et al mostraram que modelos podem melhorar raciocínio com verificação interna, mas ainda dependem de estruturas auxiliares que não são internalizadas, como se fossem scrolls temporários em Skyrim.
Wang et al exploraram agentes com bibliotecas de skills, mas o problema permanece o mesmo, o conhecimento não vira atributo permanente do personagem, ele só fica equipado no inventário.
Xu & Yan discutiram a arquitetura de skills como blocos reutilizáveis, quase como habilidades desbloqueáveis em um RPG, mas ignoraram o fato de que essas habilidades não são aprendidas, apenas carregadas. Li et al avançaram na organização dessas skills, criando verdadeiros ecossistemas, mas isso só escalou o problema, porque aumentou a dependência de retrieval, como um jogador que só sabe jogar copiando build da internet.
Yao et al evidenciaram que ruído de recuperação degrada desempenho, e isso é equivalente a usar um mapa bugado em Zelda que te leva para lugar nenhum.
Liu et al mostraram que contextos longos prejudicam modelos, e isso se conecta diretamente ao custo absurdo de injetar skills a cada passo, como carregar uma mochila infinita em Dark Souls e esperar não sofrer penalidade. Hsieh et al reforçaram essa limitação ao questionar o tamanho real de contexto útil, mostrando que mais informação não significa mais inteligência.
Wang et al argumentaram que seguir instruções não é o mesmo que aprender, e essa talvez seja a crítica mais brutal, porque expõe que muitos agentes são apenas bons imitadores, não solucionadores reais.
O problema central continua sendo ignorado porque a indústria prefere soluções plug-and-play, que parecem impressionantes em demos mas falham em generalização. Han et al levantaram dúvidas sobre a eficácia real das skills em cenários práticos, sugerindo que estamos construindo castelos de areia com APIs bonitas. Resolver isso não é só uma questão técnica, é uma mudança de paradigma, porque implica abandonar a ideia confortável de que mais contexto resolve tudo.
Se agentes continuarem dependentes de skills externas, estaremos essencialmente criando sistemas que nunca atingem autonomia, como NPCs que só funcionam com script pré-definido. Isso limita não apenas a escalabilidade, mas também a confiabilidade em cenários críticos.
A pergunta que fica é simples e incômoda, queremos agentes que leem instruções ou agentes que realmente sabem agir.
SKILL0 como o treinamento Jedi que elimina o sabre de treino e obriga o aprendiz a lutar de verdade
Lu et al apresentam o SKILL0 com uma proposta que soa quase herética no cenário atual, remover completamente a dependência de skills no momento da inferência. A ideia central é simples de entender, mas difícil de executar, ensinar o modelo a absorver habilidades durante o treino até que ele não precise mais delas. Isso é basicamente tirar as rodinhas da bicicleta antes do aluno se sentir confortável, forçando aprendizado real.
O diferencial está no uso de reinforcement learning com contexto, algo que mistura guidance e autonomia de forma progressiva. Durante o treino, o modelo recebe skills como suporte, mas esse suporte vai sendo removido gradualmente até desaparecer. É como treinamento Jedi em Star Wars, onde primeiro você usa o sabre com orientação, depois luta vendado confiando na Força.
O problema da dependência eterna de skills
Lu et al deixam claro que métodos tradicionais mantêm o agente preso em uma fase infantil de aprendizado. O modelo executa tarefas seguindo instruções, mas nunca internaliza o raciocínio necessário. Isso cria agentes que parecem inteligentes, mas entram em colapso quando o contexto muda.
A virada conceitual da internalização
A proposta de internalizar skills nos parâmetros muda completamente o jogo. Em vez de carregar conhecimento externamente, o modelo passa a incorporar padrões de decisão diretamente. Isso transforma o agente de um executor obediente para um sistema autônomo.
Impacto na eficiência e escalabilidade
Outro ponto crítico é a redução de custo de tokens, que funciona como eliminar lag em um jogo online competitivo. Com menos contexto sendo injetado, o sistema se torna mais rápido e escalável. Isso não é só otimização, é viabilização prática de agentes mais complexos.
Um mundo onde agentes nunca aprendem seria como jogar Pokémon sem evoluções eternamente
Se essa abordagem não existisse, continuaríamos presos em um ciclo de dependência crescente de infraestrutura externa. Cada novo problema exigiria mais skills, mais retrieval, mais custo computacional. Isso é equivalente a jogar Pokémon e nunca evoluir seus monstros, apenas trocar por outros mais fortes.
Sem internalização, agentes seriam incapazes de generalizar para novos cenários. Eles funcionariam bem apenas em tarefas conhecidas, como bots de MMO que seguem rotas fixas. Isso limita drasticamente o potencial de aplicações reais.
O impacto também seria econômico, já que custos de inferência continuariam explodindo. Empresas teriam que pagar mais por sistemas que não ficam realmente mais inteligentes. No fim, estaríamos apenas empilhando complexidade sem progresso real.
A engenharia por trás do SKILL0 como montar uma build híbrida entre inteligência e sobrevivência
O método do SKILL0 é uma mistura sofisticada de reinforcement learning, compressão de contexto e curriculum adaptativo. A ideia é guiar o modelo com suporte inicial e gradualmente retirar esse suporte. Isso cria um ambiente onde aprender não é opcional, é obrigatório.
Loop do agente como um dungeon crawler iterativo
O agente opera em um loop de decisão sequencial, recebendo observações e executando ações. Cada passo é como avançar em uma dungeon, onde decisões erradas acumulam penalidades. O histórico de ações funciona como memória de curto prazo.
SkillBank como árvore de habilidades de RPG
As skills são organizadas em uma estrutura hierárquica, separando habilidades gerais e específicas. Isso lembra árvores de talento em jogos como WoW. A diferença é que aqui as habilidades não são permanentes, elas são retiradas ao longo do treino.
Renderização visual como compressão estilo HUD minimalista
Um dos truques mais interessantes é transformar contexto textual em representação visual compacta. Isso reduz drasticamente o custo de tokens. É como trocar uma interface cheia de texto por um HUD otimizado.
Política que aprende compressão como escolha estratégica
O modelo não só decide ações, mas também o nível de compressão do contexto. Isso adiciona uma dimensão extra de decisão. É como gerenciar recursos em tempo real durante uma partida.
Recompensa composta como sistema de XP balanceado
A função de recompensa combina sucesso da tarefa e eficiência de compressão. Isso força o modelo a ser não apenas correto, mas eficiente. É como ganhar mais XP por completar missões com menos recursos.
Curriculum dinâmico como dificuldade progressiva em Dark Souls
O sistema remove skills baseado em utilidade real durante o treino. Isso evita retirada prematura ou tardia. É basicamente um ajuste dinâmico de dificuldade.
Métrica de helpfulness como detector de muletas
Cada skill é avaliada pelo quanto realmente ajuda o modelo. Se não ajuda, é removida. Isso impede dependência desnecessária.
Resultados que parecem cheat code mas revelam limitações escondidas no sistema
Os experimentos mostram ganhos relevantes, mas o mais interessante está nos detalhes. O SKILL0 supera baselines tradicionais em diferentes benchmarks. Segundo os resultados, há melhorias de +9.7% no ALFWorld e +6.6% no Search-QA .
ALFWorld como dungeon de tarefas domésticas estilo The Sims hardcore
No ALFWorld, o modelo atinge 87.9% de sucesso com custo de apenas 0.38k tokens. Isso é como completar uma dungeon com metade dos recursos dos adversários. Comparado ao SkillRL, que usa mais de 2k tokens, a diferença é absurda.
Search-QA como raid de conhecimento multi-hop
No Search-QA, o modelo alcança 40.8% de desempenho com apenas 0.18k tokens. Isso mostra eficiência extrema. É como resolver puzzles complexos com um inventário mínimo.
Comparação com GRPO como duelo entre builds diferentes
GRPO atinge bons resultados, mas com maior custo e menor eficiência. O SKILL0 mantém desempenho competitivo com menos recursos. Isso sugere melhor generalização.
AgentOCR como baseline forte que ainda depende de muletas
AgentOCR apresenta desempenho sólido, mas perde para SKILL0 em ambos benchmarks. A diferença de +9.7% é significativa. Isso indica que internalização supera compressão pura.
SkillRL como rival direto que não consegue evoluir
SkillRL ainda depende de skills em inferência. Isso limita sua eficiência. O SKILL0 iguala ou supera seus resultados sem essa dependência.
Eficiência de tokens como economia de mana em combate prolongado
Reduzir de 2.21k para 0.38k tokens é como reduzir custo de mana em 80%. Isso muda completamente a viabilidade do sistema. Escalabilidade deixa de ser um problema crítico.
Dinâmica de treino como evolução de personagem
O modelo começa dependente de skills e termina independente. Isso é claramente observado nas curvas de aprendizado. É evolução real, não superficial.
Curvas de reward como indicador de aprendizado genuíno
O SKILL0 mantém recompensas mais altas ao longo do treino. Isso indica aprendizado mais estável. Outros métodos saturam mais cedo.
Helpfulness como gráfico de dependência decrescente
A métrica sobe e depois cai, mostrando internalização progressiva. Isso é evidência empírica forte. O modelo deixa de precisar das skills.
Ablation de budget como teste de build quebrada
Configurações sem redução de skills colapsam em performance. Isso prova que curriculum é essencial. Sem isso, o modelo não aprende de verdade.
Falha de métodos sem ranking como RNG ruim em loot
Selecionar skills aleatoriamente causa queda de 13.7%. Isso mostra que qualidade importa mais que quantidade. Não é sobre ter mais skills, é sobre ter as certas.
Generalização como habilidade rara estilo lendária
O modelo performa bem em datasets fora do domínio. Isso é raro em agentes atuais. Indica aprendizado mais profundo.
A indústria de IA ainda está presa no modo tutorial enquanto finge estar no endgame
Existe uma obsessão por sistemas que parecem inteligentes, mas não são. O hype em torno de agentes com skills externas ignora o problema central. Estamos otimizando maquiagem, não inteligência.
Empresas adoram soluções baseadas em retrieval porque são fáceis de escalar. Mas isso cria dependência estrutural. É como depender de DLC paga para continuar jogando.
A verdade incômoda é que muitos avanços recentes são incrementais, não revolucionários. SKILL0 aponta para algo diferente. Mas será que a indústria está pronta para abandonar conforto?
O futuro dos agentes autônomos exige abandonar muletas e enfrentar o grind real do aprendizado
Se a ideia de internalização evoluir, podemos ver agentes realmente autônomos. Sistemas que não precisam de prompts gigantescos para funcionar. Isso muda completamente o paradigma.
Mas ainda há desafios, como dependência da qualidade inicial do SkillBank. Também há questões de generalização para novos domínios. O caminho está longe de ser trivial.
A provocação final é simples, você quer continuar treinando modelos que decoram respostas ou começar a construir sistemas que realmente aprendem. Se você está pesquisando IA, ignorar esse paper é como ignorar uma quest lendária que muda o jogo inteiro, então vá ler o trabalho completo e repensar suas próprias abordagens antes que fique preso no meta errado.
Categoria
Lista de tags
[IA na veIA nº 50] A revolução silenciosa dos compiladores de política na era da IA
[IA na veIA nº 49] O buyback estatístico que salvou a credibilidade dos juízes artificiais
[IA na veIA nº 48] A queda do Roshan: o jailbreak que quebrou o high ground dos LLMs