IA na veIA nº 53- A revolução silenciosa que mata benchmarks

Sumário

O que é IA na veIA?
Quem é Celso Sousa?
Visão geral do paper
Como transformar agentes de código em verdadeiros Vingadores modulares
O mundo onde agentes continuam sendo NPCs bugados
Engenharia de habilidades como montar um time competitivo de Pokémon
Resultados que fazem benchmark parecer fase tutorial de Dark Souls
A indústria ainda está presa no modo easy enquanto finge jogar no hard
O futuro dos agentes é modular, ou continuaremos treinando NPCs glorificados
Categoria
Lista de tags

O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Scaling Coding Agents via Atomic Skills
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A galera de IA adora fingir que resolver tarefas complexas é só questão de jogar mais dados e mais GPU, como se estivéssemos grindando XP infinito em um MMORPG. Mas autores como Yao et al já mostravam que agentes precisam interagir com ambientes reais, não só cuspir texto bonito como um NPC bem treinado. Ainda assim, a maioria dos trabalhos continua presa em benchmarks compostos, tipo bug fixing, que parecem chefões de fase mas escondem mecânicas mal aprendidas.

Jimenez et al colocaram SWE-bench como padrão, mas isso virou uma dungeon repetitiva onde modelos decoram padrões ao invés de aprender fundamentos. Yang et al tentaram escalar agentes com mais dados e RL, mas isso só ampliou o problema, tipo upar um personagem com build quebrada. O resultado é aquele clássico overfitting disfarçado de progresso, como um jogador que só sabe ganhar em um mapa específico.

Wei et al exploraram RL em engenharia de software, mas enfrentaram o mesmo dilema de recompensas esparsas e difíceis de generalizar. Chen et al focaram em localização de código com grafos, trazendo avanços pontuais, mas ainda presos a tarefas específicas. No fim, parece que estamos jogando League of Legends treinando só uma lane e esperando ganhar o campeonato mundial.

O problema central é que essas abordagens tratam tarefas complexas como caixas pretas, ignorando o que realmente importa, que são as habilidades fundamentais. Liu et al já apontavam que contexto e memória são críticos, mas sem decomposição clara isso vira um caos. É como tentar aprender todas as classes de D&D ao mesmo tempo sem entender atributos básicos.

Resolver isso não é só uma questão acadêmica, é essencial para sair do hype e construir sistemas realmente úteis. Sem isso, continuaremos com agentes que parecem inteligentes, mas quebram em cenários ligeiramente diferentes. E honestamente, isso já está ficando mais repetitivo que arco filler de Naruto.

Como transformar agentes de código em verdadeiros Vingadores modulares

O trabalho de Ma et al chega com uma proposta que parece óbvia depois que você entende, mas que ninguém estava fazendo direito. Em vez de treinar agentes para tarefas completas, eles propõem treinar habilidades atômicas como blocos fundamentais reutilizáveis. Isso muda completamente a forma como pensamos sobre escalabilidade em agentes de código .

Eles definem cinco habilidades essenciais que funcionam como classes base em um RPG. Cada uma resolve um tipo específico de problema e pode ser combinada para formar tarefas mais complexas. Isso inclui localizar código, editar código, gerar testes, reproduzir erros e revisar código.

Quando o problema é mais de uma boss fight

A sacada é perceber que tarefas como bug fixing não são habilidades únicas, mas combinações dessas capacidades. Treinar direto no resultado final é como ensinar alguém a derrotar um boss sem explicar mecânicas. Funciona até mudar o boss, aí tudo quebra.

A inovação que corta o hype pela raiz

A grande inovação está em aplicar RL conjunto sobre essas habilidades, em vez de otimizar cada uma isoladamente. Isso permite transferência positiva entre habilidades, algo raro nesse tipo de sistema. É tipo treinar força, agilidade e inteligência ao mesmo tempo, em vez de maxar só um atributo.

Se isso escala, muda completamente como construímos ferramentas de programação assistida. Em vez de copilots limitados, teríamos agentes realmente adaptáveis. É a diferença entre um script hardcoded e um personagem com skill tree bem distribuída.

O mundo onde agentes continuam sendo NPCs bugados

Sem essa abordagem, o futuro dos agentes de código seria basicamente um loop de hype e decepção. Modelos cada vez maiores, benchmarks cada vez mais específicos, e generalização cada vez mais ilusória. É tipo lançar DLC atrás de DLC sem consertar o jogo base.

Imagine depender de um agente que só funciona bem em bug fixing, mas falha em refatoração ou segurança. Isso é equivalente a um healer que não consegue curar fora de raids específicas. Em produção, isso vira custo, risco e frustração.

Pior ainda, a escalabilidade vira inviável, porque cada nova tarefa exige novo treinamento e novos dados. Isso não é sustentável nem academicamente nem industrialmente. É como tentar criar um Pokémon novo para cada batalha em vez de evoluir os existentes.

Engenharia de habilidades como montar um time competitivo de Pokémon

O método proposto não é só uma ideia conceitual, ele é implementado com um nível de detalhe que mostra maturidade técnica. A arquitetura gira em torno de uma política compartilhada que aprende múltiplas habilidades simultaneamente. Isso já quebra a lógica tradicional de pipelines isolados.

Code Localization como radar do Homem-Aranha

Aqui o agente aprende a identificar exatamente quais arquivos precisam ser modificados. A recompensa é binária e rígida, o que força precisão extrema. É como sentido aranha, ou acerta ou falha completamente.

Code Editing como o martelo do Thor

A edição de código é avaliada via testes automatizados, garantindo correção funcional. Isso elimina métricas superficiais e foca no que realmente importa. É força bruta validada pela realidade.

Unit-Test Generation como estratégia do Batman

Gerar testes que detectam bugs exige pensar adversarialmente. O modelo precisa prever falhas e cobrir edge cases. É planejamento estratégico puro.

Code Review como julgamento do Tribunal de Asgard

O agente precisa avaliar se uma mudança resolve o problema corretamente. Isso envolve raciocínio semântico, não só sintático. É julgamento, não execução.

Issue Reproduction como viagem no tempo dos X-Men

Reproduzir bugs exige entender causalidade no código. O agente precisa criar scripts que revelem o problema antes e depois do patch. É praticamente debugging temporal.

RL conjunto como raid cooperativa

O treinamento usa uma política única para todas as habilidades. Isso promove compartilhamento de conhecimento e evita interferência negativa. É cooperação real entre skills.

Resultados que fazem benchmark parecer fase tutorial de Dark Souls

Agora vem a parte que realmente separa hype de avanço real. Os experimentos mostram ganhos consistentes tanto nas habilidades quanto em tarefas não vistas. E aqui não dá para ignorar os números.

Evolução das habilidades como grind bem feito em MMORPG

O desempenho médio nas habilidades atômicas aumentou cerca de 18.7%. Isso não é incremento marginal, é evolução significativa. É sair de level 50 para 70 sem mudar build.

Os ganhos individuais também impressionam, como edição de código subindo de 0.458 para 0.611. Isso é mais de 30% de melhoria relativa. É tipo dobrar dano crítico sem trocar arma.

Generalização como desbloquear mapa inteiro

Nos benchmarks compostos, o modelo também melhora consistentemente. SWE-bench Verified sobe de 0.507 para 0.585. Parece pouco, mas nesse domínio é gigantesco.

Multilingual também cresce de 0.300 para 0.389, mostrando robustez cross-language. Isso é tipo jogar em vários servidores sem perder performance. Raro e valioso.

Comparação com modelos fortes como batalha de chefes finais

Mesmo comparado ao GLM-4.5-Air, o modelo treinado com habilidades se mantém competitivo ou superior. Isso mostra que não é só escala, é estratégia. E estratégia vence força bruta muitas vezes.

Joint RL vs single-task RL como solo vs time competitivo

Treinar uma única habilidade melhora desempenho local, mas prejudica o resto. Isso é clássico over-specialization. Igual jogador que só sabe jogar mid.

Já o RL conjunto melhora tudo de forma equilibrada. Isso indica aprendizado estrutural, não memorization. É build bem distribuída.

Dinâmica de treinamento como curva de aprendizado real

As habilidades melhoram de forma monotônica ao longo do treino. Isso sugere estabilidade e transferência positiva. Algo raro em RL.

Algumas habilidades mostram mais variância, como reprodução de erros. Isso indica complexidade maior e espaço para melhoria. Nem tudo são flores, e isso é bom.

Infraestrutura como motor de jogo otimizado

O uso de sandbox com milhares de ambientes paralelos garante escalabilidade. Isso permite avaliações realistas e evita reward hacking. É engine robusta, não gambiarra.

A limitação de ferramentas também ajuda a estabilizar o aprendizado. Menos complexidade, mais consistência. Às vezes menos é mais.

Interpretação estatística sem fanboyismo

Os ganhos são consistentes, mas não mágicos. Ainda existem limitações claras, especialmente em tarefas mais abertas. Não é AGI, nem perto disso.

Mas comparado ao estado da arte, é um salto real. Não é marketing, é progresso mensurável. E isso já é raro o suficiente.

A indústria ainda está presa no modo easy enquanto finge jogar no hard

A real é que grande parte da hype em IA ignora problemas estruturais como esse. Todo mundo quer modelos maiores, poucos querem modelos melhores. É mais fácil vender escala do que arquitetura.

Esse paper expõe isso de forma quase constrangedora. Mostra que estamos treinando agentes de forma ineficiente há anos. Como grindar sem entender mecânica.

E ainda assim, a maioria das empresas vai continuar ignorando isso. Porque mudar paradigma é difícil e caro. E hype paga melhor no curto prazo.

O futuro dos agentes é modular, ou continuaremos treinando NPCs glorificados

Se essa linha evoluir, podemos ver bibliotecas inteiras de habilidades reutilizáveis. Algo como um sistema de plugins cognitivos. Isso mudaria completamente o desenvolvimento de agentes.

Mas ainda há desafios, como expandir o conjunto de habilidades e reduzir dependência de RL pesado. Também existe o risco de novas formas de overfitting emergirem. Nada é trivial aqui.

Agora fica a provocação final, quase como aquele NPC misterioso que te entrega uma quest rara. Se você realmente quer entender para onde IA de código está indo, ignore o hype e mergulhe nesse paper. Porque aqui tem mais insight útil do que em dezenas de benchmarks inflados que você anda lendo por aí.

Categoria

IA na veIA

Lista de tags

IA na veIA, Inteligência artificial

IA na veIA

[IA na veIA nº 53] Menos hype, mais skill tree: a revolução silenciosa que pode matar benchmarks

O melhor palestrante de vendas na Bahia: como contratar Celso Sousa

O melhor palestrante de vendas no Amazonas: como contratar Celso Sousa

O melhor palestrante de vendas no Amapá: como contratar Celso Sousa

IA na veIA

[IA na veIA nº 53] Menos hype, mais skill tree: a revolução silenciosa que pode matar benchmarks

Sumário

O que é IA na veIA?

Quem é Celso Sousa?

Visão geral do paper

Como transformar agentes de código em verdadeiros Vingadores modulares

Quando o problema é mais de uma boss fight

A inovação que corta o hype pela raiz

O mundo onde agentes continuam sendo NPCs bugados

Engenharia de habilidades como montar um time competitivo de Pokémon

Code Localization como radar do Homem-Aranha

Code Editing como o martelo do Thor

Unit-Test Generation como estratégia do Batman

Code Review como julgamento do Tribunal de Asgard

Issue Reproduction como viagem no tempo dos X-Men

RL conjunto como raid cooperativa

Resultados que fazem benchmark parecer fase tutorial de Dark Souls

Evolução das habilidades como grind bem feito em MMORPG

Generalização como desbloquear mapa inteiro

Comparação com modelos fortes como batalha de chefes finais

Joint RL vs single-task RL como solo vs time competitivo

Dinâmica de treinamento como curva de aprendizado real

Infraestrutura como motor de jogo otimizado

Interpretação estatística sem fanboyismo

A indústria ainda está presa no modo easy enquanto finge jogar no hard

O futuro dos agentes é modular, ou continuaremos treinando NPCs glorificados

Categoria

Lista de tags

IA na veIA

[IA na veIA nº 53] Menos hype, mais skill tree: a revolução silenciosa que pode matar benchmarks

Sumário

O que é IA na veIA?

Quem é Celso Sousa?

Visão geral do paper

Como transformar agentes de código em verdadeiros Vingadores modulares

Quando o problema é mais de uma boss fight

A inovação que corta o hype pela raiz

Impacto social e técnico digno de plot twist

O mundo onde agentes continuam sendo NPCs bugados

Engenharia de habilidades como montar um time competitivo de Pokémon

Code Localization como radar do Homem-Aranha

Code Editing como o martelo do Thor

Unit-Test Generation como estratégia do Batman

Code Review como julgamento do Tribunal de Asgard

Issue Reproduction como viagem no tempo dos X-Men

RL conjunto como raid cooperativa

Resultados que fazem benchmark parecer fase tutorial de Dark Souls

Evolução das habilidades como grind bem feito em MMORPG

Generalização como desbloquear mapa inteiro

Comparação com modelos fortes como batalha de chefes finais

Joint RL vs single-task RL como solo vs time competitivo

Dinâmica de treinamento como curva de aprendizado real

Infraestrutura como motor de jogo otimizado

Interpretação estatística sem fanboyismo

A indústria ainda está presa no modo easy enquanto finge jogar no hard

O futuro dos agentes é modular, ou continuaremos treinando NPCs glorificados

Categoria

Lista de tags