Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 52] A rebelião das estratégias evolutivas contra o império do reinforcement learning moderno

8 de abril de 2026
[IA na veIA nº 52] A rebelião das estratégias evolutivas contra o império do reinforcement learning moderno

Sumário


O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
  • Link do paper
IA na veIA nº 52
IA na veIA nº 52.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Se você ainda acha que reinforcement learning é o “chosen one” do fine-tuning, talvez esteja olhando só para o lado luminoso da Força. A verdade é que, há anos, métodos baseados em gradiente dominam o cenário, mas carregam limitações que parecem bugs dignos de um patch mal feito em um MMO. Sutton & Barto já apontavam a instabilidade e a alta variância como problemas estruturais, algo equivalente a tentar farmar loot raro com RNG completamente quebrado.

E mesmo com toda a engenharia moderna, isso continua sendo um gargalo real.

Salimans et al mostraram que estratégias evolutivas poderiam competir com RL em ambientes controlados, mas a comunidade tratou isso como um spin-off esquecível, tipo um filler de anime. Zhang et al exploraram redes maiores, mas ainda estavam longe da escala absurda dos LLMs modernos, algo mais próximo de um NPC tentando enfrentar um boss raid.

Lehman et al reforçaram a robustez das abordagens evolutivas, mas o consenso seguiu o mesmo: isso não escala, esquece. E assim nasceu um dogma que ninguém teve coragem de quebrar.

Enquanto isso, métodos como PPO e GRPO se tornaram padrão, impulsionados por trabalhos como Ouyang et al e Shao et al, mas com um custo oculto que pouca gente gosta de discutir. O problema de crédito por token é praticamente um quebra-cabeça estilo Dark Souls, onde cada erro custa caro e raramente é corrigido de forma eficiente.

Gao et al mostraram como reward hacking vira quase inevitável, como um jogador explorando glitch em speedrun. E ainda assim, a indústria continuou apostando nisso como se fosse a única build viável.

A consequência disso é um ecossistema frágil, onde pequenos ajustes de hiperparâmetros podem quebrar tudo, como mudar um item errado em uma build de RPG. Gandhi et al destacaram que RL não generaliza bem entre modelos, o que é basicamente dizer que cada LLM vira um personagem com regras próprias.

Zhong et al reforçaram a instabilidade entre execuções, o que transforma treinamento em uma espécie de gacha caro. E no fim, a pergunta inevitável surge: será que estamos insistindo na ferramenta errada?

Resolver essas limitações não é só uma questão técnica, é uma mudança de paradigma. Se continuarmos presos ao RL como solução única, estamos basicamente tentando derrotar um chefão com uma espada quebrada enquanto ignoramos armas melhores no inventário.

A promessa de alternativas como estratégias evolutivas não é só melhorar performance, mas redefinir o jogo inteiro. E é exatamente isso que começa a acontecer aqui.


ES como um Saiyajin escondido: os autores que quebraram o meta

Qiu et al chegam com uma proposta que soa quase herética no contexto atual: abandonar gradientes e usar evolução para fine-tuning de LLMs gigantes. Não estamos falando de brincar com adapters ou camadas finais, mas de mexer em bilhões de parâmetros diretamente, como se fosse alterar o código-fonte de um universo inteiro. Isso já quebra uma crença antiga de que ES não escala, algo repetido tantas vezes que virou verdade absoluta. Só que, como em qualquer bom arco de anime, essa verdade começa a ruir.

A ideia central é simples na superfície, mas brutal na prática. Em vez de calcular gradientes, o modelo sofre perturbações aleatórias e é avaliado com base em recompensa, como se cada versão fosse um personagem testando estratégias diferentes em uma dungeon. Os melhores “indivíduos” influenciam a próxima geração, criando um processo evolutivo direto no espaço de parâmetros. Parece caótico, mas é justamente essa exploração ampla que vira vantagem.

Explorando o espaço como um mapa aberto de Skyrim

Diferente do RL, que explora ação por ação, ES explora diretamente os parâmetros do modelo. Isso é como comparar seguir um caminho linear com explorar um mapa aberto cheio de possibilidades escondidas. O resultado é uma busca muito mais global, menos presa a decisões locais ruins. E isso muda completamente a dinâmica de otimização.

Recompensas longas sem sofrimento estilo grind infinito

Um dos maiores problemas do RL é lidar com recompensas de longo prazo. Aqui, ES simplesmente ignora essa dor, já que avalia o resultado final direto, como julgar uma run completa em vez de cada movimento. Isso elimina o pesadelo de crédito por token. É como trocar um sistema injusto por um julgamento direto do desempenho.

Robustez entre modelos como trocar de classe sem reset

Os autores mostram que ES funciona bem em diferentes LLMs sem precisar de ajustes finos extremos. Isso é raro, considerando que RL muitas vezes falha dependendo do modelo base. É como ter uma build que funciona em qualquer classe do jogo. Essa generalização é um dos pontos mais fortes do trabalho.

Menos reward hacking que um jogador honesto

Enquanto RL frequentemente encontra atalhos absurdos para maximizar recompensa, ES se mantém mais estável. Isso acontece porque ele otimiza uma distribuição de soluções, não apenas uma. É como ter múltiplos personagens equilibrando o sistema, dificultando exploits. O resultado é um comportamento mais confiável.


Sem ES, estaríamos presos em um loop infinito tipo roguelike mal balanceado

Sem essa abordagem, o cenário de fine-tuning continuaria dependente de métodos instáveis e caros. Imagine tentar escalar modelos cada vez maiores com técnicas que já sofrem em configurações menores. Isso vira rapidamente um problema exponencial. É como tentar rodar um jogo AAA em hardware de 2010.

Além disso, tarefas com recompensas esparsas continuariam sendo um inferno. RL simplesmente não lida bem com isso, o que limita avanços em raciocínio complexo. Sem ES, muitos desses problemas permaneceriam sem solução prática. E isso trava inovação em áreas críticas.

Outro ponto é a democratização. RL exige engenharia pesada e expertise absurda, enquanto ES simplifica o processo. Sem isso, fine-tuning continuaria sendo território exclusivo de grandes labs. E isso mantém o jogo desigual.


O método como um sistema de crafting evolutivo digno de um RPG hardcore

O método proposto não é só uma adaptação de ES, mas uma engenharia cuidadosa para escalar em LLMs gigantes. Ele transforma algo considerado inviável em algo prático. E isso exige várias decisões interessantes.

Perturbações gaussianas como mutações genéticas estilo X-Men

Cada iteração gera variações do modelo adicionando ruído aos parâmetros. Isso funciona como mutações genéticas, criando diversidade na população. O segredo está na escala do ruído. Pequenas mudanças podem gerar impactos gigantes.

Normalização de recompensa como balanceamento de patch

Os autores usam normalização para estabilizar o treinamento. Isso evita que recompensas extremas dominem o processo. É como um patch que impede builds quebradas de dominar o meta. O sistema fica mais previsível.

Paralelização massiva tipo raid com múltiplos players

Cada modelo perturbado pode ser avaliado em paralelo. Isso aproveita GPUs de forma eficiente. Diferente de RL, que exige sincronização complexa, ES é naturalmente distribuído. É como dividir uma raid entre vários grupos independentes.

Atualização agregada como votação democrática

Os parâmetros são atualizados com base na média ponderada das perturbações. Isso evita decisões extremas. O sistema converge de forma mais estável. É uma espécie de consenso coletivo.


Resultados que parecem cheat code desbloqueado em múltiplos benchmarks

Os experimentos mostram que ES não só funciona, mas frequentemente supera RL. E isso em vários cenários diferentes. O mais impressionante é a consistência.

Countdown como puzzle nível Portal resolvido com facilidade

No benchmark Countdown, ES supera RL em todos os modelos testados. Em alguns casos, a melhoria chega a dezenas de pontos percentuais. Isso é como sair de um win rate de bronze para diamond. E sem tuning complexo.

Qiu et al mostram que modelos como Qwen e Llama tiveram ganhos massivos. Enquanto RL às vezes mal melhora o baseline, ES avança de forma consistente. Isso sugere robustez real. Não é sorte estatística.

Concisão sem perder sanidade tipo NPC bem escrito

Nos experimentos de concisão, ES encontra um equilíbrio melhor entre recompensa e divergência. Isso é equivalente a manter personalidade sem virar um robô quebrado. RL frequentemente colapsa ou hackeia a recompensa. ES evita isso.

A variância também é muito menor. Enquanto RL varia como dano crítico aleatório, ES entrega resultados consistentes. Isso reduz custo e incerteza. E isso importa muito em escala.

Matemática como resolver equações tipo Tony Stark

Nos benchmarks matemáticos, ES compete com métodos RL de ponta. Mesmo sendo uma implementação simples. Isso é quase injusto. Mostra que o potencial ainda está longe de ser explorado.

Comparado a Zeng et al e Hu et al, ES se mantém competitivo. E sem toda a complexidade. Isso levanta uma questão séria sobre eficiência. Será que RL está superengenheirado?

ARC e Sudoku como testes de inteligência estilo Westworld

Nos puzzles, ES transforma modelos inúteis em sistemas funcionais. O salto de performance é enorme. Em Sudoku, a precisão vai de praticamente zero para níveis altos. Isso é uma evolução absurda.

No ARC, o ganho também é significativo. Isso mostra capacidade de generalização. Algo que RL ainda struggle muito.

Estatística e consistência como build meta estável

A variância entre execuções é muito menor em ES. Isso significa menos experimentos desperdiçados. RL pode variar até 15x mais. Isso é como depender de RNG versus estratégia.

Essa consistência reduz custo real. E isso é ignorado na maioria dos papers. Aqui, vira um diferencial claro.


A hype do RL começa a parecer um boss superestimado

A indústria vende RL como solução universal, mas os resultados aqui mostram outra história. Talvez estejamos presos em uma narrativa confortável. Algo como insistir que um meta antigo ainda funciona. Mesmo quando já foi superado.

ES expõe fragilidades que sempre estiveram lá. Instabilidade, sensibilidade e complexidade excessiva. Tudo isso fica evidente quando comparado diretamente. E a diferença não é pequena.

A pergunta incômoda é simples. Por que demoramos tanto para testar isso em escala? Talvez porque o campo esteja preso em paradigmas. E mudar isso exige coragem.


O futuro onde evolução supera gradientes e redefine a inteligência artificial

Se ES realmente escalar ainda mais, estamos olhando para uma mudança estrutural na forma como treinamos LLMs. Isso abre portas para otimização sem gradientes, algo que parecia inviável. E isso muda tudo.

Uma direção interessante é explorar sinais internos como recompensa. Algo impossível em RL tradicional. Isso pode levar a formas novas de aprendizado. Quase como modelos se autoavaliando.

Mas o maior desafio não é técnico, é cultural. A comunidade precisa questionar suas próprias crenças. Porque, no fim, ciência não é sobre conforto. É sobre quebrar paradigmas.

Se você quer realmente entender para onde a IA está indo, não dá para ignorar isso. Leia o paper completo, questione cada resultado e pense nas implicações. Porque talvez este seja um daqueles momentos raros onde o meta muda de verdade, e quem perceber primeiro sai na frente.


Categoria

Lista de tags