Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 42] Policy search com cheat code semântico

1 de dezembro de 2025
[IA na veIA nº 42] Policy search com cheat code semântico

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs
  • Link do paper
IA na veIA nº 42
IA na veIA nº 42.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Reforço clássico é tipo aquele grind infinito em MMO: o agente tenta, erra, toma dano, ganha um pouquinho de XP num escalar de recompensa e repete até upar. Sutton & Barto descreveram isso como se fosse a biblia do RL bem antes de qualquer hype de LLM. Mnih et al mostraram que dá para colocar uma CNN em cima de pixels e destruir humanos no Atari como se fosse um smurf.

Silver et al levaram isso para outro level com Go, mostrando que, com muita simulação e recompensa numérica, dá para bater campeões mundiais como se estivesse jogando contra bots. Tesauro fez algo parecido bem antes com backgammon, provando que esse esquema de “só número” funciona quando você tem tempo infinito de treino. Jumper et al ainda empurraram o RL para biologia com dobramento de proteína, onde cada recompensa parece um loot lendário raro.

Só que tem um bug conceitual aí: humanos não aprendem só com número tipo barra de XP. Lupyan et al argumentam que linguagem programa o nosso pensamento, tipo se o cérebro fosse um interpretador de prompts. Nefdt discute como linguagem estrutura cognição, quase como se cada instrução fosse um buff permanente no cérebro. E, mesmo assim, boa parte do RL ignora o fato de que o mundo vem com manuais, tutoriais, normas de segurança e “don’t try this at home”.

Luketina et al fizeram um survey de RL + linguagem e mostraram que boa parte dos trabalhos usava inputs sintéticos, quase como se o agente só lesse fanfic em vez de documentação real. Narasimhan et al tentaram usar linguagem para transfer learning, mas ainda presos em setups bem controlados. Goyal et al exploraram linguagem como pista para recompensas visuais, meio como pingar pings de mapa no LoL para guiar o jungler, mas ainda com corpora restritos.

Quando os LLMs surgiram, o jogo mudou. Minaee et al mostram que esses modelos absorvem internet inteira, incluindo logs de treino, scripts de otimização e fórmulas de RL. Wei et al falam de habilidades emergentes, tipo aquele personagem que, depois do level 30, “do nada” aprende uma ultimate absurda. Yang et al com OPRO trataram LLM como otimizador de prompts, usando o modelo para gerar candidatos e um avaliador externo para ranquear, quase como um mestre Pokémon testando vários golpes fora de batalha.

Só que a maioria dessas abordagens ainda trata RL como um Frankenstein: o LLM gera pedaços (recompensas, descrições, ações), mas quem manda mesmo é o otimizador numérico clássico. Kwon et al usam LLM para desenhar recompensas. Yu et al deixam linguagem virar shaping para robôs. Ma et al fazem o DrEureka guiar sim-to-real com textos. Laskin et al treinam Transformers para imitar RL numérico em contexto, como se fosse copiar dever de casa. E Monea et al mostram bandits em contexto com LLM, mas só com recompensas binárias, tipo moeda de cara ou coroa.

Falta alguém ter coragem de dizer: e se o LLM for o próprio otimizador central, não um plugin decorativo?


ProPS: o LLM senta na cadeira do policy gradient

Zhou et al fazem exatamente isso e chutam a porta do laboratório. Em vez de usar o LLM como narrador ou crítico de recompensas, eles colocam o modelo no centro do loop de otimização de política, como se o GPT fosse o coach decidindo os parâmetros da build a cada rodada. O agente que interage com o ambiente continua sendo uma política simples, linear ou tabular, mas quem escolhe os pesos dessa política é o LLM, olhando histórico de tentativas e recompensas.

A ideia é brutalmente simples e justamente por isso desconfortável para quem acha que só gradiente de verdade funciona. A cada ciclo, o LLM recebe um histórico de parâmetros já testados e seus retornos, e devolve um novo vetor θ tentando aumentar a recompensa, junto com uma explicação em linguagem natural que funciona como “gradiente textual”. É quase como se o modelo estivesse fazendo análise pós-jogo de LoL: “quando aumentei esse peso, a recompensa caiu, então vou reduzir e compensar no outro”.

Eles chamam a versão puramente numérica de ProPS, que trata o problema como simples otimização de função, sem semântica nenhuma. Já a versão ProPS+ injeta contexto de linguagem: descrição do ambiente, explicação do estado, estrutura da política, dicas humanas. A diferença é tipo jogar roguelike no modo “blind” versus jogar com wiki aberta e um amigo experiente no Discord. ProPS+ vira um RL que raciocina ao mesmo tempo sobre números e significado, usando texto para guiar exploração, impor restrições e incorporar heurísticas humanas.

O impacto disso é bem social também. Em vez de ter um otimizador caixa-preta fazendo updates invisíveis, o LLM gera justificativas em linguagem natural para as mudanças de política. Isso importa em domínios sensíveis, tipo saúde ou robótica colaborativa, onde explicar “por que o robô decidiu isso” vale mais que subir 1% na métrica.

E, claro, também tem a provocação política: se LLM já faz otimização em contexto sem ter sido treinado em RL explícito, quanta ferramenta de RL clássica virou apenas legado histórico?


Sem ProPS, ficamos presos no modo “mudo” do RL

Imagina treinar um agente em FrozenLake sem poder dizer “o chão é escorregadio, cuidado com rota óbvia”. Sem ProPS, essa é literalmente a vida da maior parte dos algoritmos: só vê número de recompensa, como se estivesse jogando Dark Souls sem lore, sem item description, só tomando hit e decorando. Schulman et al com PPO e TRPO refinaram a forma de subir gradiente de política, mas ainda dentro da jaula “θ entra, retorno sai, sem linguagem no meio”.

Sem algo como ProPS+, qualquer manual, norma, documentação ou dica de especialista vira PDF morto, desconectado do loop de aprendizado. Yu et al tentam traduzir linguagem em shaping de recompensa, mas isso achata tudo num escalar, como tentar resumir uma campanha inteira de RPG em uma nota de 0 a 10. Han et al usam manuais da FAA para guiar ações de voo, mas o LLM vira um oráculo externo, não o cérebro que otimiza a política.

Se você ignora essa camada semântica, paga o preço em sample efficiency. Cada episódio extra em MuJoCo é tipo rodar mais uma simulação cara de robô; em mundo real, isso vira quebrar componente físico e gastar grana. Sem ProPS, você continua gastando episódios como se tivesse energia infinita, em vez de usar texto para encurtar busca. E ainda perde transparência: gradiente numérico não explica “por que” um comportamento emergiu, só te dá um vetor de atualização.

Pior: abrir mão de linguagem limita o que dá para codificar como restrição. Regras de segurança, ética, compliance, design de produto, tudo isso costuma nascer em texto, não em funções recompensa bonitinhas. Sem um mecanismo que entenda texto e número junto, você está basicamente traduzindo constituição inteira para um escalar, esperando que o agente não descubra exploits bizarros.

ProPS é justamente a tentativa de dizer: “ok, o LLM já entende esse texto, então que ele participe da otimização desde o início”.


Como funciona esse “RL guiado por prompt” na prática geek

Zhou et al montam o loop de ProPS como se fosse um jogo de turnos entre ambiente e LLM. O ambiente é o tabuleiro, a política é o personagem, e o LLM é o jogador que escolhe a build a cada rodada. A política é simples: linear em estados contínuos ou tabular em estados discretos, nada de redes gigantes por enquanto, justamente para testar se o LLM aguenta ser o otimizador sem truques extras.

Loop de otimização: runas, builds e histórico de batalha

Em ProPS, o vetor de parâmetros θ é o equivalente às runas de um campeão em LoL. Cada iteração gera um novo θ, roda algumas dezenas de episódios, coleta o retorno médio e devolve isso para o LLM como histórico. O modelo vê uma lista de pares “parâmetros → recompensa” ao longo das iterações e tenta inferir tendências, tipo “quando aumentei esse peso, a recompensa subiu até certo ponto e depois desceu”.

Em vez de gradiente calculado por backprop, o que temos é raciocínio em contexto: o modelo faz pattern matching em texto mais números, tentando otimizar como se estivesse escrevendo um relatório de tuning de hyperparams. No limite, é quase um hill-climbing narrativo: gerar candidatos, avaliar fora do LLM, voltar com a pontuação e pedir outro candidato. Só que aqui o “algoritmo” não é codificado em Python, e sim aprendido implicitamente durante pré-treino do LLM.

Modelagem matemática: J(θ) por prompt, não por derivada

Formalmente, continua sendo policy search: maximizar J(θ) = E[R(τ)] sobre os parâmetros da política. Em RL clássico, você faz θ ← θ + α∇θJ(θ), com α controlando quão agressivo é o update. Aqui, a atualização é θ_{t+1} = LLM(Γ, P), onde Γ é o histórico de θ e recompensas, e P é o prompt descrevendo o problema. É uma espécie de operador de atualização implícito, parametrizado pelo próprio LLM, que substitui a fórmula fechada do gradiente.

É como trocar “use esta fórmula de dano” por “pergunte a um mago que já leu todos os livros de combate do multiverso e deixe ele decidir”. O preço é menos controle teórico; o ganho é flexibilidade para misturar números com texto e contornar o gargalo de mapear tudo para escalar. Deisenroth et al já defendiam policy search direto para robótica, e aqui estamos basicamente plugando um Transformer nesse paradigma.

ProPS+: adicionando lore ao manual do otimizador

Na versão ProPS+, entra a parte divertida: o prompt inclui descrição textual do ambiente, do espaço de estados, da estrutura da política e, se quiser, dicas de especialista. A descrição de CartPole explica posição, velocidade, ângulo, ação binária; é como ler a ficha técnica do boss antes da raid. As dicas, tipo “quando a velocidade é negativa, aplique força negativa para recuar o carro”, viram heurísticas explícitas para guiar a exploração inicial.

Isso permite que o LLM use conhecimento prévio, como “sistemas pendulares precisam de ações em fase com o movimento”, sem depender de experimentar tudo do zero. Quando você injeta essas dicas, está basicamente fazendo o que mentores fazem em ranked: encurtar o espaço de busca. O risco, claro, é dar dica errada e enviesar o agente, como veremos em FrozenLake. Mas o fato de o sistema aceitar texto diretamente já é um shift de paradigma.


Resultados: números, estatística e LLMs farmando XP em 15 mundos

Zhou et al testam ProPS e ProPS+ em 15 tarefas de Gymnasium, de clássicos como CartPole a ambientes MuJoCo e jogos tipo Pong. Cada algoritmo roda 8000 episódios por tarefa, o que é tipo jogar 8000 partidas ranqueadas com builds diferentes, e o LLM atualiza a política a cada 20 episódios, totalizando 400 iterações de otimização, como 400 turnos de meta-tuning.

Swimmer: LLM nadando mais rápido que PPO

No Swimmer, ProPS estoura a boca do balão. Enquanto TRPO fica ali nos 50 e poucos de recompensa média, ProPS bate mais de 218 de retorno, como se tivesse trocado uma espada comum por um item mítico de dano em área. ProPS+ ainda sobe um pouco mais, perto de 227, mostrando que adicionar descrição semântica do ambiente ajuda esse bichinho aquático a aprender uma stroke mais eficiente.

Isso é interessante porque Swimmer costuma ser chato para métodos que confiam demais em gradientes suaves; aqui, um LLM só olhando histórico de parâmetros consegue ultrapassar algoritmos desenhados à mão para controle contínuo. Haarnoja et al com SAC brilham em outras tarefas, mas aqui ficam bem atrás, como se estivessem jogando com build errada. Estatisticamente, a diferença de mais de 150 pontos de retorno médio é um abismo, tipo ganhar por 10 níveis em cima do adversário.

MountainCar: motor fraco, cérebro falante

Em MountainCar contínuo, SAC é um dos melhores entre os baselines, cravando algo em torno de 86 de recompensa média, o que já é decente para tirar o carro do vale. ProPS atinge cerca de 87, e ProPS+ passa disso, batendo quase 89, como se fosse aquele min-max final que te dá uns frames a mais de dash. A diferença numérica aqui é menor, mas o interessante é que o LLM chega nesse patamar sem backprop, só otimizando θ via texto.

Na versão discreta do MountainCar, os métodos clássicos sofrem mais, com recompensas em torno de -194 para DQN, que é quase morrer em todas as tentativas. ProPS puxa isso para perto de -126, e ProPS+ melhora mais um pouco, chegando perto de -117. Em termos de DPS, é como sair de 30% de winrate para algo mais próximo de 60% em um ladder difícil, com a mesma quantidade de partidas. Esse ganho mostra que o LLM consegue reestruturar a política tabular melhor que Q-learning puro.

CartPole e Pendulum: equilíbrio de sabre de luz

Em CartPole, TRPO já é forte, com algo como 465 de recompensa máxima média, quase fechando episódio perfeito. ProPS ultrapassa isso com cerca de 478, e ProPS+ chega a 500 cravado, o teto, como se tivesse aprendido a equilibrar um sabre de luz no dedo sem deixar cair uma vez sequer. O fato de o LLM, via prompts, chegar no ótimo global e segurar performance consistente mostra que ele não está só “chutando”, mas internalizando uma estratégia estável.

No Inverted Pendulum, a diferença é ainda mais dramática. TRPO chega por volta de 571, enquanto ProPS vai direto para 1000, o máximo, em todas as execuções. ProPS+ mantém esse 1000 perfeito. É como sair de um personagem que às vezes escorrega do combo para um robot-fighter que faz o mesmo string de golpes perfeito 100% das vezes. Aqui, o histórico textual parece dar ao LLM a clareza de que o regime ótimo é manter o pêndulo em pé o máximo possível, não ficar experimentando maluquice.

FrozenLake e Maze: quando a lore engana o jogador

FrozenLake é o plot twist da história. ProPS, sem nenhuma semântica, aprende uma política com probabilidade de sucesso em torno de 0.57, o que já é mais de meio caminho andado, tipo acertar mais da metade das skillshots num MOBA. TRPO e PPO ficam ali perto de 0.2, bem piores. Quando entra ProPS+ com descrição textual dizendo que o lago é escorregadio, o LLM assume dinâmicas determinísticas na cabeça e monta uma política que parece bonita, indo sempre na direção do objetivo.

Na prática, a performance cai para algo próximo de 0.19, basicamente regredindo para nível dos métodos clássicos. É como aquele jogador que lê demais a wiki, acredita num guia errado e entra na ranked com uma build troll que só funciona num servidor de teste. Essa diferença estatística deixa bem claro o trade-off: semântica pode ser buff ou debuff, dependendo de quão bem o LLM entende nuances como estocasticidade.

Nim: quando texto vira livro de jogadas ótimo

No jogo de Nim, ProPS puro começa fraco, com performance em torno de 0.33 de sucesso, quase como jogar pedra-papel-tesoura sem pensar. A2C chega por volta de 0.58, o que mostra que métodos clássicos pegam alguma estrutura combinatória. Quando ProPS+ recebe descrição semântica detalhada das regras, ele salta para aproximadamente 0.97 de winrate médio, praticamente jogando como se tivesse decorado o livro de estratégias perfeitas.

Essa diferença de mais de 60 pontos percentuais é gigantesca, nível sair de Bronze para Challenger em poucos jogos. Mostra que, em domínios onde o conhecimento simbólico pode ser expresso claramente em texto, LLM como otimizador vira cheat autorizado, explorando padrões que métodos numéricos levariam muito mais episódios para descobrir.

História de contexto: memória de campanha de D&D importa

Zhou et al também mexem em um hyperparam meio esquecido: quantos pares parâmetro–recompensa o LLM vê no contexto. Quando o histórico tem N = 1, o desempenho em MountainCar fica por volta de 100 de recompensa, como se o LLM jogasse com amnésia e só lembrasse da última tentativa. Quando deixam o histórico crescer, o retorno vai subindo quase linearmente até encostar em 200, o máximo, com histórico ilimitado.

Essa curva é tipo campanha de D&D: se você esquece o que aconteceu na dungeon passada, nunca fecha arco de personagem. Com histórico longo, o LLM consegue comparar vários parâmetros simultaneamente, inferir padrões de trade-off e fazer updates mais inteligentes. Estatisticamente, o efeito de aumentar N parece maior do que pequenas mexidas na formulação do prompt, o que é um recado forte para quem quer implementar isso na prática.

Tier list de modelos: GPT, Gemini, Claude, Qwen como campeões

Os autores testam GPT-4o, Gemini-2.5-Flash, Claude-3.7-Sonnet e Qwen2.5-14B como otimizadores em tarefas como MountainCar e Swimmer. Os modelos proprietários ficam todos num S-tier parecido, com diferenças moderadas em sample efficiency, como campeões diferentes com builds levemente distintas mas todos viáveis em meta. Qwen, por ser menor e open, começa bem abaixo, tipo campeão off-meta sem item certo.

Mesmo assim, a performance de Qwen não é zero; ele consegue alguma melhoria sobre o random, só que com menos finesse numérica. Em números normalizados, os proprietários batem perto de 1.0 em algumas tarefas, enquanto Qwen vem abaixo disso, como se ficasse a um ou dois patches de distância. Isso sugere que a skill “otimizar em contexto” está realmente distribuída nos pesos de pré-treino e cresce junto com capacidade total do modelo.

Fine-tuning: transformando Qwen low-budget em main decente

Para ver se dá para treinar o campeão fraco, os autores fazem fine-tuning de Qwen2.5-14B com GRPO usando 2000 exemplos de políticas random para MountainCar contínuo. Depois de algumas épocas, a performance em MountainCar sobe de algo como 8 de recompensa máxima média para mais de 42, e aparecem vários episódios com retorno acima de 90, que é praticamente near-ótimo, como se o campeão tivesse ganhado rework de kit.

Mais impressionante: esse modelo ajustado generaliza parcialmente para Inverted Pendulum e Pong, sem ter sido treinado neles. Em Inverted Pendulum, a melhor recompensa máxima sobe de cerca de 165 para algo próximo de 409; em Pong, sai de 1.3 para 1.8 de retorno máximo, como subir KDA médio de 1.0 para 1.4. Não é perfeito, mas mostra que ensinar “como otimizar políticas” em um ambiente transfere para outros, sugerindo que a habilidade de policy search é, em parte, abstrata.

Custo computacional: mana por episódio

E o custo? Comparando tempo de CPU dos algoritmos tradicionais com o tempo de CPU + chamadas de API do LLM, ProPS e ProPS+ ficam numa faixa aceitável, principalmente porque o LLM só entra a cada 20 episódios. Em tarefas com muitos passos por episódio, os métodos clássicos sofrem mais, pois precisam backpropagar por redes profundas, como mago spammando magia cara todo turno. ProPS, por outro lado, delega o custo pesado para poucas chamadas de LLM, que são mais raras mas mais “caras”.

Se você pensar em termos de “mana total gasta por campanha”, a conta não é absurda. O sistema mostra que dá para usar LLM como otimizador sem tornar o experimento inviável, especialmente em setups onde a simulação em si já é o gargalo. Isso é importante porque evita o argumento fácil de “legal, mas nunca rodaria fora de laboratório rico”.

Comparação com Evolution Strategies: LLM como chefe de raid, não enxame cego

Eles também comparam ProPS+ com variantes de Evolution Strategies, incluindo OpenAI-ES e (μ + λ)-ES. Em algumas tarefas high-dimensional, como Hopper e Walker, OpenAI-ES domina, tipo guild top mundial em boss de raid. Mas em 8 das 15 tarefas, ProPS+ é o top performer, inclusive em cenários onde ES tradicionais resistem bem.

A diferença conceitual é grande: ES mantém população explícita de candidatos e atualiza uma distribuição paramétrica; ProPS mantém histórico completo de tentativas e pede para o LLM raciocinar em cima, sem distribuição codificada. É como trocar swarm de NPCs tentando random buffs por um líder de raid experiente que lê log de combate inteiro e decide a próxima estratégia. Não é sempre melhor, mas muda o tipo de erro que você comete.


Hypecheck: LLM salvando RL ou só mais skin lendária?

É tentador olhar esses gráficos e gritar “acabou, gradiente morreu, agora tudo é prompt”. Isso é exatamente o tipo de hype que transforma discussão técnica em thread de Twitter com meme de Marvel. Zhou et al deixam claro que estão em regimes de até 100 parâmetros ou um pouco mais com truques de projeção; não é que você vai treinar uma política ResNet gigante só no gogó do LLM amanhã.

Tem também a questão de interpretabilidade que todo mundo romantiza. Sim, o LLM gera justificativas textuais, mas elas podem ser racionalizações pós-hoc, tão confiáveis quanto um vilão da DC explicando seu plano depois de já ter perdido. TextGrad de Yuksekgonul et al mostra que gradientes textuais podem ser úteis, mas não são prova de causalidade. A gente corre o risco de achar que “porque está em texto, é mais honesto”.

Outra armadilha é achar que linguagem resolve reward hacking magicamente. Ibrahim et al mostram o quão delicado é reward shaping; adicionar texto não remove incentivos tortos, só muda o espaço onde o agente pode abusar. FrozenLake já dá spoiler disso: dar descrição sem entender estocasticidade fez o LLM apostar numa política aparentemente bonita mas estatisticamente pior. É a versão RL do “seguir tutorial errado no YouTube e brickar o PC”.

E tem a dependência em modelos proprietários. Enquanto GPT-4o, Gemini e Claude são os campeões da rodada, muita gente não vai ter como chamar isso em larga escala num laboratório pobre ou deploy embarcado. Qwen finetunado é um bom começo, mas ainda estamos no arco “modelos menores aprendendo a ser otimizadores”, bem longe de um final de saga.


Para onde ir: menos idolatria, mais experimentação com LLMs otimizadores

Se você é jovem pesquisador em IA e LLMs, esse trabalho é um convite para sair do roleplay de “LLM como chatbot” e pensar nele como componente algorítmico de verdade. Em vez de só usar o modelo para explicar paper no estilo Marvel, dá para desenhar loops onde ele faz parte da mecânica de aprendizado, misturando números, texto, dicas humanas e histórico. Isso abre espaço para RL que conversa com especialista em linguagem natural, sem precisar traduzir tudo para reward shaping torto.

Tem um monte de direções possíveis: escalar ProPS para Deep RL com redes maiores, combinar esse esquema com representação aprendida, criar políticas parametrizadas de forma mais modular e amigável a edição textual. Representações tipo DMP, como usadas em controle motor aqui, são um bom playground, porque condensam movimento complexo em poucos parâmetros, quase como macros em jogos. Também vale estudar mais seriamente quando linguagem atrapalha, como em ambientes estocásticos, e como detectar essas situações automaticamente.

Outra frente é democratizar o otimizador: fine-tuning de modelos open como Qwen para policy search genérico é o equivalente a montar time competitivo com personagens free-to-play. Tem pesquisa séria para fazer em como projetar datasets de “política boa” e rewards para GRPO nessa camada. Também dá para explorar prompts dinâmicos, onde o próprio LLM refatora a forma como recebe histórico para melhorar raciocínio.

Mas o passo zero é simples: ler o paper inteiro com calma e não só catar a figura com barras coloridas. Se você mergulhar em Prompted Policy Search, vai ganhar munição conceitual para experimentar loops novos em RL, desenhar agentes que de fato entendem o manual do jogo e não só grindam XP no escuro. E, quem sabe, seu próximo trabalho de doutorado seja justamente o que mostra como fazer um robô físico aprender com manual técnico, dicas de engenheiro e números ao mesmo tempo, em vez de só ficar caindo no chão por 10 milhões de episódios.