Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 24] Sampling crítico: o jutsu secreto das LLMs que a hype não quer que você veja

21 de outubro de 2025
[IA na veIA nº 24] Sampling crítico: o jutsu secreto das LLMs que a hype não quer que você veja

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Reasoning with Sampling: Your Base Model is Smarter Than You Think
  • Link do paper
IA na veIA nº 24
IA na veIA nº 24.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Por muito tempo, a narrativa dominante era clara: se você quer que uma LLM saiba raciocinar, precisa treiná-la com reforço. As luzes de neon piscavam para os algoritmos de RLHF, GRPO e variantes. Afinal, como disseram Guo et al, os ganhos com reforço em tarefas como matemática e programação são inegáveis. Mas será mesmo?

He et al mostraram que para tarefas com múltiplas tentativas (pass@k), os modelos base frequentemente superam os modelos pós-treinados com RL, que sacrificam diversidade por precisão single-shot. Shao et al reforçaram essa crítica ao mostrar que o pós-treinamento com RL não gera novas capacidades, apenas concentra a distribuição em regiões de alta confiança já presentes no modelo base. E Yue et al observaram que os traços de raciocínio após RL estão firmemente ancorados nas regiões de alta verossimilhança do modelo original.

Em paralelo, Li et al mostraram que “janelas críticas” — decisões token-a-token com grande impacto no resultado — são sensíveis a ruído de sampling e muitas vezes ignoradas nos processos padrão de geração. Isso acende um alerta. Se essas janelas já estão no modelo base, será que estamos apenas amostrando mal?

Prabhudesai et al tentaram contornar isso usando a confiança do modelo como sinal de reforço. Mas ainda é um atalho. O que Zhao et al chamaram de “recompensa interna” permanece uma heurística disfarçada de rigor. O trabalho de Du et al, vindo da física estatística, já apontava anos atrás que o segredo para amostrar de distribuições complexas com múltiplos modos não é mais fine-tuning, mas sampling estruturado — algo que o campo de MCMC vem fazendo desde os anos 1950.

E sim, Faria et al já haviam explorado Metropolis-Hastings com LLMs, mas usando recompensas externas. O que ninguém ousou fazer — até agora — foi desafiar o dogma: e se o modelo base já for bom o suficiente e o que falta é apenas uma amostragem melhor? É exatamente aqui que este paper entra como o sabre de luz escondido nos escombros de Tatooine.


O feitiço de sampling que transforma base model em Gandalf da inferência

Aayush Karan e Yilun Du, da Harvard, decidiram ir direto ao ponto: ignoraram completamente o fine-tuning, ignoraram datasets de verificação, ignoraram recompensas externas. Pegaram o modelo base — sem modificações — e criaram um algoritmo de sampling iterativo com base em MCMC. Só isso. Nada de RL, nada de treinamento adicional, nada de heurísticas de confiança.

A proposta central do paper é simples e, ao mesmo tempo, subversiva: se modelos pós-treinados com RL se comportam como distribuições “afiadas” do modelo base, então por que não simular esse comportamento diretamente via sampling, elevando a distribuição original à potência α, como em p^α?

Em vez de treinar o modelo para se concentrar nas regiões de alta verossimilhança, o que o algoritmo faz é simplesmente usar a própria distribuição de saída do modelo e reamostrar sequências conforme sua probabilidade — reponderando de forma iterativa os trechos de baixa confiança.

A beleza do método está na simplicidade nerd: a técnica usa um sampler do tipo Metropolis-Hastings, mas adaptado ao mundo autoregressivo dos LLMs. Em vez de gerar sequências do zero, o algoritmo seleciona blocos aleatórios dentro da sequência e os reamostra, aceitando ou rejeitando a nova sequência com base em sua probabilidade relativa ao original.

A técnica de sampling é inspirada em conceitos clássicos da física e estatística: distribuição power law, resampling com probabilidade proporcional, cadeias de Markov. Mas tudo isso aplicado em um modelo como o Qwen2.5-7B ou o Phi-3.5-mini. Resultado? Em várias benchmarks, como MATH500, HumanEval e GPQA, o desempenho do algoritmo rivaliza ou até supera os modelos pós-treinados com RL. E tudo isso sem treinar nada.


Quando o reforço some, a Força desperta (e os erros também)

Agora vamos imaginar um cenário alternativo. Suponha que o algoritmo de sampling não existisse. Suponha que estivéssemos limitados aos métodos convencionais: sampling greedy, sampling com temperatura fixa, ou no máximo top-k/top-p.

O que perderíamos?

Primeiro, perderíamos precisão single-shot. Em benchmarks como HumanEval, o salto de performance do modelo base para a técnica de power sampling ultrapassa 24 pontos percentuais. Isso é o equivalente a jogar com Teemo e depois desbloquear um Garen com build completa e buff do Barão.

Depois, perderíamos diversidade. Modelos treinados com RL tendem ao colapso de modos — geram sempre a mesma resposta. Isso compromete aplicações multi-shot, exploratórias, criativas. Em contraste, o método proposto mantém diversidade mesmo em pass@16, como mostram os gráficos do paper. É como comparar uma IA que só sabe resolver um enigma de Bilbo com outra que oferece 16 caminhos possíveis para escapar de Moria.

Finalmente, perderíamos generalização. O modelo pós-treinado com RL pode ir bem na distribuição de treino (MATH500), mas falha feio em tarefas fora da caixinha, como HumanEval. O sampling iterativo proposto aqui, por outro lado, brilha em tarefas fora do domínio, mostrando que o conhecimento está lá — só estava sendo mal extraído.


O RPG dos tokens: quando o sampling vira sistema de combate por turnos

O coração técnico do paper é a construção de um sampler baseado na distribuição p^α, onde α controla o nível de “afiamento” da distribuição original. A ideia é favorecer sequências que têm poucas, mas excelentes, continuidades — algo crucial em raciocínio.

O grimório mágico de MCMC: Sampling sem colapsar

A base teórica vem do velho conhecido Metropolis-Hastings. Mas aqui, o truque é usar sampling por blocos. Em vez de gerar a sequência inteira e refazer do zero, o algoritmo escolhe um ponto aleatório e reamostra a sequência dali em diante. Se a nova sequência tem uma probabilidade maior sob p^α, ela é aceita.

Esse processo é iterado várias vezes, o que permite escapar de mínimos locais e encontrar melhores caminhos de raciocínio. A metáfora aqui é clara: em vez de seguir uma única linha de diálogo como num jogo de RPG linear, o modelo pode explorar várias ramificações e escolher a melhor com base no “XP” acumulado da verossimilhança.

Pontos de habilidade: α e NMCMC

Os dois parâmetros que controlam o sistema são α (nível de sharpening) e NMCMC (número de iterações de sampling). Com α muito baixo, você apenas replica o modelo base. Com α muito alto, você corre o risco de overfitting na verossimilhança e perder generalização.

O paper mostra que α=4.0 é o sweet spot. E para NMCMC, 10 passos já são suficientes para ganhos significativos — depois disso, os ganhos saturam. Em outras palavras, 10 iterações já bastam para o modelo “meditar como o Dr. Strange” e encontrar a melhor linha temporal.

Economia de mana: computação controlada

A crítica óbvia seria: “mas isso não custa mais computação?”. Sim, custa. Mas não muito. Com os parâmetros usados, o custo é cerca de 8.8x mais tokens gerados do que uma geração comum. Mas isso ainda é mais barato do que uma única época de RL com GRPO, que exige múltiplos rollouts por prompt e datasets inteiros.

E lembre-se: aqui não há treinamento. É apenas uma questão de gastar mais ciclos no momento da inferência — como fazer o Goku segurar o Kamehameha um pouco mais para maximizar dano.


O martelo do Thor da experimentação: benchmarks esmagadores

Os autores foram meticulosos nas comparações, testando três modelos diferentes: Qwen2.5-Math-7B, Qwen2.5-7B e Phi-3.5-mini-instruct. Todos foram avaliados em quatro benchmarks: MATH500, HumanEval, GPQA e AlpacaEval 2.0.

MATH500: O campo de batalha das olimpíadas de matemática

O resultado? No Qwen2.5-Math-7B, o power sampling alcançou 74.8% de acurácia, contra 49.6% do modelo base. GRPO atingiu 78.5%, uma diferença de apenas 3.7 pontos. Mas lembre-se: sem nenhum fine-tuning, o método chegou quase lá.

HumanEval: O dojo da programação

Aqui a mágica acontece. Com o mesmo modelo, GRPO chegou a 53.7%, enquanto o power sampling alcançou 57.3%. No Phi-3.5-mini, o salto foi ainda mais brutal: de 21.3% (base) para 73.2% (power sampling), superando em muito os 13.4% de GRPO. Isso é uma surra digna de Zoro vs. Espadachim genérico.

GPQA: O labirinto das questões científicas

Mais uma vez, o método ficou no páreo. Superou consistentemente o modelo base e, em alguns casos, empatou com GRPO. Mas com a vantagem de preservar diversidade — crucial em tarefas onde múltiplas explicações podem ser válidas.

AlpacaEval 2.0: O universo fora da verificação

Aqui, o método também se destacou. Isso indica que a técnica não depende de recompensas verificáveis. Ela não precisa de datasets com “gabarito”. É como se o modelo aprendesse a guiar o próprio Batmóvel — com ou sem Alfred.

Pass@k: O ataque múltiplo

O golpe final é no pass@k. O power sampling não só supera GRPO no single-shot, como o massacra no multi-shot. A curva de desempenho cresce com k, enquanto a de GRPO estagna. A diversidade está viva e bem. É como ter um baralho com todas as cartas lendárias, enquanto o oponente joga só com 4 cópias do mesmo Mewtwo.


O Jutsu da hype que ilude a aldeia da IA

Temos que falar da hype. O mantra atual é: fine-tune com reforço, avalie com GPT-4, declare vitória. Mas esse paper mostra que há um outro caminho. Mais barato, mais simples, mais elegante. É a lâmina do jedi esquecida nos arquivos da biblioteca de Coruscant.

Será que vale mesmo gastar milhares de GPUs em pós-treinamento RLVR, quando o modelo base já sabe raciocinar — só precisa de um sampling melhor?

Será que estamos medindo “raciocínio” com benchmarks simplistas, sem avaliar diversidade, generalização e robustez?

Será que o foco em verificação automática não está matando justamente a criatividade e multiplicidade de raciocínios que queremos dos modelos?


A skill que a LLM já tem, mas ninguém treinou: sampling inteligente

O que esse paper nos ensina não é apenas sobre sampling. É sobre visão. A visão de que talvez estejamos tentando ensinar LLMs a raciocinar da forma errada. Elas já sabem. O que falta é dar espaço para esse raciocínio emergir — e isso exige técnicas de inferência que respeitem a complexidade da distribuição, não que a esmaguem com reforço cego.

Se continuarmos ignorando isso, estaremos como os anões de Moria: cavando fundo demais, despertando o Balrog da mediocridade.

A mensagem é clara: pare de tentar treinar tudo. Comece a amostrar direito.