IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A história da inteligência artificial está cada vez mais parecida com uma campanha de RPG mal balanceada. Temos magos que lançam feitiços poderosíssimos, mas gastam mana como se não houvesse amanhã.
Os modelos de linguagem gigantes são exatamente isso: criaturas capazes de responder perguntas difíceis, mas que derramam páginas e páginas de raciocínio redundante só para parecerem mais inteligentes. Esse fenômeno, chamado de “length inflation”, é como um mago que precisa gritar mil palavras arcanas para lançar uma simples bola de fogo.
O problema é que esse desperdício não é apenas estético: custa caro em GPU, energia e paciência.
Schulman et al foram os primeiros a sistematizar essa magia em larga escala com o PPO, que permitiu treinar modelos via reforço de maneira relativamente estável. Shao et al trouxeram o GRPO, simplificando a receita e evitando a necessidade de modelos de valor.
Mas esse feitiço poderoso veio com efeito colateral: respostas quilométricas, cheias de loops internos que lembram os clones das sombras do Naruto quando o garoto ainda não sabia controlá-los. Quanto mais longo o raciocínio, pior a precisão em muitos casos, como já notaram Hassid et al, mostrando que às vezes pensar menos é pensar melhor.
Balachandran et al confirmaram esse paradoxo ao comparar DeepSeek-R1 com Claude Sonnet: o primeiro cuspia respostas quase cinco vezes maiores sem ganhar em exatidão. É como se o Hulk resolvesse multiplicar por dez o número de socos, mas todos com a mesma força de sempre. Hassid et al ainda reforçaram que, em competições de matemática como AIME, as respostas mais curtas não só economizavam tokens, mas também acertavam mais.
Isso desmonta a crença de que tamanho é sinônimo de inteligência. Já vimos isso nos quadrinhos: não é porque o Galactus é gigante que ele sempre vence.
Outros autores tentaram resolver o problema com ajustes finos. Liu et al propuseram o Dr. GRPO, adicionando normalizações para reduzir o efeito cascata das respostas longas. Yu et al criaram o DAPO, ajustando perdas em nível de token para não dar tanta vantagem a cadeias extensas.
Hou et al chegaram a impor limites rígidos de tokens durante o treino, como se fosse um feitiço de silêncio em D&D. Su & Cardie sugeriram penalidades adaptativas, quase como um narrador de RPG que cobra cada jogador quando exagera no roleplay. Mas, mesmo com tudo isso, o dragão da verbosidade continuava cuspindo fogo.
Cheng et al trabalharam em compressão de cadeias de raciocínio, buscando cortar redundâncias. Aggarwal & Welleck foram mais ousados: deixaram o usuário definir o tamanho-alvo e treinaram o modelo para respeitar.
Xiang et al foram pragmáticos e escalaram penalidades conforme a dificuldade da questão, para evitar que problemas simples virassem tratados filosóficos. Hassid et al testaram votação apenas sobre as respostas mais curtas, provando que o segredo estava em filtrar o excesso, como quem corta fillers em uma temporada de Bleach.
Kim et al tentaram resolver isso pós-treinamento, aplicando fine-tuning sobre as saídas mais curtas e corretas. Muennighoff et al exploraram o “budget forcing”, forçando o modelo a encerrar cedo com comandos especiais. Liu & Wang testaram early stopping baseado na convergência das respostas, e Yang et al sugeriram interrupção quando as saídas começavam a se estabilizar.
Mas todos esses métodos atuam só no momento da inferência, como curativos improvisados. O veneno real estava no treino, onde a política aprendia a amar cadeias cada vez mais longas.
Esse conjunto de tentativas mostra que a comunidade ainda está patinando como se estivesse em uma raid de WoW sem healer. De um lado, queremos modelos que consigam enfrentar chefões matemáticos como AIME e GPQA, que exigem raciocínios complexos. Do outro, não podemos permitir que cada resposta vire um livro de Tolkien.
Precisamos de Gandalf: poucas palavras, mas que moldam o destino da batalha. Resolver essa dicotomia é crucial não só para eficiência de GPU, mas também para democratizar o acesso a modelos avançados, evitando que apenas megacorporações possam arcar com a conta elétrica da verbosidade.
O que está em jogo é mais do que eficiência computacional. É a própria viabilidade de uma IA que pensa como humano, mas sem desperdiçar como humano. Assim como em Star Wars, não adianta ter o sabre de luz mais brilhante se o Jedi passa horas balançando-o no ar sem acertar o inimigo.
Queremos precisão, não pirotecnia. Se não controlarmos esse vício de falar demais, corremos o risco de transformar a IA em um Jar Jar Binks da ciência: barulhenta, prolixa e pouco eficaz.
O anel de poder que controla a verbosidade: os autores e a proposta do GFPO
Vaishnavi Shrivastava et al, da Microsoft Research e da Universidade de Wisconsin-Madison, decidiram enfrentar esse dragão com uma arma nova: o GFPO, ou Group Filtered Policy Optimization.
A ideia é simples e engenhosa, como uma carta de Uno bem jogada no momento certo. Em vez de aceitar todas as respostas geradas durante o treino, eles propõem amostragens maiores e uma filtragem seletiva baseada em métricas como comprimento e eficiência por token. Só as melhores cadeias sobrevivem para atualizar a política.
Isso transforma o treino em algo mais parecido com um torneio de artes marciais em Dragon Ball: vários lutadores entram na arena, mas só os mais ágeis e eficazes ficam para o aprendizado. O resultado é que o modelo aprende desde cedo que ser conciso é valioso.
E mais: o GFPO ainda vem em variantes como o Token Efficiency, que valoriza cadeias curtas mas recompensadas, e o Adaptive Difficulty, que ajusta dinamicamente os critérios conforme a dureza do problema. É como se o narrador de RPG desse mais tempo para o jogador enfrentar um dragão, mas cortasse enrolações contra goblins.
O impacto social disso é enorme. Menos tokens significam menos custos de inferência, o que democratiza o acesso e reduz a pegada de carbono. É como se em vez de precisar de uma frota de naves imperiais para cada missão, pudéssemos usar apenas uma X-Wing bem equipada.
A proposta rompe com a lógica atual de “mais é melhor” e abre espaço para pensar modelos de IA que sejam ao mesmo tempo poderosos e sustentáveis.
O mundo sombrio sem GFPO: o universo dominado pela verbosidade infinita
Imagine um futuro sem GFPO. Cada vez que pedíssemos a um modelo para resolver uma equação, ele cuspiria páginas intermináveis, como se fosse um vilão da Marvel que nunca cala a boca durante uma luta.
O custo computacional explodiria, inviabilizando o uso em larga escala. Empresas menores e laboratórios independentes seriam excluídos, deixando o campo dominado apenas pelos titãs com bolsos infinitos.
Mais grave ainda: a própria experiência do usuário se degradaria. Quem usaria um assistente que responde como se estivesse escrevendo “A Roda do Tempo”, quando tudo o que você queria era o resultado de uma conta? Seria como assistir a versão estendida de O Hobbit para descobrir apenas quantos anões estavam na comitiva de Thorin.
Sem soluções como o GFPO, a IA se tornaria insuportável para tarefas práticas, deixando o sonho da inteligência acessível restrito a demos chamativas, mas pouco funcionais.
A triforça do GFPO: intuição, parâmetros e comparação com o estado da arte
O mestre Yoda da concisão
O GFPO parte de uma intuição poderosa: não precisamos de todas as respostas, apenas das melhores. Isso ecoa o treinamento Jedi, onde não se aprende com cada golpe aleatório, mas com aqueles que revelam disciplina. Ao filtrar respostas curtas e eficientes, o algoritmo ensina o modelo que tokens são recursos preciosos, não mana infinita.
O escudo de token efficiency
Com a métrica de eficiência por token, o GFPO adiciona uma camada de sabedoria. Não basta ser curto, é preciso que cada palavra carregue impacto, como falas do Gandalf. Essa métrica combate diretamente o “filler” que inunda respostas longas, punindo redundância. É como jogar LoL e ser recompensado não só por farmar, mas pela relação farm/dano causado.
O grimório da adaptive difficulty
A versão adaptativa ajusta dinamicamente quantas respostas considerar dependendo da dificuldade do problema. Em desafios triviais, corta mais. Em monstros épicos, deixa explorar mais caminhos. É o equivalente a dar poções extras apenas quando o boss realmente exige. Isso garante que a eficiência não mate a precisão, algo que outras abordagens falharam em equilibrar.
Comparado com métodos como Dr. GRPO ou DAPO, o GFPO é mais elegante. Enquanto os anteriores mexem na equação da perda como alquimistas complicados, o GFPO age como filtro seletivo: simples, direto e eficaz.
O custo maior de treino é pago apenas uma vez, mas o benefício em inferência é contínuo. É como pagar uma forja cara para fabricar uma espada lendária que depois corta qualquer inimigo com menos esforço.
As batalhas experimentais: o campo de provas do GFPO como arena de gladiadores
A arena de AIME como torneio de artes marciais
Nos testes em AIME 24/25, o GFPO reduziu a inflação de comprimento em até 84,6% sem perda de precisão. É como se um lutador conseguisse derrotar adversários com metade dos movimentos. O GRPO, em comparação, parecia um ninja de Naruto dando mil voltas antes de acertar um golpe simples.
O campo de GPQA como dungeon de WoW
No GPQA, o GFPO cortou quase 80% da verbosidade. Aqui, a métrica de eficiência por token brilhou, garantindo que até perguntas cabeludas fossem resolvidas sem discursos de vilão da Disney. As reduções foram comparáveis a deletar sidequests inúteis de um RPG e manter apenas a linha principal.
O desafio de Omni-MATH como raid final
Em Omni-MATH, a eficiência foi ainda mais absurda: 82,6% de redução. É como se Gandalf resumisse “O Silmarillion” em um parágrafo sem perder a essência. Essa economia mostra que a magia do GFPO não é apenas cosmética, mas estrutural.
O LiveCodeBench como mundo paralelo
Mesmo em domínios fora do treino, como programação, o GFPO se mostrou eficaz. Enquanto o GRPO inflava cadeias sem melhorar resultados, o GFPO encurtou e até aumentou ligeiramente a precisão. É como se um herói de Star Wars atravessasse para o universo da Marvel e ainda vencesse.
Esses resultados confirmam que a proposta não é só otimização pontual, mas uma filosofia de treino que pode redefinir como pensamos eficiência em IA.
A hype como ilusão de ótica: quando o mercado confunde verbosidade com inteligência
O grande inimigo agora não é técnico, mas cultural. Estamos presos à ilusão de que mais tokens significam mais inteligência. É o mesmo erro de achar que o discurso infinito de um vilão da Marvel o torna mais perigoso.
A hype da IA promove a ideia de raciocínios longos como se fossem sinais de profundidade, quando muitas vezes são apenas fillers. Essa idolatria pela verbosidade lembra os fillers de Naruto: servem para enrolar, mas não fazem a história avançar.
Se não quebrarmos essa ilusão, corremos o risco de gastar bilhões em GPUs apenas para manter modelos faladores. A indústria está hipnotizada por métricas superficiais, vendendo “pensamento longo” como se fosse a chave da AGI.
Mas como todo geek sabe, não é o tamanho do sabre de luz que importa, e sim como ele é usado.
O chamado da guilda: pensar menos para pensar melhor
A lição do GFPO é clara: precisamos de modelos que raciocinem como heróis bem treinados, não como bardos bêbados que nunca param de cantar. O futuro da IA depende da capacidade de cortar tokens inúteis e focar na essência. Precisamos questionar a hype, desafiar os dogmas e abraçar a concisão como virtude.
Assim como em qualquer boa campanha de RPG, o segredo não é falar o tempo todo, mas agir no momento certo. O GFPO nos mostra que pensar menos pode ser o verdadeiro caminho para pensar melhor.
Cabe agora à comunidade decidir se vamos seguir como Jar Jar Binks da IA ou se teremos coragem de empunhar o sabre de luz da concisão.
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?
![[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis
![[IA na veIA nº 10] O teste de Turing de Hogwarts: quando as LLMs não passam nem na aula de Poções](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)