[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da “generalização mágica”

Sumário

O que é IA na veIA?
Quem é Celso Sousa?
Visão geral do paper
O laboratório de dificuldade que trata LLM como candidato de prova interestelar
O que aconteceria se continuássemos confiando cegamente na “dificuldade mágica”
IRT como o Byakugan da dificuldade: enxergando onde ninguém mais olha
A verdade nua e crua da experimentação: stats, bins e quedas bruscas mais assustadoras que Shiryu sem armadura
A hype da IA e o mito das habilidades que escalam como Super Saiyajin
A reflexão final que todo pesquisador deveria fazer antes de treinar seu próximo modelo
Categoria
Lista de tags

O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Revisiting Generalization Across Difficulty Levels: It’s Not So Easy
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A paisagem atual da pesquisa em IA virou uma arena onde cada grupo tenta provar que achou o “atalho secreto” para treinar modelos mais espertos gastando menos. Muitos ainda acreditam que basta jogar exemplos fáceis para o modelo que ele milagrosamente aprenderá a encarar chefões matemáticos como se estivesse farmando XP no mapa inicial.

Outros seguem a filosofia oposta e juram que treinar apenas em exemplos impossíveis transforma o modelo numa espécie de boss de raid que automaticamente domina tudo que é trivial. Essa disputa lembra discussões infinitas sobre builds quebradas em jogos como Diablo ou sobre quem vence em batalhas hipotéticas entre jedis e shinobis, mas com impacto bem mais sério do que flame war em fórum.

O ponto é que a literatura virou uma cacofonia de resultados contraditórios. Hase et al mostraram que modelos treinados só com exemplos fáceis chegam perto de quem treinou com exemplos difíceis em tarefas complicadas, como se o modelo estivesse trapaceando com um buff invisível. Sun et al mostraram que recompensar modelos só com tarefas simples pode resultar em desempenho surpreendente em tarefas difíceis, como se você treinasse alguém a derrotar slime e ele saísse pronto para enfrentar dragão.

Yang et al argumentaram que exemplos difíceis são melhores para estabilizar o comportamento do modelo em tarefas fáceis, exatamente como treinar com chefão faz o jogador voltar ao mapa inicial destruindo tudo com um tapa. Pikus et al defenderam que treinar apenas com os casos mais difíceis gera os maiores ganhos, como se a academia secreta dos guerreiros finais fosse a única fonte real de poder.

Ding et al, no entanto, contestaram a ideia e defenderam que o melhor é treinar no mesmo nível de dificuldade em que o modelo vai ser testado, como mestres de RPG que insistem que grindar no nível errado quebra o balanceamento.

A comunidade também falha ao tratar dificuldade sob ótica humana, como se LLM sentisse a prova do mesmo jeito que a gente sentia a prova de física do ensino médio. Clark et al associaram dificuldade a grau escolar, como se LLM tivesse boletim. Hendrycks et al seguiram caminho parecido em exames gerais, como se o modelo precisasse ser aprovado para passar de semestre.

Bloom et al categorizaram questões com base numa taxonomia cognitiva clássica que funciona bem para humanos, mas não para modelos que aprendem padrões mais como um oráculo estatístico do que como um estudante. Webb apontou que profundidade de conhecimento é importante, mas a métrica continua antropocêntrica e não fala a língua dos modelos.

No mundo dos modelos, outro conjunto de abordagens tenta usar a performance dos próprios LLMs como bússola, mas esbarra em limitações quase tão irritantes quanto tentar jogar WoW com lag. Swayamdipta et al inferem dificuldade a partir de dinâmicas de treinamento, mas isso custa caro e lembra tentar derrotar um boss observando cada milissegundo de animação.

Ethayarajh et al sugerem medir dificuldade com base em informação utilizável, mas o cálculo é pesado como raid mítica com trinta addons. Varshney et al usam confiança do modelo como indicador, mas confiança exagerada é praticamente o modo padrão de qualquer LLM. A consequência é que curadoria de dados continua sendo tratada como alquimia, com misturas arbitrárias de exemplos sob justificativas frágeis.

Resolver esses problemas é fundamental porque estamos construindo sistemas que vão operar no mundo real, onde equívocos triviais podem ser tão perigosos quanto errar um feitiço crítico num combate de D&D. Se acreditarmos que dados fáceis garantem generalização mágica, vamos ter modelos que falham em cenários básicos.

Se acreditarmos que só dados difíceis importam, vamos criar máquinas especialistas em puzzles impossíveis que tropeçam em tarefas banais. E se continuarmos usando métricas humanas de dificuldade, vamos avaliar modelos como se fossem jogadores seguindo regras de um manual errado.

O laboratório de dificuldade que trata LLM como candidato de prova interestelar

Kordi et al entram nessa discussão como aquele personagem que chega no episódio decisivo e revela que ninguém entendeu nada do verdadeiro inimigo. Eles tratam LLMs como candidatos de um exame galáctico e usam teoria de resposta ao item para medir dificuldade de cada exemplo conforme a habilidade real dos modelos, ignorando opiniões humanas. Isso cria uma maneira completamente nova de olhar dificuldade, porque o que é fácil para humanos pode ser devastador para modelos, do mesmo jeito que um troll nível 5 em Skyrim pode aniquilar um personagem iniciante mesmo que pareça fraco visualmente.

A proposta dos autores é avaliar sistematicamente se treinamento em uma faixa de dificuldade ajuda em outras. Eles pegam seis benchmarks famosos e rangem cada questão em dez bins conforme dificuldade medida por centenas de modelos. Eles depois treinam LLMs em um bin específico e testam seu comportamento em todos os outros, como se fosse um mega experimento de build testing inspirado em League of Legends, onde cada rota representa um nível de dificuldade.

O impacto desse paper é direto. Ele joga por terra a crença de que treinar só no fácil ou só no difícil cria generalização automática. Ele mostra que a comunidade está construindo expectativas quase mágicas sobre modelos que, no fundo, se comportam mais como jogadores presos em labirintos onde cada sala é calibrada para um nível de poder específico. A leitura dele força pesquisadores a aceitar que a noção de dificuldade que usamos é míope e precisa ser redesenhada com base em como modelos realmente pensam.

O que aconteceria se continuássemos confiando cegamente na “dificuldade mágica”

Se ninguém tivesse feito este estudo, a comunidade continuaria treinando modelos como se dificuldade fosse atributo universal, replicando erros parecidos com balancear armas em jogo sem olhar dados de milhões de partidas. Continuaríamos acreditando que treinar no fácil automaticamente desenvolve habilidades avançadas ou que treinar no difícil resolve tudo lá embaixo, o que geraria modelos totalmente cegos para regiões inteiras do espaço de tarefa. No limite, isso levaria a sistemas que parecem impressionantes em benchmarks mas falham miseravelmente em atividades básicas, lembrando vilões de anime que são invencíveis em batalha final mas tropeçam na vida cotidiana.

IRT como o Byakugan da dificuldade: enxergando onde ninguém mais olha

IRT é a técnica que os autores usam para medir dificuldade real e ela funciona como um Byakugan estatístico capaz de revelar atributos invisíveis nos exemplos. No primeiro passo, os autores veem exemplos e modelos como itens e estudantes, calculando a probabilidade de um modelo acertar uma questão com base na relação entre habilidade e dificuldade. Essa abordagem evita métricas instáveis e cria um mapa onde cada questão é posicionada conforme sua resistência real contra modelos.

Dificuldade como o sistema de níveis de um RPG

Nesse processo, cada questão recebe um β que indica sua dificuldade e cada modelo recebe um θ que indica sua habilidade. Se θ for maior que β, o modelo tem chance alta de acertar. É como comparar nível do personagem com nível do monstro para prever quem vence.

Coleta de dados como raid com milhares de players

Os autores coletam respostas de milhares de modelos no Open LLM Leaderboard, como se convocassem jogadores de todos os servidores para enfrentar as mesmas criaturas. Essa massa de dados permite estimar dificuldade de modo robusto sem depender de opinião humana.

Validação como teste de chefão com novos jogadores

Depois de gerar dificuldades, os autores validam usando modelos Qwen3 que não participaram da criação das métricas. Eles testam desempenho em cada bin e mostram que precisão cai regularmente conforme bin sobe, provando que as dificuldades são coerentes. É como colocar novos guerreiros para enfrentar os monstros e observar que os monstros realmente seguem os níveis previstos.

Human-based metrics como scanners quebrados

Ao comparar dificuldade humana com dificuldade medida por modelos, os autores revelam que métricas como grau escolar, número de palavras e profundidade cognitiva não têm correlação significativa com dificuldade real para LLMs. Isso mostra que estamos usando sensores que funcionam para humanos mas não para máquinas, como medir magia com detector de radiação.

Separação em bins como divisão de masmorras

Transformar cada dataset em dez bins permite analisar generalização com granularidade fina. Em vez de uma divisão binária entre fácil e difícil, podemos ver como o modelo se comporta em níveis específicos, como se analisássemos cada dungeon separadamente.

A verdade nua e crua da experimentação: stats, bins e quedas bruscas mais assustadoras que Shiryu sem armadura

A seção experimental é o coração do artigo e precisa ser destrinchada com o cuidado de quem avalia logs de raid. Aqui os autores mostram que treinar em um bin não garante bom desempenho em bins distantes. As descobertas são brutais e devem preocupar qualquer pessoa que acredita em generalização automática.

Treinamento binário como treino de ginásio Pokémon

Os autores treinam modelos em cada bin isoladamente e avaliam em todos os outros. Isso é como treinar seu Pokémon só no ginásio de água e depois testar contra ginásios elétricos, pedra ou dragão. O resultado mostra que especialização extrema gera fraquezas gritantes.

Queda de desempenho mais rápida que barra de HP em boss fight

Resultados mostram que quando um modelo treinado em bin fácil enfrenta bins difíceis, sua performance cai como HP de mago sem armadura enfrentando golpe crítico. Ganhos positivos aparecem quase só nos bins próximos, enquanto bins distantes mostram quedas de mais de dez pontos percentuais, equivalente a tomar combo infinito em jogo de luta.

Inconsistência entre benchmarks como diferentes mapas com física própria

ARC praticamente não apresenta generalização entre bins, sugerindo que o modelo aprende padrões muito específicos. GSM8K mostra generalização moderada em Qwen2.5 mas falha na família Llama, como se modelos pertencessem a universos diferentes com gravidade própria.

Generalização negativa como debuff de envenenamento

Treinar em bins difíceis frequentemente piora desempenho em bins fáceis. Isso é chocante e mostra que treinar só com chefões deixa o modelo pior em lidar com problemas triviais, exatamente como jogador que só pratica combos avançados esquece como usar ataque básico.

Gap de dificuldade como distância entre mundos de multiverso

Quanto maior a distância entre o bin treinado e o bin testado, maior a queda. É uma relação quase linear que funciona como regra: mundos distantes não compartilham habilidades. Fica evidente que generalização depende de proximidade e não de poder absoluto.

Tamanho não salva: até modelos grandes falham como gigantes com pés de barro

Modelos maiores têm maior accuracy absoluta, mas continuam incapazes de generalizar entre bins distantes. Isso mostra que escala não resolve o problema, como personagens gigantes de anime que parecem fortes mas caem para ataques inteligentes.

Benchmarks focados apenas no difícil viram prova amnésica

Benchmarks como AIME e HLE, focados só em problemas difíceis, não revelam quão mal modelos podem ir em regiões fáceis do espaço de tarefa. Sem avaliação ampla, ficamos cegos para vulnerabilidades críticas.

Estatísticas que parecem magia mas seguem lógica dura

Diferenças de +0.40 em bins próximos mostram melhora clara, lembrando buffs temporários de velocidade. Diferenças negativas de -0.30 ou mais em bins distantes representam debuffs severos. A consistência desse padrão em mais de seis benchmarks prova que o fenômeno não é acaso.

A hype da IA e o mito das habilidades que escalam como Super Saiyajin

A comunidade vive repetindo que basta mais dados difíceis ou mais parâmetros para alcançar poderes transcendentes, como se LLM fosse Goku liberando novas transformações infinitas. Esse paper mostra que esse sonho é mais marketing que ciência. Nada no comportamento real dos modelos sugere que eles aprendem dificuldade de forma unificada.

Tratar dificuldade como atributo universal é como esperar que alguém bom em speedrun automaticamente seja bom em speedrun de outro jogo só porque também tem botão de pular. É preciso parar de fingir que generalização é garantida e admitir que estamos construindo colossos com pés de argila.

A reflexão final que todo pesquisador deveria fazer antes de treinar seu próximo modelo

Este trabalho deveria servir como choque de realidade para qualquer pessoa que acredita em generalização entre dificuldades como processo mágico. Ele mostra que modelos precisam de exposição ampla às dificuldades reais do mundo, e que métricas humanas de dificuldade são inúteis para guiar treinamento. Ele também abre espaço para pesquisar currículos guiados por dificuldade medida por modelos, em vez de palpites antropocêntricos.

O que a comunidade precisa agora é repensar completamente como organiza dados, como calibra benchmarks e como interpreta habilidades emergentes. Continuar acreditando em mitos de dificuldade universal é como confiar que um personagem de RPG que maximizou força automaticamente domina magia, só porque ambas usam barra de mana.

Se você quer realmente avançar suas pesquisas em IA, leia o paper completo, absorva cada figura, reflita sobre cada bin e use essas lições para projetar experimentos mais sólidos. Ler o artigo vai te equipar com ferramentas conceituais que podem mudar como você treina modelos daqui para frente e abrir caminhos para contribuições científicas que realmente importam.

Categoria

IA na veIA

Lista de tags

IA na veIA, Inteligência artificial

IA na veIA

O melhor palestrante de inteligência artificial do Brasil: como contratar Celso Sousa

[IA na veIA nº 42] Policy search com cheat code semântico

[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto

[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da…

IA na veIA

[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da “generalização mágica”

Sumário

O que é IA na veIA?

Quem é Celso Sousa?

Visão geral do paper

O laboratório de dificuldade que trata LLM como candidato de prova interestelar

O que aconteceria se continuássemos confiando cegamente na “dificuldade mágica”

IRT como o Byakugan da dificuldade: enxergando onde ninguém mais olha

Dificuldade como o sistema de níveis de um RPG

Coleta de dados como raid com milhares de players

Validação como teste de chefão com novos jogadores

Human-based metrics como scanners quebrados

Separação em bins como divisão de masmorras

A verdade nua e crua da experimentação: stats, bins e quedas bruscas mais assustadoras que Shiryu sem armadura

Treinamento binário como treino de ginásio Pokémon

Queda de desempenho mais rápida que barra de HP em boss fight

Inconsistência entre benchmarks como diferentes mapas com física própria

Generalização negativa como debuff de envenenamento

Gap de dificuldade como distância entre mundos de multiverso

Tamanho não salva: até modelos grandes falham como gigantes com pés de barro

Benchmarks focados apenas no difícil viram prova amnésica

Estatísticas que parecem magia mas seguem lógica dura

A hype da IA e o mito das habilidades que escalam como Super Saiyajin

A reflexão final que todo pesquisador deveria fazer antes de treinar seu próximo modelo

Categoria

Lista de tags