IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A ideia de inteligência artificial sempre foi cercada por mitos e expectativas messiânicas. Desde as primeiras promessas de que máquinas poderiam raciocinar como humanos até a avalanche recente de modelos de linguagem gigantescos, a narrativa dominante tem vendido a ilusão de que estamos a poucos passos de criar um verdadeiro “cérebro digital”.
Mas, assim como Luke Skywalker só se torna um Jedi ao enfrentar a escuridão em Dagobah e encarar seus próprios medos, as LLMs precisam enfrentar os demônios escondidos em suas falhas cognitivas. E é justamente nesse ponto que benchmarks como o PRELUDE entram em cena, arrancando a máscara reluzente e mostrando que a suposta inteligência ainda tropeça em tarefas básicas quando o contexto se estende.
O debate sobre compreensão de longos contextos em IA é quase tão antigo quanto as primeiras aventuras do Frodo carregando o Um Anel. Autores como Tirumala et al já haviam alertado que os modelos tendem a memorizar dados de treino em vez de realmente entender narrativas.
Delétang et al reforçaram esse argumento ao mostrar que linguagem natural para LLMs muitas vezes funciona mais como compressão de informação do que como raciocínio.
Sutskever, por sua vez, trouxe uma visão mais radical ao propor que a aprendizagem não supervisionada poderia ser a chave para compreensão verdadeira, mas mesmo assim deixou a pergunta em aberto: estamos treinando máquinas para pensar ou apenas para repetir?
Enquanto isso, benchmarks surgiram como arenas de batalha. Yang et al apresentaram o HotpotQA, defendendo a importância de raciocínio multi-hop. Thorne et al criaram o FEVER, mirando na verificação de fatos em múltiplas fontes.
Yin et al expandiram essa linha com o DocNLI, tentando escalar para inferência em documentos inteiros. Kociský et al, com o NarrativeQA, e Wang et al, com o NovelQA, trouxeram o teste para narrativas longas, transformando cada história em um calabouço cheio de pistas espalhadas como quests paralelas de RPG.
O problema? Muitos desses testes se transformaram em desafios de “retrieval”, ou seja, de busca, e não de compreensão. É como enfrentar um chefe de WoW que deveria exigir estratégia elaborada, mas pode ser derrotado apenas repetindo um combo básico.
Press et al apontaram que benchmarks robustos precisam ir além de memorização e superficialidade, algo também defendido por Liu et al. Yen et al reforçaram que avaliar apenas resumo ou saliência ignora a verdadeira dificuldade cognitiva.
Fang et al foram além e atacaram a ideia de que perplexidade seria uma métrica suficiente, mostrando que ela é uma espada quebrada em batalha. Wu et al insistiram que a lacuna entre humanos e máquinas precisa ser evidenciada para que benchmarks tenham validade.
Esses pontos convergem para uma provocação central: se os modelos continuam a parecer Jedi em demonstrações curtas mas se revelam stormtroopers em missões longas, será que não estamos treinando-os errado desde o início?
A questão da dependência global é outro calcanhar de Aquiles. Xu & Ma exploraram como até mesmo tarefas de contagem simples revelam a incapacidade dos modelos de integrar informações ao longo de um contexto extenso. Kamradt, com seu famoso “needle-in-a-haystack”, mostrou de forma quase sarcástica que basta esconder uma linha em milhares de tokens para desmascarar a fragilidade.
Hsieh et al reforçaram que o tamanho real do contexto utilizável é bem menor do que o prometido nos anúncios comerciais. Kuratov et al, com o BABILong, pressionaram ainda mais as fronteiras, expondo como modelos colapsam diante de tarefas que exigem raciocínio estruturado em passagens longas.
Lee et al, com o ETHIC, trouxeram a discussão para cenários de cobertura de informação, destacando que não basta “lembrar”, é preciso conectar como peças de um puzzle de Zelda.
Outro aspecto negligenciado é a questão da consistência estilística. Chang et al apontaram que benchmarks baseados em sumarização caem na armadilha de avaliar apenas abstrações de alto nível. Isso é equivalente a julgar se alguém entendeu Naruto apenas porque consegue resumir que “um garoto órfão quer ser Hokage”, ignorando a profundidade emocional de episódios como a luta contra Pain.
Sem forçar os modelos a lidar com detalhes finos e inferências não imediatas, acabamos treinando-os para decorar trailers, não para compreender sagas.
Ao observar o estado da arte, fica claro que a indústria e a academia muitas vezes escolhem atalhos. Lewis et al apresentaram o RAG como solução mágica, mas Edge et al mostraram que mesmo com grafos de contexto, os modelos ainda patinam. Asai et al trouxeram o Self-RAG com auto-reflexão, mas a promessa de autocrítica não se traduziu em salto real.
Muennighoff et al sugeriram ajustes de escala de inferência, mas no fundo isso só maquiou sintomas sem atacar a raiz. Bertsch et al tentaram usar long-context models com ICL massivo, mas o ganho foi marginal, como usar poções fracas contra chefões em Dark Souls.
A insistência em datasets artificiais também tem seus problemas. Dong et al com o BAMBOO criaram cenários de teste sintéticos, mas acabaram com puzzles tão artificiais quanto dungeons geradas proceduralmente em jogos indie ruins. Ni et al com o XL2 Bench foram além, mas ainda sem escapar da crítica de que tudo parecia mais um treino de farm de XP do que uma missão de história principal.
Zhang et al trouxeram o ∞Bench, estendendo contextos para além de 100k tokens, mas novamente a crítica se mantém: expandir o mapa não significa criar conteúdo relevante dentro dele.
É nesse cenário que surge a provocação maior: será que estamos confundindo fluência com inteligência? Chollet defendeu que inteligência deve ser medida pela capacidade de lidar com situações novas e não pela repetição de padrões. Sua proposta de inteligência fluida parece mais Jedi do que stormtrooper, porque exige adaptação criativa, não apenas execução.
E benchmarks como o PRELUDE finalmente tentam encarnar essa visão, colocando os modelos diante de desafios onde não adianta memorizar ou buscar no Google. É a diferença entre enfrentar um chefe com poderes ocultos e apenas grindar mobs em loop infinito.
O grimório escondido das prequels: o que os autores realmente trouxeram com PRELUDE
Mo Yu et al decidiram jogar uma bomba no campo da avaliação de LLMs. Eles criaram o PRELUDE, um benchmark que foge do padrão “needle in a haystack” e coloca os modelos diante de uma tarefa literária engenhosa: avaliar se prequelas inventadas para personagens de livros clássicos são consistentes com a narrativa canônica.
É quase como pedir para um mago de D&D julgar se uma backstory inventada para um personagem se encaixa sem quebrar as regras do universo.
A genialidade do design está em usar prequelas que não aparecem no material original. Isso impede os modelos de simplesmente memorizar ou buscar no corpus de treino. É como proibir o uso de cheats em um torneio de LoL: agora o jogador precisa realmente mostrar habilidade.
Além disso, 88% das instâncias exigem evidência espalhada em diferentes partes da narrativa, forçando raciocínio global. Não adianta apenas lembrar que Sirius Black odiava seus pais; é preciso conectar atitudes, diálogos e eventos para julgar se uma prequela é plausível.
Outro ponto crucial é a tipologia das contradições. Os autores definem categorias como Contradict-Local, Contradict-Global I e II, além de Consistent-Core e Consistent-Irrelevant. Isso cria um espectro de desafio: algumas incoerências são explícitas, como dizer que Eustace nasceu em Londres quando o livro diz Cambridge; outras são sutis, como inserir magia em uma narrativa historicamente realista.
Essa nuance exige mais do que matching superficial: obriga os modelos a lidar com lógica narrativa e estilo, algo que sempre foi ponto fraco das LLMs.
O impacto social é imediato. Se LLMs conseguem lidar com esse tipo de benchmark, podemos imaginar assistentes literários mais sofisticados, ferramentas para análise narrativa, até mesmo apoio criativo em roteiros de séries.
Sem isso, corremos o risco de ficar presos a máquinas que parecem eruditas, mas que na prática ainda confundem o universo Marvel com o da DC. O PRELUDE força os modelos a atravessar esse portal narrativo, lembrando que a promessa de inteligência não pode parar em resumos de Wikipédia.
O multiverso caótico sem PRELUDE: por que esse benchmark é necessário
Se o PRELUDE não existisse, estaríamos vivendo num multiverso onde os benchmarks de long context continuam sendo superficiais. Modelos seriam celebrados por responder perguntas de 50 páginas, mas só porque memorizaram spoilers em fóruns, como alunos trapaceando em provas. É como se no MCU o Doutor Estranho nunca tivesse lido o “Livro de Cagliostro” e resolvesse feitiços apenas chutando.
Sem um teste como PRELUDE, a indústria continuaria iludida pela fluência verbal dos modelos, ignorando que raciocínio verdadeiro ainda está mais distante do que a muralha de Shiganshina no início de Attack on Titan.
As consequências práticas seriam desastrosas. Aplicações que dependem de análise profunda de documentos — desde auditorias financeiras até diagnóstico médico narrativo — ficariam expostas a erros grotescos.
Imagine um LLM encarregado de analisar um processo jurídico de milhares de páginas, mas que, como um player preguiçoso em Skyrim, só lê as primeiras linhas da quest. Sem algo como PRELUDE para expor essas falhas, continuaríamos acreditando que esse comportamento é “inteligência”.
O pergaminho das mecânicas secretas: como PRELUDE funciona na prática
O PRELUDE não é só uma ideia abstrata. Ele foi implementado com um rigor metodológico digno de magos arcanos em suas torres de pesquisa.
A guilda dos rótulos mágicos
As prequelas são classificadas em rótulos refinados: Contradict-Local, Contradict-Global I e II, Consistent-Core e Consistent-Irrelevant. Essa granularidade permite medir diferentes níveis de falha narrativa. É como em um RPG, onde não basta dizer se o personagem falhou ou teve sucesso; precisamos distinguir entre falha crítica, sucesso parcial ou sucesso estilisticamente incoerente.
O grimório das obras escolhidas
Foram selecionados 13 livros clássicos, incluindo O Conde de Monte Cristo, Romance dos Três Reinos, Rebecca e Cem Anos de Solidão. No total, 795 instâncias foram anotadas por especialistas. Isso garante diversidade de gênero, idioma e estilo, algo essencial para não viciar o teste em padrões de uma só cultura. É como montar uma raid com personagens de todas as classes possíveis.
Os experimentos das arenas
Modelos de ponta como Qwen3-235B, DeepSeek-R1, GPT-4o e Gemini-2.5 foram testados em diferentes condições: ICL, RAG, fine-tuning e até serviços de DeepResearch. O resultado? Humanos atingem 81.7% de F1, enquanto os melhores modelos ficam 15% atrás. Mais grave ainda: há um gap de mais de 30% em raciocínio válido, mostrando que muitos acertos vêm com justificativas erradas. É como acertar a resposta de uma quest em Mass Effect, mas dar a justificativa de que Shepard é um hobbit.
O enigma das métricas
Os números são claros. Gemini-2.5-Pro chegou a 65.1% de F1, mas caiu ao usar RAG. GPT-4o atingiu 62.9% com RAG, mas também tropeçou em raciocínios. Humanos, por outro lado, mantêm consistência de explicações, algo que nenhum modelo alcançou. Isso reforça que o verdadeiro abismo está na coerência das justificativas, não apenas nas respostas finais.
A dungeon dos experimentos: explorando os resultados em detalhe
O boss fight da consistência
Os testes mostram que modelos tendem a prever “Consistent” quando não têm acesso ao texto original. É o equivalente a um jogador de LoL que sempre diz “vamos ganhar” sem olhar o mapa. Isso gera um viés perigoso, pois evita contradições explícitas, mas falha em capturar incoerências globais.
O loot bugado do RAG
Retrieval melhorou o desempenho em contradições, mas trouxe o efeito colateral da “hiper-rejeição”: os modelos ficaram críticos demais e começaram a inventar inconsistências, como se fossem árbitros mal-humorados em um campeonato de Magic. Em alguns casos, o RAG fez o modelo piorar, como no exemplo do Murong Bo, onde o sistema interpretou errado um detalhe contextual.
A magia fraca do fine-tuning
Treinar com 700 exemplos adicionais não trouxe ganho significativo. Isso sugere que a habilidade necessária não é apenas “ativável” com mais treino. É como tentar ensinar xadrez para um goblin de RPG que só sabe jogar pedra: não adianta mais exemplos, falta capacidade cognitiva inata.
O espelho quebrado do DeepResearch
Serviços avançados como o da OpenAI ficaram atrás dos LLMs top em algumas métricas. Como eles dependem de buscar resumos humanos na internet, ficaram limitados, mostrando que o PRELUDE não pode ser resolvido com simples busca de spoilers em fóruns literários.
A hype como ilusão mágica: por que o mercado ainda cai nessa
Estamos vivendo um período em que empresas anunciam cada avanço em LLMs como se fossem novos episódios de Dragon Ball Z, sempre prometendo que “agora sim alcançamos o nível Super Saiyajin 3”. Só que os dados mostram o contrário: o gap de raciocínio entre humanos e máquinas ainda é imenso. E, pior, benchmarks frágeis alimentam a ilusão, permitindo que modelos passem em testes que não medem de fato compreensão.
O PRELUDE destrói essa narrativa. Ele mostra que muitos acertos vêm de chutes estilizados, e não de raciocínio válido. Isso expõe a fragilidade da hype que pinta LLMs como futuros AGIs, quando na prática eles ainda são bardos que sabem cantar, mas não entendem a letra da música.
É como confundir Jar Jar Binks com Yoda só porque ambos falam frases estranhas.
O legado Jedi dos benchmarks: repensando inteligência artificial
O PRELUDE não é apenas mais um dataset. Ele é um chamado à reflexão. Ele obriga a comunidade a admitir que estamos presos em benchmarks que medem memória e não raciocínio. Se quisermos chegar perto da verdadeira inteligência artificial, precisamos enfrentar a escuridão: aceitar que nossas máquinas ainda são padawans, não mestres Jedi.
O desafio agora é criar modelos que consigam lidar com coerência narrativa, causalidade não imediata e raciocínio global. Até lá, qualquer hype que venda “compreensão real” é só fumaça de vilão genérico de anime.
O PRELUDE nos lembra que inteligência não é só responder certo; é justificar certo, é raciocinar certo, é conectar universos como um bom crossover entre Marvel e DC.
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das LLMs sem sacrificar poder de raciocínio](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?
![[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)