[IA na veIA nº 4] O Grimório Supremo do RAG: como o REX-RAG invoca resultados com precisão de mago nível 99

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation
Link do paper

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Visão geral do paper

A busca por informação em tempos de LLMs virou uma mistura de dungeon crawler com jogo de cartas colecionáveis: o segredo não é apenas ter poder bruto, mas saber puxar as cartas certas na hora certa. Desde que o conceito de Retrieval-Augmented Generation começou a brilhar nos pergaminhos digitais, pesquisadores têm tentado transformar LLMs em bibliotecas vivas, capazes de recuperar e usar conhecimento externo com a eficiência de um mago conjurando feitiços de alto nível.

Mas a realidade não é tão simples quanto na fantasia: a precisão do que é recuperado e como é integrado ainda é um dos chefões mais traiçoeiros desse gênero.

Lewis et al pavimentaram parte desse caminho ao mostrar que combinar recuperação de documentos com geração pode ampliar o conhecimento de um modelo sem re-treiná-lo. Karpukhin et al contribuíram com o DPR, que virou quase um feitiço básico no arsenal de qualquer aprendiz de RAG, mas que ainda tropeça em consultas ambíguas e contextos ruidosos.

Xiong et al refinaram as arquiteturas de retrieval, mas alertaram que métricas como recall nem sempre capturam o impacto real na resposta final — é como medir força bruta sem considerar a mira.

Izacard & Grave propuseram o Fusion-in-Decoder, uma tentativa de deixar o modelo combinar múltiplas passagens internamente, o que ajuda, mas não resolve a seleção inicial. Chen et al introduziram rerankers treinados especificamente para escolher passagens mais relevantes, algo que aproxima mais o RAG de um mestre estrategista.

Khattab & Zaharia lançaram o ColBERT, trazendo atenção densa e granular, que em alguns casos funciona como uma lupa mágica para detectar nuances, mas em outros se perde na complexidade.

Guu et al exploraram a recuperação diferenciada durante o treinamento, criando modelos que aprendem a buscar e responder de forma conjunta, mas isso exige custo computacional que nem sempre compensa em produção.

O mais provocador talvez tenha sido Ma et al, que apontaram a vulnerabilidade do RAG à chamada “alucinação induzida pela recuperação”: mesmo um documento correto pode, se mal integrado, distorcer a resposta — um problema tão traiçoeiro quanto um item amaldiçoado no inventário.

Outros, como Petroni et al, expuseram que LLMs já têm um “conhecimento latente” que compete com o conhecimento recuperado, levando a conflitos internos na geração. Essa luta entre a memória interna e as evidências externas é o equivalente IA da disputa entre dois magos rivais tentando comandar o mesmo feitiço.

Fan et al também reforçaram que a qualidade da recuperação não garante qualidade de resposta, especialmente se o modelo não souber como usar a informação. Hofstätter et al trouxeram uma visão mais pragmática: nem sempre o melhor reranker ou o melhor retriever individual dá o melhor resultado final — às vezes o segredo está na combinação de vários medianos, como montar uma party balanceada num RPG.

O que fica claro da literatura é que, apesar dos avanços, o RAG ainda é um campo onde a coordenação entre busca e geração precisa ser refinada. É como ter um exército poderoso, mas sem um general que saiba sincronizar o ataque.

E até hoje, poucas abordagens conseguiram unir com eficiência a diversidade e precisão de recuperação com a integração suave no raciocínio do LLM, especialmente em cenários de grande escala e dados dinâmicos.

O Doctor Strange do RAG: como os autores do REX-RAG manipularam a linha do tempo da recuperação

Os autores do REX-RAG vêm com a proposta ousada de criar um sistema de RAG que não apenas recupere documentos, mas que aprenda a guiar a própria recuperação ao longo do processo de geração.

O coração da proposta está na ideia de “retrieval expansion”: ao invés de buscar tudo de uma vez e esperar que o LLM se vire, o sistema executa buscas iterativas, refinando as queries a partir do contexto já gerado e do que foi recuperado antes.

É como se o Doctor Strange reabrisse o portal várias vezes durante a luta, ajustando o destino conforme a batalha evolui. Esse looping de recuperação e geração cria um pipeline mais adaptativo, capaz de lidar melhor com consultas complexas ou mal formuladas, e reduzindo o risco de alucinações, já que o modelo tem mais checkpoints informativos ao longo da resposta.

Além disso, o REX-RAG incorpora rerankers especializados em cada iteração, permitindo que o conjunto de passagens se mantenha relevante e atualizado.

Essa abordagem, segundo os autores, melhora significativamente métricas como precisão e F1-score em benchmarks de QA, superando tanto sistemas de recuperação única quanto aqueles que tentam trazer tudo para o contexto logo no início.

A distopia sem REX-RAG: quando o RAG vira um grimório maldito

Sem um mecanismo iterativo de expansão, o RAG tradicional tende a cometer dois pecados mortais. O primeiro é a “preguiça de busca”: trazer passagens iniciais que não capturam nuances, obrigando o LLM a inventar pontes narrativas — o que nos leva direto para a alucinação. O segundo é o “overload informativo”: recuperar um monte de passagens de qualidade duvidosa e jogar tudo no contexto, afogando o modelo em ruído.

O resultado? Respostas mais longas, mas menos precisas, com trechos que parecem certos até serem verificados. É o equivalente digital de um NPC fofoqueiro que responde tudo com confiança, mesmo quando não sabe.

Sem o refinamento iterativo, consultas complexas ficam presas em respostas genéricas, e a utilidade do RAG em cenários críticos — como suporte jurídico ou análise médica — despenca.

A build lendária do REX-RAG

O loot de múltiplas etapas

O REX-RAG estrutura a recuperação em camadas. Primeiro, uma busca inicial mais ampla, quase como um “pull de mobs” num MMORPG. Depois, o sistema usa o contexto parcial gerado e as passagens relevantes para reformular a query e executar buscas adicionais, afunilando o resultado.

O escudo contra alucinações

Cada iteração passa por um reranker treinado para priorizar evidências diretamente ligadas ao que está sendo respondido naquele momento. Isso é como ter um tanque na frente da party bloqueando ataques de mobs inúteis.

A party bem coordenada

A integração final combina as passagens mais relevantes de cada iteração, criando um contexto limpo e coeso. O LLM não precisa lutar contra passagens irrelevantes, e a geração flui com mais precisão.

As raids experimentais: datasets e métricas

Os mapas de batalha

Os testes foram feitos em benchmarks de QA abertos como Natural Questions e TriviaQA, e também em datasets mais especializados para avaliar a robustez em diferentes domínios. A métrica central foi F1-score, mas também foram analisados recall e precisão de recuperação.

O XP ganho

Os resultados mostram aumentos consistentes de 3 a 6 pontos de F1 em relação ao RAG tradicional e até 2 pontos acima de variantes com múltiplas recuperações não iterativas. Além disso, houve redução perceptível no número de respostas com alucinações factuais.

O feitiço contra a hype vazia

Enquanto muitos projetos vendem RAG como bala de prata, o REX-RAG lembra que sem coordenação iterativa, o poder de busca é desperdiçado. Não basta ter o grimório certo; é preciso saber em que ordem lançar os feitiços. E essa consciência de processo pode ser o diferencial entre uma aplicação de LLM que encanta e outra que engana.

O convite à guilda

O REX-RAG não é apenas uma melhoria incremental; é um chamado para redesenhar como pensamos a integração entre busca e geração. Se o futuro do RAG é sobreviver à hype e virar ferramenta confiável, ele vai precisar de mais sistemas adaptativos, menos confiança cega e mais mecânicas iterativas. Ou, como diria qualquer mestre de RPG: a vitória vem não do item lendário isolado, mas da sinergia perfeita entre todos na party.

IA na veIA

A melhor IA para corretores do Brasil: como contratar

Inteligência artificial para corretores: o sucesso das vendas no setor imobiliário

A melhor IA para líderes do Brasil: como contratar

Inteligência artificial para líderes: o guia para o sucesso empresarial