Sumário
- O que é IA na veIA?
- Quem é Celso Sousa?
- Visão geral do paper
- Como transformar a atenção em um Holocron de recuperação
- E se a Força estivesse ausente?
- A anatomia do método como se fosse um boss fight em fases
- Resultados: quando a atenção vira Super Saiyajin
- A indústria vai fingir que sempre soube disso
- Próximo nível: usar a Força com consciência
- Categoria
- Lista de tags
O que é IA na veIA?
IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
Se você trabalha com LLMs e acha que aumentar janela de contexto resolve tudo, sinto informar, você está jogando Dark Souls no modo errado. Liu mostrou o famoso lost-in-the-middle, onde o modelo ignora justamente o que está no centro do contexto, como se fosse um NPC bugado preso no mapa. Maharana também evidenciou que memória conversacional longa ainda é frágil, quase como tentar lembrar toda a lore de WoW só lendo tooltips.
Lewis et al popularizaram RAG como se fosse o Infinity Gauntlet da IA moderna, combinando geração com recuperação. Só que a maioria dos retrievers foi criada para open-domain, onde documentos são independentes, não para um PDF de 100 mil palavras que parece o Silmarillion técnico. Robertson formalizou BM25 como um clássico confiável, mas ele não entende dependência causal, só conta termos como um contador de XP.
Karpukhin trouxe DPR e o hype dos dense retrievers. Xiong evoluiu isso com ANCE, explorando hard negatives como se fossem chefes secretos. Ainda assim, todos assumem que os documentos não têm uma narrativa contínua que exige contexto acumulado.
Ni mostrou que grandes dual encoders generalizam bem. Muennighoff elevou embeddings com instruction tuning. Mas embeddings estáticos não atualizam representação conforme o contexto cresce, diferente da atenção em transformers, que funciona como um conselho Jedi compartilhando informação entre tokens.
Ye observou que camadas finais de um LLM já exibem comportamento de recuperação sem treino adicional. Isso é quase como descobrir que o Sharingan já estava ativo o tempo todo. O problema é que ninguém explorou profundamente isso para documentos realmente longos.
E aí surge a pergunta que ninguém queria fazer em voz alta: e se as camadas de atenção já forem retrievers disfarçados? Se isso for verdade, estamos treinando modelos extras à toa enquanto o poder já estava no core do transformer. Resolver dependências contextuais, causais e de escopo não é luxo acadêmico, é a diferença entre responder certo ou gerar fanfic convincente.
Como transformar a atenção em um Holocron de recuperação
Fu et al propõem o AttentionRetriever. A ideia é ousada e elegante, usar as próprias camadas de atenção de LLMs pré-treinados como mecanismo de recuperação, sem treino adicional. É como perceber que o sabre de luz já estava na sua mão, você só não sabia usar.
Eles partem de três problemas clássicos em documentos longos: dependência contextual, dependência causal e dependência de escopo da query. Sparse e dense retrievers tradicionais ignoram esses aspectos. AttentionRetriever tenta modelar os três usando atenção + embeddings + um grafo simples de entidades.
Atenção como radar Jedi
A sacada central é usar mapas de atenção cruzada entre query e documento. Cada token da query “olha” para tokens do documento, produzindo scores que são basicamente produtos internos ponderados. Isso é semanticamente equivalente ao cálculo de similaridade de embeddings, só que dinâmico e contextual.
Eles selecionam apenas camadas que empiricamente mostram melhor capacidade de rankear parágrafos corretos. Isso é importante, nem toda camada é boa retriever. Camadas iniciais capturam sinais mais locais, camadas posteriores agregam dependências causais.
Embeddings como segundo par de olhos
Para não depender só da atenção, eles adicionam similaridade de embeddings de sentença via modelo denso. É uma busca multi-view, token-level pela atenção e sentence-level pelo embedding. Meio como usar radar e visão térmica ao mesmo tempo.
Grafo de entidades como mapa-múndi
O terceiro componente é recuperação baseada em entidades. Usando extração de entidades com SpaCy, eles constroem um grafo simples ligando sentenças por entidades compartilhadas. Assim, recuperam parágrafos que talvez não sejam altamente similares à query, mas que contêm entidades relevantes.
Isso resolve a dependência de escopo. Se a pergunta envolve “Chicago” e “Great Fire”, você precisa tanto do evento quanto do contexto histórico, mesmo que a palavra “população” não esteja no mesmo parágrafo. É quase um side quest necessária para completar a missão principal.
E se a Força estivesse ausente?
Sem algo como AttentionRetriever, continuamos presos a dois extremos. Ou jogamos tudo no contexto e torcemos para o modelo não se perder no meio, ou cortamos demais e perdemos informação crítica. É como tentar zerar Elden Ring só com ataques básicos.
Sparse retrievers ignoram relações causais. Dense retrievers colapsam contexto em vetores fixos. Modelos autoregressivos como SPScanner tentam varrer documento, mas ainda sofrem com eficiência e dependências implícitas.
Sem modelar contexto e causalidade, RAG vira uma loteria. Em documentos jurídicos ou financeiros de 100 mil palavras, isso significa decisões erradas. Não é só um erro acadêmico, é impacto real.
A anatomia do método como se fosse um boss fight em fases
O método é estruturado em fases bem claras, quase como uma raid em MMORPG.
Fase 1: Score de sentença via atenção
Eles processam query e documento juntos no LLM. Extraem mapas de atenção A em dimensões L × H × Td × Tq. Para cada sentença, calculam o máximo da média sobre cabeças de atenção e camadas selecionadas.
Formalmente, é um max sobre tokens da sentença e tokens da query, agregando heads. Isso privilegia o token mais relevante. Forte? Sim. Mas pode ignorar distribuição global de relevância.
Aplicam Cascading KV Cache de Willette para estender contexto a 100 mil tokens. Isso mantém eficiência e evita explosão quadrática completa.
Fase 2: Similaridade por embedding
Cada sentença s vira embedding Es, query vira Eq. Score é cosseno Es · Eq / (||Es|| ||Eq||). Simples, robusto e complementar à atenção.
Ponto forte: estabilidade. Limitação: embeddings não capturam dependência dinâmica entre sentenças.
Fase 3: Recuperação por entidades
Entidades recebem score médio das sentenças onde aparecem. Top-k entidades e sentenças são selecionadas metade por atenção, metade por embedding. União define escopo final.
Isso é quase uma heurística inteligente. Não é grafo semântico profundo. Mas é barato e eficaz.
Comparado a BM25 ou DPR, isso adiciona modelagem causal implícita via atenção e expansão de escopo via entidades. Em termos de estado da arte, é um híbrido elegante e training-free.
Resultados: quando a atenção vira Super Saiyajin
Agora vem a parte que importa. Números. Métricas. Sangue na arena.
Eles avaliam em seis datasets single-document, incluindo o LongBench-v2-Retrieval com média de 106.025 palavras. Isso é um mapa aberto inteiro.
LongBench-v2-Retrieval como campo de batalha
Com top_k=3, LLaMA-3.2 3B com AttentionRetriever atinge F1 de 0.4738 nesse dataset. BM25 fica em 0.3126. GritLM chega a 0.3398. Isso é um ganho absoluto de mais de 13 pontos sobre o melhor denso.
Em média nos seis datasets single-doc, AttentionRetriever-LLaMA atinge 0.5467. SPScanner fica em 0.4088. GritLM em 0.3965. Isso é quase 15 pontos de diferença, como pular de rank Gold para Diamond no LoL.
RepLiQA e dependência forte
No RepLiQA, AttentionRetriever chega a 0.8339 de F1. GritLM para em 0.5141. A diferença é brutal, quase como comparar um Genin com um Hokage.
Isso sugere que dependências internas do documento são críticas. Dense retrievers não estão capturando isso adequadamente.
Multi-document: mantendo o nível
Em HotpotQA, AttentionRetriever-LLaMA atinge 0.7090, praticamente empatando com GritLM em 0.7096. Ou seja, mesmo fora do foco principal, ele não degrada.
Eficiência: o preço do poder
Em LongBench-v2, AttentionRetriever-LLaMA leva 126.84 segundos por amostra. BM25 leva 0.1005 segundos. Sim, é muito mais lento.
Mas comparado a GritLM com 101.79 segundos, não é absurdo. Está na mesma liga de modelos densos grandes.
QA com RAG: menos tokens, quase mesma performance
No Qasper com LLaMA-3.1 8B, baseline F1 é 0.3145 usando 5026 tokens. Com AttentionRetriever, F1 é 0.2929 usando apenas 392 tokens.
Isso é quase 13 vezes menos tokens. Em custo de inferência, isso é economia absurda. Mesmo com leve queda de F1, trade-off é poderoso.
NarrativeQA continua ruim para todos. Isso expõe limitação estrutural de RAG em narrativas longas e difusas.
Ablation: quem realmente importa?
Remover atenção derruba média para 0.5283. Remover embedding cai para 0.4476. Remover grafo de entidades reduz para 0.5251.
Ou seja, atenção é o núcleo. Embeddings ajudam, mas não são protagonistas. O grafo de entidades adiciona ganho consistente.
Estatisticamente, ganhos acima de 0.10 em F1 sobre múltiplos datasets são enormes. Não é ruído, é mudança estrutural.
Mas cuidado. Dataset novo tem apenas 140 amostras. Sensível a outliers. Precisamos mais validação.
A indústria vai fingir que sempre soube disso
Agora vem a parte incômoda. Todo mundo fala de aumentar contexto para 1 milhão de tokens. LongRoPE, ReAttention, SelfExtend, uma corrida por números como se fosse power level de Dragon Ball.
Mas Fu et al mostram que talvez não precisemos processar tudo para gerar. Podemos usar atenção como mecanismo de seleção antes da geração.
É quase irônico. Enquanto startups vendem “infinite context”, talvez o segredo esteja em usar melhor as camadas já existentes.
Hype vende janela maior. Ciência séria pergunta como usar melhor o que já temos.
Próximo nível: usar a Força com consciência
AttentionRetriever abre várias portas. Explorar camadas maiores. Ajustar pesos por tipo de query. Integrar grafos semânticos mais ricos.
Também levanta questões. Até que ponto atenção realmente codifica causalidade? Isso é interpretabilidade real ou proxy conveniente?
Se você é pesquisador jovem e quer impacto real, esse paper é um mapa do tesouro. Ele desafia a ideia de que precisamos sempre treinar algo novo.
Leia o paper completo com calma, entenda os detalhes matemáticos, questione os resultados e pense em extensões. Quem dominar a atenção como mecanismo de recuperação pode redefinir como fazemos RAG em documentos longos, e isso pode ser o equivalente acadêmico de desbloquear um novo modo de jogo.
Categoria
Lista de tags
[IA na veIA nº 43] Quem fiscaliza o Skynet dos próprios agentes?
[IA na veIA nº 42] Policy search com cheat code semântico
[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto