IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- BEE-RAG: Balanced Entropy Engineering for Retrieval-Augmented Generation
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
Quando olhamos para a história das LLMs, o Retrieval-Augmented Generation (RAG) apareceu como aquele mago de alto nível que resolve quests que o guerreiro sozinho não consegue. Ele traz para a batalha pergaminhos e artefatos raros (documentos externos) que ampliam o poder do feitiço.
Mas, como toda magia, há um preço: quanto mais pergaminhos você carrega, mais difícil fica focar no que importa. O resultado é que o mago começa a distribuir atenção como um noob em MMO — gastando mana em goblins aleatórios enquanto ignora o dragão.
Lewis et al mostraram que RAG revolucionou tarefas de conhecimento intensivo, mas Ren et al apontaram que o desempenho despenca em contextos longos. Zhang et al exploraram estender o contexto, mas com custo computacional altíssimo e risco de overfitting.
Liu et al revelaram o fenômeno “lost in the middle”, onde informações cruciais no meio do contexto viram NPCs invisíveis para o modelo.
Jeong et al propuseram cortar documentos para caber no contexto, mas isso é como jogar Diablo e deixar metade do inventário de loot lendário no chão.
Yen et al criaram codificadores paralelos para lidar com chunks, mas isso aumenta a complexidade do sistema como se você adicionasse um sistema de runas inteiro só para ativar uma habilidade básica.
Zhang et al mostraram que a entropia da atenção muda com o tamanho do contexto, afetando a estabilidade. Su já tinha proposto calibrar atenção com base no tamanho do contexto, mas sem priorizar trechos críticos.
Wang et al analisaram distribuição de atenção como fluxo de informação, mas sem resolver a perda de foco em documentos relevantes.
A questão central é simples e cruel: à medida que o contexto cresce, a entropia da atenção aumenta sem controle, diluindo o foco e transformando o RAG num bardo que canta sobre tudo e não resolve nada.
E é exatamente esse vilão que o BEE-RAG tenta derrotar.
O martelo de Thor contra a entropia
Yuhao Wang et al trazem o BEE-RAG como um artefato de guerra para manter a entropia estável, independentemente do tamanho do contexto. O truque é o “balanced context entropy” — um fator de equilíbrio β que é injetado no cálculo da atenção para que o modelo não perca o foco quando os pergaminhos aumentam.
Esse β não é fixo: ele pode ser calculado no zero-shot, usando apenas parâmetros internos do LLM (o que eles chamam de intrinsic multi-importance inference), ou aprendido de forma eficiente com adaptive balancing entropy factor learning, que ajusta o β com pouquíssimos parâmetros extras — coisa de 0,014% do total.
A inovação é que, em vez de apenas cortar documentos ou aumentar a capacidade do modelo, eles reformulam a atenção para que documentos importantes recebam boosts consistentes, enquanto a entropia geral não explode.
É como dar ao mago um artefato que brilha mais forte quando um item é realmente relevante, mas sem ofuscar o resto da visão.
O mundo sombrio sem o BEE-RAG
Sem essa abordagem, modelos RAG continuariam a sofrer de “atenção diluída” — exatamente quando você mais precisa de precisão, a confiança se dispersa. Contextos longos em análises científicas, sínteses de múltiplos documentos e raciocínio multi-hop seriam como raids em MMORPGs onde o tank some no meio da luta.
Você teria duas opções ruins: cortar contexto e perder informação essencial ou manter contexto e aceitar que o modelo vai priorizar errado. Em casos críticos, como buscas jurídicas ou médicas, isso seria tão perigoso quanto usar uma poção de cura que às vezes envenena.
A forja da entropia balanceada
O feitiço BCE
O Balanced Context Entropy ajusta a fórmula da atenção para incluir o β, que representa a importância de cada documento. Todos os tokens de um documento compartilham o mesmo β, concentrando foco nas partes que realmente importam.
O cálculo zero-shot
No modo intrinsic multi-importance inference, o modelo faz uma avaliação paralela: para cada documento, gera um “score de importância” a partir de prompts internos (“este trecho ajuda a responder a pergunta?”). Isso é processado junto com a geração, sem rodadas extras, garantindo que o mago não perca tempo recitando feitiços redundantes.
O treino leve
No modo adaptive balancing entropy factor learning, eles usam projeções lineares minúsculas para ajustar β em domínios específicos. A inicialização ortogonal e limites de escala evitam explosões de gradiente — é como colocar um limitador de poder num artefato para não quebrar o castelo.
O campo de batalha de Azeroth: experimentos
As arenas
Quatro arenas de teste: Natural Questions, TriviaQA, HotpotQA e 2WikiMultihopQA. Bases escolhidas: LLaMA-3-8B e Qwen-2.5-7B.
Os oponentes
Compararam contra técnicas de prompt (Chain-of-Thought, Chain-of-Note, Self-Critic), métodos arquiteturais (PCW, Position-Engineering) e reweighting de atenção (Multiply-Attention). Também contra LoRA e Prefix-Tuning para treino leve.
As vitórias
O BEE-RAG venceu em todas as médias, tanto no zero-shot (Zero-BEE) quanto no treino leve (Light-BEE). Em 2WikiMultihopQA, conseguiu mais de 5% de ganho sobre RAG vanilla, mostrando que em quests mais complexas, o artefato brilha.
A análise de lore
Ablations mostraram que:
- Remover IMI derruba desempenho — como tirar o radar do seu X-Wing.
- Zerar μ ou σ² reduz performance, confirmando que o equilíbrio estatístico é vital.
- Substituir β por reranker externo piora resultados, provando que o método interno é mais eficiente.
Escalabilidade também foi validada: do Qwen-2.5-3B até 32B, o ganho é consistente. E, quanto mais documentos no contexto, maior a vantagem do BEE-RAG sobre os rivais.
Até com retrievers piores (BM25, Contriever), o método manteve liderança — o que mostra que ele filtra o que importa mesmo quando o loot vem cheio de itens comuns.
O hype não é o boss final
É fácil vender “atenção adaptativa” como solução definitiva, mas BEE-RAG mostra que é preciso matemática e engenharia cuidadosa para manter performance estável em contextos longos. Aqui, o hype encontra um artefato que realmente aumenta DPS sem sacrificar defesa.
A side quest que vale a pena
O trabalho deixa claro que o futuro do RAG não está só em mais contexto ou melhor retrieval, mas em como o modelo distribui sua atenção. Balancear entropia é como distribuir skill points: não adianta aumentar mana se você não sabe onde gastar.
Para sobreviver no endgame das LLMs, precisamos de mais artefatos como o BEE-RAG — ferramentas que garantem que, mesmo no caos da batalha, o mago acerte o dragão e não a parede.
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das LLMs sem sacrificar poder de raciocínio](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?
![[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)