IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
O debate sobre diagnósticos médicos mediados por inteligência artificial está mais quente que uma batalha de sabres de luz em Coruscant. Há anos a comunidade científica se ilude com o potencial das LLMs em medicina, mas a realidade é que modelos como GPT-4 ou qualquer outro gigante paramétrico ainda cometem erros bobos, confundem sintomas e alucinam resultados como se fossem clones programados com bugs.
O problema central? O conhecimento encapsulado nesses modelos é estático, enviesado e incapaz de se adaptar ao fluxo vivo e caótico de informações clínicas. Para entender essa frustração, basta lembrar das limitações descritas por D’Adderio et al, que mostraram como diagnósticos orientados por IA ainda falham em oferecer suporte confiável a médicos em ambientes de alta pressão.
A aposta em frameworks de RAG para contornar essas falhas parecia promissora, mas rapidamente mostrou suas rachaduras. Ng et al foram categóricos ao revelar que RAGs na saúde funcionam mais como band-aids digitais: resolvem parte do problema de acesso à informação, mas não mudam a essência da falta de integração entre raciocínio clínico e busca de conhecimento.
Ke et al reforçaram isso em uma avaliação ampla, destacando que, mesmo ao injetar conhecimento de forma adaptativa, os LLMs continuam patinando em casos raros e fora de distribuição.
O grande gargalo é que esses sistemas geralmente operam apenas em inferência, sem treinamento end-to-end, ou seja, são como magos que só sabem conjurar feitiços pré-programados sem aprender nada com os feedbacks do campo de batalha.
A situação se agrava em diagnósticos raros. LeBlanc et al mostraram como até mesmo estratégias colaborativas de matchmaking de pacientes em doenças raras falham em produzir diagnósticos consistentes.
Isso ecoa os achados de Amugongo et al, que mapearam as promessas e frustrações do uso de RAGs em saúde: o sistema até traz informação, mas muitas vezes no formato errado, sem clareza e sem rastreabilidade.
Para piorar, Chen et al evidenciaram que sistemas multi-round RAG, embora teóricos, raramente conseguem lidar com o ruído real das bases clínicas. Em paralelo, Ru et al apontaram a fragilidade das arquiteturas de avaliação de RAG, que frequentemente diagnosticam mal sua própria capacidade de diagnosticar.
E o problema não para aí. A revisão de Gao et al foi brutal: os RAGs médicos até conseguem organizar raciocínio e busca, mas carecem de mecanismos dinâmicos para saber quando parar de procurar e quando começar a concluir.
Isso conversa diretamente com os experimentos de Jeong et al, que demonstraram que até mesmo quando combinamos RAG com autorreflexão, a performance continua aquém da prática clínica real. Enquanto isso, Cross et al lembram que os vieses embutidos nesses sistemas podem ter implicações sérias para decisões médicas.
Kostick-Quenet & Gerke reforçam que IA em mãos imperfeitas — leia-se médicos pressionados por tempo e contexto — pode amplificar riscos. Já Crowe & Rodriguez expõem o elefante na sala: a falta de transparência sobre vieses coloca diagnósticos automatizados em rota de colisão com a ética médica.
O retrato é claro: os métodos antigos em IA médica são como versões iniciais de Pokémon — fofos, mas incapazes de enfrentar chefões em níveis avançados. A ciência já sabe que apenas injetar dados não basta.
É preciso transformar a forma como modelos aprendem a raciocinar com as informações externas, e isso implica treinar sistemas de forma integrada, com feedback, rastreabilidade e adaptação em tempo real. Sem isso, seguimos repetindo a cena clássica de Naruto treinando sem mestre: muita energia desperdiçada em técnicas que não funcionam em batalhas reais.
O anel único do diagnóstico: como Zheng et al forjaram o Deep-DxSearch
Foi nesse cenário que Zheng et al apareceram com a proposta ousada do Deep-DxSearch. A ideia é simples de explicar, mas complexa de executar: transformar o LLM no verdadeiro agente central de diagnóstico, interagindo com um corpus massivo de informações médicas como se fosse seu ambiente de RPG.
O diferencial? Em vez de depender de prompts manuais e workflows engessados, o sistema é treinado end-to-end com reforço, aprendendo quando buscar, quando raciocinar, quando comparar e quando finalmente fechar o diagnóstico.
O impacto social disso é imediato. Pense no Deep-DxSearch como o Jarvis do Tony Stark aplicado à medicina: não só acessa conhecimento, mas organiza a informação em trajetórias rastreáveis, mostrando ao médico por que aquela decisão foi tomada.
Isso resolve dois problemas de uma vez. Primeiro, o da confiança: em ambientes clínicos, ninguém aceita decisões-caixa-preta. Segundo, o da adaptabilidade: cada paciente é um “jogo novo”, e o sistema precisa se adaptar ao loot que aparece no meio da quest.
A grande sacada foi criar recompensas que não se limitam à acurácia final, mas também ao formato, à qualidade das buscas e à estrutura do raciocínio. Assim, o sistema não é punido apenas por errar o diagnóstico, mas também por se perder no caminho. É como treinar um jogador de LoL não só para vencer, mas para wardar, farmar e rotacionar no tempo certo.
O multiverso sombrio sem o Deep-DxSearch
Agora, imagine o que aconteceria se esse sistema não existisse. Estaríamos presos a diagnósticos feitos por modelos que agem como Stormtroopers: atiram para todos os lados e quase nunca acertam o alvo. O custo seria gigantesco, especialmente em doenças raras. Pacientes passariam anos em busca de respostas, enquanto modelos como GPT-4o dariam palpites genéricos ou enviesados, perpetuando erros e atrasando tratamentos. Seria como enfrentar Thanos sem Vingadores: uma batalha perdida antes de começar.
A ausência de um framework como o Deep-DxSearch manteria a medicina digital refém de soluções superficiais. Médicos continuariam presos a sistemas frágeis, e a hype de IA se sustentaria em narrativas infladas, não em resultados clínicos reais. Em outras palavras, viveríamos em um futuro cyberpunk onde os algoritmos mandam, mas não entendem nada do que fazem.
O grimório do diagnóstico: os feitiços por trás do método
O grimório dividido em cinco runas mágicas
O Deep-DxSearch opera como se fosse um mago em Dungeons & Dragons com cinco feitiços à disposição: reason, lookup, match, search e diagnose. Cada ação é cuidadosamente treinada para funcionar em sincronia. O modelo aprende não só a conjurar, mas a decidir quando e como conjurar.
O treinamento como saga de herói shonen
O reforço foi construído com múltiplas recompensas: formato correto, matching de pacientes, qualidade de buscas e acurácia final. Esse processo lembra o treinamento de Goku, que não melhora apenas em força bruta, mas em técnica, defesa e estratégia.
Comparação com o estado da arte
Quando comparado a frameworks como MedRAG, MedGemma ou MAC, o Deep-DxSearch não só venceu, como humilhou. Em doenças raras, alcançou até 70% de acurácia top-1, contra rivais que mal passavam dos 30%. É como se um personagem nível 14 derrotasse um boss nível 50 só porque aprendeu a usar os itens certos no momento certo.
O laboratório de Dexter: experimentos e estatísticas que revelam a verdade
O corpus como biblioteca de Alexandria
A base de treinamento reuniu 177 mil registros de pacientes, 16 mil guias de doenças e milhões de documentos biomédicos. É como dar a um mago acesso não só à biblioteca de Hogwarts, mas também à de Kamar-Taj.
Experimentos como arenas de WoW
Nos testes in-distribution, o Deep-DxSearch elevou a acurácia top-1 em mais de 30 pontos percentuais em relação a LLMs vanilla. No cenário OOD, ainda conseguiu bater rivais em até 15 pontos percentuais. Cada número é um crítico certeiro em chefes que antes pareciam invencíveis.
Ablations como lutas alternativas
Quando retiraram componentes como matching de pacientes, a performance despencou mais de 17%. É como jogar sem healer no time: inevitavelmente dá wipe.
Métricas como XP
O modelo foi avaliado não só em acurácia top-1 e top-5, mas também em métricas de “hint” e “hit@20”. Essas medidas são como barras de XP ocultas: mostram o quanto o herói está evoluindo em habilidades que não aparecem no resultado final, mas fazem toda diferença na batalha.
O hype é o lado sombrio da Força
É impossível não provocar aqui: quantos papers não vendem hype de IA médica como se estivessem entregando o próximo lightsaber, mas no fundo são só sticks de plástico do carnaval? A maioria ignora problemas de vieses, de generalização e de interpretabilidade. O pior é ver startups vendendo “diagnóstico assistido por IA” como se fosse pronto para clínicas, quando na prática o que entregam é um beta bugado. É o mesmo que prometer a Millennium Falcon e entregar um X-Wing de brinquedo.
A side quest que não podemos ignorar
O Deep-DxSearch mostra que ainda há esperança de equilibrar hype e realidade. Mas a verdadeira reflexão é: vamos continuar aceitando soluções rasas que mascaram problemas profundos, ou vamos investir em sistemas que realmente aprendem com feedback, integram raciocínio e oferecem rastreabilidade?
O caminho geek é claro: não basta ter poder, é preciso ter controle. Caso contrário, a IA médica será apenas mais um vilão genérico derrotado pelo próprio excesso de arrogância.
![[IA na veIA nº 16] O boss secreto das imagens redundantes no e-commerce multimodal: quando imagens ajudam e quando são um fardo](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 16] O boss secreto das imagens redundantes no e-commerce multimodal: quando imagens…
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das LLMs sem sacrificar poder de raciocínio](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)