[IA na veIA nº 5] O sabre de luz da confiabilidade: LLMs tentando cortar suas próprias confabulações

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Visão geral do paper

Quando olhamos para o histórico de pesquisa em modelos de linguagem, a questão da confiabilidade sempre aparece como o chefe final de um RPG: você passa fases resolvendo problemas de arquitetura, escala, eficiência, mas quando chega nele, percebe que o desafio não é apenas bater mais forte, é saber quando não atacar.

O problema é que, até hoje, a maioria das LLMs é como aquele mago em Dungeons & Dragons que lança feitiço sem verificar se o alvo é inimigo ou aliado — às vezes acerta, às vezes destrói o próprio grupo.

Sriramanan et al analisaram detecção de alucinações e já apontaram que métricas superficiais de confiança falham quando o modelo opera com autonomia. Huang et al reforçaram que existe um abismo entre factualidade e fidelidade, e que os sistemas podem seguir instruções à risca e ainda assim inventar conteúdo.

Ji et al destacaram que essas confabulações não têm cheiro de erro — são fluentes, coerentes e enganadoramente plausíveis, como o Obi-Wan dizendo “de certo ponto de vista” para justificar uma meia-verdade.

Simhi et al trouxeram uma categorização ainda mais refinada, separando erros por falta de conhecimento daqueles em que a resposta correta está lá, mas o modelo não consegue verbalizá-la. Li et al mostraram que o problema não é só errar: é errar com a confiança de um Sith, gerando previsões erradas e altamente confiantes.

Wu et al exploraram como discrepâncias entre treinamento e inferência distorcem a calibragem de confiança, enquanto Ma et al introduziram abordagens de incerteza evidencial para forçar modelos a reconhecerem o “não sei” como resposta válida.

Tsai et al analisaram métodos de caixa branca, abrindo o motor do modelo para medir sinais internos. Orgad et al investigaram onde e como associações factuais ficam escondidas nas camadas internas. Yadkori et al exploraram métodos de caixa preta para lidar com modelos fechados, observando padrões de consistência nas respostas.

Manakul & Gales criaram o SelfCheckGPT para detectar inconsistências, enquanto Lin et al lançaram o Lynx, mostrando que detectores supervisionados podem vencer até mesmo LLMs mais avançados em tarefas de verificação. Farquhar et al propuseram medir entropia semântica como sinal de incerteza no nível de significado, e Yadkori et al (outra vez) expandiram a ideia para sondas que estimam essa entropia diretamente de estados internos.

O que todos esses trabalhos deixam claro é que, mesmo quando equipados com mecanismos de retrieval, raciocínio passo a passo e verificação, os modelos ainda são vulneráveis a contextos enganosos. Mallen et al mostraram que nem mesmo o RAG é à prova de erro: se as fontes forem ruins, o castelo cai.

Wei et al introduziram o Chain-of-Thought para melhorar raciocínio, mas Wang et al demonstraram que ele também pode inflar a confiança em respostas erradas — o equivalente a um mago que conjura um feitiço de precisão, mas mira na direção errada com convicção.

Dhuliawala et al trouxeram o Chain-of-Verification, que é como checar se a porta está trancada… mas demora e custa mais energia.

Abdar et al, revisando incerteza em DL, mostraram que calibrar modelos não é trivial, e Zhou et al tentaram “verbalizar” confiança, transformando pontuações internas em frases, o que soa bonito mas ainda é instável. An et al mostraram que exemplos ruins no few-shot podem contaminar toda a saída.

Sensoy et al formalizaram critérios para sistemas sensíveis a risco, mostrando que saber quando se abster é tão importante quanto acertar.

No fim, a questão é: ainda tratamos confiança como se fosse HP no Pokémon, mas ela se comporta mais como mana — se gastar tudo no feitiço errado, a batalha está perdida. O desafio agora não é só aumentar a precisão, mas alinhar a certeza subjetiva do modelo com a verdade objetiva.

Sem isso, cada resposta convincente demais corre o risco de ser um golpe crítico contra a própria credibilidade da IA.

O detector de mentiras com visão de raio-x

Tianyi Zhou, Johanne Medina e Sanjay Chawla entram na arena propondo algo ousado: não basta medir a confiança de saída, é preciso explorar o que está acontecendo nas entranhas do modelo, token por token, e usar essa informação para prever se a resposta é confiável. Eles não estão só ajustando o sabre de luz, estão adicionando um cristal kyber calibrado para detectar quando o brilho engana.

O time parte de uma constatação incômoda: contextos corretos melhoram precisão e reduzem incerteza, mas contextos enganosos fazem o modelo errar com mais confiança. Isso é o Darth Sidious sussurrando no ouvido do Anakin — a certeza cresce justamente quando a decisão é errada.

A proposta é usar uncertainty-guided probing, combinando incerteza aleatória e epistêmica com representações internas, para construir classificadores leves que detectem quando uma resposta deve ou não ser confiada.

Eles testam isso em cenários controlados, comparando contextos neutros, corretos e incorretos, e mostram que agregações inteligentes de estados internos — especialmente sobre tokens de alta incerteza — vencem métodos tradicionais que só olham para a probabilidade de saída.

É como trocar um detector de metal de aeroporto por um scanner de corpo inteiro: você vê o que antes passava despercebido.

O universo onde esse paper não existe

Sem essa pesquisa, continuaríamos confiando em medidas superficiais de probabilidade, acreditando que elas refletem conhecimento real. Modelos continuariam a aceitar contextos enganosos como gospel, errando com a convicção de um vilão Marvel antes do terceiro ato.

Em sistemas multiagente, confabulações se propagariam como praga zerg, contaminando cadeias inteiras de raciocínio e decisões.

Ferramentas de RAG ainda seriam vulneráveis a documentos corrompidos ou maliciosos, e a detecção de erros sutis ficaria tão cega quanto um stormtrooper mirando.

Em última instância, o risco não seria apenas técnico, mas social: sistemas de IA ganhando reputação de mentirosos seguros de si — e não há patch rápido que recupere essa confiança.

A espada de Gondor para cortar a confusão

O pergaminho secreto das incertezas

A metodologia começa medindo incerteza aleatória e epistêmica a partir de logits, selecionando tokens-chave para análise. É como identificar peças críticas de um tabuleiro de xadrez onde o xeque-mate pode acontecer. Esses tokens são então usados para formar representações compactas que alimentam classificadores leves.

Comparando com o arsenal existente

Métodos como LogProb e P(True) são comparados, mas eles se revelam mais como arcos e flechas contra um exército mecanizado. O probing com seleção guiada por incerteza supera sistematicamente, mostrando que entender o estado interno do modelo é mais valioso que confiar apenas no texto final.

A força e o lado sombrio

O método brilha em tarefas factuais e estruturadas, mas, como qualquer Jedi, ainda pode ser enganado em perguntas abertas ou subjetivas. Isso revela que a força da técnica está em cenários com respostas claras, e que ainda há um caminho antes de domar a subjetividade e o contexto ambíguo.

O laboratório de Tony Stark para testar LLMs

Campo de batalha controlado

HotpotQA e Natural Questions servem como arenas principais, com contextos corretos, incorretos e ausentes cuidadosamente injetados. É o equivalente a simular ataques de diferentes vilões para ver como o herói reage.

O treino dos protetores

Os classificadores são treinados com representações internas de diferentes camadas, explorando posições-chave (primeiro token, último token, tokens de maior ou menor incerteza). Experimentos mostram que combinações — como média dos tokens mais incertos com o token final — funcionam melhor, sugerindo que a informação útil se espalha mas precisa ser destilada.

Números que contam histórias

Os ganhos de AUROC em relação a métodos clássicos são significativos. Onde o LogProb ficava na faixa de 0.59 a 0.77, as variantes de probing subiam para até 0.83. É como passar de 60% para 83% de chance de detectar um espião infiltrado em Among Us.

A hype como a Força: nem sempre está com você

O mercado trata “detecção de incerteza” como solução definitiva, mas este trabalho mostra que, na prática, a calibragem é frágil e que confiar apenas em sinais superficiais é receita para desastre. É fácil vender que um modelo “sabe quando não sabe”, mas no teste real ele continua tropeçando como um Jedi novato em Tatooine.

Mesmo a técnica proposta, embora robusta, ainda é sensível ao tipo de tarefa. Isso joga um balde de água fria no discurso de que teremos “IA infalível” só porque aumentamos a transparência interna.

O mapa de Skyrim para sair da hype

No final, o recado é claro: não há um amuleto único contra confabulações. A combinação de sinais internos, medidas de incerteza e validação de contexto é o caminho para um sistema realmente confiável. É preciso aceitar que, mesmo com todas as melhorias, modelos ainda vão errar — e que a chave é detectar e conter esses erros antes que eles se propaguem.

É como jogar The Legend of Zelda: você pode ter a Master Sword, mas sem saber quando usá-la, ela não impede que você caia numa armadilha. A próxima fronteira é integrar esse tipo de detecção no próprio processo de geração, cortando o mal pela raiz.

IA na veIA

[IA na veIA nº 42] Policy search com cheat code semântico

[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto

[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da…

[IA na veIA nº 39] De Jedi solitário para conselho dos magos distribuídos