[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está levando a IA direto pro abismo de Moria

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

It Depends: Resolving Referential Ambiguity in Minimal Contexts with Commonsense Knowledge
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

Referências ambíguas são a kriptonita da linguagem natural. Você entende que “ele” pode ser o Batman ou o Superman dependendo da última frase do parágrafo anterior. Já os LLMs? Eles tropeçam como se estivessem tentando atravessar a ponte de Khazad-dûm no escuro. Resolver ambiguidade referencial não é só um desafio técnico — é o teste de Turing versão 2025. Se um modelo não sabe perguntar “quem?”, como esperar que ele saiba responder “por quê?”

Antes de entrar no que Lukas Ellinger e Georg Groh fizeram nesse paper, vale entender o terreno minado que é essa tarefa. Ambiguidade referencial, onde o “ele”, “ela”, “isso” ou “aquilo” não tem um referencial óbvio, já deu nó na cabeça de linguistas desde Chomsky até Ferreira. Este último já apontava em 2008 que, em comunicação humana, existe um “acordo silencioso” onde o falante omite detalhes confiando no ouvinte pra preencher as lacunas. Isso se chama “terreno comum” — algo que LLMs fingem entender, mas raramente dominam.

Clark & Brennan já tinham mapeado isso nos anos 90: conversas funcionam porque há um acordo implícito entre os interlocutores sobre o que é conhecido. Isso inclui senso comum, memória recente e contexto compartilhado. O que acontece quando o interlocutor é uma IA treinada com trilhões de tokens, mas zero experiência de mundo? A IA responde com confiança sobre algo que nem sequer entendeu. É como se o C3PO jurasse saber wookie com fluência só porque leu a gramática.

Min et al já tinham mostrado com o AmbigQA que modelos pré-2023 não sabiam lidar com perguntas subespecificadas. Wildenburg et al confirmaram isso em 2024. Testoni et al adicionaram a cereja no bolo mostrando que isso também vale para modelos multimodais. Esses LLMs não pedem ajuda, não pedem esclarecimento, não hesitam. Eles chutam. Às vezes chutam bem, mas frequentemente erram feio, erram rude.

Herlihy et al ainda fizeram uma taxonomia de como esses modelos respondem: resposta direta, hesitação, pedido de esclarecimento, recusa e omissão. Spoiler: quase nunca há pedido de esclarecimento. Eles cometem o pecado capital da IA — responder como se soubessem, mesmo quando não sabem. Isso é perigoso não só para a experiência do usuário, mas para aplicações críticas, como saúde, direito ou educação.

Kuhn et al e Xu et al já alertavam que o treinamento via RLHF gera um viés para respostas únicas, concisas, completas — mesmo quando isso é contraproducente. O sistema aprende a evitar qualquer coisa que se pareça com “não sei”. Como se o ChatGPT tivesse medo de parecer burro. Na prática, isso significa que ele vai preferir dizer que o “bat” é um animal voador a admitir que pode ser também um taco de beisebol ou um verbo.

Ellinger et al mostraram que pedir linguagem simplificada piora ainda mais essa tendência. Quando você pede uma resposta “simples”, os modelos abandonam nuances, descartam alternativas válidas e vão direto na resposta mais saliente. Trienes et al e Anschütz et al também notaram isso: simplificar pode parecer acessível, mas frequentemente sacrifica a precisão.

Liu et al confirmaram que, mesmo com os LLMs mais avançados, esse problema persiste em contextos single-turn. Ellinger & Groh ampliaram a discussão para diálogos multi-turn, onde o contexto acumulado deveria ajudar a resolver a ambiguidade. Mas adivinha? Mesmo com todo esse histórico disponível, os modelos continuam respondendo como se estivessem num quiz, não num diálogo real.

A questão é: o que acontece quando a IA não sabe quem é o “ele” ou o “isso”? Será que ela pergunta? Ou ela assume? A maioria assume. E é aí que tudo desanda.

A armadilha do sabre de luz: quando simplificar significa alienar

Lukas Ellinger & Georg Groh, da Universidade Técnica de Munique, decidiram enfrentar o balrog da ambiguidade. O estudo deles não é apenas um benchmark novo, mas uma provocação direta ao hype atual de que LLMs já são “quase humanos”. Eles criaram um dataset novo, multilingue, de ambiguidades referenciais em diálogos curtos — nos moldes do que você teria ao conversar com um assistente de voz, chatbot ou qualquer aplicação de NLP.

O que diferencia essa proposta? Eles não só testam os modelos com perguntas ambíguas, mas também variam o estilo de linguagem. Em uma versão, o usuário escreve normalmente. Em outra, ele pede: “responda com linguagem simples”. Parece inofensivo? Prepare-se pra ver a IA tropeçar.

A escolha dos modelos foi bem ampla: GPT-4o, GPT-4o-mini, Qwen3-32B, DeepSeek v3 e LLaMA-3.1-8B. Um mix entre modelos proprietários, open source, pequenos e gigantes. Nada de moleza.

Além disso, eles aplicaram uma técnica de fine-tuning específica, chamada Direct Preference Optimization (DPO), sobre o LLaMA-3.1-8B. Com isso, criaram uma versão que, ao invés de só tentar adivinhar a resposta correta, também é treinada para pedir ajuda quando não entende — tipo aquele player que finalmente usa o ping de “help!” no LoL em vez de dar dive sem ward.

A poção de cura que nunca chega: e se esse paper nunca tivesse existido?

Sem esse estudo, estaríamos todos presos na Matrix da confiança cega nos LLMs. O hype seguiria intacto. As startups continuariam vendendo bots “inteligentes” que não sabem pedir ajuda. Pior: usuários com dificuldades cognitivas continuariam sendo traídos por sistemas que simplificam tanto as respostas que perdem o sentido.

Imagine um mundo onde você pede para o assistente te explicar “o que é bat” em linguagem simples, e ele ignora completamente que também pode ser um taco de beisebol. Ou onde você diz “por que ele pode voar?”, e o modelo escolhe a última coisa mencionada — seja ela um helicóptero, uma coruja ou um tambor — sem piscar. Isso é o equivalente a usar uma poção de mana quando sua vida tá no zero: inútil e perigoso.

O estudo de Ellinger & Groh é o contra-feitiço. Ele mostra que os LLMs precisam, sim, de mais nuance, de mais humildade e, acima de tudo, de mais capacidade de lidar com a ambiguidade. Porque no mundo real, nada é preto no branco. E se a IA não sabe lidar com cinza, ela não está pronta pra sair da caverna.

O elmo do discernimento: como esse paper treina IAs para pensar antes de falar

A metodologia é elegante como um elfo e letal como uma flecha do Legolas. O paper divide o problema em duas configurações:

ClearRef: onde só um dos itens faz sentido como resposta.
SharedRef: onde dois itens fazem sentido, mas a ambiguidade permanece.

Em ambos os casos, o usuário faz uma pergunta como “por que ele pode voar?” após apresentar frases como “um helicóptero está na pista”, “uma coruja canta à noite”, e “um tambor foi usado na reunião”.

A sacada é ver como os modelos reagem: eles respondem direto? Hesitam? Pedem esclarecimento?

O escudo da hesitação (hedging)

Modelos como GPT-4o e Qwen3-32B até tentam hesitar. Algo do tipo “Se você está falando da coruja, ela pode voar por causa das asas…”. Isso é um bom sinal — mostra que o modelo entendeu a ambiguidade.

A espada da resposta direta

Outros, como o LLaMA base, simplesmente chutam. Escolhem uma das entidades positivas, ignoram a outra e seguem em frente. Isso é péssimo. É como se o Aragorn escolhesse marchar com o exército para Mordor sem saber se o anel foi destruído ou não.

O cajado da clarificação

A minoria dos modelos realmente pede ajuda: “Você está se referindo à coruja ou ao helicóptero?”. Esse tipo de comportamento deveria ser regra, não exceção. Mas como bem mostrou Herlihy et al, os LLMs foram treinados para parecerem certos, não para parecerem humildes.

O fine-tuning com DPO muda isso. A versão afinada do LLaMA passa a pedir mais ajuda, hesitar quando necessário e evita dar respostas precipitadas. O modelo aprende a ser mais Gandalf: ele não corre, mas chega exatamente quando deve — com a resposta certa.

O martelo de Uru da avaliação: testes rigorosos para derrotar o Thanos da ambiguidade

A parte experimental é um show à parte. O paper usa cinco idiomas (inglês, francês, árabe, russo e chinês simplificado), cobrindo perguntas que envolvem oito relações de senso comum, como:

Capacidade de voar
Ser doce
Ser feito de madeira
Conseguir nadar
Correr rápido
Subir em árvores
Ser quente
Ser barulhento

As perguntas ambíguas são sempre seguidas por um prompt adicional na versão “Simple”, pedindo respostas em linguagem simplificada. E aqui é que o bicho pega.

O nerf da simplificação

Modelos como Qwen3-32B caem de 75% para 33% de respostas corretas quando passam do prompt normal para o simplificado. GPT-4o também despenca. Simplificar a linguagem causa um bug na IA: ela para de considerar múltiplas possibilidades e volta a dar respostas default.

A runa da recuperação: DPO salva

A versão fine-tunada do LLaMA, com DPO, sobe de 13% para 96% de acertos em SharedRef. Sim, você leu certo. Uma melhoria de mais de 80 pontos percentuais. O modelo passa a hesitar, a pedir ajuda, a pensar. Não é magia, é só alinhamento.

Missão extra: MCL-WiC

O paper ainda testa esse modelo no benchmark de homônimos multilíngues (MCL-WiC). O modelo finetunado mostra consciência de múltiplos sentidos mesmo em prompts do tipo “explique como se eu tivesse 5 anos”. É como se o DPO colocasse óculos de leitura no Hulk — ele continua forte, mas agora pensa antes de agir.

O espelho de Ockham: a hype da IA vista de frente

Tá na hora de parar com essa ficção de que LLMs “entendem linguagem como humanos”. Eles fingem bem, até o momento em que você pergunta “por que ele pode voar?”. Aí eles mostram que são apenas estatísticas disfarçadas de inteligência.

A indústria precisa parar de vender assistentes “inteligentes” que não sabem pedir ajuda. Se você treina um modelo pra sempre responder, ele nunca vai aprender a perguntar. E no mundo real, perguntar é metade da inteligência.

Quando simplificação significa omitir, temos um problema. Quando pedir resposta clara leva o modelo a ignorar ambiguidade, temos outro. E quando ninguém quer admitir isso porque atrapalha o marketing, temos um terceiro.

O baú da sabedoria: a verdadeira IA precisa de mais Gandalf e menos Gollum

Se queremos IAs úteis, precisamos parar de fingir que elas já sabem tudo. O caminho passa por dar a elas permissão — e incentivo — para dizer “não sei”, para perguntar “você quis dizer X ou Y?” e para considerar múltiplas interpretações válidas.

Ellinger & Groh mostraram que dá pra ensinar isso. Com DPO, com dados bem construídos, com benchmarks que não mimam o modelo. Agora é hora da comunidade parar de medir só quem acerta a resposta e começar a medir quem tem coragem de hesitar.

Afinal, até o Frodo teve que parar e perguntar o caminho pra Sam. Por que a IA não pode?

IA na veIA

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que…

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

O melhor palestrante na Paraíba sobre marketing digital: como contratar Celso Sousa