Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?

16 de agosto de 2025
[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study
  • Link do paper
IA na veIA nº 12
IA na veIA nº 12.

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

A história da inteligência artificial nos últimos anos é quase como a saga dos Skywalker. Tivemos a ascensão de modelos de linguagem gigantescos, capazes de derrotar benchmarks como se fossem stormtroopers mal treinados. Mas assim como Luke precisou entender a Força e não apenas balançar o sabre, os LLMs precisam justificar suas previsões, não só acertar respostas.

É aqui que entra o debate sobre explicações textuais. Não basta prever que uma sentença contradiz outra, é preciso contar o “porquê”, traduzindo o raciocínio em linguagem natural. E, como sempre, a academia corre atrás de maneiras de gerar e avaliar essas justificativas. Só que a coleta manual dessas explicações é cara, lenta e limitada.

Daí surge a questão: podemos confiar em explicações geradas automaticamente por LLMs? E mais, será que essas explicações não apenas parecem boas, mas de fato ajudam modelos de classificação a performarem melhor?

Esse problema não nasceu ontem. Desde que Bowman et al abriram as portas com o SNLI em 2015, a comunidade passou a depender de datasets massivos para treinar e avaliar inferência textual. Logo depois, Camburu et al perceberam que faltava a cereja do bolo: explicações humanas, e daí nasceu o e-SNLI. Só que manter legiões de anotadores gerando justificativas é tão insustentável quanto manter um exército de clones.

Não surpreende que Rajani et al tenham proposto usar modelos para gerar justificativas em raciocínio de senso comum. Também não surpreende que Hartmann et al tenham revisado o impacto de explicações humanas na melhoria de modelos, encontrando inconsistências. Afinal, humanos não são padronizados e muitas vezes criam explicações subjetivas.

Isso gerou uma linha de pesquisa sobre avaliação de explicações, com Papineni et al propondo o BLEU para medir similaridade lexical, Lin trazendo o ROUGE, e mais recentemente Zhang et al apresentando o BERTScore para capturar proximidade semântica.

O problema é que todos esses métodos são métricas de superfície, e não necessariamente captam a qualidade real de uma explicação, como Søgaard discutiu em sua visão sobre NLP explicável.

Enquanto isso, os avanços nos próprios LLMs explodiram. Brown et al mostraram com o GPT-3 que poucas demonstrações bastavam para tarefas complexas. Wei et al revelaram que cadeias de raciocínio (“chain-of-thought”) podiam transformar um modelo aparentemente superficial em um estrategista do nível de Shikamaru de Naruto. Mishra et al foram além e mostraram que LLMs podem agir como racionalizadores em tarefas que exigem conhecimento intenso.

Já Wang et al desenvolveram métodos de refinamento conjunto para melhorar a qualidade das explicações geradas. Mesmo assim, faltava entender se essas explicações poderiam ser aproveitadas para melhorar outros modelos downstream, e não apenas para impressionar leitores com frases bonitas.

Esse é um buraco negro ainda não completamente explorado.

Outro aspecto importante é a diversidade de datasets. Mathew et al criaram o HateXplain para explicações em classificação de discurso de ódio. Vladika et al desenvolveram o HealthFC para verificação de fatos em saúde, incluindo explicações de especialistas. Gubelmann et al fizeram uma revisão sistemática dos datasets de inferência, mostrando que a variedade de tipos de explicações é enorme.

Mas como Tan et al destacaram, essa diversidade também impõe limites, já que explicações humanas variam em estilo, granularidade e clareza. O resultado é que treinar modelos em cima de justificativas humanas nem sempre gera consistência, como Yao et al questionaram ao indagar se explicações humanas são sempre úteis.

Esse debate leva a uma reflexão inevitável: precisamos de métodos automáticos que gerem explicações escaláveis, consistentes e úteis para aprendizado de modelos. Só que isso não é trivial.

Avaliar essas explicações é quase como avaliar um fanfic de Star Wars — pode ser criativo, pode ser convincente, mas será que mantém fidelidade ao cânone? É por isso que surgiram métricas mais recentes como MAUVE, proposta por Pillutla et al, que mede a distância entre distribuições de textos gerados e textos humanos.

Também tivemos o G-Eval, apresentado por Liu et al, que usa o próprio GPT-4 como juiz, numa espécie de “tribunal Jedi” das explicações. E mais recentemente, métricas como TIGERScore (Jiang et al) e Prometheus (Kim et al) propõem avaliar geração de texto em granularidade fina, indo além da semelhança superficial.

O dilema está em que, sem explicações robustas, seguimos presos no modo arcade: modelos que acertam, mas que não justificam. E em aplicações críticas — medicina, direito, governança — isso é tão perigoso quanto jogar uma partida de Dota sem wards no mapa. Transparência não é luxo, é necessidade.

Explicações importam para confiança, auditoria e aprimoramento de modelos. Chen et al inclusive já exploraram o refinamento de consistência em explicações, um passo essencial para garantir que as justificativas façam sentido de forma coerente. Quan et al foram além e usaram prova simbólica combinada com LLMs para verificar explicações.

Parcalabescu & Frank exploraram métricas de fidelidade para medir se as explicações realmente refletem o raciocínio do modelo. Isso mostra que a batalha não é apenas gerar boas frases, mas alinhar essas frases com o verdadeiro funcionamento interno do modelo.

No fim, a comunidade de IA se vê diante de uma bifurcação digna de um RPG. De um lado, seguir treinando modelos gigantescos que geram outputs cada vez mais sofisticados, mas cuja lógica interna permanece oculta como as sombras de Mordor. De outro, investir em frameworks que forçam os modelos a abrir suas cartas, mostrando não só o resultado, mas o caminho que trilharam.

A segunda via é mais lenta, mais trabalhosa, mas inevitavelmente mais confiável. Afinal, como em qualquer guilda de RPG, não basta saber quem deu o último hit no boss, é preciso saber qual foi a estratégia, quem tankou, quem curou e quem fez o DPS.

Se a comunidade não resolver essa tensão, corre o risco de cair na armadilha da hype. Modelos vão continuar vencendo benchmarks, papers vão continuar sendo aceitos, mas na prática, usuários finais vão continuar recebendo explicações rasas ou inconsistentes. No universo geek, isso é como assistir a um filme da Marvel com ótimos efeitos especiais, mas roteiro frágil.

Impressiona na primeira vista, mas não deixa legado. A ciência não pode se contentar com fogos de artifício, precisa de substância.

E é justamente nesse cenário que pesquisas recentes, como a que analisamos aqui, ganham relevância. Elas não estão apenas medindo quão bonitas são as explicações, mas testando se elas efetivamente melhoram classificadores downstream.

Essa é a diferença entre ilusão e impacto real. É o momento em que a Força deixa de ser apenas um truque mental e passa a ser o sabre que realmente decide a batalha.


A Pokébola das explicações automáticas: Dhaini et al mostram como capturar racionalizações úteis

Mahdi Dhaini et al assumiram a missão de encarar o problema de frente. O grupo da Universidade Técnica de Munique se perguntou: será que explicações geradas por LLMs podem de fato aumentar o desempenho de classificadores em tarefas de inferência textual?

A sacada é ousada porque desloca o foco do mero julgamento estético das explicações para seu valor prático. Não basta que a explicação soe humana, ela precisa ajudar outro modelo a classificar melhor.

A estratégia dos autores foi quase como montar um time de Pokémon diversificado. Eles chamaram quatro LLMs de diferentes portes: GPT-4o mini, Mixtral-7B, Gemma2-9B e Llama3-70B. Cada um com suas forças, fraquezas e estilos de geração de texto.

Esses modelos foram usados para gerar explicações em dois datasets: o já conhecido e-SNLI, focado em inferência textual com justificativas humanas, e o HealthFC, especializado em verificação de fatos médicos. Assim, tinham ao mesmo tempo um terreno clássico (o e-SNLI) e um terreno crítico (o HealthFC).

Os resultados permitiram analisar não só qualidade textual, mas impacto na performance de PLMs como BERT, DeBERTa, RoBERTa e ModernBERT, além de três LLMs atuando como classificadores.

O mais interessante é que o framework foi testado tanto em cenários zero-shot quanto few-shot. Isso permitiu avaliar se mostrar exemplos humanos antes de pedir explicações melhora a performance das gerações.

O detalhe geek: os autores instruíram os modelos a não revelar ou insinuar o rótulo dentro da explicação, para não “roubar XP” durante a classificação. Uma decisão essencial para que a avaliação fosse justa. Afinal, não adianta dar a resposta de bandeja e fingir que a explicação ajudou.

A relevância desse trabalho é dupla. Primeiro, mostra que explicações não são apenas decorativas. Elas podem ser armas no arsenal de classificação, se bem calibradas. Segundo, aponta que os efeitos variam conforme o dataset e o tipo de modelo usado.

No e-SNLI, humanos ainda saem na frente em termos de impacto, mas no HealthFC as explicações automáticas chegam a superar as humanas. Isso mostra que o problema não é binário, e sim contextual. Em certos domínios, os LLMs podem gerar explicações até mais úteis que especialistas.

Isso tem implicações sociais enormes: se conseguimos gerar justificativas automáticas em áreas críticas como saúde, podemos ampliar datasets, treinar modelos mais robustos e, em última instância, democratizar o acesso a sistemas de decisão mais transparentes.


O multiverso sombrio sem as explicações automáticas

Agora, imagina um cenário alternativo, estilo Marvel “What if…”. E se Dhaini et al não tivessem explorado essa linha? Continuaríamos presos em datasets pequenos, limitados a justificativas humanas. PLMs seguiriam sendo alimentados apenas com rótulos secos, sem a camada de raciocínio.

LLMs, por sua vez, continuariam gerando explicações bonitas para papers, mas sem se provar úteis para modelos menores. Em outras palavras, a comunidade estaria duelando com espadas de madeira enquanto o inimigo já usa canhões de plasma.

Esse mundo alternativo seria marcado por sobrecarga de custo em anotação humana, datasets enviesados por inconsistência de explicadores e falta de escalabilidade. É como tentar upar personagem em MMORPG apenas grindando manualmente, sem nunca aproveitar boosts de XP. O progresso seria lento, desigual e fadado a deixar muita gente para trás.

Nesse universo, a hype dos LLMs se manteria, mas sem resolver a questão central: como tornar modelos realmente explicáveis e ao mesmo tempo mais fortes? Dhaini et al oferecem justamente a ponte que poderia evitar esse destino sombrio.


A guilda das explicações: forjando raciocínio com LLMs

Os autores estruturaram seu método como uma guilda RPG bem organizada. Cada membro tem papel específico, cada missão é planejada. O processo pode ser dividido em algumas fases essenciais.

O grimório dos datasets

Eles usaram dois artefatos mágicos: o e-SNLI, com cerca de 840 instâncias balanceadas entre entailment, contradiction e neutral, e o HealthFC, com 750 instâncias médicas. O e-SNLI tem explicações humanas que descrevem relações lógicas. O HealthFC tem explicações em estilo de resumo, feitas por especialistas.

São naturezas distintas de justificativas: uma lógica, outra contextual. Esse contraste permitiu observar como diferentes estilos de explicação interagem com modelos.

O pergaminho das gerações

As explicações foram geradas por quatro LLMs, cada um invocado em cenários zero-shot e few-shot. Os prompts foram cuidadosamente calibrados. No zero-shot, apenas premissa, hipótese e rótulo eram dados. No few-shot, quatro exemplos humanos eram incluídos.

A instrução crucial: não dar pistas explícitas sobre o rótulo. Isso evitava “cheat codes” que contaminassem os resultados. Assim, cada explicação precisava realmente se conectar com o raciocínio subjacente.

O oráculo da avaliação

A guilda usou múltiplos oráculos para avaliar as explicações. Métricas tradicionais como BLEU e ROUGE mediram sobreposição lexical. O BERTScore analisou proximidade semântica. O MAUVE avaliou diversidade e coerência em relação a textos humanos. E o G-Eval, com GPT-3.5 como juiz, deu notas para clareza, coesão e estilo humano.

Foi quase como ter mestres jedi revisando os aprendizes, cada um com um critério distinto.

O campo de batalha dos classificadores

As explicações geradas foram inseridas em quatro PLMs (BERT, DeBERTa, RoBERTa e ModernBERT) via fine-tuning e em três LLMs via zero-shot prompting. Cada combinação foi testada, em 5-fold cross-validation para os PLMs, com métricas como acurácia e macro-F1. Foi como enfrentar chefes em dungeons diferentes, cada um com fraquezas próprias.

O resultado final mostrou que PLMs se beneficiaram bastante de explicações, sejam humanas ou automáticas. Já os LLMs, nem sempre souberam usar esse “buff”, e em alguns casos até pioraram com explicações extras.


Os experimentos como raids: quando cada número vira loot raro

A parte experimental é o coração dessa aventura. Aqui, cada número é um item raro dropado após derrotar um boss.

A espada do GPT-4o mini

No e-SNLI, GPT-4o mini brilhou. Alcançou BLEU de 0.039 em zero-shot e 0.051 em few-shot, superando os rivais. Também liderou no ROUGE-1 (0.333 zero-shot e 0.366 few-shot) e BERTScore (0.881 e 0.885). Isso mostra que sua explicação era consistente e semântica. No G-Eval, ficou em torno de 0.176, o mais próximo da escrita humana. É como pegar a espada lendária da raid logo no primeiro drop.

O machado do Llama3-70B

No HealthFC, o destaque foi o Llama3-70B, com ROUGE-1 de 0.313 zero-shot e 0.309 few-shot, além de BERTScore de 0.883 e 0.886. Também obteve bom desempenho em MAUVE (0.083 zero-shot e 0.197 few-shot). Isso indica explicações variadas e coesas, úteis em domínio especializado. É como o personagem que não brilha em arenas gerais, mas é MVP em missões médicas.

O arco do Mistral-7B

O Mistral-7B pode ser menor, mas trouxe diversidade. Em MAUVE, bateu todos no e-SNLI few-shot (0.107). Isso sugere que suas explicações eram criativas, embora nem sempre alinhadas ao humano. É como aquele arqueiro que erra o alvo às vezes, mas quando acerta, é letal.

O elmo da Gemma2-9B

O Gemma2-9B foi sólido, mas raramente liderou. Ficou próximo dos demais em métricas semânticas. Não foi a estrela, mas compôs o time com consistência. Como o tanque que não derruba chefes, mas garante que o grupo sobreviva.

O buff dos PLMs

Com explicações, os PLMs ganharam boosts claros. No e-SNLI, a macro-F1 de BERT subiu em média 0.204 com GPT-4o zero-shot em relação ao baseline. DeBERTa teve ganhos similares. No HealthFC, as explicações automáticas superaram até as humanas em alguns casos. É como adicionar um mago ao time: de repente, o DPS sobe e a raid fica mais fácil.

O debuff dos LLMs

Já os LLMs como classificadores sofreram. No e-SNLI, adicionar explicações automáticas geralmente reduziu acurácia em até 0.15 em macro-F1. O raciocínio extra pareceu atrapalhar em vez de ajudar, possivelmente porque os LLMs já têm mecanismos internos de raciocínio. É como sobrecarregar o mago com buffs redundantes, confundindo sua estratégia.

O estilo das explicações

Os dois datasets mostraram contrastes fortes. No e-SNLI, explicações eram lógicas, do tipo “se A, então não B”. No HealthFC, eram resumos contextuais de evidências médicas. Os PLMs se beneficiaram mais dos lógicos, enquanto os LLMs se confundiram. Já nos contextuais, PLMs e até alguns LLMs ganharam performance. Isso mostra que o estilo da explicação importa tanto quanto sua qualidade.


O hype como a ilusão da Matrix

O estudo de Dhaini et al é um lembrete incômodo: hype não equivale a utilidade. A comunidade adora frases bonitas geradas por LLMs, como se fossem discursos de Morpheus na Matrix. Mas quando testamos no campo de batalha, vemos que nem toda explicação ajuda, e algumas até atrapalham. Isso nos força a questionar se estamos avaliando os modelos do jeito certo.

Será que não estamos só encantados com a estética, esquecendo do impacto real? Explicações são para humanos, mas também precisam ser funcionais para modelos. Se não servirem a esse propósito duplo, viram apenas fan service.


A escolha final: ser jedi ou ser sith na era das explicações

A lição maior aqui é que precisamos de mais do que hype. Precisamos de frameworks que testem explicações em função prática, não só estética.

O trabalho de Dhaini et al aponta caminhos: medir impacto em classificadores downstream, comparar estilos de explicação, entender contextos onde humanos ainda são melhores.

O futuro exige humildade: reconhecer que nem sempre o maior modelo é o melhor explicador, que nem sempre mais parâmetros significam mais clareza. É como escolher entre ser jedi ou sith: ambos têm poder, mas só um tem propósito alinhado com a confiança e transparência.

A reflexão final é clara. Queremos um futuro de IA que se pareça mais com uma guilda organizada de RPG, onde cada membro sabe seu papel e suas justificativas fazem sentido. Não podemos aceitar um futuro de efeitos especiais sem roteiro, como blockbusters esquecíveis.

O desafio está lançado. Cabe a nós decidir se vamos treinar modelos que apenas acertam respostas, ou se vamos moldar sistemas que explicam, convencem e fortalecem a confiança. Porque, no fim, a ciência não precisa de mais hype. Precisa de mais sabres de luz.