Sumário
- O que é IA na veIA?
- Quem é Celso Sousa?
- Visão geral do paper
- Como transformar um juiz enviesado em um Jedi estatisticamente disciplinado
- Sem SCOPE, o juiz vira chefão bugado no fim do jogo
- Engenharia do SCOPE como raid organizada em MMO
- Resultados: números que expõem o hype como vilão mascarado
- A hype da IA adora juízes infalíveis, mas estatística não perdoa
- Rumo ao endgame: avaliação com garantias em vez de fé algorítmica
- Categoria
- Lista de tags
O que é IA na veIA?
IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- SCOPE: Selective Conformal Optimized Pairwise LLM Judging
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
Se você já usou um LLM como juiz para comparar duas respostas e saiu confiante com o veredito, talvez seja hora de respirar fundo. A indústria inteira está terceirizando avaliação para modelos que julgam outros modelos como se estivéssemos em um episódio de Black Mirror patrocinado por leaderboard. A promessa é simples e sedutora, menos humanos, mais escala, mais iteração, mais RLHF, mais ranking automático, tudo brilhando como se fosse o sabre de luz definitivo.
Só que a realidade é menos Jedi e mais Stormtrooper errando tiro a dois metros. Zheng et al mostraram como benchmarks como MT-Bench e Chatbot Arena popularizaram LLM-as-a-judge, transformando modelos em árbitros oficiais da qualidade. Wang et al expuseram que esses juízes não são neutros, carregando vieses de posição e preferência como se fossem personagens de LoL com passivas invisíveis que afetam toda partida.
Shi et al investigaram viés de posição e revelaram que trocar A por B pode mudar o resultado como se fosse um bug de hitbox em um boss de WoW. Saito et al discutiram viés de verbosidade, mostrando que respostas longas podem ganhar pontos só por parecerem mais épicas, mesmo quando são puro filler, tipo monólogo de vilão que não leva a lugar nenhum. Panickssery et al apontaram que modelos tendem a favorecer saídas parecidas com as suas próprias, um narcisismo algorítmico digno de um Loki avaliando versões alternativas de si mesmo.
Enquanto isso, Angelopoulos & Bates popularizaram a ideia de predição conformal, prometendo garantias estatísticas em um mundo que adora probabilidades mas raramente respeita incertezas. Bates et al avançaram para controle de risco, sugerindo que podemos impor limites formais ao erro, como se colocássemos um escudo de energia sobre decisões automatizadas. O problema é que quase ninguém levou isso a sério no contexto de juízes LLM em avaliações pareadas.
A maioria das abordagens confia em softmax máximo, confiança verbalizada ou agreement entre múltiplas amostras, como se mais votos mágicos resolvessem tudo. Jung et al exploraram anotadores simulados, multiplicando gerações para estimar incerteza, mas ainda dentro de um regime heurístico. No fim, continuamos confiando em proxies frágeis, torcendo para que calibração média signifique confiabilidade real, o que é tão ingênuo quanto acreditar que power level em Dragon Ball representa força real em qualquer arco.
O que está em jogo aqui não é só ranking bonito em leaderboard. Quando um LLM juiz alimenta sinais de recompensa para RLHF ou decide qual modelo vai para produção, pequenos erros sistemáticos podem distorcer todo o meta do jogo. Se não impusermos limites explícitos ao erro aceito, estamos treinando modelos sobre terreno movediço, como construir uma base em Minecraft sobre areia e esperar que não desmorone.
Como transformar um juiz enviesado em um Jedi estatisticamente disciplinado
Sher Badshah, Ali Emami & Hassan Sajjad entram nessa arena propondo SCOPE, um framework que tenta fazer o que quase ninguém fez de forma rigorosa, colocar garantias finitas sobre o erro de um LLM juiz em avaliações pareadas. A ideia central é simples de enunciar e difícil de executar, aceitar apenas julgamentos cuja taxa de erro esperada entre os aceitos seja menor ou igual a um nível alvo α. Em vez de forçar o modelo a decidir sempre, eles adotam predição seletiva, permitindo que o juiz se abstenha quando a incerteza for alta.
Aqui nasce o SCOPE, Selective Conformal Optimized Pairwise Evaluation. O framework usa calibração conformal para escolher um limiar de incerteza que maximize cobertura, mas respeite uma restrição de risco marginal. Em termos práticos, você define algo como α = 0.10 e o sistema garante que, entre os julgamentos aceitos, o erro não ultrapasse 10 por cento sob hipótese de exchangeabilidade.
Mas garantir risco não adianta se a medida de incerteza estiver contaminada por viés de posição. É aqui que surge o Bidirectional Preference Entropy, ou BPE. A sacada é consultar o juiz duas vezes, uma com a resposta A primeiro e outra com a resposta B primeiro, agregando as probabilidades de preferência de forma invariante à permutação.
BPE como espelho do multiverso Marvel
Ao calcular a probabilidade de A vencer B nas duas ordens e depois fazer a média, os autores neutralizam efeitos sistemáticos de posição. Se o modelo prefere sempre a primeira resposta por hábito, a discrepância entre forward e reverse aparece como entropia maior. A incerteza final é a entropia binária dessa probabilidade agregada, atingindo máximo quando o modelo está dividido meio a meio.
Isso transforma inconsistência estrutural em sinal explícito de risco. Em vez de confiar cegamente no softmax máximo, o BPE penaliza confiança que depende da ordem, algo como testar um personagem em dois mapas diferentes antes de concluir que ele é realmente OP. O impacto social é claro, reduzir julgamentos arbitrários que podem influenciar rankings, políticas de deploy e até decisões de pesquisa.
Sem SCOPE, o juiz vira chefão bugado no fim do jogo
Imagine continuar usando LLMs como juízes sem qualquer controle formal de risco. Vanilla prediction aceita tudo, cobertura total, mas erro também sem limites, como liberar friendly fire em um FPS competitivo. Heurísticas de threshold podem parecer razoáveis, mas não oferecem garantia finita, e sob nova amostra podem ultrapassar o risco alvo como se o meta tivesse mudado de patch para patch.
Sem algo como SCOPE, você pode achar que está operando com 10 por cento de erro quando na verdade está em 20 ou 25 por cento. Em benchmarks como MT-Bench, isso significa distorcer rankings e enviesar conclusões científicas. Em pipelines de RLHF, significa treinar modelos sobre rótulos sistematicamente errados, acumulando dívida técnica invisível.
É como usar um oráculo em um RPG que às vezes mente, mas você nunca mede quantas mentiras ele conta. A confiança vira fé cega, e fé cega em IA já sabemos onde termina.
Engenharia do SCOPE como raid organizada em MMO
Agora vamos abrir o capô e dissecar o método com lupa técnica. O problema é formulado como julgamento pareado binário, com espaço de rótulos A ou B. O modelo define uma distribuição Pθ(y | x), e a decisão seletiva aceita a predição apenas se a incerteza s(x) estiver abaixo de um limiar λ.
Predição seletiva como modo hardcore em Diablo
A função seletiva retorna o rótulo estimado quando s(x) ≤ λ e abstém caso contrário. Isso já muda o jogo, pois reconhece que alguns casos são simplesmente difíceis. O indicador de seleção e o indicador de erro são combinados para definir uma taxa de falso descobrimento marginal, controlando a razão entre erros esperados e decisões aceitas.
A meta não é minimizar erro global, mas garantir que entre as decisões aceitas o erro seja limitado por α. É uma mudança de mentalidade, trocar acurácia média por confiabilidade condicional. Isso lembra modos hardcore onde só contam as runs que você decide enfrentar, e você precisa garantir que a taxa de morte nessas runs seja controlada.
Linearização como feitiço de estabilização estatística
Controlar diretamente uma razão é instável quando poucas decisões são aceitas. Inspirando-se em Wang et al, os autores usam uma perda linearizada L(x, λ) = S(x, λ) · (E(x) − α). Cada acerto aceito contribui negativamente com −α, construindo margem de segurança, enquanto cada erro aceito contribui com 1 − α, drenando essa margem.
No conjunto de calibração, impõe-se que a soma dessa perda seja menor ou igual a −1. Essa correção finita garante validade sob exchangeabilidade, como se você exigisse uma margem mínima de pontos antes de avançar para a próxima fase. O limiar escolhido é o maior que satisfaz a restrição, maximizando cobertura sem violar o orçamento de risco.
Prova de validade como contrato arcano em D&D
Sob exchangeabilidade entre calibração e teste, o teorema garante que a FDR marginal no teste é menor ou igual a α. A prova usa argumento clássico de simetria, equiparando expectativa no ponto de teste à média sobre todos os pontos. A condição de soma menor ou igual a −1, combinada com o fato de que a perda linearizada é estritamente menor que 1, assegura expectativa negativa.
Isso fecha o contrato estatístico. Se ninguém trapacear na distribuição, o limite de risco vale. É uma cláusula mágica que só funciona enquanto o mundo não muda de forma adversarial.
Resultados: números que expõem o hype como vilão mascarado
Agora chegamos à parte que separa teoria elegante de prática brutal. Os experimentos usam MT-Bench, RewardBench e Chatbot Arena, com 2000 instâncias não empatadas e splits 50/50 repetidos 1000 vezes. Os juízes variam de Qwen-7B até Llama-70B, cobrindo escalas diferentes como se fossem classes distintas em um MMORPG.
BPE contra softmax máximo como duelo de sabres
Em MT-Bench com Qwen-7B, a acurácia com probabilidade preditiva foi 0.731 e ECE 0.239, enquanto BPE manteve acurácia 0.738 e reduziu ECE para 0.143. A AUROC subiu de 0.658 para 0.685, e AUPRC de 0.824 para 0.855, ganhos modestos mas consistentes, como aumentar dano crítico em alguns pontos percentuais que acumulam ao longo da raid.
Com Qwen-14B em RewardBench, BPE alcançou acurácia 0.874 e ECE 0.103, superando probabilidade preditiva com ECE 0.140. A AUROC saltou para 0.809 e AUPRC para 0.970, números que indicam melhor separação entre acertos e erros, como melhorar o matchmaking para evitar partidas desbalanceadas.
BPE contra anotadores simulados como squad otimizada
Jung et al propuseram anotadores simulados usando múltiplas personas. Em Qwen-14B no MT-Bench, anotadores simulados tiveram AUROC 0.600, enquanto BPE atingiu 0.777. Esse salto é como trocar uma party descoordenada por uma lineup meta otimizada, aumentando drasticamente a capacidade de identificar decisões arriscadas.
Além disso, BPE exige apenas duas forward passes, enquanto anotadores simulados requerem múltiplas gerações com few-shot, custo computacional muito maior. Em termos de eficiência, é como usar build otimizada em vez de spam aleatório de skills.
SCOPE versus baselines como batalha final
Com α = 0.10 em MT-Bench, Vanilla prediction teve risco 0.269 para Qwen-7B, quase três vezes o orçamento. Heuristic thresholding reduziu para 0.251, ainda muito acima. O baseline Naïve ficou em 0.116, ultrapassando o limite de 0.10.
SCOPE, por outro lado, manteve risco em 0.097 com cobertura 0.246. Parece pouco aceitar apenas cerca de 25 por cento, mas é mais que o dobro do Naïve, que aceitou 0.102 com risco 0.116. Em RewardBench com Qwen-32B, SCOPE atingiu cobertura 0.983 com risco 0.098, quase full clear com limite respeitado.
Em Chatbot Arena com Llama-70B, SCOPE alcançou cobertura 0.583 com risco 0.099, enquanto Vanilla tinha risco 0.198. É a diferença entre jogar ranked com limite de erro controlado e simplesmente apertar play esperando que o sistema não colapse.
Curvas risco-cobertura como progressão de personagem
À medida que α aumenta de 0.05 para 0.25, cobertura cresce monotonicamente no nível de sistema. Para Qwen-7B em MT-Bench, cobertura vai de 0.018 a 0.991, mostrando trade-off claro entre rigor e utilidade. Modelos maiores como Llama-70B sustentam cobertura maior em níveis estritos, refletindo maior capacidade intrínseca.
As bandas de variância mostram que modelos menores têm maior instabilidade entre splits, especialmente para α altos. Mesmo assim, as curvas médias permanecem abaixo da diagonal y = x, indicando validade consistente. Isso sugere que SCOPE não está sendo excessivamente conservador, mas usando quase todo o orçamento de risco permitido.
A hype da IA adora juízes infalíveis, mas estatística não perdoa
A indústria ama narrativa de que LLMs já substituem humanos como avaliadores confiáveis. Leaderboards são tratados como campeonatos mundiais, ignorando que os juízes podem estar enviesados ou mal calibrados. SCOPE expõe que, sem garantias formais, estamos apenas acumulando confiança estética.
Controle de risco não é glamouroso. Não vira manchete no Twitter, não gera demo chamativa, mas é o tipo de fundação que impede castelos de cartas de desmoronar. Se você acha que softmax alto é sinônimo de verdade, está confundindo efeito visual com realidade estatística.
Rumo ao endgame: avaliação com garantias em vez de fé algorítmica
O trabalho abre portas interessantes. Extender garantias seletivas para ranking com múltiplas respostas ou scoring aberto é desafio digno de arco final de anime. Adaptar BPE para cenários black-box, onde logits não estão disponíveis, é outro boss que precisa ser derrotado.
Também é crucial lidar com shift de distribuição, já que exchangeabilidade é premissa forte. Em ambientes dinâmicos como Chatbot Arena, onde prompts e modelos evoluem, manter validade é como tentar manter equilíbrio de meta em jogo online que muda a cada patch.
Se você é pesquisador em IA e quer fugir da hype superficial, SCOPE oferece uma lente mais madura. Ele não promete perfeição, mas promete limites claros, algo raro em discussões sobre LLMs. Leia o paper completo, estude as provas e experimente aplicar controle de risco nos seus próprios pipelines, porque no fim das contas, quem controla o erro controla o jogo.
Categoria
Lista de tags
[IA na veIA nº 48] A queda do Roshan: o jailbreak que quebrou o high ground dos LLMs
[IA na veIA nº 47] A hierarquia oculta que governa a previsibilidade da linguagem
[IA na veIA nº 46] Do fine-tuning ingênuo ao subespaço estratégico: a revolução do LoRA no…