[IA na veIA nº 2] O sabre de luz das LLMs que prevêem vários golpes antes do duelo começar

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential
Link do paper

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Visão geral do paper

A corrida para acelerar LLMs parece cada vez mais uma partida ranqueada em League of Legends onde todos escolhem campeões com ultimates poderosos, mas ninguém presta atenção no tempo de recarga.

Desde o trabalho de Radford et al, que consolidou o treinamento autoregressivo como padrão, o foco foi sempre maximizar a precisão do próximo token.

Brown et al mostraram que isso funcionava absurdamente bem para tarefas de compreensão e geração, criando a sensação de que não havia alternativa melhor.

Mas essa obsessão pelo próximo passo, sem considerar saltos múltiplos, criou um gargalo estrutural: a geração sequencial é como andar com Yoda nas costas subindo o pântano de Dagobah — funciona, mas é lenta e exaustiva.

Nie et al trouxeram uma provocação interessante ao explorar modelos de linguagem baseados em difusão, mostrando que o salto não precisa ser linear e que podemos reconstruir trechos inteiros de forma mais paralela.

Gong et al reforçaram essa visão para código, propondo pipelines de geração que mais se parecem com crafting em MMORPGs — várias partes são produzidas em paralelo e depois combinadas no produto final. Ainda assim, esses métodos exigiam pipelines completamente novos, praticamente refazendo a forja inteira ao invés de melhorar a espada já existente.

O avanço mais prático começou com Leviathan et al e a ideia de speculative decoding: usar um modelo rascunhador e um verificador para gerar múltiplos tokens por passo. Funciona como ter um druida no seu grupo que prevê os próximos ataques do inimigo, mas ainda depende de verificação token a token — ou seja, a fila ainda anda devagar.

Cai et al deram um passo além com múltiplos heads de decodificação, mostrando que dá para acelerar bastante, mas com um custo alto em parâmetros e risco de queda na precisão. Chen et al e Liu & Zhu exploraram o uso de tokens mascarados para prever múltiplas saídas, criando uma espécie de carta armadilha no estilo Yu-Gi-Oh que antecipa várias jogadas.

O problema central é que a maioria desses métodos ou sacrifica a precisão do next-token prediction (NTP) ou adiciona componentes pesados que aumentam custo e latência. Gloeckle et al já haviam sugerido que os LLMs guardam conhecimento implícito sobre tokens futuros, mesmo que não sejam treinados explicitamente para isso.

Gerontopoulos et al confirmaram que aproveitar essa “memória do futuro” requer ajustes cuidadosos, ou o modelo começa a confundir linhas de diálogo como um NPC bugado em Skyrim.

Outro ponto negligenciado é que prever múltiplos tokens de uma vez não é só questão de velocidade; é questão de coerência. Um modelo pode prever “A força é…” e depois “fraca neste” mas juntar “planeta” e “universo” e acabar criando uma frase nonsense.

Liu et al destacaram que a coerência local e global é o calcanhar de Aquiles dessas abordagens, e que sem uma boa estratégia de sampling o resultado final degrada rápido, como uma raid sem tank.

Monea et al exploraram sampling paralelo, mas sem preservar a fidelidade total do modo autoregressivo.

Liang & Li mostraram que adaptar LoRA de forma seletiva podia preservar melhor comportamentos originais, mas suas estratégias de gating eram mais “soft” e não garantiam 100% de isolamento entre tokens NTP e MTP.

Wang et al testaram dropout em LoRA, mas de novo, sem blindagem total.

Resolver essas limitações é fundamental não apenas para desempenho, mas para segurança. Benchmarks como XSTest e HarmBench (trabalhados por outros grupos) mostram que aceleração sem preservação de comportamento pode aumentar o risco de outputs nocivos, especialmente em contextos de jailbreak.

Manter precisão e alinhamento ético enquanto se aumenta velocidade é como tentar upar velocidade de ataque sem perder armadura em um MOBA: requer build balanceada e precisa.

A importância de resolver essas falhas vai além do academicismo. Imagine um modelo de suporte médico que pode prever diagnósticos em lote mas começa a errar no terceiro item da sequência. Ou um sistema de atendimento jurídico que acelera respostas, mas comete deslizes de coerência a cada cinco tokens. O ganho de tempo se torna irrelevante se a confiabilidade cai.

Essa é a grande provocação trazida pela bibliografia recente: a próxima revolução das LLMs pode não estar no tamanho ou na quantidade de parâmetros, mas na forma como otimizamos o fluxo de geração para olhar mais de um passo à frente, como um mestre de xadrez que vê não só o próximo movimento, mas a partida inteira.

O Mago Supremo das Previsões Múltiplas

Mohammad Samragh et al atacam esse problema com uma proposta que é quase um feitiço arcano: usar máscaras no final do prompt para extrair múltiplos tokens futuros que o modelo já “sabe”, mas não revela de forma direta.

A sacada é não trocar a arma, mas colocar um encantamento nela — eles preservam todo o comportamento NTP original usando Gated LoRA, que atua como uma barreira mágica que só abre para tokens mascarados.

Eles também adicionam um módulo sampler leve, um MLP de duas camadas, que garante que a sequência prevista tenha coerência, evitando que o modelo crie frases Frankenstein. Esse sampler é como um bard em D&D que coordena o grupo para manter o ritmo da música — cada token gerado depende do anterior, mas com um toque de liberdade criativa.

A inovação resolve dois problemas de uma só vez: mantém a precisão do NTP intacta e libera o potencial de previsão paralela já embutido no modelo. Não é um rework completo do campeão, é um buff específico que muda o meta.

O que aconteceria se não tivéssemos esse feitiço

Sem essa abordagem, estaríamos condenados ao caminho linear, token a token, como se cada jogada no xadrez fosse feita com um delay de 10 segundos. Mesmo speculative decoding tradicional sofreria com rejeição alta de tokens, limitando o ganho real. Para tarefas como código ou matemática, onde a previsibilidade é alta, perder essa aceleração seria como lutar contra o chefe final com metade do DPS disponível.

Em contextos críticos, como detecção de jailbreak ou filtragem de conteúdo nocivo, a ausência de uma estratégia estável de múltiplos tokens significaria aceitar mais lentidão ou arriscar incoerência. É o equivalente a ter um firewall que só bloqueia um pacote por vez, enquanto o ataque vem em rajadas.

O grimório das técnicas para conjurar tokens múltiplos

Máscaras como runas mágicas

O método insere k máscaras no final ou ao longo da sequência para provocar o modelo a prever k+1 tokens de uma vez. Essas máscaras funcionam como slots de magia: são preparadas no embedding e associadas a posições específicas de atenção que impedem interferência entre blocos.

O encantamento Gated LoRA

A adaptação LoRA é ativada apenas para MTP tokens, usando uma função de gating binária. Assim, o caminho de geração NTP é intocado, como se fosse protegido por um escudo mágico. Isso evita a degradação observada com LoRA padrão.

O bardo-sampler

O sampler head recebe o token anterior e o embedding latente atual, decide a próxima nota, e mantém a melodia fluida. Isso substitui beam search pesado por algo mais ágil e coeso.

Decodificação linear vs. quadrática

A linear é mais simples, mas exige verificação total para manter os tokens especulados. A quadrática, com máscaras intercaladas, garante um fluxo constante de k tokens a verificar, como um portal de invocação que nunca fecha.

Perda de consistência latente

Inspirada em distilação, essa loss aproxima representações MTP das NTP, reforçando que prever múltiplos tokens não é improviso, mas alinhamento com o estilo original do modelo.

O campo de batalha das métricas

Experimentos em arenas variadas

Usando Tulu3-8B, k=8, e fine-tuning de 50k iterações, eles mostram que o ganho médio vai de ~1.5× a ~5.35× dependendo da tarefa. Em código e matemática, o salto é digno de um ultimate bem encaixado.

O teste de sobrevivência da precisão

Com LoRA padrão, a acurácia cai rápido no ARC-Challenge. Com Gated LoRA, a curva se mantém estável, como um escudo que nunca quebra.

O impacto de cada artefato

Ablations revelam que quadrática > linear, sampler > aumento de rank LoRA, e LCM loss melhora alinhamento e velocidade. Até ranks LoRA mínimos (1) já trazem ganhos, provando que a magia já estava no grimoire — só precisava ser conjurada.

A hype como um boss disfarçado

A indústria adora métricas de velocidade como adora DPS alto, mas ignora se o tank aguenta o tranco. Muitos métodos prometem aceleração mas não falam da queda de coerência, do aumento de risco ou do custo real de GPU. É como vender uma espada lendária que quebra após três golpes.

Esse trabalho mostra que é possível acelerar sem destruir a precisão, mas também revela que não existe feitiço gratuito: gating impede fusão de parâmetros, e cada máscara extra tem limite de ganho real.

O mapa para fugir da dungeon da hype

No fim, a lição é clara: prever múltiplos tokens é como usar a Visão do Futuro de um mago — poderoso, mas perigoso se mal controlado. A aceleração não pode vir às custas da confiança no resultado, especialmente em contextos críticos. A verdadeira evolução não será só correr mais rápido, mas saber quando acelerar e quando manter o passo seguro.

A próxima fronteira pode estar em integrar isso no pré-treinamento, ou combinar com abordagens de difusão para criar híbridos ainda mais eficientes. Até lá, o meta mudou: quem dominar multi-token prediction com preservação de precisão vai liderar a próxima season das LLMs.

IA na veIA

A melhor IA para corretores do Brasil: como contratar

Inteligência artificial para corretores: o sucesso das vendas no setor imobiliário

A melhor IA para líderes do Brasil: como contratar

Inteligência artificial para líderes: o guia para o sucesso empresarial