[IA na veIA nº 3] O sabre de luz das LLMs: como domar a força bruta da inferência especulativa antes que ela vire o Darth Vader da latência

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Efficient Speculative Decoding for Llama at Scale: Challenges and Solutions
Link do paper

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Visão geral do paper

A corrida por LLMs mais rápidas e escaláveis está longe de ser uma missão concluída. A cada nova geração, vemos modelos maiores, contextos mais longos e capacidades mais impressionantes, mas também um dragão faminto de recursos computacionais que ameaça engolir qualquer GPU desprevenida.

Desde que Vaswani et al nos deram os Transformers, o mundo da IA mergulhou em um jogo que mistura o “grind” infinito de um MMORPG com a corrida armamentista de Star Wars: mais poder, mais parâmetros, mais tokens — mas também mais custo, mais latência e mais complexidade. E não estamos falando apenas de treino; a inferência é onde a mágica precisa acontecer sob pressão, e é exatamente aí que os gargalos aparecem.

Achiam et al mostraram que a escalabilidade dos modelos é quase uma lei da física do machine learning moderno: quanto mais parâmetros e dados, melhores resultados — até o ponto em que o custo de geração começa a corroer qualquer ganho de qualidade. Grattafiori et al trouxeram ao palco a família LLaMA 3, provando que há espaço para otimizações arquiteturais e de pré-treino.

Mas quando a cena muda para a produção, o enredo é outro: cada milissegundo conta, cada requisição é um duelo de sabres de luz contra o tempo, e cada pipeline de inferência é um campo de batalha entre a teoria elegante e a realidade caótica.

Dao et al avançaram com o FlashAttention, que já virou praticamente um feitiço padrão no grimório de qualquer engenheiro de LLMs, cortando a ineficiência de memória como uma lâmina vibrando em alta frequência. Rabe & Staats exploraram caminhos mais econômicos para a atenção, enquanto Baines et al apostaram no fully-sharded data parallel como forma de distribuir o fardo colossal dessas redes.

Zhong et al e Qin et al trouxeram a ideia de disaggregated inference, separando o pré-preenchimento (prefill) e o decoding como quem divide uma raid em classes e funções específicas para maximizar DPS.

No campo específico da inferência especulativa, Leviathan et al e Chen et al reacenderam uma esperança quase “Saiyajin” de aceleração: prever vários tokens com um modelo menor e validar tudo de uma vez com o modelo principal. Parece truque Jedi, mas a verdade é que, fora dos benchmarks controlados, a execução dessa técnica no mundo real é mais complicada que gerenciar o cooldown de 20 habilidades no meio de um boss fight.

Cai et al, Miao et al e Li et al trouxeram variações dessa estratégia, mas quase sempre testando em cenários “de laboratório” com batch size minúsculo, evitando encarar o caos do tráfego real.

Holtzman et al lembraram que geração de texto não é apenas sobre velocidade; a qualidade e a diversidade da saída importam, e métodos como top-p sampling e nucleus sampling são essenciais para evitar “neural text degeneration”. Jeon et al propuseram sampling sem reposição para drafts em árvores, o que soa ótimo até que você precise rodar isso em GPUs sob carga pesada, com múltiplos requests competindo por ciclos de FLOPs.

Juravsky et al, por sua vez, mostraram como compartilhar prefixes de forma eficiente pode reduzir o custo, mas ainda não resolve o dilema central: como manter a força especulativa sem deixar o sistema ajoelhado pela sobrecarga extra de cálculo.

O estado da arte até agora é um Frankenstein de técnicas: otimizações no kernel de atenção (Dao, 2023), cache de chaves/valores paginado (Kwon et al), guided decoding otimizado (Willard & Louf), e até arquiteturas desagregadas (Zhong et al) para lidar com cargas dinâmicas. Mas cada peça desse quebra-cabeça traz seu próprio custo, seja em complexidade de implementação, consumo de memória, ou limitações de hardware.

E aqui está a grande questão: por que ainda estamos lutando para fazer a inferência especulativa escalar bem? A resposta é um misto de física de hardware, limitações de arquitetura e realidades de produção.

Em baixa escala, a especulação brilha porque o gargalo é o acesso à memória, não o compute — ou seja, validar três ou quatro tokens de uma vez custa quase o mesmo que validar um. Mas em alta escala, o cenário muda: a validação em massa começa a disputar cada ciclo de GPU com outras operações, e de repente aquele ganho teórico vira fumaça.

Su et al já tinham notado essa queda no speedup conforme o batch size cresce, mas poucos exploraram soluções robustas para mitigar isso.

Outro ponto crítico vem da própria natureza dinâmica do tráfego em produção. Uma coisa é rodar um benchmark com batch size fixo e sequência pré-determinada; outra é lidar com rajadas de requests curtos, longos e imprevisíveis.

A variabilidade força sistemas a serem adaptativos — escolher árvore ou cadeia de draft conforme o batch size, ajustar kernels de atenção conforme o hardware, e até mudar o formato de cache para não explodir a memória. É como jogar LoL e ter que trocar de build no meio da partida porque o inimigo decidiu inverter a composição do time.

A academia tem feito avanços, mas a sensação é de que ainda falta coragem para encarar os “bosses” reais da inferência em escala. Não é só sobre otimizar um kernel ou treinar um draft model melhor; é sobre redesenhar o fluxo inteiro para que CPU e GPU dancem em sincronia, como um grupo de droids coreografados em uma batalha.

A Meta, no caso desse trabalho, não está apenas ajustando uma engrenagem; está reescrevendo a coreografia para que cada passo conte, removendo esperas desnecessárias, escondendo latências e fazendo com que cada token saia mais rápido sem sacrificar a integridade da saída.

No fundo, a mensagem que se desenha é clara: não existe um truque mágico único que vai resolver a escalabilidade da inferência especulativa.

O caminho é acumular otimizações como um inventário de RPG, escolhendo as certas para cada situação. E talvez o próximo salto venha não de mais FLOPs, mas de menos desperdício — algo que, como mostrou Sadhukhan et al, pode ser tão poderoso quanto aumentar o nível do personagem.

O Gandalf das GPUs: como a equipe da Meta encantou a inferência especulativa

Os autores deste trabalho fazem parte das equipes GenAI e Infra da Meta, e decidiram enfrentar de frente o Balrog da latência na inferência especulativa com EAGLE para modelos LLaMA em produção.

A motivação é clara: enquanto benchmarks acadêmicos comemoram speedups bonitos com batch size 1, o mundo real exige lidar com tráfego massivo, inputs variados e hardware que precisa estar sempre no limite sem colapsar.

A inovação central aqui está na combinação de otimizações de treino e inferência. No treino, a equipe adotou distilação online, aumento do tempo de treinamento e design de drafts densos de múltiplas camadas para melhorar o número de tokens aceitos por validação (TPC) sem aumentar demais o custo.

Na inferência, o arsenal é ainda mais vasto: otimizações em tree attention para evitar overhead de máscara, sampling multi-rodada compilado e paralelizado, reestruturação do ciclo de decoding para esconder latências, escolha adaptativa de estruturas de árvore conforme o batch size, uso de CUDA Graphs para eliminar overhead de kernel launches, e até quantização agressiva no draft para ganhar velocidade.

O impacto disso é significativo: com LLaMA 4 Maverick, por exemplo, a equipe alcançou 4 ms por token com batch size 1 em 8 GPUs H100, cerca de 10% mais rápido que o melhor método anterior, e com speedups de até 2× em batch sizes grandes.

Isso não é apenas um número em um gráfico; é a diferença entre um sistema que engasga em horários de pico e um que mantém o fluxo suave como o movimento de um sabre de luz bem calibrado.

O apocalipse da latência que quase foi: como seria sem essas descobertas

Sem essas otimizações, a história seria sombria. Imagine um MMO onde cada skill tem um cooldown extra imposto pelo servidor porque a validação dos tokens leva mais tempo do que o esperado. Requests se acumulam, GPU ociosas em momentos críticos, throughput despencando e custos operacionais subindo como a temperatura de um sabre de luz no modo turbo.

No pior cenário, a inferência especulativa não escalaria para batch sizes altos, tornando-a praticamente inútil para tráfego real. Isso significaria voltar ao decoding tradicional em cenários de alta demanda, com aumento de latência que poderia facilmente dobrar ou triplicar o tempo de resposta.

Serviços interativos, como chatbots ou sistemas de completude de código, perderiam competitividade e fluidez. A promessa de acelerar a geração sem sacrificar qualidade cairia como a Estrela da Morte no final do Episódio VI.

O modo “árvore do mundo” da inferência: a engenharia por trás do método

A magia das árvores bem podadas

O EAGLE usa drafts em forma de árvore, mas árvores completas não são sempre ideais. A equipe implementou um “tree dispatcher” que escolhe a melhor estrutura estática para cada batch size. Em batch pequeno, árvores maiores aumentam TPC; em batch grande, a poda evita custo excessivo. É literalmente como escolher a build certa em um jogo de estratégia para enfrentar o inimigo do momento.

Tree attention sem sobrecarga Sith

A tree attention otimizada divide o cálculo em prefixo e sufixo, aplicando máscara apenas onde necessário. Isso corta overhead e mantém a performance estável, mesmo com árvores mais complexas. É como mirar com precisão de sniper ao invés de gastar munição em tiros dispersos.

Sampling multi-rodada turbinado

O sampling multi-rodada foi compilado com PyTorch 2, com paralelização entre ranks e uso de greedy decoding para eliminar operações desnecessárias como top-p masking no draft. Menos magia negra, mais eficiência bruta.

Latência escondida como ninjas na sombra

O ciclo de decoding foi reestruturado para sobrepor tarefas de CPU e GPU, removendo pontos de sincronização inúteis. Essa coreografia oculta latências, melhora o tempo para o primeiro token (TTFT) e mantém o GPU sempre com trabalho, como um raid boss que nunca para de atacar.

O “grind” experimental: datasets, métricas e resultados

Treino como farm de XP

Quatro modelos base foram usados: LLaMA 3.1 8B, LLaMA 3.3 70B, LLaMA 4 Scout e LLaMA 4 Maverick. Os drafts foram treinados com distilação online, 48k iterações e 2M tokens por iteração, usando Adam e datasets de SFT. Métrica principal: tokens aceitos por chamada (TPC) no MT-Bench e benchmarks internos.

Resultados dignos de loot lendário

TPCs acima de 2.75 em todos os modelos, superando ou igualando métodos anteriores mesmo com speculation length menor. Com quantização INT4 no draft, latência de drafting caiu até 17% sem perda significativa de TPC.

Speedups em campo

Speedup de até 2× em produção, especialmente notável nos modelos menores, mas também com ganhos consistentes em cenários de batch grande para os modelos gigantes. A performance se manteve estável em diferentes comprimentos de sequência (1k a 8k tokens).

O feitiço da hype reversa

É tentador vender a inferência especulativa como a solução definitiva, mas a realidade é mais parecida com um artefato poderoso que só funciona quando usado por um mago experiente. Os números impressionam, mas dependem de uma sinfonia de ajustes, desde o kernel até a arquitetura de deploy.

E mesmo assim, há limites físicos que não podem ser ignorados — o gargalo de memória e a competição por FLOPs ainda estarão lá.

Que a força seja com quem ousar enfrentar a escalabilidade

O que este trabalho mostra é que é possível domar a inferência especulativa em larga escala, mas isso exige uma engenharia minuciosa e adaptativa. Não é receita de bolo; é uma arte marcial, onde cada movimento conta e a coordenação entre treino, inferência e infraestrutura é o que define a vitória.

A próxima geração de avanços talvez não venha de mais parâmetros ou de contextos ainda maiores, mas de sistemas que sabem usar cada milissegundo como se fosse um cristal kyber único.

IA na veIA

A melhor IA para corretores do Brasil: como contratar

Inteligência artificial para corretores: o sucesso das vendas no setor imobiliário

A melhor IA para líderes do Brasil: como contratar

Inteligência artificial para líderes: o guia para o sucesso empresarial