[IA na veIA nº 34] A fusão Potara das LLMs: TiDAR mistura difusão e autoregressão como Goku e Vegeta

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

TiDAR: Think in Diffusion, Talk in Autoregression
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

No mundo das LLMs, a busca pelo equilíbrio perfeito entre velocidade e qualidade se parece com tentar montar um sabre de luz funcional: a maioria das abordagens se sacrifica por um dos lados. Os modelos autoregressivos (AR), como aqueles que geram token por token, oferecem uma precisão quase Jedi em suas respostas — mas sofrem por serem lentos, gerando uma palavra por vez. Já os modelos baseados em difusão prometem paralelismo e eficiência, mas tropeçam na qualidade, como se estivessem empunhando um sabre de luz quebrado.

Esse dilema já vem sendo debatido desde os primeiros tempos da popularização dos LLMs. Vaswani et al inauguraram o uso da atenção como base dos Transformers. Radford et al escalaram isso com os GPTs. Mas ainda assim, como pontuado por Bubeck et al, mesmo os maiores modelos sofrem com limitações operacionais sérias quando precisamos de respostas rápidas e de alta fidelidade. A velocidade de geração virou gargalo.

Wu et al mostraram que as arquiteturas AR são fortemente limitadas pela memória — elas são memory-bound, o que significa que o tempo não é gasto apenas em computar, mas em mover pesos e caches. Isso é como tentar rodar uma raid no WoW com lag de 500ms. O resultado pode ser poderoso, mas a experiência é insuportável.

Já os modelos de difusão, como os apresentados por Ye et al e Nie et al, prometem quebrar esse ciclo com geração paralela. Mas, ao tentarem gerar múltiplos tokens de uma vez, acabam introduzindo independência entre os tokens. Isso degrada a qualidade da saída, como se cada token fosse um personagem do LoL agindo por conta própria sem sinergia de equipe. O resultado é descoordenado, sem coesão.

Arriola et al tentaram mitigar isso com o Block Diffusion, e Liu et al avançaram ainda mais com Fast-dLLMs. Mas mesmo com essas propostas, o desafio continua: como alcançar um throughput de geração alto, aproveitando o paralelismo dos GPUs modernos, sem comprometer a coesão textual?

Esse contexto é o terreno perfeito para o surgimento de uma nova proposta que se comporta como um híbrido poderoso, unindo o melhor dos dois mundos — algo como o Gandalf que une magia branca e negra para vencer o inimigo.

TiDAR: O Gandalf da IA que pensa em difusão e fala em autoregressão

Fulano et al propõem uma arquitetura chamada TiDAR (Think in Diffusion, Talk in Autoregression), uma abordagem híbrida que parece saída de um plot twist do MCU. A ideia central é usar uma única passada de inferência para realizar duas coisas ao mesmo tempo: pensar (draft) em difusão e falar (sample) em autoregressão. E tudo isso com uma atenção cuidadosamente mascarada para tornar o processo leve como um golpe de sabre de luz bem calculado.

A proposta resolve um problema clássico: enquanto os modelos AR são lentos porque precisam verificar cada token individualmente, os modelos de difusão fazem tudo ao mesmo tempo, mas ignoram dependências entre palavras. O TiDAR quebra essa dicotomia criando uma divisão em três partes no fluxo de geração: prefixo, tokens propostos no passo anterior e pré-rascunhos para o próximo passo. Isso permite que o modelo utilize o cache KV de forma inteligente, aproveitando slots “gratuitos” para gerar múltiplos tokens sem penalidade de tempo.

TiDAR consegue manter a qualidade de modelos AR robustos, mas com até 5.91x mais tokens por segundo. Em outras palavras, é como se o Flash aprendesse a ser tão preciso quanto o Batman em estratégia.

Outro ponto interessante: TiDAR é auto-suficiente. Não precisa de modelos auxiliares, verificação externa ou mágicas de pré-processamento. Ele é um modelo único, com draft e sample feitos simultaneamente. Isso economiza tempo, energia e facilita o deployment em ambientes reais — especialmente aqueles que precisam de latência baixa, como chatbots, assistentes de voz ou sistemas de recomendação online.

Sem o TiDAR, a galáxia LLM ainda estaria usando hiperdrives quebrados

Imagine um cenário onde seguimos confiando apenas em ARs puros. Toda vez que queremos gerar uma resposta, o modelo caminha passo a passo, sem jamais correr. Em termos práticos, isso significa que, mesmo com GPUs ultra-avançadas como a H100, boa parte da capacidade computacional fica ociosa — como se estivéssemos usando uma Millennium Falcon limitada à velocidade de um speeder.

Sem o TiDAR, continuamos com essa dicotomia entre precisão e velocidade. Usamos difusão e perdemos coerência textual. Usamos AR e ganhamos qualidade, mas a um custo computacional absurdo. Isso afeta diretamente o acesso à IA generativa em larga escala. Em contextos reais, onde custo e tempo são variáveis críticas, essa ineficiência pode ser a diferença entre uma IA ser usada globalmente ou não.

Na prática, continuamos investindo bilhões em GPUs e memória, apenas para gerar respostas com um token por passo. É como usar o martelo do Thor para abrir uma lata de refrigerante.

Sem arquiteturas como o TiDAR, a IA generativa não escapa do paradoxo da lentidão qualitativa. Seguimos presos num ciclo de trade-offs, onde sempre sacrificamos algo. E para a sociedade, isso significa IA menos acessível, mais cara e limitada a grandes players.

A fusão Hokage da difusão com autoregressão

A máscara mágica de atenção: igual ao Sharingan, mas de tokens

TiDAR usa uma máscara de atenção especialmente projetada para fazer algo aparentemente impossível: permitir que o mesmo modelo, na mesma passada, atue como AR e difusão. Isso acontece dividindo a sequência em prefixo (tokens já aceitos), proposta do passo anterior e rascunhos para o próximo. Cada parte recebe um tipo diferente de atenção — causal para a parte AR e bidirecional para a parte de difusão.

Esse design lembra muito o Sharingan do Sasuke: ele vê o passado e o futuro ao mesmo tempo, identificando o próximo movimento. Assim como o Sharingan antecipa ataques, o TiDAR antecipa possíveis tokens futuros enquanto ainda valida os tokens presentes.

Além disso, a arquitetura usa os “free token slots” — espaços computacionais que não adicionam latência significativa durante o forward. É como usar mana grátis no LoL: parece trapaça, mas é estratégia.

Rejeição autoregressiva: o escudo do Capitão América

A parte mais crítica de manter qualidade alta é a verificação dos tokens gerados. TiDAR resolve isso com sampling autoregressivo por rejeição: o modelo verifica se os tokens propostos por difusão são aceitáveis segundo a distribuição AR. Se não forem, são rejeitados. Esse mecanismo impede que os tokens “viajem na maionese”, mantendo a coesão textual mesmo com rascunhos paralelos.

É como se o modelo estivesse jogando com cartas marcadas, mas apenas usasse as válidas. Essa verificação é o que mantém o TiDAR alinhado com os modelos AR em termos de qualidade.

Cache KV sem desperdício: igualzinho à mochila do Doraemon

Outro trunfo é a maneira como o TiDAR gerencia o cache KV. Tokens que foram aceitos no passo anterior podem reutilizar o cache. Tokens rejeitados têm seus caches descartados. Isso garante que o modelo nunca computa mais do que precisa. É uma economia brutal de recursos, essencial para aplicações em larga escala.

Parece a mochila do Doraemon: só usa o que é necessário, sem carregar peso inútil.

Treinamento Jedi: simples, direto e eficiente

No treinamento, o truque foi usar uma sequência duplicada com máscaras completas na parte de difusão. Isso evita o problema clássico da label leakage e torna o loss mais denso e equilibrado. O modelo aprende a prever o próximo token com causalidade e, ao mesmo tempo, aprende a preencher máscaras com coerência contextual.

É como se o modelo estivesse treinando com clones — cada um simulando um cenário diferente para garantir que todos os caminhos levem ao mesmo destino lógico.

A revanche dos benchmarks: TiDAR quebra os recordes como o Goku em ultra-instinto

A batalha no HumanEval, GSM8K e MBPP

TiDAR 1.5B chega com média de 7.45 tokens por forward pass. O modelo 8B atinge 8.25 tokens por forward, mantendo a qualidade altíssima. Em benchmarks como HumanEval, MBPP e GSM8K, TiDAR entrega resultados que empatam ou superam modelos como Dream, Llada e Block Diffusion — mesmo gerando múltiplos tokens por vez.

Por exemplo, no MBPP Plus, o TiDAR 8B bate 80.95% de acurácia com 10.13 tokens por forward. Em GSM8K, chega a 80.44% — um desempenho digno de um Genjutsu.

T/NFE: o KPI que importa

A métrica tokens por network function evaluation (T/NFE) é o coração da eficiência. Enquanto modelos AR ficam travados em T/NFE = 1, o TiDAR explode essa barreira com até 6.97 tokens. Isso é 6x mais tokens sem aumentar o tempo — como se o Flash descobrisse como congelar o tempo e agir múltiplas vezes em um único segundo.

Likelihood? TiDAR domina também

Como o TiDAR mantém suporte total ao modo autoregressivo, ele pode ser avaliado por likelihood direto como um AR clássico. Isso o torna comparável e confiável. Nos benchmarks de MMLU, ARC, PIQA e Winogrande, ele empata ou supera os ARs — mantendo o score e economizando inferência.

Speculative Decoding? Que nada. TiDAR supera

Comparado com EAGLE-3 (o atual campeão do speculative decoding), o TiDAR entrega mais tokens por segundo e melhor taxa de conversão de T/NFE para T/s. Isso é como se o Kratos derrotasse os deuses nórdicos e ainda fizesse isso mais rápido que o Sonic.

A profecia dos arquitetos da hype: será que a difusão venceu mesmo?

A indústria adora uma novidade com nome bonito. “Diffusion LLMs” virou buzzword, mas a maioria falha onde importa: coerência textual. Dream, Llada, até Block Diffusion… todos batem na mesma parede de qualidade. A real é que a maioria ainda não entende o que significa realmente integrar paralelismo sem perder o fio narrativo.

TiDAR expõe isso como o Batman expõe vilões que fingem ser heróis. Ele mostra que dá, sim, pra gerar tokens em paralelo e ainda manter a lógica sequencial viva. Mas não com difusão pura. A resposta está em misturar causalidade com bidirecionalidade, draft com verificação. É no meio do caminho — nesse limbo entre paradigmas — que surgem as soluções reais.

TiDAR é só o começo: o portal para as LLMs do futuro

O que esse paper mostra é só a ponta do iceberg. TiDAR prova que o caminho não é escolher entre velocidade ou qualidade. O caminho é fundir paradigmas, quebrar dogmas, explorar novas fronteiras arquiteturais. A próxima geração de LLMs precisa pensar como difusão e falar como humanos — com lógica, precisão e velocidade.

Ainda temos perguntas abertas: como escalar isso para contextos maiores? Como adaptar para tarefas multimodais? E se combinarmos com Retrieval-Augmented Generation? Há um mundo inteiro a ser explorado.

Se você é pesquisador, engenheiro ou só um geek inconformado com o status quo das LLMs, leia o paper completo. Você vai sair com ideias de novos experimentos, caminhos arquiteturais e, quem sabe, até novos papers. Esse é o tipo de pesquisa que não entrega só respostas — ela entrega armas para lutar contra a mediocridade técnica da hype.

IA na veIA

[IA na veIA nº 34] A fusão Potara das LLMs: TiDAR mistura difusão e autoregressão como Goku e…

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que…

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira