IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Localmax dynamics for attention in transformers and its asymptotic behavior
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A comunidade de IA anda obcecada por resultados. Quanto mais benchmarks um modelo quebra, mais manchetes ele ganha. Mas em meio à corrida por GPUs e papers acelerados, tem uma pergunta que muita gente prefere ignorar: como, de fato, a atenção das Transformers funciona? A resposta, como sempre, não está nas curvas de validação. Está na matemática que ninguém quer encarar.
Transformers se tornaram o padrão de ouro em NLP desde Vaswani et al. A explosão dos LLMs só consolidou esse domínio. Modelos como BERT, GPT, T5 e seus mutantes geracionais redefiniram o que entendemos por “entendimento de linguagem”. Mas essa revolução também trouxe consequências: o foco na performance ofuscou a compreensão teórica dos mecanismos internos. Estamos usando sabres de luz sem entender o cristal Kyber que os alimenta.
Os primeiros esforços para modelar a atenção como um sistema dinâmico vieram com Geshkovski et al, ao propor uma analogia com sistemas de partículas interagentes. O modelo contínuo de atenção baseado em softmax abriu caminho para uma nova interpretação matemática da dinâmica de tokens. Essa linha foi estendida em Rodríguez Abella et al, que mostraram convergência em certos regimes com normalizações específicas.
O desafio é que, mesmo com essas interpretações, o softmax ainda esconde suas intenções. Ele é suave demais, permite influências de baixa intensidade que, na prática, são ruído. Por outro lado, a versão extrema — o hardmax — que só permite que um token influencie outro se for o mais alinhado, é simplista demais. Serve bem para simular comportamento determinístico, mas perde nuances cruciais de como a atenção funciona em redes reais.
Foi nesse vácuo que Alcalde et al propuseram uma versão discreta e determinística do hardmax. Embora mais preciso em caracterizar os pontos de convergência da dinâmica, esse modelo ignora completamente as pequenas influências que tornam a atenção flexível. O resultado? Modelos que convergem rápido, mas que não têm a riqueza de comportamento dos sistemas reais.
Tentativas de sair da dureza do hardmax sem cair na suavidade absoluta do softmax vieram com ideias como Sinkformers (Sander et al), que impõem restrições de estocasticidade na matriz de atenção via Sinkhorn, e Linformers (Wang et al), que reestruturam a atenção para impor baixa rankabilidade. Mesmo a ideia de atenção clusterizada de Vyas et al tenta antecipar a formação natural de grupos, um fenômeno que ocorre até em modelos clássicos como os opinion dynamics de Hegselmann-Krause.
Mas todos esses métodos compartilham uma falha crítica: ignoram o comportamento assintótico da atenção em longo prazo. Como apontado por Dong et al, a rankificação colapsa exponencialmente sem conexões residuais. Ou seja, sem entender a geometria da atenção em tempo assintótico, estamos construindo castelos de areia.
A verdadeira pergunta que ninguém responde é: como projetar uma dinâmica de atenção que capture o melhor dos dois mundos — a seletividade do hardmax e a flexibilidade do softmax — sem cair nos extremos de ambos? A resposta começa com o que esse novo trabalho propõe.
O Gollum da atenção: uma dinâmica entre dois extremos
Cimetière et al propõem uma nova abordagem chamada localmax dynamics. O objetivo é capturar a riqueza do softmax sem abrir mão da estrutura determinística do hardmax. Eles introduzem um parâmetro de “sensibilidade de alinhamento”, que regula a tolerância a desvios do alinhamento máximo. Em outras palavras, eles criaram um Gollum matemático: uma criatura instável entre dois extremos — não inteiramente soft, nem completamente hard.
A motivação é clara: ao invés de permitir que qualquer token com pequena influência afete outro (como no softmax), ou restringir a interação apenas ao mais influente (como no hardmax), o localmax permite que vizinhos próximos ao máximo participem. A chave está na faixa de tolerância, definida pelo parâmetro δ, que cria uma “faixa de aceitação” em torno do vetor mais alinhado.
Se isso soa como a zona de proximidade de um DPS melee em uma raid de World of Warcraft — é porque é exatamente isso. Só ataca quem está na zona, mas a zona não é um único pixel. Ela é uma área de influência.
Mais do que uma interpolação entre hardmax e softmax, essa proposta desafia o paradigma sobre como tokens interagem. Com δ = 0, voltamos ao hardmax. Com δ → ∞, temos algo próximo ao softmax. Mas no meio? Um novo regime surge, com propriedades próprias, diferentes de ambos.
O colapso sem o localmax: se não entendermos isso, estamos mortos
Sem o localmax, estamos voando no escuro. A ausência de mecanismos intermediários entre hard e soft torna impossível modelar a transição de comportamento nas Transformers reais. Imagine jogar uma partida de LoL com apenas duas possibilidades de dano: 0 ou 100%. Ou você erra completamente ou acerta o crítico da sua vida. É assim que o campo trata a atenção hoje.
O problema vai além da modelagem. Sem entender como a atenção se estabiliza — ou pior, se ela converge — nunca vamos ter segurança sobre o comportamento assintótico dos LLMs. Isso afeta a interpretabilidade, a segurança e a possibilidade de controle.
Se as trajetórias de tokens em sistemas reais podem convergir para pontos fora do conjunto de alinhamento máximo, estamos criando modelos com comportamento emergente que sequer entendemos. É como treinar um Charizard que, de repente, resolve virar um Squirtle no meio da batalha.
O feitiço do alinhamento: como o localmax funciona sob a pele
O sistema proposto parte de uma equação discreta simples:
xᵢ(t+1) = xᵢ(t) + α/(1+α) * média dos vizinhos em Cᵢ(t) – xᵢ(t)
Mas o segredo está em como Cᵢ(t) é definido. Em vez de pegar apenas os tokens com máxima influência sobre xᵢ, ele aceita todos os tokens cuja influência esteja dentro de uma margem δ do máximo. Essa “strip” ao redor do máximo define um conjunto mais generoso de vizinhos.
A faixa de aceitação da Força
Essa faixa se comporta como um sabre de luz: não é só uma linha, é um feixe com densidade variável. Tokens dentro da faixa contribuem, mas a influência decai fora dela. A intuição é que, conforme δ aumenta, mais tokens entram no conjunto Cᵢ(t), suavizando a atenção. Conforme δ diminui, a atenção se concentra no máximo, endurecendo a dinâmica.
A geometria da atenção: convergência a politopos
A principal propriedade do sistema é que a envoltória convexa dos tokens converge para um polígono convexo. Em vez de colapsar em um ponto (como nas dinâmicas de consenso), os tokens se espalham sobre os vértices de uma estrutura geométrica complexa — uma espécie de Hyrule poligonal da atenção.
A surpresa: conjuntos quiescentes
O paper mostra que, perto dos vértices desse polígono, existem regiões onde tokens ficam presos para sempre — os chamados quiescent sets. Uma vez dentro dessas zonas, eles nunca mais saem. É como entrar na Zona Fantasma em Superman: você entrou, não sai mais.
A luta contra o tempo: experimentos que desafiam o limite do hardmax
Nos experimentos, os autores mostram como a dinâmica localmax gera comportamentos mais ricos do que o hardmax ou softmax isoladamente.
A simulação do campo de batalha
Com configurações iniciais aleatórias de tokens em duas dimensões, eles comparam três dinâmicas: softmax, hardmax e localmax. O resultado é uma dança de partículas em que o softmax explora amplamente, o hardmax congela rapidamente, e o localmax segue uma trajetória intermediária, mas com geometria mais estável.
Convergência sem fim: o paradoxo temporal
Outro resultado forte é que a dinâmica localmax nunca converge em tempo finito, mesmo que os tokens se estabilizem. Isso é radicalmente diferente das dinâmicas de opinião como Hegselmann-Krause, que sempre colapsam em tempo finito. Aqui, a convergência é assintótica. Você nunca zera a barra de vida do boss, só se aproxima dela infinitamente.
Quando δ → 0: o retorno ao hardmax
O paper também mostra que, quando δ tende a zero ao longo do tempo, a dinâmica localmax converge para os mesmos pontos do hardmax. Isso reforça a ideia de que o localmax é um interpolador dinâmico entre dois mundos.
O truque da Força que a hype não quer que você veja
O ponto central desse trabalho é simples: a atenção, do jeito que modelamos hoje, é uma ilusão útil. O softmax é bonito no papel, mas se comporta como um Jedi bêbado: influencia tudo com pouca convicção. O hardmax, por outro lado, é um Sith impiedoso: só ouve o mais forte e ignora todo o resto.
O localmax traz um equilíbrio. Um Anakin no auge da ambiguidade. Mas a comunidade de IA ignora isso porque não gera headlines. O que vende é o próximo modelo que bate o LAMBADA, não o entendimento profundo da geometria da atenção.
Essa é a verdadeira hipocrisia da hype em IA: celebramos modelos gigantescos sem entender as forças que os movem. Esse paper é um lembrete brutal de que, sem base teórica sólida, todo avanço é só sorte de rolagem no dado.
A Triforce da atenção: o que precisamos lembrar
Cimetière et al nos deram uma nova arma. Uma forma de entender a atenção como um sistema com fronteiras, zonas de influência e pontos de não retorno. Eles mostraram que a atenção tem uma geometria oculta, que os tokens seguem trajetórias que não são aleatórias, e que há regiões do espaço onde a dinâmica simplesmente congela.
Mais do que isso, eles provaram que, ao ajustar δ, podemos controlar a complexidade da atenção. Isso não é só matemática: é controle interpretável sobre modelos de linguagem. É a diferença entre invocar um dragão aleatório e ter um Charizard treinado no nível 100.
Se você é jovem pesquisador, preste atenção: dominar esses sistemas é mais valioso do que saber qual é o LLM da semana. A guerra não será vencida com mais camadas, mas com mais entendimento.
![[IA na veIA nº 21] O Goku da autonomia em IA: como 78 exemplos derrotaram 10.000 com pura estratégia](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 21] O Goku da autonomia em IA: como 78 exemplos derrotaram 10.000 com pura…
![[IA na veIA nº 20] Entre o raciocínio de um mago e a fala de um bardo: o dilema não resolvido da IA](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 20] Entre o raciocínio de um mago e a fala de um bardo: o dilema não resolvido da…
![[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está levando a IA direto pro abismo de Moria](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está…
![[IA na veIA nº 18] O LLM é forte, mas cego: CodeRAG é o Byakugan que enxerga o repositório inteiro](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)