[IA na veIA nº 25] As relíquias da linguagem: SIPIT é a pedra da ressurreição dos prompts

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Language Models are Injective and Hence Invertible
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

Transformers são frequentemente retratados como caixas-pretas cheias de não-linearidades, mecanismos de atenção complexos e normalizações que, em tese, destroem informação. A crença dominante na comunidade científica — de Sutton a Schmidhuber — é que o mapeamento entre texto de entrada e estados internos é inerentemente lossy. Em outras palavras, a ideia de recuperar exatamente o que entrou em uma LLM a partir dos embeddings finais soa tão absurda quanto ressuscitar Darth Vader da lava de Mustafar.

Mas a realidade começa a rachar.

Os argumentos históricos que embasam essa visão pessimista têm base forte: Ba et al alertaram desde cedo sobre o colapso de informações na LayerNorm. Dong et al mostraram que pilhas puras de atenção perdem rank exponencialmente com a profundidade. Yang et al denunciaram o gargalo softmax como um limitador estrutural da expressividade de modelos. Tudo isso sugere que não há como escapar do destino trágico da perda de informação.

Por outro lado, trabalhos recentes começaram a desafiar essa visão Sith da arquitetura Transformer. Jiang & Haghtalab demonstraram que blocos modernos são, na maioria das vezes, surjetivos, ou seja, qualquer comportamento pode ser provocado com os parâmetros certos. Sutter et al foram além e mostraram que Transformers são quase sempre injetivos — mas só na inicialização e para a matriz completa de hidden states. Ainda assim, pareciam ecos distantes de uma força mais profunda.

Em paralelo, outras linhas de pesquisa abordaram a inversão do modelo como um problema prático: como extrair prompts a partir de outputs, probabilidades ou logits? Morris et al mostraram que embeddings contêm quase tanto quanto o próprio texto. Nazir et al foram criativos e comprimiram distribuições de probabilidade em embeddings, conseguindo recuperar texto com alta precisão. Mas nenhum desses métodos era exato. Nenhum oferecia garantias. Nenhum tocava diretamente no âmago da questão.

Estamos diante de uma dicotomia digna de Anakin Skywalker: os Transformers são os cavaleiros da preservação da informação ou seus maiores traidores? O trabalho analisado aqui responde com um sabre de luz afiado: Transformers são injetivos quase sempre, e isso tem consequências práticas imediatas.

O Mapa do Maroto: por dentro do paper que revela o segredo da injetividade

Nikolaou et al propõem uma tese ousada e disruptiva: Transformers decoder-only são quase sempre injetivos, mesmo durante o treinamento. Isso quer dizer que, dado o último embedding de uma sequência, podemos — em tese — recuperar exatamente o que entrou. Nada de aproximações. Nada de tentativa e erro. Estamos falando de recuperação determinística, garantida matematicamente.

A inovação aqui é dupla. Primeiro, os autores provam rigorosamente que, para praticamente todos os conjuntos de parâmetros, o modelo é lossless. Isso vale na inicialização e continua valendo durante o treinamento com gradient descent. Segundo, eles operacionalizam essa propriedade com um algoritmo chamado SIPIT, que reconstrói o prompt original a partir dos hidden states de qualquer camada. E faz isso em tempo linear. Sim, você leu certo. É como descobrir que o mapa do Maroto, do universo de Harry Potter, não só mostra quem está onde, mas também pode ser reconstruído só com a sua última dobra.

O problema que isso resolve é gigante. Até hoje, interpretabilidade e segurança em LLMs eram comprometidas pela crença de que a informação de entrada desaparecia nas entranhas do modelo. Isso alimentava desde debates éticos sobre privacidade até limitações técnicas em debugging e análise causal. Com essa injetividade provada, abre-se um novo caminho: o dos modelos reversíveis.

E o mais interessante? Os autores não usam nenhum truque esotérico. Tudo se baseia em propriedades analíticas bem comportadas das funções que compõem um Transformer: ativação analítica, LayerNorm com epsilon positivo, atenção causal. Nada além do que já está presente em modelos mainstream como GPT-2, LLaMA, Gemma, Mistral ou Phi.

O colapso da galáxia: o que aconteceria se Transformers não fossem injetivos?

Imagine um universo onde dois prompts diferentes produzissem exatamente o mesmo embedding final. Isso seria como dois planetas distintos emitindo o mesmo sinal gravitacional: impossível dizer de onde vem o ruído. Na prática, isso criaria um colapso na transparência das LLMs. Seria inviável auditar modelos, impossível garantir privacidade e um pesadelo para interpretabilidade.

Se injetividade não fosse garantida, ferramentas de análise causal como probing ou attribution se tornariam inválidas. Não poderíamos confiar que o embedding realmente representa a sequência. Estaríamos navegando no escuro, como um Jedi sem conexão com a Força.

Além disso, o cenário jurídico seria ainda mais nebuloso. Reguladores poderiam argumentar que embeddings são “anonimizados” por não reterem a entrada original. Mas, com injetividade quebrada, essa defesa cairia por terra. E mais: sistemas que armazenam hidden states estariam tecnicamente armazenando o texto original, com todas as implicações legais que isso traz. A falsa sensação de privacidade evaporaria como o planeta Alderaan.

O Olho de Agamotto das LLMs: o poder analítico da injetividade

A análise do paper começa com uma premissa provocadora: as funções que compõem Transformers são suficientemente bem comportadas para garantir injetividade quase sempre. Isso significa que colisões — ou seja, dois prompts diferentes gerando o mesmo embedding — só ocorrem em um conjunto de parâmetros de medida zero. Como um bug que só aparece se você configurar seu PC como um Commodore 64, em uma noite de eclipse.

A magia da analiticidade

Toda a estrutura do Transformer — embeddings, LayerNorm, atenção, MLPs — é composta de funções real-analíticas. Isso quer dizer que elas são suaves, infinitamente diferenciáveis e com séries de Taylor convergentes. Como mostrado em Lewis, 2014, essas funções têm uma propriedade mágica: se duas entradas geram a mesma saída, isso só pode acontecer em uma região extremamente fina do espaço de parâmetros. É a versão matemática do Olho de Agamotto.

Injetividade na inicialização: um mapa sem colisões

A primeira prova mostra que, sob qualquer distribuição de inicialização com densidade (como Gaussianas ou Xavier), a chance de dois prompts colidirem é zero. Isso vem de um argumento conhecido na análise real: o zero-set de uma função analítica que não é identicamente zero tem medida zero. Basta mostrar um único caso onde dois prompts produzem embeddings distintos, e pronto: garantido.

Injetividade durante o treinamento: gradient descent não destrói a estrutura

Agora vem a parte épica. Mesmo depois de vários passos de gradient descent, o modelo continua injetivo. Como? Porque o mapeamento do parâmetro via GD é uma função real-analítica com Jacobiano não degenerado. Aplicando o Teorema da Função Inversa, mostramos que esse mapeamento preserva medida — ele pode distorcer o espaço, mas nunca colapsar dimensões. Ou seja: se começamos com uma distribuição que evita colisões, continuaremos evitando.

Robustez: SGD, mini-batch, full-batch… tudo funciona

A robustez do resultado é assustadora. Não importa se você treina com SGD, mini-batches aleatórios ou o conjunto inteiro. O argumento da analiticidade se mantém intacto. Até mesmo múltiplos passos de GD preservam essa propriedade. É como um feitiço que não pode ser quebrado, independente do número de vezes que você o lançar.

SIPIT: o jutsu proibido de reconstrução exata

O teorema é poderoso, mas o que o transforma em jutsu proibido é o algoritmo SIPIT. Trata-se do primeiro método capaz de reconstruir exatamente o prompt original, token por token, a partir dos hidden states de qualquer camada. Sem treinamento adicional. Sem aproximações. Com garantia de tempo linear.

SIPIT como o Rasengan das LLMs

O algoritmo é quase óbvio, uma vez que entendemos a estrutura causal do Transformer. A cada passo, o hidden state depende apenas dos tokens anteriores e do token atual. Então, para recuperar o token t, basta fixar o prefixo conhecido e testar todos os tokens possíveis. A injetividade garante que só um baterá com o hidden state observado.

O SIPIT então itera sobre os tokens, comparando os embeddings produzidos por diferentes candidatos com o embedding observado. Encontrado o match, avança. Em até |V| * T passos, a sequência completa é reconstruída. Na prática, com boas heurísticas (como busca orientada por gradiente), o algoritmo converge muito mais rápido.

Propriedade estrutural, não acidente

O mais fascinante é que essa reconstrução não depende da inicialização, do modelo, do treinamento. Ela é consequência estrutural do design Transformer. SIPIT funciona porque a arquitetura permite. Se o modelo fosse treinado aleatoriamente, ainda funcionaria. É como descobrir que o Sharingan já estava nos genes do Sasuke, não importa quantas vezes ele treine.

Testes de colisão: provando que dois prompts nunca se tocam

Para validar tudo isso empiricamente, os autores fazem o que nenhum Sith esperaria: testam bilhões de pares de prompts em busca de colisões. Nada. Zero. Nem um único par colidiu.

Collisions? Not even close

Foram 100 mil prompts retirados de Wikipedia, C4, The Pile e código do GitHub. Para cada par distinto, mediu-se a distância L2 entre os embeddings finais. Mesmo nos modelos menores — GPT-2 Small, TinyStories — os valores ficaram muito acima do limiar de colisão (10⁻⁶). Em modelos maiores como LLaMA-3, Gemma-3 ou Mistral-7B, as distâncias chegaram a 9.0. Em termos geek: é como comparar um Ewok com um AT-AT.

Quanto maior o modelo, maior a separação

Curiosamente, as distâncias mínimas aumentam com a profundidade. Ou seja: quanto mais camadas, mais separáveis ficam os embeddings. Um paradoxo fascinante. A ideia de que camadas profundas “colapsam” informação é desmentida. Elas, na verdade, a expandem.

SIPIT na prática: tempo linear, recuperação perfeita

Usando apenas os hidden states, o SIPIT reconstrói 100% dos prompts com exatidão. Runtimes médios de 28 segundos em uma A100. Enquanto abordagens como HardPrompts falham ou demoram horas, SIPIT acerta em cheio. É como se a lâmina de Sephiroth atravessasse qualquer tentativa de obfuscação.

A Matrix está bugada: e se tudo que sabíamos sobre LLMs estivesse errado?

Estamos vivendo uma quebra de paradigma. Por anos, fomos ensinados que modelos de linguagem são irreversíveis. Que embeddings não são o texto. Que privacidade é garantida porque ninguém consegue voltar do embedding para a entrada original. Bem-vindo à Matrix: tudo isso era ilusão.

Privacidade? É só aparência

Se embeddings contêm 100% da informação do prompt, armazená-los ou transmiti-los é, na prática, o mesmo que guardar o texto. Isso destrói o argumento de “anonimização”. Reguladores como o HmbBfDI, que alegam que pesos não contêm dados pessoais, vão precisar repensar. A reversibilidade é um fato técnico, não uma hipótese. A criptografia fraca caiu.

Interpretabilidade não tem mais desculpa

Se o probe falha, o problema é do probe, não do modelo. Toda a informação está lá. SIPIT é o novo baseline. Interpretabilidade não pode mais se esconder atrás da cortina do “colapso de informação”. A responsabilidade voltou para os humanos.

A Triforce da reversibilidade: reflexão final sobre a nova era das LLMs

Transformers sempre foram tratados como oráculos intransponíveis. Este trabalho prova que eles são, na verdade, espelhos fiéis. Toda a informação de entrada está lá, escondida no último hidden state. Nada é perdido. Nada é colapsado. Tudo é reversível.

Isso muda tudo. A ética da coleta de embeddings. A engenharia de interpretabilidade. A regulação de dados sensíveis. A definição do que é, de fato, anonimizado.

Mas, mais do que isso, desafia a visão derrotista da comunidade. Não estamos lidando com caixas-pretas mágicas. Estamos lidando com estruturas matematicamente estáveis, injetivas, auditáveis. A próxima geração de LLMs não precisa mais fugir da transparência. Ela pode abraçá-la.

Se SIPIT é o sabre de luz da reversibilidade, cabe a nós decidir se vamos usá-lo como Jedi… ou como Sith.

IA na veIA

O melhor palestrante de marketing digital no Amazonas, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital no Amapá, Celso Sousa, ensina como usar marketing digital…

O melhor palestrante de marketing digital no Acre, Celso Sousa, ensina como usar marketing digital…

[IA na veIA nº 30] Do multiverso cognitivo ao modelo unificado: a revolução do multi-brain-tuning