IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A pesquisa em IA vive uma crise de identidade digna de enredo de anime pós-apocalíptico. Apesar da avalanche de modelos gigantes, datasets insanos e GPUs cuspindo fogo como dragões de D&D, ainda tropeçamos no básico: como treinar representações úteis sem depender de truques esotéricos. Essa dissonância vem sendo empurrada há anos por métodos que funcionam mais por alquimia do que por ciência, como apontam Sousa et al, que questionaram a fragilidade estrutural de frameworks que dependem de equilíbrio fino de temperaturas, normalizações e arquiteturas assimétricas.
Da mesma forma, Rodrigues et al mostraram como abordagens contrastivas podem se comportar como batalhas de LoL: às vezes tudo funciona por pura coincidência de parâmetros. Enquanto isso, Almeida et al ressaltaram que modelos baseados em reconstrução, apesar de sólidos, sofrem da síndrome de “jutsu proibido”, gerando features redundantes que não capturam estrutura semântica significativa. É impressionante como a comunidade aceita esse panorama, como se estivéssemos presos num episódio filler de Naruto repetindo as mesmas técnicas, esperando resultados milagrosos.
A indústria tenta mascarar essa fragilidade com mais escala. Kimura et al indicaram que datasets crescentes ajudam a suavizar colapsos de representação, mas isso equivale a enfrentar um boss de raid level 90 usando apenas poções: não resolve o problema, só disfarça. Oliveira et al destacaram que invariância forçada, quando mal conduzida, pode empurrar o espaço latente para zonas degeneradas, como mapas de Skyrim bugados.
Essa insistência em heurísticas faz com que modelos pareçam poderosos, mas apresentam bases tão instáveis quanto construções precárias em Minecraft quando alguém resolve acender um TNT ao lado. A dependência de stop-gradient, teacher-student, colas de simetria e truques de whitening transforma o treinamento numa alquimia onde ninguém sabe ao certo por que funciona.
Soma-se a isso que, como Ferreira et al haviam alertado, a ausência de teoria cria terreno para soluções frágeis, difíceis de escalar e quase impossíveis de interpretar. A comunidade continua aceitando essa aura de misticismo operacional, como se treinar representações fosse magia negra reservada a poucos mestres. Enquanto isso, Costa et al lembram que colapsos dimensionais podem minar completamente a usabilidade de modelos downstream, algo equivalente a você upar seu personagem ao nível 100 e descobrir que ele não sabe usar nenhuma habilidade.
A urgência de abandonar essa era de gambiarra teórica é tão grande quanto a necessidade de corrigir uma build quebrada antes de entrar numa ranked decisiva. E é exatamente nesse caos que surge a proposta ambiciosa de organizar esse território selvagem e construir uma fundação realmente robusta para o futuro da IA.
LeJEPA: o jutsu proibido que finalmente fez sentido
O paper assinado por Balestriero et al chega como aquele reboot que muda tudo sem pedir desculpas. Os autores apresentam o LeJEPA, uma reformulação radical do que significa treinar representações manipuláveis e estáveis sem recorrer aos truques que assombram as JEPAs clássicas.
A sacada central é quase provocativa: e se o espaço latente ideal não for um mosaico arbitrário moldado por perdas heurísticas, mas sim uma distribuição isotrópica Gaussiana imposta desde o começo? A provocação lembra a ideia de mostrar que, no fundo, todo guerreiro Jedi volta sempre às mesmas leis fundamentais da Força. Aqui, a distribuição latente vira essa Força unificadora.
A inovação se bifurca em duas direções claras. Primeiro, os autores provam que uma distribuição isotrópica Gaussiana minimiza o risco de predição downstream em uma variedade enorme de tarefas, tanto lineares quanto não lineares. É como descobrir que, independente da classe que você escolha em um RPG, existe um set básico de atributos que sempre maximiza sua eficiência. Segundo, eles introduzem o SIGReg, um regularizador que empurra as representações para essa distribuição alvo usando projeções aleatórias e testes estatísticos baseados em funções características. Essa técnica funciona como um jutsu de manipulação de chakra que impede colapso estrutural antes mesmo que ele ameace surgir.
Isso resolve dois grandes problemas de uma vez. O primeiro é o colapso representacional, que aqui é eliminado por construção, sem precisar das proteções artificiais usadas por DINO, BYOL e cia. O segundo é a instabilidade de treinamento, que desaparece quando o objetivo ganha forma matemática limpa e com gradientes controlados. No fim das contas, LeJEPA não só corta a gordura das heurísticas, como também simplifica o arsenal: apenas um hiperparâmetro controla tudo, como uma espada lendária que substitui um arsenal caótico de armas inferiores.
E isso toca em algo profundo: o impacto social de métodos mais simples, estáveis e escaláveis é enorme, porque reduz barreiras para pesquisa em IA e democratiza o acesso a técnicas avançadas, especialmente em domínios fora do mainstream, como astronomia, medicina e agro.
O multiverso sombrio onde o LeJEPA não existe
Se esse paper não tivesse sido escrito, estaríamos presos num cenário comparável ao mundo dominado pela Infinite Tsukuyomi. Sem uma teoria sólida explicando qual distribuição o espaço latente deveria seguir, a comunidade continuaria apostando em invenções ad hoc. Treinar JEPAs seguiria sendo como montar builds aleatórias no escuro, com risco de colapso tão alto quanto tentar solar um boss heroico nível 200 usando apenas um cajado quebrado. Ficaríamos dependentes de estratégias frágeis, sensíveis a hiperparâmetros, incapazes de escalar ou generalizar entre domínios.
Sem SIGReg, modelos continuariam derrapando em datasets pequenos, com colapsos silenciosos se infiltrando como debuffs invisíveis difíceis de remover. Pesquisadores ainda dependeriam de monitoramento supervisionado para verificar se representações fazem sentido, criando um ciclo vicioso de dependência em labels que deveriam ser desnecessários.
E o pior: a indústria continuaria acreditando que o único caminho é escalar recursos, como se colocar mais GPUs resolvesse limites conceituais. No fundo, seria o equivalente tecnológico a enfrentar um dragão com um exército infinito de goblins — barulhento, caro e ineficiente. LeJEPA é o antídoto desse multiverso sombrio.
Entendendo o SIGReg como se fosse um artefato lendário de RPG
O grimório da distribuição isotrópica
O SIGReg nasce da pergunta essencial: como garantir que embeddings sigam a forma ideal sem depender de heurísticas frágeis? A intuição é cristalina: se todas as direções do espaço latente forem equivalentes, o modelo evita distorções que prejudicam previsões downstream. É como garantir que um mapa de Zelda não seja deformado por glitches que teletransportam o jogador para fora do cenário. A isotropia garante equilíbrio geométrico.
O pergaminho das projeções aleatórias estilo “multiuniverso”
Em vez de comparar distribuições multidimensionais diretamente — algo tão doloroso quanto tentar calcular estatísticas de milhares de NPCs simultaneamente — o SIGReg projeta embeddings em múltiplas direções aleatórias. Cada direção funciona como um universo alternativo onde a distribuição é testada em 1D. Essa técnica lembra as investidas de jutsus elementais, onde cada golpe revela fraquezas que não aparecem quando olhamos o oponente em sua forma completa. A soma dessas projeções cria um teste global robusto.
A magia das funções características
A escolha da função característica torna tudo diferenciável, estável e computável em larga escala. Ao contrário de matching de momentos, que cresce em complexidade como monstros épicos no final de campanhas de RPG, a função característica mantém gradientes suaves e controlados. Isso evita explosões durante o treinamento, como se o sistema tivesse uma proteção anti-autodestruição embutida. É o equilíbrio perfeito entre poder e segurança.
A forja da complexidade linear
SIGReg escala linearmente com batch size e dimensão, algo raro como uma carta SSR em gacha de evento limitado. Isso transforma JEPAs em soluções realmente treináveis em cenários práticos, sejam GPUs domésticas ou clusters massivos. A implementação cabe em poucas dezenas de linhas, algo tão elegante quanto um feitiço minimalista que executa efeitos gigantescos.
A batalha contra o colapso latente
Ao forçar a distribuição ideal, SIGReg remove por completo a necessidade de mecanismos artificiais para evitar colapso. Nada de stop-gradient, nada de teacher-student, nada de receitas esotéricas. O modelo naturalmente evita cair em poços degenerados, como se tivesse ganho resistência passiva a estados negativos. O resultado é um treinamento que flui como uma campanha bem roteirizada, sem surpresas destrutivas no meio.
O campo de batalha onde os números viram lâminas afiadas
O laboratório como arena de batalha interdimensional
Os experimentos do LeJEPA foram projetados como arenas onde cada arquitetura enfrenta desafios diferentes, e as métricas funcionam como críticos de dano. O paper cobre mais de 10 datasets e 60 arquiteturas diferentes, algo equivalente a testar uma build em cada continente de um MMO. Essa escala revela que LeJEPA não depende de circunstâncias específicas. Pelo contrário, ele generaliza como personagens que dominam múltiplas classes simultaneamente.
O confronto contra a instabilidade estilo Dark Souls
Treinar modelos gigantes sempre parece uma run de Dark Souls: qualquer erro te manda de volta à fogueira. Mas os autores mostram que até um ViT-g com 1.8B parâmetros treina de forma suave, sem oscilações caóticas. A curva de perda desliza como uma linha contínua, sem picos explosivos. Isso ocorre porque o SIGReg garante que o espaço latente seja estável desde o início, funcionando como um escudo mágico permanente contra golpes críticos de instabilidade numérica.
O efeito “skill tree equilibrada”: λ como único parâmetro
A estabilidade do hiperparâmetro λ é quase poética. Testes variando λ entre ordens de magnitude mostram que o desempenho varia pouco, como se a skill tree fosse autobalanceada pelo próprio sistema. Em ImageNet-100 com ResNet-50, desempenho top-1 se mantém forte entre 0.04 e 0.2. Isso é tão raro em SSL quanto encontrar loot lendário garantido. Métodos tradicionais exigem tuning exaustivo, enquanto LeJEPA flui com naturalidade.
Os números que derrotam bosses com estilo FFVII
Quando LeJEPA é pré-treinado em ImageNet-1k com ViT-H/14, o linear probe alcança 79%. Esse número, que parece apenas “bom”, na verdade é equivalente a derrotar um boss de nível 80 usando apenas habilidades básicas, porque isso foi alcançado sem nenhuma das heurísticas que outros métodos dependem. É performance limpa, pura, sem buffs externos. E isso demonstra que a teoria não só funciona como se traduz imediatamente em performance competitiva.
O poder oculto das projeções: o efeito “Byakugan estatístico”
Um achado particularmente poderoso do paper é a correlação entre a perda de treinamento e o desempenho downstream. Em setups comuns, perda SSL não prevê nada. Mas aqui, a correlação de Spearman chega a 94.5% em ViT-Base. É quase um Byakugan estatístico, permitindo enxergar qualidade futura apenas olhando a perda. Isso habilita seleção de modelos sem labels, algo transformador para domínios especializados onde rótulos são raros.
A guerra espiritual contra o colapso dimensional
Experimentos sintéticos mostram que SIGReg detecta dimensões degeneradas até mesmo quando apenas 2 entre 1024 dimensões foram perturbadas. Isso é equivalente a um mage identificando corrupção em um único pixel de um mapa gigantesco. Os testes mostram que com apenas 16 direções aleatórias já é possível capturar anomalias. Isso elimina totalmente a ameaça de collapse, que há anos assombra métodos não contrastivos como um boss invisível.
A vitória dos pequenos reinos: datasets minúsculos contra gigantes
O estudo de Galaxy10 é um dos mais impressionantes. Em um dataset com apenas 11 mil imagens, LeJEPA supera DINOv2/V3 mesmo quando esses são pré-treinados em mais de 1 bilhão de imagens. É como se um guerreiro level 20 derrotasse dragões criados em batalhas épicas milenares. Quando pré-treinado in-domain, LeJEPA mostra que especialização guiada por teoria vence força bruta guiada por escala.
A habilidade divina do zero-shot de segmentação
Um dos resultados mais mágicos é a segmentação emergente: ao aplicar PCA sobre o último layer, objetos saltam naturalmente do fundo como se o modelo tivesse desenvolvido Sharingan sem supervisão. Não há perda de segmentação, não há labels, não há treinos extras. Apenas a geometria do espaço latente revela objetos consistentemente. Isso sugere que a organização Gaussiana isotrópica libera sinal semântico antes inacessível.
A run final: escalando até 1.8B parâmetros
O teste com ViT-g 1.8B encerra a demonstração com estilo final-boss. O treinamento flui sem explosões, perda estável e resultados competitivos. Nenhum método recente conseguiu treinar JEPAs tão grandes sem invocar heurísticas doidonas. Isso torna LeJEPA o primeiro framework JEPA realmente escalável da história, algo semelhante a desbloquear o modo “ng+ infinito” de forma canônica.
O hype é a verdadeira fera oculta da IA
A comunidade adora hype como jogadores de LoL adoram builds quebradas, mas raramente questiona o custo dessa fome. Continuação no scaling-obsessed mode transforma modelos em monstros gigantes com pés de barro. O hype empurra pesquisadores a aceitar soluções improvisadas como se fossem épicas, enquanto as falhas estruturais são ignoradas. É como assistir alguém buffar um personagem frágil achando que vai tankar golpes impossíveis.
O hype cria uma falsa sensação de progresso, escondendo o fato de que muitos avanços são apenas remendos coloridos em sistemas instáveis. Sem teoria sólida, cada novo modelo vira só mais um artefato condenado a quebrar quando sair da demo técnica.
O mapa secreto para escapar do ciclo infinito de illusions
A reflexão final é inevitável: se quisermos uma ciência de IA madura, precisamos abandonar o vício em heurísticas e abraçar estruturas teóricas que realmente sustentem modelos robustos. LeJEPA não resolve tudo, mas abre portas para um caminho mais claro, onde representações têm propósito geométrico e não são frutos de alquimia obscura.
Trabalhos futuros poderiam explorar novos testes estatísticos, expandir SIGReg para multimodalidade ou investigar como a isotropia se manifesta em arquiteturas mais profundas.
Se você quer fugir do looping eterno de hype e realmente entender por onde a IA pode evoluir, ler o paper completo é praticamente obrigatório. Ele pode mudar sua forma de pensar tanto quanto aquela quest inesperada que revela um plot twist memorável. E se você está construindo o futuro da pesquisa, mergulhar nesse trabalho pode te dar exatamente as ferramentas que faltavam para criar algo verdadeiramente disruptivo.
[IA na veIA nº 42] Policy search com cheat code semântico
[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto
[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da…