Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 30] Do multiverso cognitivo ao modelo unificado: a revolução do multi-brain-tuning

29 de outubro de 2025
[IA na veIA nº 30] Do multiverso cognitivo ao modelo unificado: a revolução do multi-brain-tuning

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models
  • Link do paper
IA na veIA nº 30
IA na veIA nº 30.

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Mapear a linguagem do cérebro humano com precisão sempre foi o equivalente neurocientífico de tentar decifrar o mapa do Maroto sem a varinha certa. O sonho de traduzir os processos linguísticos cerebrais em representações computacionais estáveis esbarra em um problema velho conhecido: os métodos atuais de brain alignment são altamente dependentes de dados individuais. Em outras palavras, cada cérebro precisa de seu próprio treinamento específico, como se cada um falasse sua própria língua alienígena. E mais: a quantidade de dados necessária por participante é tão grande que torna qualquer tentativa de escalabilidade praticamente um delírio.

Toneva & Wehbe já haviam mostrado que modelos de linguagem pré-treinados podem capturar padrões no cérebro com uma precisão razoável. Schrimpf et al chegaram a defender que esses modelos se aproximam do funcionamento preditivo da linguagem humana. Goldstein et al reforçaram essa ideia, afirmando que os princípios computacionais dos LMs se sobrepõem aos da cognição humana. Mas, como alertam Antonello et al, o grande calcanhar de Aquiles continua sendo a variabilidade entre cérebros: mesmo com arquiteturas avançadas, ainda precisamos de dados sob medida para cada indivíduo.

Millet et al e Oota et al buscaram alternativas com modelos de fala autorregressivos, mas mesmo essas abordagens continuam esbarrando no problema da personalização excessiva. Métodos como os de Vattikonda et al propõem sintonias com adaptações de baixo-rank, mas sem resolver o problema da generalização. Chen et al tentaram unificar cérebros via mapeamentos compartilhados, mas exigem datasets monumentais e não exploram os LMs já pré-treinados. Tang & Huth propuseram decodificadores semânticos compartilhados, mas ainda com abordagens pouco escaláveis.

Enquanto isso, trabalhos como os de Défossez et al focam em projeções específicas por participante, o que não escala com múltiplos cérebros. Beliy et al sugerem um encoder universal, mas sem foco em linguagem. Haxby et al discutem hyperalignment, mas ignoram o potencial dos LMs. Resultado: apesar do avanço em modelar representações linguísticas com LMs, continuamos com um modelo Frankenstein, com partes promissoras, mas nenhuma solução completa para alinhar linguagem e cérebro em escala populacional.


A fúria dos clones: o ataque do modelo que aprende com múltiplos cérebros

Omer Moussa e Mariya Toneva, pesquisadores do Max Planck Institute, decidiram atacar o problema de frente com uma abordagem que junta os sabres de luz de diferentes jedis: treinar um modelo de linguagem de fala com dados de múltiplos cérebros ao mesmo tempo. Em vez de treinar um modelo para cada participante, eles propõem o que chamam de multi-brain-tuning, um método que permite que um mesmo modelo seja sintonizado com os padrões neurais de vários indivíduos simultaneamente.

A ideia não é simplesmente juntar dados, mas alinhá-los espacialmente em uma superfície cortical comum, usando ferramentas como FreeSurfer e o atlas de Glasser. Isso permite projetar os sinais de fMRI em regiões específicas, como o giro frontal inferior, o córtex temporal lateral e as regiões auditivas primárias, criando um espaço compartilhado no qual o modelo pode aprender padrões sem depender da anatomia individual de cada cérebro.

O truque do mago aqui é usar adaptações de baixo-rank (LoRA) para atualizar apenas uma pequena fração dos parâmetros do modelo. É como aplicar mods em Skyrim: você não precisa reprogramar o jogo inteiro, só alterar umas poucas linhas para desbloquear novos poderes. Com isso, o modelo continua leve, treinável e, o mais importante, generalizável.

O resultado é um modelo que consegue prever a atividade cerebral de participantes nunca vistos antes com apenas 1/5 da quantidade de dados normalmente exigida. Mais do que isso: os autores mostram que a performance de brain alignment aumenta até 50% em comparação com modelos pré-treinados, mesmo em novos datasets, como o Narratives.


Sem esse hack cerebral, estaríamos presos no loop temporal do Doutor Estranho

Se esse método não existisse, a pesquisa em IA e neurociência cognitiva continuaria presa em um ciclo interminável de personalizações e ineficiências, como se estivéssemos num episódio de Dark tentando sincronizar diferentes realidades. Cada novo participante exigiria horas de escaneamento cerebral e ajustes finos em modelos que não aprendem nada transferível. A ideia de um modelo universal que entende o cérebro como um todo — e não como um conjunto de casos isolados — permaneceria uma utopia sci-fi.

Sem o multi-brain-tuning, análises em nível populacional continuariam inviáveis. Projetos que tentam entender como o cérebro processa linguagem em larga escala, como os liderados por Nastase et al, seriam limitados pela necessidade de grandes volumes de dados por indivíduo. Ou seja: o futuro da IA cognitiva estaria mais para Black Mirror do que para Star Trek.

E talvez o pior: perderíamos a chance de usar dados neurais reais para melhorar a semântica dos modelos de linguagem. A ponte entre LMs e cognição humana seguiria quebrada, e ainda dependeríamos de truques estatísticos frágeis para simular compreensão de linguagem.


O martelo de Thor nos modelos de fala: quebrando as limitações com múltiplos cérebros

O grimório do LoRA e as runas do Glasser

A arquitetura do método se apoia em dois pilares fundamentais. O primeiro é o uso de modelos de fala auto-supervisionados como o Wav2Vec2.0 e o HuBERT, ambos com 12 camadas, 90 milhões de parâmetros e treinados em 960 horas de áudio. O segundo pilar é a projeção dos dados de fMRI em uma superfície comum, usando o FreeSurfer v7 e o atlas cortical de Glasser para selecionar regiões semânticas e auditivas.

O input são clipes de áudio de 10 segundos (8 anteriores + 2 atuais) alinhados com as TRs da fMRI, permitindo ao modelo aprender a mapear áudio em respostas cerebrais. Os sinais são projetados para regiões como o giro angular, o lobo temporal anterior, a área de Broca e o córtex auditivo.

O feitiço da atualização compartilhada

A mágica acontece com um pooling seguido de uma cabeça de projeção unificada. Para cada estímulo, o modelo é treinado com as respostas de múltiplos participantes sequencialmente, mantendo a especificidade individual sem perder a generalização. Essa abordagem supera alternativas como projeções separadas ou perdas médias entre participantes.

É como treinar um mago de D&D que aprendeu magias diferentes com cada professor, mas fundiu tudo em um único grimório. Ao contrário de métodos que diluem sinais únicos ao fazer médias, aqui cada resposta é tratada como valiosa e distinta.

O lado negro da parametrização

Os autores também testam múltiplos objetivos de perda: L2, correlação espacial e combinação de L2 com cosseno. O L2 se mostrou mais robusto em grandes volumes de dados, enquanto a correlação teve vantagem em conjuntos menores. O ajuste de parâmetros foi feito com LoRA rank-8, atualizando apenas 0.625% dos parâmetros — um verdadeiro ataque ninja de precisão cirúrgica.

Comparações com universos paralelos

Eles comparam sua abordagem com single-brain-tuning, LLM-tuning e stimulus-tuning. Enquanto o single-brain tem ganhos modestos, o multi-brain brilha como o anel do Lanterna Verde. O LLM-tuning, apesar de útil, satura rápido e não melhora a generalização. Já o stimulus-tuning é o equivalente a colocar uma skin nova em um personagem esperando que ele jogue melhor.


O impacto de uma bomba de fóton nos benchmarks: resultados que explodem as métricas

A hiperdrive da eficiência neural

O multi-brain-tuning reduz em 5x a necessidade de dados para atingir a performance máxima dos modelos originais. Em experimentos com participantes do Moth Radio Hour, tanto o Wav2Vec2.0 quanto o HuBERT atingem melhores brain alignments com menos de 20% dos dados originais. É como alcançar o nível 50 no WoW grindando só até o level 10.

Mais impressionante: o ganho em brain alignment chega a 50% em regiões linguísticas, tanto em participantes usados no treino quanto nos totalmente inéditos. A eficiência não apenas se mantém com novos cérebros, mas melhora.

A expansão dos domínios para além de Westeros

Os modelos generalizam bem para o dataset Narratives, que tem outro tipo de história, outro tempo de aquisição de fMRI e outra distribuição de participantes. Mesmo treinado com o Moth Radio Hour, o modelo multi-cérebro consegue performar quase tão bem quanto um modelo treinado especificamente no Narratives. Isso é o equivalente a um personagem do LoL trocando de mapa e ainda dominando a partida.

Um salto de fé sem esquecer das habilidades antigas

Os autores testam dois benchmarks de desempenho semântico downstream: previsão de fonemas e classificação do tipo fonético da sentença. O modelo multi-brain-tuned não sofre esquecimento catastrófico e, com mais dados, supera até o modelo ajustado com LLMs. Na previsão fonêmica, o ganho de F1 chega a 14%. Na classificação de sentenças, passa dos 50%. Isso mostra que o alinhamento cerebral não é só hype — ele refina representações semânticas reais.

Testes de build: objetivos e parametrizações

Ao comparar diferentes LoRA ranks, os autores mostram que aumentar a capacidade não traz ganhos adicionais. O rank-8 é o sweet spot. Testes com objetivos de perda alternativos confirmam que o L2 é mais escalável, enquanto a perda de correlação só ajuda com pouco dado. Todas as alternativas de arquitetura — cabeças separadas, média de respostas, SRM — perdem para o método proposto. É o equivalente a testar todas as armas de Destiny 2 e descobrir que o sabre laser ainda é o melhor.


A matrix da IA: o que não te contam sobre os modelos inspirados no cérebro

A moda de “modelos neurais inspirados no cérebro” virou o novo metaverso da IA: todo mundo fala, mas quase ninguém entrega. A maioria dos papers que propõem esse alinhamento entre LMs e cognição cerebral mal arranha a superfície. Treinam com um único participante. Usam datasets pequenos. Ignoram as variações anatômicas entre cérebros. É como dizer que o Thor representa todos os deuses só porque tem um martelo.

O hype ignora um fato incômodo: modelos pré-treinados alinham mal com o cérebro quando têm pouco dado por participante. E as alternativas como o LLM-tuning só parecem boas porque comparam com modelos frios, não treinados com dados neurais. Quando o embate é justo, os métodos baseados em múltiplos cérebros esmagam os LLMs como o Hulk esmaga o Loki.

E vamos ser sinceros: se o modelo precisa de 16 horas de fMRI para entender um único cérebro, ele não é generalizável — é só um overfitting glamorizado.


O elmo da verdade: o que aprendemos sobre cérebro, linguagem e modelos gigantes

Este trabalho mostra o que acontece quando paramos de fingir que modelos de linguagem são mágicos e começamos a usar dados neurais de verdade para refiná-los. O multi-brain-tuning escancara que o segredo não está em mais parâmetros, mas em como treinamos. Usar múltiplos cérebros, alinhados espacialmente, treinados com objetivos específicos, gera modelos mais eficientes, generalizáveis e semanticamente mais ricos.

É o anti-hype. Não se trata de mais dados, nem de mais layers. Trata-se de como você conecta a linguagem real à biologia real.

Quer melhorar a IA? Pare de achar que LLMs aprendem sem supervisão humana. Conecte o modelo ao cérebro. Mas não a um cérebro isolado — conecte-o à diversidade cerebral. Só assim vamos sair da fase do ilusionismo técnico e entrar no território da ciência real.