IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A ciência de IA sempre viveu uma tensão estranha entre ambição e limitação, quase como aquele dilema clássico de RPG em que você pode distribuir pontos em força ou inteligência, mas nunca nos dois ao mesmo tempo. A literatura recente continua tentando resolver esse dilema, e autores como Alayrac et al mostram que escalar modelos visuais melhora percepção, mas ainda tropeça em nuances quando a tarefa exige raciocínio sutil.
Em outra direção, Li et al evidenciam que acoplar encoders visuais congelados com LLMs ajuda na generalização, mas vira um Frankenstein pesado e rígido, sempre difícil de adaptar. Outros trabalhos, como Yue et al, insistem que benchmarks multimodais exigem um casamento perfeito entre visão, linguagem e conhecimento, mas esse casamento parece mais dramático que um arco de Naruto cheio de traições e retornos inesperados.
A comunidade também já percebeu, como Bai et al apontam, que mesmo VLMs enormes sofrem com conflitos de conhecimento tão irritantes quanto bugs de física no LoL, quando o modelo vê uma imagem que contradiz o que ele “acha” que sabe. Wang et al mostram que o viés linguístico corrói modelos multimodais como um debuff que não desaparece, fazendo-os se apoiar em textos mesmo quando a resposta está claramente no visual.
Internamente, esforços anteriores como os de Zhu et al tentam reforçar pipelines de treino mais robustos, mas o custo computacional cresce como raid boss furioso. Trabalhos mais recentes, incluindo Li et al, sugerem que reforço via decomposição de raciocínio ajuda a reduzir atalhos, mas ainda não resolve a fome infinita por dados alinhados entre modalidades.
Outro ponto incômodo, discutido por Wu et al e Zhang et al, é o peso gigantesco de treinar modelos multimodais do zero, quase como tentar upar um personagem do nível 1 ao 80 só matando javali em início de mapa. A cada nova modalidade adicionada, seja imagem, vídeo ou áudio, surge um pedido por datasets massivos, instruções específicas, alinhamento e verificação fina de comportamento, algo tão caro e complexo que só gigantes conseguem fazer direito.
Autores como Yang et al mostram que mesmo modelos avançados continuam frágeis quando confrontados com inputs longos e complexos, revelando que adicionar mais parâmetros não resolve o problema estrutural. A insistência nesse caminho gera uma espécie de grind infinito, levando a comunidade a buscar rotas alternativas mais flexíveis e inteligentes.
Em paralelo, trabalhos sobre colaboração multiagente, como os de Du et al, provam que discussões entre modelos podem melhorar veracidade, quase como uma party de RPG que vence um puzzle trocando percepções complementares. Chen et al reforçam que debates entre agentes reduzem erro lógico, mesmo com modelos individuais limitados, mostrando que diversidade interna importa.
Outros autores, como Eisenstein et al, sugerem que o aprendizado em autojogo colaborativo expande conhecimento sem datasets gigantes, o que abre espaço para pensar multimodalidade de maneira modular e menos desesperada. Diante dessa paisagem, fica óbvio que a comunidade precisa de abordagens que não dependam de megaestruturas e que usem melhor o que já existe, evitando o ciclo vicioso de inflar modelos como se fossem balões prestes a explodir.
No fim, o drama científico atual lembra aquelas tramas de ficção científica onde heróis poderosos permanecem cegos porque faltam sensores básicos. VLMs fortes veem mas não raciocinam como deveriam, enquanto LLMs brilhantes pensam mas não enxergam nada. Essa divisão artificial impede que a IA evolua para sistemas mais gerais, criando gargalos cada vez maiores em tarefas complexas que exigem tanto visão quanto lógica profunda.
Resolver essas limitações não é apenas questão acadêmica, mas impacto direto em aplicações médicas, educacionais e industriais, onde a multimodalidade correta pode significar precisão real e não apenas hype brilhante de trailer da Marvel.
BEMYEYES: quando o mago pede ajuda ao arqueiro na dungeon multimodal
Huang et al entram nesse cenário propondo o BEMYEYES, um esquema multiagente que parece saída direta de uma party de D&D bem coordenada. O paper começa apresentando a dupla de autores como se fossem designers de uma nova build híbrida, onde um perceiver visual pequeno e eficiente age como seus “olhos”, enquanto um LLM gigante funciona como cérebro lógico e sábio.
A sacada é fugir da obsessão de treinar um único supermodelo multimodal e apostar em colaboração orquestrada, como se cada agente tivesse sua classe e sua habilidade única para contribuir.
Segundo Huang et al, o perceiver é um VLM enxuto capaz de interpretar a cena visual e traduzir tudo textualmente para o reasoner, que não vê nada, mas entende tudo. A ideia geral do paper é mostrar que a sinergia entre percepção compacta e raciocínio massivo supera VLMs enormes, inclusive rivais como GPT-4o, tal qual uma guilda pequena mas estratégica derrotando um dragão que depende só de força bruta.
A importância desse desenho modular aparece logo: o perceiver pode ser trocado, atualizado ou treinado para outras modalidades, e o reasoner permanece intacto, preservando sua inteligência e conhecimento de mundo.
O impacto social implícito é forte, porque o modelo permite transformar qualquer LLM textual em um Jedi multimodal sem treinamento caro. Huang et al destacam que basta adicionar um perceiver adaptável para que o sistema aprenda a lidar com visões complexas, desde gráficos técnicos até plantas medicinais, como mostrado nos benchmarks.
Em vez de depender de megaestruturas monolíticas, esse método abre caminho para sistemas mais acessíveis, iteráveis e customizáveis, como mods de jogos que expandem funcionalidades sem alterar a engine principal.
Quando há múltiplos problemas a resolver, o paper divide o desafio em perceção, raciocínio e coordenação. Cada um desses pontos recebe atenção dos autores, que explicam como minimizar atritos entre agentes, garantir alinhamento e permitir conversas multi-turn que refinam entendimento.
Tudo isso reforça que, em vez de um herói solitário, BEMYEYES é uma equipe organizada para enfrentar dungeons de complexidade crescente.
Sem BEMYEYES, os modelos seriam aventureiros cegos no mapa
Se as descobertas de Huang et al não existissem, a IA multimodal continuaria presa na lógica de escalar modelos gigantes, como se a única solução fosse comprar espada maior para enfrentar inimigos mais fortes. LLMs textuais continuariam cegos como stormtroopers tentando acertar um alvo, com zero noção do que acontece no plano visual. Já VLMs pequenos permaneceriam fracos para raciocínios sofisticados, incapazes de resolver problemas que exigem conhecimento avançado, como questões médico-visuais ou desafios matemáticos com gráficos complexos.
Sem essa abordagem, a indústria continuaria gastando recursos absurdos para treinar modelos multimodais monolíticos, replicando o ciclo interminável de builds pesadas que travam atualizações rápidas. Pesquisadores perderiam a chance de explorar combinações mais inteligentes e modulares, ficando presos em pipelines gigantes que atrasam inovação. A ausência desse método impediria que LLMs preservassem suas habilidades mais valiosas enquanto ganham novas capacidades sensoriais, criando um enorme gargalo para aplicações reais onde robustez importa mais do que hype de marketing.
O encontro do perceiver com o reasoner: quase uma party de guilda altamente coordenada
O grimório da orquestração Jedi
Huang et al explicam que o sistema começa com prompts especializados para cada agente, definindo claramente quem é o tanque, quem é o suporte e quem é o DPS cognitivo. Esse detalhamento impede que os agentes briguem ou se sobreponham, pois cada um sabe seu papel na quest multimodal. A orquestração garante que o reasoner, como um sábio mago, faça perguntas estratégicas ao perceiver, enquanto o perceiver, como um arqueiro atento, responde com precisão visual.
O tomo da percepção visual arcana
O perceiver age como lente mágica que transforma imagens em descrições textuais ricas. Segundo Huang et al, a ideia é maximizar a densidade de detalhes visuais, permitindo que o reasoner receba um mapa completo da dungeon visual. O perceiver precisa ser capaz de seguir instruções, evitar ruídos e descrever elementos críticos, e isso exige treinamento fino para não virar NPC confuso.
O manual da razão encantada
O reasoner, totalmente textual, usa essas descrições para aplicar lógica encadeada e conhecimento enciclopédico. É como se ele fosse o estrategista responsável por interpretar cada pista visual enquanto permanece em completa escuridão. A modelagem matemática subjacente se mantém simples, pois o processo é orientado por linguagem natural, mas a complexidade emerge do diálogo multi-turn, que gera refinamentos iterativos.
O livro da síntese de dados sintéticos
Huang et al apresentam uma pipeline de síntese onde GPT-4o gera perguntas difíceis, cria conversas completas e produz exemplos ideais para treinar perceivers menores. Esse processo funciona como treinar padawans usando simulações holográficas, evitando a necessidade de datasets naturais gigantes. É uma estratégia inteligente para “destilar” percepção de alta qualidade em modelos menores, fortalecendo sua capacidade de trabalhar em equipe.
As runas do fine-tuning cooperativo
O fine-tuning supervisionado otimiza o comportamento do perceiver dentro do diálogo, assegurando que ele responda de forma consistente e alinhada ao contexto. A perda padrão de cross-entropy ajusta o modelo para seguir o script colaborativo, evitando saídas caóticas. Isso garante estabilidade e precisão em cenários complexos, reforçando a complementaridade entre percepção e raciocínio.
O Coliseu dos experimentos: batalhas épicas entre LLMs, VLMs e agentes colaborativos
O portal dos benchmarks de elite
Huang et al avaliam o sistema em MMA acadêmico: MMMU, MMMU-Pro, MathVista e MathVision, cada um representando um chefão diferente. Esses benchmarks exigem domínio visual detalhado e raciocínio nível boss, com questões que lembram enigmas de WoW altamente técnicos. As bases contêm gráficos, diagramas, plantas, equações e contextos diversos.
Arena das configurações de combate
O sistema é testado com perceivers como Qwen2.5-VL-7B e InternVL3-8B e reasoners como GPT-4 e DeepSeek-R1. Tudo é zero-shot, sem dicas extras, como entrar em raid sem buffs. Cada diálogo é limitado a cinco turnos, garantindo que a luta seja justa e não uma batalha interminável.
O mapa dos resultados quantitativos
Os números exibidos por Huang et al são tão impressionantes quanto dano crítico inesperado em boss final. DeepSeek-R1 sozinho faz 36.8% no MMMU-Pro, mas com BEMYEYES salta para 57.2%, salto mais impressionante que item lendário dropado por RNG. Em MathVista, o salto chega a 72.7%, superando o GPT-4o, o que soa como derrotar um chefão lendário usando personagem de nível médio mas com estratégia perfeita.
O grimório das comparações entre clãs rivais
O trio LLM sozinho, VLM sozinho e BEMYEYES revela diferenças profundas. O LLM sem imagem é como jogar vendado. O VLM sozinho entende a cena mas tropeça no raciocínio. Já o multiagente une ambas as forças como fusão à la Dragon Ball.
A câmara dos estudos médicos
Em tarefas médicas, BEMYEYES com Lingshu-7B supera modelos enormes, mostrando que cooperação supera força bruta. É quase como curandeiro e mago trabalhando juntos contra monstros especializados.
A torre das ablations
Remover multi-turn reduz performance bruscamente, provando que colaboração iterativa é como buffs temporais necessários para sobreviver. Sem fine-tuning, o perceiver vira novato desorientado e o sistema falha mais.
Quando a hype promete Excalibur mas entrega espada de madeira
A comunidade de IA vive repetindo que estamos perto do “AGI multimodal definitiva”, mas Huang et al mostram que não adianta colocar skin dourada se o modelo não entende nada. A hype insiste que aumentar parâmetros resolve tudo, como se fosse build pay-to-win, mas os resultados mostram que colaboração inteligente supera força bruta.
A crença de que cada modalidade precisa de modelo gigante treinado do zero é tão ingênua quanto acreditar que um herói solitário vence raid de 40 jogadores. Esse paper provoca essa narrativa ao demonstrar que modularidade e diálogo superam monolitos multimodais inflados.
Hora de equipar novos artefatos e avançar no mapa
O trabalho de Huang et al sugere que o futuro não está em modelos monstruosos, mas em sistemas que funcionam como guildas coordenadas. Essa perspectiva abre portas para novas modalidades, novas combinações e designs mais sustentáveis, reduzindo dependência de datasets absurdos.
Ainda resta explorar áudio, vídeo, sensores e outras fontes, mas a rota está clara como minimapa iluminado. Modelos razoáveis podem virar campeões quando bem orquestrados, o que redefine o valor de arquitetura modular em IA.
Se você quer entender como multimodalidade pode avançar sem hype enganosa, precisa ler o paper completo. Lá está o mapa detalhado, os itens raros e as estratégias para criar sistemas mais inteligentes sem inflar parâmetros como balão. Ler esse estudo agora pode ser o diferencial que faltava para sua própria pesquisa evoluir para a próxima classe.
[IA na veIA nº 42] Policy search com cheat code semântico
[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto
[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da…