[IA na veIA nº 8] O sabre de luz das LLMs multimodais: quando visão e código se fundem para cortar a hype e entregar resultados reais

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Visão geral do paper

Nos últimos anos, modelos de linguagem multimodal (MLLMs) se tornaram um dos Jedi mais poderosos do universo de IA. Eles aprenderam a ver imagens, entender textos e até responder com um certo charme — mas quando o assunto é gerar código a partir de inputs visuais, a maioria deles ainda luta como um Padawan sem treino com o sabre de luz.

Essa limitação não é um detalhe irrelevante. Em um mundo onde o design de uma interface, um gráfico de dados ou uma screenshot de erro pode precisar ser transformada em código funcional, essa lacuna é tão perigosa quanto enfrentar Darth Vader sem saber ligar o sabre.

Os avanços recentes mostram um arsenal impressionante de técnicas para unir visão e linguagem. Antol et al exploraram o potencial da VQA, criando um marco inicial na fusão de modalidades. Bai et al refinaram essa fusão com o Qwen-VL, ampliando o escopo para leitura de texto em imagens e localização de objetos.

Li et al, com a LLaVA-OneVision, demonstraram a transferência de tarefas visuais para diferentes contextos, evidenciando a versatilidade das arquiteturas modernas. Mas apesar dessas vitórias, quando o inimigo é a geração de código multimodal, a taxa de acerto ainda lembra a mira de um Stormtrooper.

Beltramelli mostrou já em 2018 com o Pix2Code que traduzir UI em código era possível, mas os resultados ainda careciam de sofisticação e generalização. Han et al trouxeram o ChartLlama para leitura e geração de gráficos, mas mesmo assim, a ponte entre visual e código continuava com lacunas.

Zhao et al, com o ChartCoder, avançaram na tradução de imagens de gráficos para código Python, mas o desafio de integrar isso num sistema unificado com raciocínio algorítmico robusto permaneceu.

O problema não é só a falta de datasets grandes e limpos, mas também o custo computacional de treinar modelos gigantes em múltiplas modalidades. Ahmad et al avançaram com o OpenCodeReasoning, mas o esforço para alinhar visão e código em um só modelo exige recursos quase infinitos, algo que nem todos os laboratórios podem mobilizar.

Wortsman et al propuseram o modelo “soups”, fundindo pesos de diferentes modelos para criar um novo — uma abordagem promissora, mas que ainda não havia sido totalmente explorada para unir visão e código em alto nível.

Outro ponto crítico é que benchmarks atuais frequentemente falham em capturar a complexidade real do uso multimodal. Li et al com o InfiBench focaram em QA de código baseado em texto, mas faltava um cenário onde a imagem fosse tão essencial quanto a descrição textual.

Assim, avaliar corretamente a competência de um MLLM em contextos reais continuava sendo um ponto fraco.

No campo do front-end, Yun et al com o Web2Code e Gui et al com o WebCode2M ofereceram datasets massivos para UI-to-code, mas sem integrar de forma plena contextos visuais complexos como erros de IDE ou diagramas técnicos. Laurençon et al com o WebSight deram um passo para conversão direta de screenshots para HTML, mas novamente com limitações de variedade de tarefas.

Sem uma solução que una visão aguçada, conhecimento de programação profundo e uma estratégia eficiente para treinamento e fusão de modelos, seguimos presos na mesma cantina de Mos Eisley: cheia de barulho, promessas exageradas e pouca substância no prato principal.

Resolver isso é crucial não apenas para avanço acadêmico, mas também para aplicações industriais, onde empresas querem automatizar a transição do protótipo visual para um produto funcional em tempo recorde.

O Hulk que não precisa de radiação: VisCodex chega para esmagar as limitações

Jiang et al decidiram não seguir a rota tradicional de treinar um modelo multimodal gigante do zero — afinal, não é toda hora que se tem o orçamento de uma Estrela da Morte.

A ideia do VisCodex foi mais sagaz: pegar um modelo de visão-linguagem robusto, o Qwen2.5-VL, e fundir com um LLM especializado em código, como o OpenCodeReasoning-Nemotron, usando vetores de tarefa. É como pegar a Força de Luke e as habilidades de engenharia de Tony Stark, e criar um herói híbrido.

O diferencial é que o processo não mexe no encoder visual nem no módulo de projeção cruzada. Assim, toda a percepção visual aprendida pelo backbone original é preservada, enquanto o raciocínio e a geração de código são injetados na espinha dorsal linguística.

O merge é matemático, evitando custo exorbitante de treino e minimizando o risco de destruir a sintonia multimodal original — problema comum quando se substitui o backbone inteiro.

Para dar munição ao modelo, eles criaram o Multimodal Coding Dataset (MCD) com 598 mil exemplos divididos entre HTML, gráficos, QA com imagens e problemas algorítmicos. E para testar, o InfiBench-V traz questões reais onde a imagem não é acessório, mas peça-chave para a solução — do tipo que um dev encontra no StackOverflow às três da manhã.

Se VisCodex não existisse, viveríamos no universo sombrio de código quebrado

Sem o VisCodex, desenvolvedores continuariam dependentes de modelos que descrevem lindamente um gráfico, mas travam na hora de gerar o script para reproduzi-lo. O cenário seria como a Gotham sem o Batman: cheia de pistas visuais que ninguém sabe interpretar para agir.

Designs ficariam presos como concept art, precisando de tradução manual para código. Bugs com mensagens de erro em screenshots seriam um pesadelo, exigindo debugging manual até para problemas triviais.

E tarefas que poderiam ser resolvidas em minutos por um modelo realmente multimodal continuariam sugando horas ou dias.

O martelo de Thor para unir imagens e código

O elmo de Magneto: intuição do método

O núcleo do VisCodex é a combinação linear de dois vetores de tarefa: um que encapsula a capacidade multimodal e outro que carrega o conhecimento de programação. O hiperparâmetro λ controla o equilíbrio — mais próximo de 1 preserva a visão, mais próximo de 0 injeta mais código.

Esse design permite afinar a fusão como quem ajusta a sintonia de um sabre de luz.

O grimório do Dr. Estranho: parâmetros e relevância

O merge atua apenas no backbone linguístico, mantendo intactos os módulos que entendem imagens. Isso evita o colapso da habilidade visual, comum quando se substitui ou retreina tudo. Além disso, usar um código LLM com a mesma arquitetura base do backbone multimodal reduz incompatibilidades e facilita a fusão.

Comparando com o estado da arte

Enquanto abordagens como substituir o backbone ou treinar do zero custam mais e arriscam perder capacidades já adquiridas, o merge de vetores mantém a coesão e eleva a competência em benchmarks como Design2Code, ChartMimic e MMCode. Nos testes, o VisCodex-8B superou até GPT-4o-mini, e o 33B chegou próximo do GPT-4o.

O escudo do Capitão América para proteger a performance

A nave de Star Wars: bases de dados e experimentos

O MCD traz dados de HTML mais bonitos e semanticamente sólidos que datasets anteriores, gráficos reais e sintéticos filtrados para máxima qualidade, QA do StackOverflow enriquecido e problemas algorítmicos clássicos. O InfiBench-V cobre 13 linguagens e 5 domínios, com curadoria para garantir que a imagem é indispensável.

Cada número é um golpe crítico

No Design2Code, o 8B fez 90,1 em Low-L e 90,9 em High-L — quase idêntico ao GPT-4o. No ChartMimic, 74,8/74,1, muito acima dos concorrentes open-source. No MMCode, passou de 6,8 para 11,0 com o merge. E no InfiBench-V, atingiu 72,1 contra 54,0 do baseline. Esses saltos mostram que o merge não é só truque de marketing — é buff real.

O Thanos da hype: será que precisamos mesmo de modelos cada vez maiores?

O VisCodex prova que não é sempre o tamanho do modelo que importa, mas a forma como se combina o que já existe. Em vez de gastar bilhões em treinar um monstro multimodal do zero, a fusão estratégica entrega ganhos concretos e evita o desperdício típico de projetos que viram manchete mas não entregam no uso real.

Isso levanta a questão: será que a indústria está viciada em contar parâmetros como se fossem joias do infinito, enquanto ignora técnicas mais inteligentes?

A escolha do Neo: seguir a hype ou buscar soluções mais inteligentes

A lição do VisCodex é clara: unir o que já temos de melhor pode ser mais eficaz do que reinventar a roda. Mas o hype da IA tende a empurrar para narrativas de “novo modelo revolucionário” que na prática entregam pouco além de números de benchmark.

O caminho que equilibra custo, eficiência e impacto real exige mais iniciativas como essa — menos glamour e mais resultado. Como diria Gandalf, “nem todo aquele que vagueia está perdido” — mas na pesquisa em IA, muitos estão vagando pelo marketing em vez de pela ciência.

IA na veIA

O melhor palestrante de marketing digital em Salvador, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Maceió, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Fortaleza, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Goiânia, Celso Sousa, ensina como usar marketing…