IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
O campo das LLMs multimodais parece cada vez mais com uma saga de Star Wars: luz e sombra, promessas de revolução e quedas espetaculares quando os limites da tecnologia aparecem sem aviso. O hype em torno das imagens em plataformas de e-commerce é enorme. A narrativa dominante sempre foi de que quanto mais imagens, mais informação e melhor decisão.
Só que a realidade é mais parecida com a Torre de Barad-dûr de Sauron: imponente por fora, mas cheia de rachaduras internas. Vários pesquisadores já perceberam que multimodalidade não é uma chave mágica que abre todas as portas.
Chang et al mostraram que modelos multimodais nem sempre tiram vantagem de imagens, expondo contradições entre texto e visual. Lu et al foram além, apontando que o excesso de imagens pode criar ruído, como quando se tenta jogar LoL com três monitores, várias streams abertas e o Discord falando ao fundo.
Ma et al analisaram a robustez de transformers multimodais e evidenciaram como modelos sofrem quando uma modalidade falta ou está redundante. Esses trabalhos desmontam a fantasia de que visão computacional + linguagem = compreensão perfeita.
Outros autores ajudaram a construir esse terreno crítico. Kang & McAuley mostraram como o comportamento sequencial de usuários em e-commerce desafia qualquer modelo simplista que tente prever compras. Ni et al destacaram que reviews carregam informação rica, mas ambígua, como diálogos de NPCs em RPGs que nunca entregam o real caminho da quest.
Reddy et al trouxeram datasets de queries que deixaram claro: nem sempre a busca textual é suficiente, e imagens podem ser necessárias para resolver o quebra-cabeça. Jin et al propuseram benchmarks multitarefa de compras online, revelando que modelos precisam ser muito mais do que simples autocomplete de produtos.
Xu et al exploraram grafos de conhecimento para produtos, mostrando que relações entre itens podem ser tão complexas quanto as árvores de talentos de World of Warcraft. Daza et al mergulharam na análise de sentimentos em e-commerce, mostrando que a polaridade de uma review pode enganar tanto quanto um plot twist mal escrito em uma HQ da Marvel.
Hou et al exploraram a ponte entre linguagem e itens para recomendações, reforçando que texto sozinho não dá conta do recado. Radford et al, no clássico CLIP, mostraram que visão e linguagem podem ser treinadas juntas, mas sem resolver completamente o problema da relevância contextual. Yue et al reforçaram isso com benchmarks multimodais complexos, apontando que raciocínio multimodal continua um boss de raid que poucos modelos conseguem derrotar.
Diante disso, a academia e a indústria se fragmentaram em tentativas diversas. Abdin et al lançaram Phi-3 e Phi-4 como promessas de eficiência e capacidade local. Bai et al desenvolveram Qwen-VL, especializado em leitura de imagens detalhadas. Li et al propuseram o Llava-interleave para lidar com múltiplas entradas visuais de forma intercalada, como quem tenta coordenar um grupo de raid com múltiplos canais de comunicação.
Ling et al criaram o CASLIE, trazendo captions como ponte mais direta entre imagem e texto, numa tentativa de driblar a confusão dos pixels brutos. Peng et al criaram o eCeLLM para adaptar LLMs ao contexto do comércio eletrônico com instruções específicas.
Todos esses esforços se parecem com diferentes classes em um RPG: magos, guerreiros e clérigos tentando derrotar o mesmo dragão — a utilização eficaz de imagens em e-commerce.
O problema é que, mesmo com toda essa artilharia, os resultados seguem inconsistentes. Tong et al mostraram que MLLMs têm falhas visuais gritantes, como olhos vendados em combates. Fang et al lembraram que datasets em larga escala inevitavelmente carregam ruído, e isso atrapalha treinamento.
Pryzant et al discutiram a importância da otimização de prompts, lembrando que às vezes a fraqueza não está no modelo, mas no feitiço que o invoca. Chen et al argumentaram que a avaliação de modelos multimodais pode estar enviesada, e que precisamos repensar como medimos utilidade visual.
Tudo isso converge para uma conclusão desconfortável: colocar imagens em cima de texto sem critério pode atrapalhar mais do que ajudar. É como encher o inventário com poções inúteis — o peso extra te atrasa em vez de te salvar.
Esse cenário abre um desafio duplo. Primeiro, como construir benchmarks que realmente capturem quando imagens são indispensáveis, e não apenas acessórios decorativos? Segundo, como treinar modelos que saibam escolher quando olhar para a imagem e quando ignorá-la, sem cair em armadilhas?
O campo se move de datasets pequenos, limitados e enviesados (como AmazonQA de Gupta et al) para coleções mais complexas, mas ainda imperfeitas. E mesmo assim, a hype continua vendendo a ideia de que multimodalidade é um “game changer” garantido, quando na prática ainda estamos presos em fases intermediárias do jogo.
A ciência precisa de abordagens mais sistemáticas. Não basta adicionar imagens, é preciso entender a utilidade delas em cada contexto. Do contrário, seguimos repetindo o mesmo erro dos animes shonen: acreditar que mais poder bruto sempre vence, quando na verdade a inteligência estratégica é o que decide a luta final.
O ponto crítico é este: multimodalidade não é uma arma definitiva, mas uma skill que só brilha quando usada no momento certo. E o e-commerce, com sua mistura caótica de imagens redundantes, descrições inconsistentes e expectativas de personalização, é o campo de batalha perfeito para revelar tanto as forças quanto as fraquezas dessas arquiteturas.
O One Piece das imagens no e-commerce
Ling et al criaram o EcomMMMU, um dataset que parece uma saga de piratas em busca de um tesouro escondido: imagens em abundância, múltiplas tarefas e a promessa de mostrar quando a visão realmente faz diferença.
O trabalho é importante porque rompe com datasets tradicionais que se limitavam a texto ou a uma única imagem. Aqui, temos 406 mil amostras e quase 9 milhões de imagens, cobrindo desde classificação até recomendações. É como se fosse o mapa-múndi do Grand Line do e-commerce.
A inovação mais marcante é o VSS, um subconjunto vision-salient que reúne casos em que texto sozinho não basta. Sem ele, os modelos parecem Zoro tentando cozinhar: atrapalhados, perdidos, incapazes de dar conta. Com imagens, há um salto de performance que mostra a real importância de avaliar cenários onde a visão é obrigatória. Isso dá à comunidade científica uma ferramenta para separar o útil do supérfluo.
Mais do que um dataset, os autores trouxeram SUMEI, um método que aprende a distinguir imagens úteis das redundantes. É como um mestre Pokémon que só escolhe os monstrinhos certos para cada batalha, em vez de soltar tudo de uma vez. O impacto é enorme, porque mostra que o segredo não está em mais dados, mas em escolhas estratégicas.
O apocalipse zumbi sem SUMEI
Sem as descobertas de Ling et al, o campo multimodal do e-commerce seguiria preso em uma espécie de The Walking Dead acadêmico: modelos tropeçando em imagens inúteis, datasets limitados e benchmarks irreais. Isso significaria usuários frustrados com recomendações irrelevantes, buscas equivocadas e sistemas incapazes de entender detalhes visuais críticos, como cor ou formato.
Seria como jogar Dungeons & Dragons sem o mestre controlar a narrativa. O caos reinaria. Plataformas de e-commerce continuariam despejando imagens sem entender se ajudam ou atrapalham, e modelos ficariam perdidos tentando dar sentido a ruído. A ausência de SUMEI deixaria o campo estagnado, sem saber como filtrar a utilidade visual.
O Sharingan da avaliação multimodal
A dungeon das imagens redundantes
SUMEI surge como um olho de Sharingan que enxerga além da superfície. Em vez de usar todas as imagens, ele avalia utilidade com uma etapa de assessment, classificando-as como úteis, redundantes, insuficientes ou enganosas. É como organizar o inventário de Skyrim: só o que realmente contribui fica, o resto é descartado.
O oráculo da predição
Com o SUMEI-vup, o método prevê a utilidade de novas imagens sem precisar de labels explícitos. É como a premonição de Doctor Strange, analisando milhões de cenários e escolhendo só aquele que leva à vitória. Isso resolve o problema da escalabilidade: não dá para anotar manualmente bilhões de fotos, mas dá para prever quais valem a pena.
O boss final do fine-tuning
SUMEI então treina modelos vision-salient usando apenas as imagens escolhidas. O resultado é menos ruído, mais foco e melhores resultados em múltiplas tarefas. Em comparação com o estado da arte, como Claude 3.5, Phi-vision e Qwen-VL, o SUMEI mostra ganhos claros. É como derrotar Sephiroth em Final Fantasy com uma estratégia precisa, não com grind infinito.
O martelo de Thor nos experimentos
As relíquias dos datasets
Os experimentos mostraram que usar todas as imagens pode derrubar a performance de forma brutal, como marteladas erradas de Thor. Qwen-VL, por exemplo, caiu de 0.510 de acurácia para 0.157 ao incluir múltiplas imagens. Isso equivale a perder uma luta de Mortal Kombat porque seu personagem ficou mais lento carregando armaduras inúteis.
O escudo do Capitão América na VSS
No subconjunto VSS, SUMEI brilhou como o escudo do Capitão América desviando ataques. Enquanto modelos como Llava-Interleave e Phi-vision tropeçavam em cenários dependentes de visão, SUMEI manteve performance robusta, mostrando que selecionar imagens certas é mais eficaz que multiplicar insumos.
O mapa da guilda nos ablations
As ablations confirmaram: só imagens úteis trazem ganhos. Adicionar redundantes ou insuficientes diminui resultado, e incluir imagens enganosas destrói tudo, como recrutar um impostor no Among Us. O método provou que a chave é separar sinal de ruído.
O hype multiversal da IA
A indústria trata multimodalidade como se fosse a Joia do Infinito que resolve tudo. Mas os resultados mostram outra realidade: às vezes a visão não adiciona nada, e outras vezes até atrapalha. Continuar repetindo que multimodalidade é a salvação é como acreditar que cada novo herói da Marvel vai salvar o universo sozinho. Não vai. Sem métodos como SUMEI, a hype não passa de CGI bonito sem roteiro.
O chamado do dragão
O futuro do e-commerce multimodal depende de aprender a domar o dragão das imagens. Não é questão de mais dados, mas de inteligência estratégica. Precisamos fugir da hype e reconhecer que imagens são um recurso escasso de atenção, que deve ser usado no momento certo.
SUMEI abre um caminho, mas a jornada é longa. A pergunta que fica é: vamos seguir o caminho dos hobbits, valorizando escolhas pequenas e precisas, ou continuar apostando no poder bruto de Sauron que sempre acaba em desastre?
![[IA na veIA nº 15] O sabre de luz da medicina digital: como um agente RAG treinado de ponta a ponta corta as ilusões dos diagnósticos automáticos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 15] O sabre de luz da medicina digital: como um agente RAG treinado de ponta a ponta…
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das LLMs sem sacrificar poder de raciocínio](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)