Este site usa cookies e tecnologias afins que nos ajudam a oferecer uma melhor experiência. Ao clicar no botão "Aceitar" ou continuar sua navegação você concorda com o uso de cookies.

Aceitar

IA na veIA

[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis

16 de agosto de 2025
[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

  • BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning
  • Link do paper
IA na veIA nº 11
IA na veIA nº 11.

Quem sou eu?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

  • previsão de produtividade de fazendas;
  • reconhecimento visual de nematóides;
  • visão computacional para monitoramento de rebanhos por drones;
  • identificação de públicos vulneráveis;
  • sistema de gerenciamento de pastejo rotacionado;
  • identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:


Visão geral do paper

Quando pensamos em inteligência artificial, o foco quase sempre recai em grandes modelos de linguagem capazes de escrever textos convincentes, responder a perguntas complexas e até resolver problemas de programação. Mas existe um ponto cego perigoso: gráficos e visualizações.

Esses elementos, que parecem triviais para qualquer um que já leu um mangá cheio de tabelas de poder ou acompanhou um HUD em um game de RPG, são um pesadelo para os modelos atuais. Isso acontece porque interpretar um gráfico exige não só reconhecer elementos visuais, mas também conectar números, proporções e contextos, algo que está muito além da simples leitura de texto.

O que torna esse desafio tão intrigante é que a sociedade depende cada vez mais de gráficos para entender o mundo — seja para avaliar impacto econômico, interpretar dados científicos ou até para conferir a popularidade de um anime em rankings semanais.

Esse problema já foi apontado por Kim et al, que mostraram como a compreensão de gráficos está no coração da análise de dados, mas os modelos ainda falham em transformar barras e linhas em conhecimento útil. Hoque et al lembraram que a área de Chart QA vem evoluindo, mas sempre tropeçando em datasets artificiais e homogêneos, que parecem mais com simuladores baratos do que com gráficos reais que vemos em relatórios financeiros ou artigos científicos.

Kafle et al tentaram resolver isso com DVQA, mas a limitação ficou clara: gráficos sintéticos, perguntas templadas e zero diversidade visual. Kahou et al criaram o FigureQA, mas novamente o problema de realismo era gritante, como se fosse um treino em sala do tempo do Dragon Ball sem nunca enfrentar inimigos reais.

Methani et al lançaram o PlotQA, trazendo avanços em complexidade lógica, mas ainda sem capturar a verdadeira diversidade caótica do mundo real.

Enquanto isso, Liu et al trabalharam em pré-treinamentos multimodais como o MatCha, tentando alinhar habilidades matemáticas e visuais, mas sempre presos à armadilha de dados artificiais. Meng et al seguiram pelo lado do multitask tuning com ChartAssistant, mas enfrentaram a mesma barreira de dados extraídos automaticamente e cheios de ruídos.

Já Deitke et al investiram em multimodalidade ampla com modelos como Molmo, mas gráficos continuaram sendo uma fraqueza. E não podemos esquecer de Kantharaj et al, que abriram espaço para benchmarks de sumarização e explicação de gráficos, mas novamente enfrentando a falta de datasets que representassem fielmente o que vemos em relatórios de impacto ambiental ou dashboards de empresas.

No lado do pós-treinamento, Schulman et al introduziram o PPO, que trouxe estabilidade ao treino de modelos em cenários complexos, mas ainda insuficiente para lidar com a ambiguidade dos gráficos. Williams já tinha apontado nos anos 90 os problemas do REINFORCE, mas só recentemente métodos como GRPO, propostos por Shao et al, começaram a mostrar resultados melhores em coerência de raciocínio.

Chung et al reforçaram a importância de treinar explicitamente cadeias de raciocínio, mostrando como isso aumenta interpretabilidade. Kim et al, em outro trabalho, trouxeram a CoT Collection, demonstrando como o raciocínio intermediário melhora generalização. Mas o que vemos é que quase ninguém aplicou esses avanços ao campo ingrato da leitura de gráficos.

E o que está em jogo aqui não é apenas um detalhe técnico. Se modelos não conseguem interpretar gráficos corretamente, todo o sonho de “assistentes científicos” e “analistas financeiros automáticos” cai por terra. Imagine o Batman confiando no Batcomputador para analisar gráficos de crimes em Gotham, e o sistema errando porque não consegue diferenciar uma linha sólida de uma linha pontilhada.

Ou um médico em um hospital que confia em um assistente de IA para interpretar dashboards de monitoramento, e o modelo confunde valores de eixos porque nunca viu gráficos reais durante o treino. Esse buraco negro metodológico é o equivalente a mandar um stormtrooper atirar de olhos vendados: os tiros nunca vão acertar o alvo.

Outro problema crítico destacado por Wang et al é a questão da generalização. Modelos treinados em gráficos artificiais até funcionam em benchmarks “domesticados”, mas quando enfrentam gráficos de papers reais ou relatórios financeiros, falham miseravelmente. Trung et al reforçaram esse ponto ao mostrar que o simples SFT gera overfitting, fazendo com que os modelos se tornem especialistas em um tipo de gráfico muito específico, mas incapazes de lidar com diversidade.

Isso é como treinar um mago no RPG só em magias de fogo, e depois esperar que ele resolva desafios de gelo ou sombras. A falta de equilíbrio gera modelos cegos em contextos fora de distribuição.

Para completar, Kumar et al lembraram que o pós-treinamento em LLMs vem evoluindo com abordagens de RL mais sofisticadas, mas quando se trata de VLMs a adaptação ainda está engatinhando. Isso significa que seguimos com modelos superestimados, que brilham em demos cuidadosamente selecionadas, mas que falham em cenários reais, justamente quando mais precisamos deles.

E o hype só aumenta, criando a ilusão de que “a IA já entende gráficos”, quando na verdade estamos lidando com ilusões cuidadosamente roteirizadas.

Essa combinação de datasets homogêneos, extração automática de dados cheios de erros e ausência de estratégias robustas de pós-treinamento gera uma tempestade perfeita de limitações. É como jogar World of Warcraft enfrentando chefes de raid apenas em modo treino com NPCs fáceis, sem nunca pisar em uma raid real.

Quando finalmente chega a batalha real, o grupo é dizimado. E é exatamente isso que acontece quando aplicamos esses modelos em contextos críticos de pesquisa ou tomada de decisão.

Se quisermos realmente transformar gráficos em aliados da IA, precisamos romper com esse ciclo. O caminho passa por datasets autênticos, combinações inteligentes de real e sintético, e estratégias de treino que incorporem tanto raciocínio visual quanto matemático.

Sem isso, estaremos apenas polindo armaduras de stormtroopers que continuarão errando seus disparos.


O anel único que promete unir gráficos e IA sem cair na escuridão

Ahmed Masry et al entraram nessa arena trazendo o BIGCHARTS-R1, que tenta resolver de frente o que a maioria ignorou: a mistura venenosa de datasets falsos, SFT superficial e ausência de diversidade visual. O truque deles foi criar um pipeline que começa com gráficos reais, mas que não aceita a sujeira de dados estimados e imprecisos.

A solução é replotar os gráficos, recriando-os com código gerado por modelos, para garantir que cada imagem tenha uma base de dados fiel. É como usar a técnica de Edo Tensei em Naruto: você revive o gráfico, mas com mais controle sobre sua essência.

A diferença é brutal, porque enquanto datasets antigos se apoiavam em tabelas mal extraídas ou gráficos artificiais de matplotlib que parecem clones genéricos de stormtroopers, o BIGCHARTS traz diversidade visual real e fidelidade nos dados.

O impacto disso é imediato: os modelos treinados nessa base conseguem lidar tanto com gráficos simples de barras quanto com heatmaps e dashboards complexos, algo que até então parecia ficção científica. É como passar de um treino com bots em LoL para finalmente enfrentar jogadores humanos em ranked.

Além disso, eles não ficaram apenas no SFT tradicional. O pulo do gato foi integrar o Group Relative Policy Optimization com recompensas desenhadas especificamente para raciocínio em gráficos. Ou seja, não basta acertar a resposta, o modelo precisa seguir uma estrutura lógica, respeitar formatos e minimizar erros numéricos.

Essa abordagem é o equivalente a treinar um Jedi não só para lutar com sabre, mas também para usar a Força em negociações e leituras mentais. O resultado é um modelo que generaliza muito melhor em benchmarks fora de distribuição, algo que até agora parecia inalcançável.


O que aconteceria se o martelo de Thor não caísse sobre gráficos?

Se esse paper não existisse, o futuro da área estaria preso em uma espiral de datasets cada vez mais sintéticos, modelos que brilham apenas em benchmarks controlados e aplicações reais que desmoronam como castelos de areia. Empresas seguiriam vendendo “assistentes analíticos” que não entendem nem mesmo gráficos básicos, e a pesquisa científica ficaria refém de ferramentas que só funcionam em casos de demonstração.

Seria como imaginar a Liga da Justiça sem o Batman: o grupo teria poder, mas faltaria o cérebro estratégico para lidar com cenários complexos. Sem esse avanço, continuaríamos presos ao ilusionismo de gráficos falsos e resultados inflados.


O grimório secreto dos magos dos gráficos

O cajado de Gandalf contra os datasets genéricos

O pipeline do BIGCHARTS começa coletando gráficos de três fontes: datasets já existentes, Common Crawl e buscas direcionadas no Google. Essa combinação garante diversidade visual, mas o verdadeiro poder vem do passo seguinte: replotar cada gráfico com código.

Isso resolve a maldição da falta de dados subjacentes, criando um equilíbrio entre realismo visual e fidelidade numérica, algo que antes parecia impossível. É como usar alquimia de Fullmetal Alchemist: você desmonta e reconstrói a matéria, mas mantendo sua essência.

O Sharingan aplicado à geração de perguntas

Depois de reconstruir os gráficos, eles geram perguntas com cadeias de raciocínio. Não são apenas perguntas diretas sobre valores, mas também operações matemáticas, comparações visuais e até casos de perguntas não respondíveis. Essa variedade é essencial para treinar modelos que saibam quando responder e quando dizer “não sei”.

É como treinar um ninja a reconhecer quando atacar e quando se esconder nas sombras.

O buff de XP com GRPO

O treinamento começa com SFT clássico, mas o verdadeiro power-up vem na segunda fase, com RL baseado em recompensas verificáveis. Aqui entra o Chart Error Rate Reward, que pune respostas numéricas imprecisas, e o Response Format Reward, que garante que o modelo siga a estrutura correta.

Essa combinação é como jogar RPG com um mestre exigente, que não deixa o jogador trapacear com respostas vagas. O resultado é um modelo que aprende a ser preciso e consistente, mesmo em cenários fora do treino.


A raid dos resultados que deixaram os rivais no chão

O escudo vibranium contra os benchmarks fáceis

Nos experimentos, os modelos BIGCHARTS-R1 superaram rivais em todos os benchmarks testados, incluindo ChartQA, PlotQA, DVQA e CharXiv. Mesmo contra gigantes como GPT-4o e Gemini Flash 2.0, os resultados foram superiores em cenários que exigem raciocínio. É como ver o Homem-Aranha derrubar vilões muito mais musculosos usando inteligência e agilidade.

O efeito crítico contra os dados originais

Ablations mostraram que treinar com gráficos replotted gerou ganhos consistentes em comparação com treinar nos gráficos originais. Isso prova que a estratégia não é apenas estética, mas realmente melhora a precisão dos QAs. É como passar de armas comuns para espadas encantadas em um RPG: o mesmo personagem se torna muito mais eficiente.

A magia negra do overfitting derrotada

Outro ponto crucial é que a integração de RL reduziu o overfitting do SFT, permitindo que os modelos performassem melhor em cenários fora de distribuição. Isso é como finalmente derrotar o boss oculto que sempre matava o grupo porque todos estavam viciados em estratégias fáceis.


A ilusão holográfica da hype em IA

O hype atual faz parecer que modelos multimodais já dominam gráficos, mas esse paper mostra que estamos muito longe disso. O que temos são modelos treinados em dados artificiais que funcionam bem apenas em arenas controladas. É como um herói de anime que brilha em torneios internos, mas apanha feio quando enfrenta inimigos reais.

A indústria prefere mostrar demos de gráficos simples, porque sabe que dashboards complexos ainda destroem qualquer modelo atual. Essa discrepância entre expectativa e realidade é o verdadeiro vilão dessa história.


O portal para sair da Matrix da IA

O que esse trabalho nos obriga a enxergar é que só avançaremos se pararmos de idolatrar benchmarks fáceis e começarmos a exigir diversidade, autenticidade e rigor nos treinos. Não basta repetir que “a IA já entende gráficos”, quando na prática ela falha nos mesmos pontos básicos. É como acreditar que o Neo já domina a Matrix só porque desviou de algumas balas, sem perceber que a guerra real ainda está por vir.

A lição aqui é clara: precisamos de datasets mais realistas, metodologias de treino mais exigentes e, acima de tudo, coragem para enfrentar as limitações em vez de escondê-las atrás da hype.