[IA na veIA nº 23] O simulador de mundos que humilha a realidade: quando LLMs jogam de Game Master

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar palestra de IA!

Visão geral do paper

A comunidade de IA sempre teve uma obsessão por generalização. Treinar modelos que saibam lidar com interfaces desconhecidas é como tentar criar um Jedi: não basta seguir ordens, ele precisa navegar o imprevisível com maestria.

O problema? Dados. Especialmente, dados de interações em UIs reais. Criar trajetórias de navegação de alta qualidade custa tempo, grana e paciência. Xie et al estimaram mais de 1800 horas humanas só pra gerar dados para 360 tarefas. Isso é basicamente um clã de anciões Jedi passando meses ensinando um Padawan a abrir o e-mail.

Enquanto isso, a busca por alternativas escaláveis gerou ideias criativas. Ou et al propuseram converter tutoriais em trajetórias. Murty et al decidiram que o agente podia vagar por aí aprendendo sozinho. Já Sun et al apostaram em síntese reversa: criar a instrução depois de explorar. Trabucco et al seguiram o caminho do RPG hardcore: exploração aberta com mínimo de orientação. Todos com o mesmo sonho: dados em escala, sem precisar invocar milhares de cliques humanos.

Mas essas abordagens têm seus Kyber Crystals quebrados. Falta diversidade real de estados de interface. Cobbe et al já mostraram em 2020 que sem variedade, o agente só sabe usar o sabre de luz no treino, não no campo de batalha. Kimi-K2 reforçou isso em 2025: sem diversidade, não há adaptação. Só que testar em UIs reais é caro, lento e limitado. Lai et al detalharam os problemas técnicos disso — latência, falta de paralelismo, instabilidade.

Ha & Schmidhuber, ainda em 2018, já sonhavam com “world models”, simuladores capazes de prever o futuro de um ambiente. Hafner et al deram os primeiros passos com vídeos. Hao et al e Gu et al começaram a usar LLMs como modelos do mundo, mas ainda focavam em tomada de decisão.

Fang et al e Gao et al foram além: LLMs que simulam transições. Mas mesmo assim, a eficiência era um monstro de cinco cabeças. Era preciso algo que unisse escalabilidade com intuição de desenvolvedor.

UI-Simulator: o motor warp dos simuladores de agentes digitais

Wang et al propõem algo que parece saído direto de Wakanda: UI-Simulator. Um framework que transforma LLMs em simuladores de mundos digitais para treinar agentes. E não qualquer LLM. Estamos falando de modelos treinados em código front-end e conhecimento procedural, que aprendem a prever como uma UI reagirá a ações do usuário.

O ponto brilhante? Não precisa fine-tuning. Basta um estado anterior e uma ação para que o LLM gere o próximo estado em um formato estruturado, com coordenadas, conteúdo textual e atributos dinâmicos. Isso é tipo o Jarvis gerando a próxima tela do painel do Homem de Ferro com base no último clique do Tony Stark.

A pipeline inclui um rollout guiado onde um agente professor navega a UI gerada pelo simulador, controlando passo a passo para evitar ações aleatórias ou incoerentes. No final, um empacotador transforma tudo em trajetórias utilizáveis, com instruções de usuário, raciocínios intermediários e ações.

Mas a verdadeira manopla do infinito vem com o UI-Simulator-Grow. Em vez de gerar dados a esmo, ele escolhe tarefas com maior potencial de aprendizado, com base em sinais de perda por teacher-forcing. Depois gera variantes dessas tarefas, otimizando aprendizado com menos dados.

O resultado? Usando só o Llama-3-8B-Instruct, eles rivalizam o desempenho do Llama-3-70B-Instruct. É como se o Peter Parker com uniforme de treino derrotasse o Thanos.

Sem esse simulador, o agente é só um stormtrooper errante

Sem o UI-Simulator, os agentes digitais estariam presos no ciclo Sith de dados escassos, overfitting e limitações de generalização. Imagine treinar um caçador de recompensas intergaláctico com apenas três cidades pra patrulhar: no momento que ele pisa em Tatooine, ele congela.

A ausência de diversidade nas UIs limita severamente a capacidade de adaptação. Cenários como layouts diferentes, interações complexas ou estados com erros (como “página não encontrada”) são raramente representados em ambientes reais. E mesmo quando são, a coleta é lenta, restrita e cheia de entraves — tipo tentar acessar o servidor da Umbrella Corporation em plena pandemia zumbi.

Com o UI-Simulator, novas páginas, estruturas e fluxos surgem do zero, como conjurações mágicas feitas por um mago de nível 20. Agentes que antes dependiam de interações específicas, agora aprendem a lidar com o imprevisível. O mundo digital deixa de ser estático e passa a ser um playground de possibilidades.

A sala do perigo dos X-Men: como treinar agentes em mundos digitais simulados

O Holodeck da Enterprise agora roda LLM

O simulador proposto por Wang et al é baseado em uma ideia genial: usar um LLM como mecanismo de transição entre estados de UI. Dado um estado atual e uma ação, ele prevê o próximo estado. Mas não é chute. Ele segue uma pipeline de três passos: previsão geral do que vai acontecer, geração rica em linguagem natural e depois conversão para um formato estruturado, com bounding boxes e atributos dinâmicos.

O mais incrível? Para a maioria das ações, essa transição é feita apenas com exemplos em contexto. Sem treinamento adicional. Tipo um aprendiz que aprendeu só lendo manuais Jedi antigos e já sabe como desarmar bombas no campo de batalha.

Modo solo vs modo enciclopédia Jedi

Existem dois modos: sem recuperação e com recuperação. No modo retrieval-free, o modelo cria o próximo estado só com base no histórico. Já no retrieval-augmented, ele consulta uma base pequena de transições reais da UI de teste, como se estivesse acessando os arquivos da biblioteca Jedi antes de tomar decisões.

O pipeline de recuperação é híbrido. Primeiro BM25 para filtragem bruta, depois GPT-4o para encontrar semelhanças semânticas e por fim uma composição entre estado atual e histórico. Isso aumenta a coerência das transições. Tipo consultar os registros da Estrela da Morte antes de entrar.

Rollouts guiados com raciocínio digno de Sherlock Holmes

O agente professor (MTeacher) gera ações passo a passo. Mas não sozinho. A cada passo, há um “task control” que propõe um mini-objetivo. É como dividir a missão “invadir a base Skrull” em “achar o terminal”, “burlar a segurança”, “encontrar o prisioneiro”.

Em cada etapa, o agente também gera um pensamento (reasoning thought), ação e um resumo do que fez. Ao final, se o agente achar que concluiu a tarefa, ele envia um “STOP” e tudo vira uma trajetória final que será usada no treino.

Reescrevendo o passado como se fosse um flashback de anime

Como a instrução original do usuário não existe no início, o sistema resume a trajetória após o rollout e cria uma instrução que reflete o que foi feito. Depois reescreve os pensamentos para que se alinhem com essa nova instrução. Isso gera uma coerência narrativa que faria até o Itachi chorar.

Simular para vencer: UI-Simulator-Grow entra em cena

Em vez de gerar milhares de tarefas, o Grow seleciona aquelas com perda média: nem muito fáceis, nem impossíveis. Como em um treino Pokémon, você não evolui colocando seu Pikachu pra enfrentar Magikarp ou Mewtwo. Você quer desafios na medida certa.

As tarefas são ranqueadas por loss e aquelas entre os percentis 25 e 75 são escolhidas. A cada iteração, novas variantes são criadas com pequenas mudanças (tipo trocar “tênis” por “chinelo”) e o agente é treinado com aprendizado contínuo usando replay estratégico de tarefas anteriores. Nada de esquecer o que já aprendeu, como certos personagens de anime esquecem quem são a cada saga.

A liga da justiça dos experimentos: quando simuladores superam a realidade

WebArena e AndroidWorld: as arenas de batalha

Os testes foram feitos no WebArena (812 tarefas web) e no AndroidWorld (116 tarefas mobile). Os modelos base foram Llama-3-8B-Instruct e Qwen-2.5-7B-Instruct. A temperatura do modelo durante treino e teste foi mantida em 0.6, e os benchmarks foram padronizados para garantir comparabilidade.

Resultados que fazem até o Batman sorrir

Só com simulação e sem ver a UI real, o UI-Simulator-F aumentou o sucesso em AndroidWorld de 0% para 9%. Em WebArena, superou métodos que usaram o ambiente real, como OS-Genesis. Isso mostra que LLMs realmente sabem como os sites funcionam — tipo um oráculo digital treinado em HTML e CSS.

Mesmo usando o pequeno GPT-4o-mini como professor, o desempenho foi comparável ao GPT-4o no Android. Isso é um tapa com luva de vibranium na cara de quem diz que só modelos gigantes aprendem bem.

Quando menos é mais: UI-Simulator-Grow mostra que estratégia vence força bruta

O Grow atingiu performance de modelos de 70B usando apenas 66% das trajetórias. E mais: evoluiu mais rápido, especialmente em categorias como repositórios de código, onde as últimas iterações resolveram tarefas que nenhum outro método havia conseguido.

Robustez que nem o Hulk derruba

Perturbações aleatórias no layout da UI não afetaram tanto o desempenho dos agentes treinados com UI-Simulator. Eles mostraram uma resistência digna de vibranium, adaptando-se mesmo com mudanças visuais.

Sem controles passo a passo? Queda de 4% a 7% no desempenho

Remover os task controls reduziu a diversidade das trajetórias (dimensão PCA caiu de 153 para 118), mostrando que sem guia, o professor vira um noob que clica em qualquer botão.

Simular no ambiente real? Surpreendentemente pior

Os ambientes reais falham ao gerar trajetórias úteis: buscas sem resultados, páginas com login necessário e estados homogêneos. O simulador evita tudo isso, gerando interações ricas que seriam impossíveis de coletar.

A ilusão do multiverso de dados infinitos: o hype que ninguém quer questionar

Vamos encarar a realidade como se estivéssemos em Matrix: a coleta de dados reais virou uma religião. Mas por que insistimos em ambientes reais se LLMs simulam tão bem?

Pagar para clicar em sites, esperar carregamentos, lidar com erros e restrições… tudo isso por dados menos diversos, menos úteis e mais enviesados. A indústria parece presa em um feitiço de +1 em datasets, achando que mais é sempre melhor.

O UI-Simulator mostra que podemos criar mundos sob demanda. Então por que gastar com coleta em ambientes hostis, se podemos treinar no Holodeck? A resposta é simples: porque muitos ainda não acreditam que LLMs sabem simular com fidelidade.

O pergaminho proibido da IA: como escapar da maldição da escalabilidade burra

Essa pesquisa é um tapa na cara de quem ainda acha que “mais dados reais = melhor agente”. Ela mostra que estratégia, simulação e inteligência podem substituir força bruta.

Queremos IAs que generalizem, que se adaptem, que dominem o desconhecido como o Doctor Strange numa nova dimensão. Para isso, precisamos sair da bolha da coleta real. Usar simuladores não é trapaça. É evolução. É o próximo passo.

A era do agente digital escalado com clique humano acabou. O futuro está nos simuladores que criam realidades. Que constroem desafios. Que forjam heróis.

IA na veIA

O melhor palestrante de marketing digital em Santa Catarina, Celso Sousa, ensina como usar marketing…

O melhor palestrante de marketing digital em Roraima, Celso Sousa, ensina como usar marketing…

[IA na veIA nº 23] O simulador de mundos que humilha a realidade: quando LLMs jogam de Game Master

O melhor palestrante de marketing digital em Rondônia, Celso Sousa, ensina como usar marketing…

IA na veIA

[IA na veIA nº 23] O simulador de mundos que humilha a realidade: quando LLMs jogam de Game Master

Quem é Celso Sousa?

Visão geral do paper

UI-Simulator: o motor warp dos simuladores de agentes digitais

Sem esse simulador, o agente é só um stormtrooper errante

A sala do perigo dos X-Men: como treinar agentes em mundos digitais simulados

O Holodeck da Enterprise agora roda LLM

Modo solo vs modo enciclopédia Jedi

Rollouts guiados com raciocínio digno de Sherlock Holmes

Reescrevendo o passado como se fosse um flashback de anime

Simular para vencer: UI-Simulator-Grow entra em cena

A liga da justiça dos experimentos: quando simuladores superam a realidade

WebArena e AndroidWorld: as arenas de batalha

Resultados que fazem até o Batman sorrir

Quando menos é mais: UI-Simulator-Grow mostra que estratégia vence força bruta

Robustez que nem o Hulk derruba

Sem controles passo a passo? Queda de 4% a 7% no desempenho

Simular no ambiente real? Surpreendentemente pior

A ilusão do multiverso de dados infinitos: o hype que ninguém quer questionar

O pergaminho proibido da IA: como escapar da maldição da escalabilidade burra