IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- LIMI: Less is More for Agency
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
A comunidade de IA está num frenesi. Todo mês brota mais um paper, mais um benchmark, mais um modelo que promete ser o novo messias da autonomia artificial. Mas no meio dessa avalanche de hype, poucos têm coragem de fazer a pergunta que realmente importa: será que estamos ensinando as LLMs a pensarem e agirem de forma inteligente ou só criando papagaios de prompt com músculos de Hulk e cérebro de minion?
Essa é a pergunta que começa a incomodar os mais atentos. E é aqui que o paper LIMI: Less Is More for Agency aparece como o verdadeiro Jedi da rebelião. Em vez de seguir o caminho dos Siths da computação, que acreditam no poder bruto dos dados infinitos e dos clusters com nome de robôs da Marvel, o LIMI aposta na elegância, no foco e na curadoria. Não é sobre treinar até o modelo explodir. É sobre ensinar a agir.
Nos últimos anos, a evolução das LLMs seguiu uma trilha previsível. O mantra era: mais dados, mais parâmetros, mais GPU. Kaplan et al foram um dos primeiros a formalizar isso com as leis de escala para modelos de linguagem. OpenAI seguiu o script com o GPT-3 e depois o GPT-4, alimentados por oceanos de dados. Brown et al mostraram que mesmo com poucas instruções, os modelos conseguiam generalizar, desde que tivessem sido pré-treinados em escala absurda.
Aí surgiram os papers que começaram a desafiar o dogma. Zhou et al lançaram o LIMA, mostrando que alinhamento pode ser atingido com apenas 1.000 exemplos bem curados. Ye et al foram além com o LIMO: raciocínio matemático avançado emergindo de menos de mil amostras. Esses trabalhos bateram de frente com a lógica de que “mais é sempre melhor”.
Wei et al introduziram o chain-of-thought prompting, adicionando raciocínio passo a passo. Dhuliawala et al expandiram isso com verificação em cadeia. Zhang et al aplicaram esse raciocínio multimodal. Enquanto isso, Chan et al, Du et al e Qian et al investigavam como fazer múltiplos agentes debaterem entre si para melhorar factualidade e robustez.
Mas todos ainda estavam presos ao vício da escala. A maioria dos sistemas que se vendem como “autônomos” dependem de dezenas de milhares de exemplos, setups gigantescos e um monte de patchwork de ferramentas externas. O Toolformer de Schick et al mostrou que dá pra ensinar modelos a usar APIs, mas exigiu muito esforço manual. O ReAct de Yao et al tentou unir raciocínio e ação, mas dependia de prompts muito bem desenhados.
E é nesse cenário que o LIMI explode como um Rasengan no meio de um exército de LLMs treinadas à base de força bruta. Com apenas 78 amostras cuidadosamente selecionadas, ele alcança 73.5% no benchmark mais difícil de agency, superando modelos como Kimi-K2-Instruct (24.1%), DeepSeek-V3.1 (11.9%), Qwen3-235B (27.5%) e até o GLM-4.5 com 10.000 amostras (45.1%).
Ou seja: menos de 1% dos dados, mais de 50% de vantagem. Isso é mais eficiente que qualquer plano do Tony Stark.
Esse resultado não é só estatisticamente impressionante. Ele é epistemologicamente revolucionário. Ele quebra a espinha dorsal do paradigma atual da IA, que insiste que só com muitos dados se chega à inteligência. O LIMI prova que, na prática, a inteligência emerge da qualidade das experiências, não da quantidade de exposição.
Isso não é só relevante pra academia. É existencial pra indústria. Porque enquanto a galera do Vale do Silício tenta criar agentes que trabalhem no lugar de humanos, a pergunta real é: estamos ensinando esses sistemas a trabalhar ou só a fazer cosplay de produtividade?
Parisi et al já alertavam sobre a necessidade de execução autônoma. Yang et al mostraram que multi-step planning é essencial. Li et al investigaram como agentes podem colaborar com humanos. Chan et al analisaram o impacto de debates multiagente. Mas faltava uma coisa: um modelo que fizesse tudo isso com quase nada de dado.
O LIMI faz exatamente isso. E não com blá-blá-blá teórico, mas com execução real, tarefas complexas e benchmarks que medem não só raciocínio, mas agência — aquela capacidade de formular hipóteses, tomar decisões, usar ferramentas e reagir ao ambiente.
A metáfora aqui não é só geek — é essencial. O que o LIMI está fazendo é como o Rock Lee tirando os pesos nas costas. Ele não tem o chakra infinito do Naruto, mas tem técnica, disciplina e trajetória bem construída. E isso é o que faz dele um verdadeiro agente.
A rebelião dos 78: quando os dados são escolhidos como os Vingadores originais
Os autores do LIMI — Yang Xiao et al — não inventaram um novo modelo. Não criaram uma nova arquitetura revolucionária. Eles pegaram um modelo conhecido (GLM-4.5) e fizeram uma pergunta simples: e se, em vez de dar 10.000 tarefas aleatórias, a gente der 78 exemplos cuidadosamente selecionados de agência real?
Foi isso. Nada de hack cósmico. Só dados certos, no contexto certo.
Essas 78 amostras foram extraídas de dois mundos altamente complexos e ricos em interações: vibe coding (desenvolvimento colaborativo de software) e pesquisa científica. Os autores sabiam que esses domínios exigem raciocínio, uso de ferramentas, coordenação, múltiplas etapas e, acima de tudo, autonomia.
Para a vibe coding, os dados vieram de pull requests reais de repositórios populares do GitHub. Mas não foi qualquer PR. Eles passaram por curadoria pesada, filtrando por complexidade, relevância, cobertura de domínios e fidelidade semântica. Como se escolhessem cada membro dos X-Men com base em sinergia de poderes.
No domínio de pesquisa científica, os dados incluíam workflows inteiros de busca por datasets, análise estatística, design experimental e escrita de relatórios. Nada de perguntas triviais. Era raciocínio profundo, multietapas, com contexto real e interações contínuas.
Cada exemplo tinha uma trajetória completa: do input do usuário até a execução da tarefa, passando por raciocínio, chamadas de ferramentas, observações do ambiente e ajustes. Era como gravar uma campanha inteira de D&D, com o modelo como jogador, o humano como mestre e o ambiente como o próprio tabuleiro.
Esse é o ponto: não bastava mostrar o que fazer. Era preciso mostrar como agir, reagir, corrigir e colaborar. Esse tipo de dado não se escala com scraping. Se constrói com inteligência.
Sem o LIMI, os agentes seriam como soldados clone: obedientes, inúteis e descartáveis
Vamos imaginar um cenário sem o LIMI. Continuamos treinando modelos com centenas de milhares de instruções genéricas, sem contexto, sem interação real, sem feedback. Os resultados? Modelos que até sabem usar ferramentas, mas colapsam quando precisam planejar mais de dois passos. Agentes que travam diante de uma ambiguidade. Sistemas que não sabem quando pedir ajuda, quando tentar de novo ou quando desistir.
É como montar um exército de clones no Star Wars: todos obedientes, todos previsíveis, nenhum criativo. Nenhum com agência real. E quando o cenário muda, todos falham juntos.
O que o LIMI traz é a possibilidade de treinar Jedi, não stormtroopers. Agentes que pensam, decidem, testam hipóteses, se corrigem. Com 78 amostras, o LIMI aprendeu mais do que outros modelos aprenderam com milhares. Porque aprendeu o que importa.
Sem isso, continuamos caindo na armadilha da pseudoagência: aquela em que o modelo parece autônomo, mas depende de um prompt cuidadosamente desenhado, ou de uma sequência de instruções humanas invisíveis. Não é agência. É teatro.
A Master Ball dos resultados: precisão cirúrgica com recursos mínimos
Os resultados do LIMI não são apenas bons — são quase ofensivos de tão eficientes. E agora sim, vamos dividir isso em partes, como todo bom game designer faria ao apresentar um novo boss de final de fase.
O Kamehameha da eficiência de dados
Com apenas 78 exemplos, o LIMI atinge 73.5% no benchmark AgencyBench. Comparado ao GLM-4.5 original (45.1%) — que tem a mesma arquitetura, mas zero fine-tune com os dados do LIMI — estamos falando de um ganho de 28.4 pontos percentuais.
Mas o que realmente choca é a comparação com modelos treinados com ordens de magnitude mais dados. O GLM-4.5-Code, treinado com 10.000 exemplos, atinge apenas 47.8%. Isso significa que o LIMI, com 128 vezes menos dados, entrega uma performance 53.7% superior.
Esse resultado não é um glitch na Matrix. Ele se repete em diferentes domínios, com diferentes tarefas e em diferentes configurações.
O Mjolnir da generalização cruzada
Testando em benchmarks como TAU2-Bench (tool use), EvalPlus (código), DS-1000 (ciência de dados) e SciCode (computação científica), o LIMI segue vencendo.
Na média, ele alcança 57.2% contra 43% do GLM-4.5 original. Contra o DeepSeek-V3.1 (29.7%) ou o Qwen3 (36.7%), é um massacre. Contra o Kimi-K2-Instruct, que tem 1 trilhão de parâmetros, o LIMI mostra que tamanho não é documento: Kimi faz 37.3% — 20 pontos abaixo do LIMI.
E aqui o detalhe mais bonito: nenhum desses benchmarks estava no conjunto de treino do LIMI. Isso significa que a inteligência aprendida nas 78 tarefas não é sobre memorização. É sobre transferência de agência.
A Pokébola dos modelos base: força bruta vs técnica
O mesmo modelo base — GLM-4.5 — treinado com diferentes datasets mostra como o como importa mais que o quanto. Com o dataset CC-Bench (260 exemplos), o modelo faz 29.2%. Com o WebAgent (7.610 exemplos), 36.7%. Só quando se usa os 78 do LIMI que ele salta para 73.5%.
Comparamos também com o GLM-4.5-Air (modelo menor, 106B). Mesmo com menos capacidade, ao ser treinado com os dados do LIMI (versão LIMI-Air), ele pula de 17.0% para 34.3%. Ou seja, o ganho de agência acontece mesmo com menos capacidade computacional.
O escudo do Capitão América contra benchmarks adversos
Mesmo sem acesso ao ambiente CLI — onde o modelo pode executar ferramentas e interagir — o LIMI mantém vantagem. Em cenário tool-free, ele alcança 50.0%, ainda acima do GLM-4.5 (48.7%) e de todos os outros modelos abertos.
Quando o ambiente está disponível, o ganho é ainda maior: o LIMI sobe para 57.2%. Isso mostra que ele não só pensa melhor, como usa melhor os recursos disponíveis. Não é só IA que responde. É IA que age.
A ilusão de Excalibur: todo mundo quer agência, mas ninguém quer ensinar de verdade
A indústria está vendendo autonomia como se fosse o Santo Graal da IA. Mas a verdade é que a maioria das soluções são apenas wrappers bonitos com nomes chamativos, plugados em LLMs que não têm agência real.
AutoGPT, AgentGPT, SuperAGI, LangGraph, CrewAI… todos prometem autonomia, mas poucos entregam. Por quê?
Porque estão tentando resolver o problema com engenharia de ferramentas, não com entendimento profundo do comportamento. Estão criando uma armadura de Iron Man sem Tony Stark dentro.
O LIMI mostra que, se você quer criar agentes, precisa ensiná-los com exemplos reais de agência. Não com prompts bonitinhos. Não com datasets inflados. Mas com interações reais, multietapas, com falhas, correções e sucesso.
Essa é a diferença entre uma espada de plástico e a Excalibur real.
O Mago Supremo da IA: curadoria é o novo superpoder
O verdadeiro poder por trás do LIMI é a curadoria estratégica. É olhar para 10.000 exemplos possíveis e escolher os 78 que ensinam mais. É como montar o time ideal de heróis: não são os mais fortes individualmente, mas os que juntos resolvem qualquer situação.
Isso é um chamado à mudança. Um aviso para pesquisadores, engenheiros e sonhadores de IA: parem de escalar. Comecem a selecionar.
Porque no fim das contas, agência não se compra com mais GPU. Agência se aprende com as demonstrações certas, nos contextos certos. Como todo Jedi sabe: o sabre de luz é só uma ferramenta. O que importa é quem o empunha — e o que aprendeu para usá-lo.
![[IA na veIA nº 22] Entre o caos e a ordem: por que entender o localmax pode decidir o futuro dos Transformers?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 22] Entre o caos e a ordem: por que entender o localmax pode decidir o futuro dos…
![[IA na veIA nº 20] Entre o raciocínio de um mago e a fala de um bardo: o dilema não resolvido da IA](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 20] Entre o raciocínio de um mago e a fala de um bardo: o dilema não resolvido da…
![[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está levando a IA direto pro abismo de Moria](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está…
![[IA na veIA nº 18] O LLM é forte, mas cego: CodeRAG é o Byakugan que enxerga o repositório inteiro](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)