[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que dominá-la

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Solving a Million-Step LLM Task with Zero Errors
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A ficção científica nos ensinou a acreditar que basta construir uma superinteligência, com poderes mágicos como o sabre de luz de um Jedi, para resolver qualquer problema complexo. Mas a realidade está mais para Star Wars Episódio III: por mais poderosa que uma entidade seja, ela colapsa sozinha. O novo trabalho de Meyerson et al joga uma granada na ilusão dominante sobre como escalar a inteligência artificial.

Ele mostra que, em vez de criar LLMs cada vez maiores, precisamos fragmentar, modularizar e distribuir – como em uma batalha de RPG onde cada personagem tem uma função específica. O paper não apenas desafia essa mentalidade monolítica como apresenta uma prova empírica brutal: eles resolveram uma tarefa com mais de um milhão de passos de LLM… sem um único erro.

A motivação para isso vem de uma limitação estrutural que a comunidade vem ignorando. LLMs como GPT, Claude ou LLaMA foram celebradas por vencer benchmarks como MMLU ou GSM8K, mas esses testes avaliam raciocínio curto, com poucas etapas. Quando o número de passos aumenta, o erro se acumula exponencialmente. Dziri et al mostraram que Transformers falham miseravelmente em composições aritméticas mais longas.

Sinha et al mostraram que a performance de LLMs despenca em tarefas de múltiplos passos, mesmo com planos claros. Parshin Shojaee et al reforçaram que o colapso é inevitável em benchmarks como Towers of Hanoi. O que Meyerson et al fizeram foi pegar esse cenário e empacotar a falha como oportunidade.

A ideia é simples e contraintuitiva: quanto mais fragmentada for uma tarefa, mais confiável ela se torna. Belcak et al já haviam defendido que modelos pequenos (SLMs) são mais eficientes e seguros se bem coordenados. Qiu & Miikkulainen defendem que a escalabilidade depende de decompor a inteligência em agentes especializados.

O que vemos é uma mudança de paradigma: sair da visão megalomaníaca de uma entidade única, e assumir a humildade de uma estrutura inspirada em microserviços.

Os métodos antigos – como auto-verificação, fine-tuning para output estruturado ou post-processing com ferramentas como Guardrails-AI – falham em garantir escalabilidade segura. Isso porque eles operam no nível da superfície: formatam, corrigem, mas não impedem o erro semântico. Já os autores aqui propõem uma estratégia inspirada em redes biológicas e sistemas digitais resilientes: voto, redundância e eliminação de outliers. É como montar uma guilda em WoW com múltiplos healers e tanks garantindo que ninguém caia.

Ao contrário de outras abordagens que dependem de melhorias incrementais nos modelos, esse trabalho mostra que podemos obter uma “vantagem quântica multi-agente”, onde a coordenação de agentes simples supera a capacidade de um agente monolítico. E essa ideia, embora revolucionária, não é nova: desde Shannon e seu teorema de codificação até as resistências celulares de elefantes ao câncer, sistemas distribuídos com correção de erro sempre foram o caminho para a robustez.

A diferença agora é que temos um caso concreto, replicável, quantitativo – e que derruba a narrativa dominante.

MAKER: o Ultron dos agentes especializados

O sistema MAKER, desenvolvido por Meyerson et al, não é apenas mais uma framework de coordenação de agentes. Ele é um manifesto contra o culto da LLM monolítica. A proposta é decompor qualquer tarefa em microtarefas, delegadas a microagentes LLM, e aplicar um sistema de votação com redundância e “red-flagging” para garantir que nenhum erro passe adiante. Cada agente executa apenas um passo. Um. Não dois, não dez. Um. E isso muda tudo.

O time é encabeçado por nomes como Elliot Meyerson, Xin Qiu e Risto Miikkulainen, figuras-chave do Cognizant AI Lab e da Universidade do Texas em Austin. Em vez de perseguir a próxima arquitetura SOTA com 1 trilhão de parâmetros, eles pegaram modelos simples (como o gpt-4.1-mini) e provaram que, com a estratégia certa, até modelos não-razonadores podem resolver tarefas massivas.

O nome MAKER vem da combinação de três componentes centrais:

Maximal Agentic Decomposition (MAD): a decomposição extrema onde cada agente resolve apenas uma microtarefa.
First-to-ahead-by-K voting: um sistema de voto onde uma resposta precisa se destacar para ser aceita.
Red-flagging: qualquer saída com estrutura suspeita é descartada sem piedade.

A sacada é que isso não só melhora a confiabilidade como permite prever matematicamente o custo da execução, o número de votos necessários (k), e como a performance escala com o número de passos. Não é só uma ideia brilhante – é uma estrutura com base estatística, análises assintóticas e experimentos reproduzíveis.

Sem MAKER, o erro seria inevitável como Thanos

Imagine jogar uma partida de LoL em que cada campeão tem 1% de chance de fazer uma jogada errada por segundo. Em 10 segundos, já é quase certeza que alguém vai trollar. Esse é o drama dos LLMs em tarefas longas. Com 1% de erro por passo, uma sequência de mil etapas já tem probabilidade de falha superior a 99,9%.

Sem MAKER, sistemas LLM simplesmente não conseguem escalar. As abordagens clássicas que tentam melhorar a precisão de cada modelo falham no acumulado. Mesmo com 99% de acurácia por passo, você falha antes de chegar ao milésimo. Em tarefas como o benchmark de 20 discos do Towers of Hanoi – que exige mais de um milhão de passos sequenciais – o erro não é um acaso, é uma certeza.

A ausência de decomposição modular significa que qualquer erro semântico ou de formatação em um único passo corrompe toda a cadeia. Seria como depender de um único personagem para carregar toda a raid de WoW. MAKER resolve isso de forma brutal: ele fatiou a inteligência como se fossem horcruxes de Voldemort – mesmo que uma parte falhe, as outras seguram o sistema.

O exército dos clones: como MAKER funciona em detalhes

A torre de vigia dos microagentes

MAKER implementa a estratégia de dividir para conquistar. Cada agente recebe como entrada o estado atual e a última ação, e responde com o próximo movimento e o novo estado. A granularidade é tão absurda que cada LLM responde apenas a uma pergunta do tipo “qual é o próximo passo?”. É como se estivéssemos resolvendo um problema de álgebra e cada célula do Excel fosse uma LLM.

Esse nível de decomposição é intencional. Ele isola o agente do contexto global e reduz o risco de contaminação semântica. O custo disso? Mais chamadas à API. Mas o ganho? Controle total.

O conselho Jedi: votação probabilística

Ao invés de confiar cegamente em uma resposta, MAKER implementa um sistema de votação baseado no modelo de ruína do apostador. A ideia é que, com múltiplas amostras, a resposta correta será a primeira a ficar “k” votos à frente das outras. É o “first-to-ahead-by-k”. Esse sistema garante que até com uma taxa de erro de 5% por passo, ainda seja possível executar mais de 1 milhão de passos com sucesso – basta calibrar o “k” certo.

Com base em fórmulas fechadas, os autores mostram que o número mínimo de votos necessários cresce logaritmicamente com o número de passos. Isso significa que mesmo tarefas com bilhões de etapas continuam viáveis. No mundo dos algoritmos, isso é como sair de um bubble sort para um quicksort.

O sensor aranha: red-flagging contra agentes corrompidos

Red-flagging é o mecanismo de defesa do MAKER. Se a saída de um agente for longa demais ou estiver mal formatada, ela é descartada sem dó. Por quê? Porque LLMs que começam a se enrolar no raciocínio geram respostas confusas e potencialmente erradas. É como um mago que começa a repetir feitiços sem sentido – melhor cortar antes que invoque algo incontrolável.

Com isso, a taxa de erro efetiva por passo cai, e o sistema ganha mais resiliência contra outliers e erros correlacionados. O resultado? Um sistema que opera como um formigueiro hiperinteligente.

O sistema operacional da Estrela da Morte: métricas, resultados e impacto brutal

A missão impossível: resolver o Tower of Hanoi com 20 discos

A equipe usou o modelo gpt-4.1-mini, com temperatura de 0.1 e red-flagging ativado. Cada passo envolvia no mínimo três amostras (k = 3), totalizando mais de 1 milhão de chamadas LLM. E o resultado? Zero erros. Absolutamente nenhum. A missão foi completada com precisão cirúrgica.

Performance dos modelos: não é o maior que vence

Modelos como gpt-oss-20B, o3-mini e gpt-4.1-mini foram testados. Curiosamente, o gpt-4.1-mini teve o menor custo total (cerca de $3.5K) e o menor valor de k necessário. Isso mostra que modelos menores, quando bem coordenados, são mais eficientes do que gigantes com taxa de erro acumulada. É como ver um exército de Ewoks derrotando um AT-AT.

Custo, escalabilidade e eficiência

As fórmulas apresentadas mostram que o custo cresce linearmente com o número de passos e logaritmicamente com o voto necessário. Isso torna possível prever o custo antes mesmo de executar o sistema. Um feito raro em IA prática. Se você está construindo um sistema multi-agente, isso é tão valioso quanto uma poção lendária de insight.

Red-flagging como vacina contra falhas

Experimentos mostraram que quando respostas longas não são filtradas, o número de erros correlacionados dispara. Com o red-flagging, o sistema praticamente elimina colisões em amostras, garantindo que mesmo os passos mais difíceis (como o passo 10241, que exigiu 18 votos) sejam resolvidos sem comprometimento do processo.

A Matrix da IA: por que a indústria está presa numa ilusão perigosa

É hora de acordar. A hype atual em torno de modelos cada vez maiores – LLMs com trilhões de parâmetros, contextos infinitos, arquiteturas mágicas – está presa na ilusão de que mais tamanho = mais inteligência. Esse paper joga uma bomba nesse discurso. Ele mostra que, mesmo com modelos limitados, é possível atingir um nível de precisão que os gigantes nunca alcançarão sozinhos.

A indústria insiste em criar monstros com cérebros gigantes mas pernas de papel. Quando o mundo precisa de sistemas confiáveis, baratos e escaláveis, a solução não está em superinteligências isoladas, mas em redes de microinteligências especializadas.

O problema é que essa verdade fere egos, quebra pipelines e exige pensar fora do hype. Mas se queremos uma IA realmente útil, não podemos continuar presos nessa Matrix.

A Legião de Heróis da IA: provocação final e caminhos para o futuro

A ideia de que um único modelo gigante pode resolver tudo está morta. O futuro está em legiões coordenadas, como os Vingadores da IA. Cada agente com uma missão, um foco, uma responsabilidade. Mais segurança, mais controle, menos desastre.

Os desafios agora são:

Como automatizar a decomposição de tarefas?
Como garantir diversidade e decorrelação entre agentes?
Como integrar insights (criatividade) com execução (precisão)?

MAKER é só o começo. Novas versões podem incluir agentes para criação de subtarefas, votação entre estratégias e composição modular. É o blueprint de uma arquitetura organizacional de IA, onde os agentes são membros de uma guilda, não soldados solitários.

Se você quer construir sistemas reais, que funcionam, escalam e não colapsam, precisa entender esse paper. Leia. Estude. Replique. A revolução já começou.

IA na veIA

[IA na veIA nº 33] Como comprimir um Hulk e manter o cérebro do Tony Stark: o truque da Nemotron

[IA na veIA nº 32] MAKER contra a Skynet: por que dividir a inteligência é melhor do que…

[IA na veIA nº 31] Do prompt ao protagonismo: as LLMs finalmente levantam da cadeira

O melhor palestrante na Paraíba sobre marketing digital: como contratar Celso Sousa