IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks
- Link do paper

Quem sou eu?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
Durante anos, a comunidade de IA sonhou com modelos que pudessem resolver qualquer tarefa textual como se fossem um canivete suíço. Mas, assim como um aprendiz Jedi que tenta lutar contra Darth Vader com um sabre de luz defeituoso, a realidade mostra que escolher a ferramenta errada pode custar caro.
Não basta ter um LLM poderoso — é preciso ter o LLM certo para a missão certa, no momento certo, com o custo certo. E, como a galáxia das aplicações cresce, o número de modelos disponíveis se multiplica como stormtroopers em cena de ação, tornando a seleção cada vez mais complexa.
A literatura recente já aponta que nem sempre o maior modelo é o mais eficiente. Shnitzer et al mostraram que o roteamento inteligente de LLMs pode superar abordagens simplistas, evitando gastar recursos de forma desnecessária.
Xia et al investigaram como a escolha de modelos pode ser guiada por algoritmos de aprendizado online, adaptando-se a mudanças ao longo do tempo. Zhao et al reforçaram que o simples teste exaustivo de todos os modelos disponíveis é inviável por questões de custo e latência, algo que Shazeer et al já alertavam desde 2017.
É um pouco como tentar enfrentar um boss de World of Warcraft usando todas as habilidades ao mesmo tempo — além de desperdiçar mana, você provavelmente será esmagado.
Outro ponto importante vem do trabalho de Qiu et al, que defendem a decomposição de tarefas em subtarefas especializadas, delegando cada parte a um agente mais adequado. Essa abordagem lembra um grupo de heróis de RPG, onde o tanque segura o inimigo, o mago lança feitiços e o healer mantém todos vivos.
No mundo dos LLMs, o “tanque” pode ser um modelo rápido e barato para filtragem inicial, o “mago” um LLM robusto para raciocínio complexo e o “healer” um modelo de validação que garante consistência.
O problema é que a maioria dos métodos de seleção até agora lida apenas com tarefas únicas. Chu et al introduziram a noção de contextual bandits para escolher ações (ou modelos) com base em contexto, mas sem pensar na interação em cadeia entre subtarefas.
Chen, Wang & Yuan expandiram isso para o cenário combinatorial, mas ainda exigindo escolhas simultâneas. Isso é como montar um time inteiro de heróis antes de saber o que o dungeon master planeja — um risco alto.
Castiglioni et al, Liu et al e Benomar et al estudaram restrições de orçamento em algoritmos online, mas sem abordar a seleção sequencial com dependências. Em paralelo, Zhang et al e Yue et al exploraram pipelines e cascatas de LLMs, que processam entradas em sequência até atingir um resultado aceitável.
Contudo, como Dekoninck et al mostraram, se a sequência não é otimizada, você acaba gastando recursos à toa — como se mandasse todos os Vingadores para impedir um ladrão de carteira.
O avanço também passa pelos mecanismos de roteamento adaptativo, como Tryage de Hari & Thomson, que direciona prompts para especialistas com base no conteúdo. Sikeridis et al exploraram trade-offs entre acurácia e tamanho do modelo, enquanto Lu et al desenvolveram funções de roteamento treinadas com sinais de recompensa.
Mas, como Wu et al e Saha et al discutem, até frameworks de mixture-of-experts ainda não lidam com a complexidade de pipelines multi-LLM dependentes.
Essa ausência de soluções eficientes para selecionar modelos ao longo de múltiplas etapas cria gargalos e desperdício. Imagine um pipeline médico: um LLM resume o prontuário, outro valida e um terceiro gera o diagnóstico.
Se o primeiro faz um resumo prolixo, o segundo processa mais tokens do que o necessário, elevando o custo e possivelmente distorcendo o insumo para o diagnóstico final. E se o último modelo não é o melhor para lidar com aquele tipo específico de entrada, todo o pipeline perde desempenho — um efeito dominó como em uma raid mal coordenada no LoL.
A importância de resolver isso não é apenas acadêmica. No mundo real, custos de inferência impactam diretamente a viabilidade de aplicações, principalmente em escala. Ao mesmo tempo, modelos especializados e finetunados podem superar modelos genéricos em nichos específicos, mas precisam ser escolhidos com critério.
A ciência já mostrou que a escolha errada em uma etapa inicial pode comprometer todo o resultado final, o que torna urgente desenvolver abordagens capazes de aprender online, adaptando-se ao contexto e aos custos, e que considerem a interação entre subtarefas.
É por isso que, olhando para o estado da arte, há um espaço claro para algoritmos que combinem visão global do pipeline, sensibilidade a custo e capacidade de adaptação em tempo real.
Sem isso, vamos continuar assistindo batalhas onde jedis experientes são derrotados não por falta de poder, mas por má escolha de armas e estratégia.
O Mestre Yoda do pipeline: como Atalar et al querem treinar LLMs para agir em equipe
Baran Atalar, Eddie Zhang e Carlee Joe-Wong trazem uma proposta ousada: aplicar um algoritmo de bandit contextual neural para selecionar, em tempo real, a melhor sequência de LLMs para executar tarefas decompostas em subtarefas.
A inspiração é clara — em vez de confiar em um único herói para salvar a galáxia, o algoritmo monta um esquadrão sob medida para cada missão.
O coração da ideia é o “Sequential Bandits”, uma abordagem que cria e treina uma rede neural para cada combinação de subtask e modelo, aprendendo online quais LLMs performam melhor em cada ponto da cadeia.
É como se um mestre Jedi avaliasse, após cada batalha, o desempenho de cada padawan em diferentes arenas, ajustando a escalação para as próximas lutas.
O diferencial não está apenas na inteligência para aprender com a experiência, mas também na capacidade de equilibrar custo e desempenho.
A cada decisão, o algoritmo pondera acurácia e custo por tokens, aplicando um fator de sensibilidade (α) que permite ajustar a prioridade entre qualidade e economia. Isso significa que, em uma missão crítica, pode-se investir mais recursos em modelos caros e precisos, enquanto em tarefas de rotina, a escolha pode recair sobre LLMs mais modestos, mas suficientemente bons.
Essa estratégia resolve dois problemas simultaneamente. Primeiro, evita que a escolha de um modelo em uma etapa prejudique etapas posteriores. Segundo, garante que o pipeline não exploda o orçamento — um risco real quando se empilham múltiplos LLMs.
É como administrar um grupo de heróis de RPG que precisa derrotar o vilão final, mas com poções e ouro limitados.
O Império contra-ataca: o que aconteceria sem esse tipo de solução
Sem uma abordagem como a de Atalar et al, muitos pipelines ficariam presos em decisões subótimas. Um modelo errado no início poderia aumentar o custo total sem ganho real de acurácia. Em contextos médicos, isso significaria diagnósticos mais lentos e caros, possivelmente com menor precisão.
No setor de telecomunicações, significaria respostas inconsistentes, explicações vagas e clientes frustrados.
O impacto negativo também se refletiria no desperdício de recursos computacionais. Seria como enviar a Millennium Falcon para missões de entrega de cartas enquanto X-Wings ficam parados — uso ineficiente de ativos caros.
No fim, perder-se-ia tanto em custo quanto em reputação, sem falar na frustração das equipes que dependem desses pipelines.
A guilda dos bandits: destrinchando o Sequential Bandits como se fosse um MMORPG
O mago do dano crítico: previsão de sucesso
O algoritmo cria uma rede neural para cada par subtask-modelo. Essa rede aprende, a partir de embeddings do prompt e da descrição do LLM, qual a probabilidade de sucesso. O aprendizado é online, ou seja, a cada rodada, o desempenho real é usado para atualizar o modelo.
O tanque que aguenta o tranco: sensibilidade a custo
O parâmetro α atua como um ajuste fino entre custo e acurácia. Valores altos priorizam modelos mais baratos, valores baixos priorizam qualidade máxima. Isso dá ao sistema a resiliência de um tanque bem equipado, capaz de absorver impactos sem comprometer a missão.
O suporte estratégico: adaptação de contexto
O contexto de cada decisão inclui não apenas o prompt atual, mas também a saída da etapa anterior. Isso significa que a escolha para a próxima subtask leva em conta o “estado do jogo” até aquele ponto, como um suporte que sabe exatamente quando usar um buff para salvar o time.
Arena PvP: metodologia experimental e batalhas contra rivais
Nos testes, o Sequential Bandits enfrentou rivais como Random, Llama fixo, Cost-Aware NeuralUCB e NeuralLinUCB. Foram usadas duas arenas principais: diagnóstico médico (com pipeline de 2 subtarefas) e perguntas de telecomunicações (com pipeline de 3 subtarefas). As métricas-chave foram net reward (acurácia ajustada por custo) e custo total.
O algoritmo não só superou os rivais em net reward, mas também conseguiu manter custos baixos, mostrando uma eficiência digna de campeões em ranking global. No cenário médico, obteve 7,6% mais net reward que o melhor concorrente fixo (Llama).
No de telecom, superou o melhor aleatório em 6,51%. Além disso, mostrou habilidade para explorar combinações menos óbvias de LLMs que, no fim, davam uma relação custo-benefício melhor.
Desconstruindo a hype: por que nem todo LLM é um herói universal
O estudo deixa claro que o hype de “um modelo para todas as tarefas” é tão ilusório quanto achar que o Batman venceria todas as batalhas sem a ajuda da Liga da Justiça. Modelos grandes e caros podem ser ótimos em certos cenários, mas desperdiçam recursos em tarefas simples. Modelos menores podem brilhar em nichos, mas falham em desafios mais complexos.
O Sequential Bandits é um lembrete de que a orquestração inteligente é tão importante quanto a força bruta. É sobre montar o time certo para cada missão, considerando recursos, riscos e objetivos. Sem isso, a hype continuará produzindo pipelines ineficientes, caros e frustrantes.
A lição final de Mestre Yoda: “Escolher, você deve”
No fim, a mensagem é simples: em um universo cada vez mais povoado por LLMs, saber escolher é mais importante que ter todos à disposição. O futuro da IA aplicada dependerá não só de modelos mais poderosos, mas de arquiteturas e algoritmos capazes de explorá-los de forma coordenada, estratégica e eficiente.
O trabalho de Atalar et al mostra um caminho. Agora, cabe à comunidade decidir se seguirá pela estrada iluminada da sabedoria Jedi ou se continuará tropeçando na escuridão da hype e do desperdício.
A Força — e o orçamento — agradecem.
![[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking tentam manter a segurança enquanto treinam raciocínio em modelos pequenos](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 14] O feitiço de proteção das LLMs: como o Slow Tuning e o Low-Entropy Masking…
![[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das LLMs sem sacrificar poder de raciocínio](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 13] O Rasengan que concentra energia em menos tokens: como domar a verbosidade das…
![[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 12] O elixir da transparência: por que explicações importam mais que hype?
![[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 11] O Sharingan das LLMs: enxergando além das linhas e barras invisíveis
Hey,
o que você achou deste conteúdo? Conte nos comentários.