[IA na veIA nº 38] A rebelião das rubricas vivas na era do Deep Research

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research Collaboration
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A comunidade de IA vive hoje um paradoxo tão estranho quanto um loop temporal em Dark: nunca tivemos tantos modelos grandes, tantos benchmarks estilizados, tantas técnicas de RLHF e tantos PDFs nascendo por minuto, mas seguimos atolados no mesmo problema estrutural. A promessa de agentes capazes de realizar pesquisa profunda, rastrear evidências, sintetizar conhecimento real do mundo e evitar alucinações virou quase uma lenda urbana digna de uma side quest mal escrita em Skyrim.

Há anos, pesquisadores como Krishna et al defenderam que long-form QA é um território traiçoeiro, onde métricas falham mais do que clérigo tentando lançar spell sem mana. Enquanto isso, Xu et al reforçaram que benchmarks tradicionais simplesmente não capturam a complexidade real de perguntas abertas, deixando enormes buracos na avaliação. Esse combo de limitações fez com que a área ficasse presa em métodos que soavam revolucionários, mas na prática tinham a profundidade de uma quest inicial de Pokémon.

Nos primórdios desse caos metodológico, Liu et al tentaram contornar o problema usando modelos como juízes universais, mas isso abriu as portas para o famigerado reward hacking, tão inevitável quanto um jogador de LoL ficando tóxico na ranked. Gunjal et al mostraram que rubricas genéricas funcionam mais como retalhos de pano do que como armaduras de adamantina, incapazes de distinguir respostas verdadeiramente boas de frases bem decoradas.

Antes disso, Viswanathan et al já tinham alertado que checklists ajudam, mas enfrentam o mesmo dilema de frameworks estáticos que não acompanham a evolução do próprio modelo. E enquanto tudo isso acontecia, a indústria corria para colar bandaid em fraturas expostas, construindo pipelines de pesquisa baseados em prompts fixos, como se fosse possível derrotar um raid boss de IA usando só um botão.

O segundo problema estrutural veio do fato de que a maioria dos modelos de pesquisa — dos mais criativos aos mais pretensiosos — continuava presa em tarefas verificáveis e curtas. Jin et al exploraram RL com recompensas verificáveis, mas isso funciona apenas em terrenos onde a resposta é curta, clara e objetiva. Já Liu et al e Nguyen et al mostraram pipelines que fazem buscas, mas raramente chegam perto do nível de profundidade necessário para perguntas abertas que exigem síntese de múltiplas fontes, algo mais complexo que controlar uma raid em World of Warcraft.

Li et al tentaram contornar isso com workflows de WebThinker, mas, como todo sistema baseado em correções manuais, acabaram presos na própria arquitetura rígida. Sem mecanismos que capturem nuances reais, qualquer tentativa de treinar long-form continua sendo mais parecida com domar um dragão de Komodo usando fita crepe do que ciência.

Com isso, a área inteira foi empurrada para um beco onde rubricas estáticas, juízes enviesados e tarefas curtas moldam tudo. Gunjal et al mostraram que se você der ao modelo um conjunto fixo de critérios, ele aprende a quebrá-los com a precisão de um speedrunner de Zelda ignorando paredes. Esse desalinhamento fundamental afeta não apenas qualidade, mas também confiança pública e até aplicações críticas como saúde — onde erros não são só incômodos, mas perigosos, como Arora et al destacaram no contexto de avaliação de LLMs na área médica.

E é isso que torna urgente revisitar a forma como avaliamos, treinamos e supervisionamos modelos em tarefas abertas. Se queremos que a IA deixe de ser um NPC preguiçoso e vire um aliado épico de verdade, precisamos abandonar a tradição de rubricas paradas no tempo e adotar mecanismos capazes de evoluir junto com o modelo. Só assim a área sai do modo “fase 1 do tutorial” e chega ao jogo real.

DR Tulu e o retorno das rubricas dinâmicas — versão Shonen Jump

Os autores de DR Tulu — Shao et al, Asai et al, Shen et al, Ivison et al, Kishore et al e companhia — entram na arena com uma proposta ousada e quase insana: treinar um modelo de 8B parâmetros diretamente para pesquisa profunda usando algo chamado Reinforcement Learning with Evolving Rubrics. A ideia parece saída de um arco de treinamento de Naruto: você cria um set inicial de critérios, deixa o modelo explorar o mundo real com buscas de verdade e, conforme ele aprende, você vai atualizando as regras do jogo para que continuem desafiadoras, específicas e alinhadas ao comportamento atual. Nada de rubricas de pergaminhos antigos — aqui as regras mudam como em Yu-Gi-Oh! quando alguém ativa uma carta armadilha secreta.

A contribuição científica do paper está em quebrar a estagnação. O modelo não é treinado apenas para responder, mas para pesquisar em múltiplas fontes, sintetizar evidências e justificar cada trecho com citações. É como se, ao invés de ter um aprendiz bagunçado com um grimório torto, você tivesse um mago que consulta tomos reais da biblioteca e ainda explica de onde tirou cada magia. Socialmente, isso resolve um problema sério: evitar que modelos inventem fatos com confiança de supervilão da Marvel.

A inovação central está no esquema de rubricas evolutivas. Ele resolve o problema de tarefas longas e nebulosas, onde nunca sabemos exatamente o que avaliar, criando critérios que emergem à medida que o modelo descobre novos caminhos. Pense nisso como um roguelike: cada run cria novos perigos, e o sistema aprende a punir estratégias baratas e premiar comportamentos sofisticados. O resultado é um modelo que evolui em ciclo fechado, onde cada erro vira combustível para próximas iterações.

Essa abordagem também resolve gargalos sociais. Num mundo em que decisões sobre saúde, ciência e políticas podem ser apoiadas por agentes de IA, precisamos de modelos que não só busquem a verdade, mas expliquem suas decisões. DR Tulu faz isso com uma precisão quase obsessiva, lembrando alunos de Hunter x Hunter estudando nen com cuidado cirúrgico.

Se DR Tulu não existisse, viveríamos no modo “era medieval do deep research”

Sem as descobertas do paper, o campo continuaria preso num mundo onde agentes só conseguem lidar com perguntas simples, como se fossem NPCs de Pokémon que só sabem repetir três frases. Respostas longas continuariam cheias de alucinações elegantes, e sistemas comerciais seguiriam dependentes de pipelines secretos, enquanto modelos abertos permaneceriam limitados como magos nível 1 tentando enfrentar um dragão ancião.

O impacto seria claro: pesquisas científicas automatizadas falhariam mais do que jogador novato tentando solar Elden Ring. Assistentes médicos se tornariam perigosos, incapazes de citar evidências confiáveis, e análises técnicas seriam superficiais. Em outras palavras, a ausência desse trabalho deixaria o futuro da IA refém de ruído, improviso e falta de rigor — como montar um sabre de luz com peças de LEGO.

RLER como sistema de evolução — um skill tree digno de RPG

Para entender o método, precisamos separar elementos como um jogador organizando inventário no Baldur’s Gate 3.

Rubricas como armas que upam com o protagonista

O RLER cria um set inicial de rubricas baseadas em buscas reais. Isso faz com que o modelo receba critérios que refletem o mundo, não apenas o que está preso na memória paramétrica. A metáfora é simples: ao invés de treinar o herói com técnicas de um pergaminho velho, você faz ele treinar com mestres vivos ao longo da jornada.

A intuição matemática é direta. A recompensa do modelo vira:

S(x,y) = soma ponderada das avaliações de cada rubric item.

Cada rubrica funciona como feature discreta, avaliada por um “juiz” que retorna 0, 0.5 ou 1. O truque genial é que as rubricas mudam ao longo do treinamento, atualizando-se com o comportamento atual do modelo — algo que rubricas estáticas jamais fariam.

Gerar rubricas positivas e negativas como se fossem buff/debuff

Rubricas positivas capturam aspectos brilhantes que o modelo descobriu. Rubricas negativas detectam comportamentos tóxicos, como copiar trechos enormes ou inserir código aleatório, como mostrado no experimento da página 7 do PDF.

É literalmente um sistema de buffs e debuffs digno de Final Fantasy.

Gerenciamento da “rubric buffer” — o inventário estratégico

Para evitar virar uma mochila cheia de itens inúteis, o sistema mantém apenas rubricas com maior variância, ou seja, as que realmente distinguem boas de más respostas. Isso evita rubricas genéricas que só ocupam espaço, como poções fracas que você nunca usa.

Comparação com estado da arte — derrota crítica

Modelos como WebExplorer ou Tongyi DR dependem de pipelines estáticos. Eles funcionam como personagens que, apesar de fortes, têm árvores de habilidades fixas. Já o RLER permite evolução metadinâmica, como um personagem que reconfigura seu estilo de combate conforme luta novos inimigos.

DR Tulu no campo de batalha — resultados que soam como ultimate carregada

A seguir vem a parte mais pesada, digna de relatório da guilda: o detalhamento experimental. Esta seção terá entre 1000 e 1200 palavras, com várias subseções curtas.

SQAv2 como dungeon científica — DR Tulu aplicando crítico em citações

Nos experimentos da SQAv2, DR Tulu-8B RL atinge 86.8% na métrica geral, enquanto open models rivais como WebExplorer ficam em torno de 42.5%. Isso é equivalente a entrar numa raid e solar o boss enquanto todo mundo wipe-a na fase 1. Mais impressionante ainda é o salto de 23.3 pontos em precisão de citação, que funciona como acertar todos os skillshots em League of Legends sem usar aim assist.

O benchmark exige rastrear parágrafos específicos, e o modelo responde quase sempre com snippet-level evidence. As rubricas evolutivas fazem o modelo evitar a estratégia barata de citar fontes irrelevantes, algo que rivais fazem como jogadores spamando botões aleatórios para causar dano.

HealthBench — território médico onde cada erro é veneno

Aqui o DR Tulu-8B RL marca 50.2, superando open models que chegam a pontuações negativas, o que é tão trágico quanto um healer tentando tankar. O ganho de quase 12 pontos em relação ao SFT vem do fato de o RLER aprender rapidamente rubricas negativas para punir informações perigosas. A analogia geek perfeita é que rubricas negativas aqui funcionam como detectar magia negra em The Witcher; qualquer deslize e o sistema penaliza fortemente.

ResearchQA — modelo sintetizando artigos como um sábio Jedi

Com 74.3, DR Tulu alcança nível equivalente a pipelines fechados extremamente caros. A comparação com Tongyi DR 30B é cruel: DR Tulu, com um quarto do tamanho, entrega desempenho semelhante e com custo quase mil vezes menor — é como ter o Yoda compacto derrotando o Darth Vader gigante.

O uso de paper_search em 90% dos casos mostra que o modelo realmente aprendeu a escolher a arma certa para a batalha.

DeepResearchBench — terreno caótico de perguntas gerais

Aqui, DR Tulu-8B RL fecha com 43.4, acima de todos os rivais abertos. A parte interessante é que o modelo mistura google_search e web_browse com papel preciso, como um mago alternando magias elementares conforme o tipo de inimigo.

Rubricas evolutivas detectam “encheção de linguiça” e isso reduz respostas infladas. Se rubricas estáticas são como juízes distraídos em um torneio de artes marciais, as evolutivas são mestres que acompanham cada golpe.

Resultado transversal: custo ridiculamente pequeno

O custo médio de 0.0019 USD por query coloca DR Tulu na categoria “build quebrado”. Comparado a modelos proprietários de quase 2 dólares por query, é como derrotar um boss usando uma arma de 1 ouro.

GeneticDiseasesQA — o arco médico experimental

Nesta dungeon de biologia, DR Tulu supera modelos comerciais em categorias essenciais como Evidence Synthesis e Evidence Support. Mesmo sendo menor, consegue juntar fragmentos de papers médicos com precisão cirúrgica, como um alquimista combinando ingredientes raros.

A indústria está hipnotizada por hype — e DR Tulu esfrega os números na cara dela

O frenesi atual fala de “agentes”, “pesquisa autônoma”, “R1 para tudo” e “AGI semana que vem”, mas a realidade é que a maioria dos modelos não sabe citar nada, não sabe buscar certo, não sabe sintetizar múltiplas fontes — estão mais para estagiários barulhentos do que para sábios intergalácticos. A área abraçou pipelines fechados com o mesmo entusiasmo com que fãs abraçam reboots ruins, sem perguntar se funcionam fora do demo.

DR Tulu quebra esse encanto porque prova que:

rubricas fixas são tão frágeis quanto espadas de madeira;
RLVR não se estende para tarefas longas;
o modelo precisa evoluir junto com o verificador;
e modelos pequenos podem derrotar gigantes quando treinados com mecânicas certas.

É quase poético ver um 8B esmagando modelos que custam milhões.

A ascensão do pesquisador-IA — e o chamado para quem quer evoluir além da hype

O futuro está aberto como um mapa de Zelda. Rubricas evolutivas podem se aplicar em pesquisa científica, análise regulatória, medicina, engenharia e qualquer domínio onde evidência importa mais do que opinião. E há oportunidades claras: incorporar multimodalidade, usar ferramentas inéditas, aprender a validar informações em bases estruturadas, adaptar rubricas para domínios que mudam rápido.

Mas a maior provocação fica aqui: se você realmente quer entender como treinar modelos que pesquisam de verdade — e não apenas repetem — precisa ler o paper inteiro. Cada seção abre portas para novas linhas de experimentos, novos datasets, novas formas de adaptar verificadores.

Leia o PDF completo e veja como esse método pode transformar suas próximas pesquisas em algo muito maior do que prompts bem formatados. Seu futuro self acadêmico vai agradecer.

IA na veIA

O melhor palestrante de inteligência artificial do Brasil: como contratar Celso Sousa

[IA na veIA nº 42] Policy search com cheat code semântico

[IA na veIA nº 41] Odin liga o modo Ragnarok nos grafos com texto

[IA na veIA nº 40] LLMs não sobem de nível como personagem de RPG: a mentira da…