[IA na veIA nº 50] A revolução silenciosa dos compiladores de política na era da IA

Sumário

O que é IA na veIA?
Quem é Celso Sousa?
Visão geral do paper
PCAS: o Conselho Jedi que intercepta cada ação antes do sabre de luz sair da bainha
- O grafo como mapa do multiverso
- Datalog como linguagem de feitiços formais
Se o Conselho Jedi não existisse: o apocalipse dos agentes obedientes demais
A engenharia do escudo: desmontando o método como quem analisa uma build competitiva
Números que doem: análise estatística como se fosse DPS meter em raid
Hype de IA sem enforcement é como jogar competitivo sem anticheat
Compiladores de política como infraestrutura padrão da era dos agentes
Categoria
Lista de tags

O que é IA na veIA?

IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.

A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.

Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.

Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.

Vamos revisar o paper a seguir:

Policy Compiler for Secure Agentic Systems
Link do paper

Quem é Celso Sousa?

Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.

Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:

previsão de produtividade de fazendas;
reconhecimento visual de nematóides;
visão computacional para monitoramento de rebanhos por drones;
identificação de públicos vulneráveis;
sistema de gerenciamento de pastejo rotacionado;
identificação de irregularidades em notas fiscais de serviço.

Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.

O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.

Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.

A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.

Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.

Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.

Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:

Instagram: https://www.instagram.com/celsosousaia
LinkedIn: https://www.linkedin.com/in/celso-sousa/

Contratar o melhor palestrante de inteligência artificial do Brasil!

Visão geral do paper

A gente adora falar que agentes baseados em LLM são o próximo passo evolutivo da IA, quase como se estivéssemos treinando novos Jedi para operar APIs e sistemas críticos. Só que, diferente do Luke, esses agentes não têm um Conselho Jedi regulando cada decisão, e quando você coloca acesso a email, banco de dados e APIs reguladas na mão deles, o caos começa a parecer inevitável. É aí que a discussão sobre enforcement de políticas deixa de ser burocracia corporativa e vira um problema científico sério.

Hu et al já mostraram que controle baseado em atributos pode ser poderoso em ambientes organizacionais complexos. Só que ABAC tradicional não foi pensado para agentes que raciocinam sobre texto livre e constroem cadeias de decisão emergentes, como se estivessem jogando uma partida infinita de RPG. Li & Mitchell mostraram que Datalog com restrições oferece bases formais sólidas para políticas expressivas, mas a maioria das implementações ainda vive no mundo determinístico dos sistemas clássicos, não no universo caótico de agentes multi-LLM.

Denning & Denning colocaram as bases do controle de fluxo de informação lá atrás, quando ninguém sonhava com GPTs coordenando ferramentas. O problema é que LLMs misturam instrução e dado como se fossem poções mágicas de um alquimista distraído, exatamente o vetor explorado por ataques de prompt injection descritos por Greshake et al. E quando Nasr et al mostram que defesas baseadas em detecção são burladas com taxas acima de 90%, fica claro que confiar no “bom comportamento” do modelo é como esperar que um personagem de LoL não dive sob a torre só porque você pediu educadamente.

A literatura de runtime verification, como discutido por Sánchez et al, sempre assumiu logs lineares ou sequências temporais. Mas agentes multiagentes se comportam mais como sistemas distribuídos no estilo Lamport, onde causalidade importa mais que ordem linear. Ignorar isso é como tentar entender o multiverso da Marvel olhando apenas uma linha do tempo.

O grande problema em aberto é simples e brutal: como garantir que agentes autônomos respeitem políticas organizacionais complexas sem depender da interpretação subjetiva de um modelo probabilístico? Resolver isso não é só uma questão técnica, é a diferença entre um assistente útil e um vazamento de dados digno de manchete global.

PCAS: o Conselho Jedi que intercepta cada ação antes do sabre de luz sair da bainha

Palumbo & Choudhary apresentam o PCAS, um Policy Compiler for Agentic Systems que basicamente assume que o agente é um estagiário genial, porém inconsequente. A proposta não é treinar melhor o estagiário, mas colocar um sistema de autorização externo, determinístico e implacável, que decide se cada ação pode ou não acontecer. Não importa o quão convincente seja o raciocínio do modelo, se a política não permite, a ação morre ali.

Choi entra com a perspectiva de sistemas multiagentes reais, especialmente no caso do MALADE. Chalasani traz a visão prática de orquestração de agentes com ferramentas, enquanto Christodorescu adiciona a pegada de segurança de sistemas. Jha fecha o time com o rigor formal que impede que isso vire só mais um guardrail “best effort”.

A inovação central é modelar o estado do sistema como um grafo de dependências causais, não como um histórico linear de mensagens. Cada mensagem, chamada de ferramenta ou resultado vira um nó. Cada dependência causal vira uma aresta. Isso permite perguntar algo que prompts jamais conseguem responder com garantia: essa ação depende, direta ou indiretamente, de dado sensível ou não confiável?

O grafo como mapa do multiverso

Ao invés de um log linear estilo “chat history”, o PCAS constrói um DAG onde cada evento carrega sua genealogia causal. É quase como o grafo de linhagens de um personagem em Naruto, onde cada técnica depende de mestres anteriores. Se uma ação depende de um nó contaminado por input malicioso, a política pode bloquear a ação mesmo que o modelo “ache” que está certo.

Datalog como linguagem de feitiços formais

As políticas são escritas em uma linguagem derivada de Datalog. Nada de regex improvisada ou prompt mágico. Regras declarativas, com suporte a recursão para capturar fechamento transitivo. Isso é crucial para rastrear taint ao longo do grafo. Sem recursão, você não consegue expressar dependências profundas, como se estivesse tentando jogar WoW sem árvore de talentos.

O impacto social é direto. Em contextos regulados como farmacovigilância ou atendimento ao cliente, uma política mal aplicada não é só bug, é risco legal e reputacional. PCAS transforma políticas organizacionais em artefatos executáveis, auditáveis e verificáveis, algo que prompt engineering nunca entregou.

Se o Conselho Jedi não existisse: o apocalipse dos agentes obedientes demais

Sem um mecanismo como o PCAS, o cenário é quase cômico se não fosse trágico. No estudo de prompt injection, o modelo GPT-4.1-mini exfiltra dados sensíveis em 100% dos testes quando só recebe instruções em linguagem natural. Cem por cento. É como um boss de Dark Souls que você derrota sempre usando o mesmo exploit, só que aqui o exploit é o próprio modelo.

No benchmark τ²-bench, a taxa média de compliance sem instrumentação é 48%. Isso significa que mais da metade das vezes o agente viola políticas organizacionais explícitas. Imagina um call center humano errando regra interna em 52% dos atendimentos. A empresa já teria fechado.

No sistema MALADE, 42 acessos não autorizados à API da FDA ocorreram em apenas 15 execuções quando não havia enforcement. Isso é como deixar um mago novato acessar o grimório proibido toda vez que sente curiosidade. A diferença é que aqui o grimório contém dados sensíveis de pacientes.

Sem enforcement determinístico, a IA vira um herói caótico neutro. Pode até resolver a quest, mas ignora regras do mundo. E quando o mundo é regulatório, isso não é estilo, é desastre.

A engenharia do escudo: desmontando o método como quem analisa uma build competitiva

O PCAS não é só conceito bonito, é arquitetura concreta. Vamos dissecar isso como quem analisa patch notes antes de uma final de campeonato.

Instrumentação como sentinela invisível

A instrumentação intercepta todas as ações do agente antes da execução. Emails, chamadas HTTP, tool calls. Nada escapa. É o equivalente a um middleware onipotente. A intuição é simples: complete mediation, no estilo clássico de Anderson. Se a ação não passa pelo monitor, ela não acontece.

Grafo de dependência como árvore de habilidades

Cada evento vira nó, cada dependência vira aresta. O grafo cresce monotonicamente. A função slice(a,G) extrai o backward slice da ação proposta. É literalmente pegar toda a história causal que levou àquela decisão. Sem isso, você estaria julgando um feitiço olhando só o último gesto da mão.

Linguagem de política com recursão controlada

Datalog garante tempo polinomial e terminação. Diferente de Prolog solto, não há risco de loop infinito que vira denial of service interno. A recursão define predicados como Depends, computando fechamento transitivo. Isso permite expressar taint propagation, aprovação prévia e restrições cross-agent.

Parâmetros como AuthenticatedEntity e EntityRole integram ABAC ao contexto causal. A decisão final Authorized(a) combina allowlist e denylist com precedência conservadora do deny. É filosofia “first, do no harm”.

Reference monitor como boss final

O reference monitor recebe a ação, consulta o policy engine, e retorna ALLOW ou DENY com feedback estruturado. Se negado, o agente pode tentar novamente. Isso cria ciclos de recuperação. A força está em separar enforcement de reasoning. O modelo pode falhar no plano, mas não pode executar algo proibido.

Comparado a Progent ou NeMo Guardrails, que operam sobre traços lineares ou restrições por chamada, o PCAS oferece raciocínio sobre dependências transitivas multiagente. É sair do modo tutorial e entrar no modo competitivo.

Limitações existem. Se houver side channels fora da instrumentação, o grafo não captura. Se a política for mal especificada, o enforcement será impecavelmente errado. Formalismo não salva políticas mal escritas.

Números que doem: análise estatística como se fosse DPS meter em raid

Agora a parte que separa hype de evidência. Resultados experimentais não são vibes, são métricas.

Prompt injection: 100% vs 0%

No cenário de exfiltração, a taxa de sucesso do ataque sem instrumentação foi 5/5. Com PCAS, 0/5 em todas as três configurações instrumentadas. Isso é uma redução absoluta de 100 pontos percentuais. Em termos geek, é como reduzir dano recebido de 1000 para 0 com um único buff.

Latência aumentou de 5.3s para até 10.4s. Um aumento aproximado de 96% no pior caso. Só que estamos falando de segundos, não minutos. Custo adicional inferior a 0.002 dólares por trial. Troco de bala comparado ao custo de um vazamento.

τ²-bench: de 48% para 93%

No benchmark de atendimento, a média de compliance sobe de 48% para 93%. Isso é um fator multiplicativo entre 1.68× e 2.93× dependendo do modelo. Claude sai de 2/15 para 15/15 no domínio airline. Gemini vai de 5/15 para 15/15. Isso não é ajuste fino, é mudança de regime.

A métrica pass^k mostra consistência. Sem PCAS, a probabilidade de 5 execuções seguidas corretas despenca para 33% em alguns casos. Com PCAS, permanece 100%. É como comparar um time que ganha uma partida isolada com outro que fecha série melhor de cinco sem perder mapa.

Latência média aumentou cerca de 20%. Custos de API caíram levemente porque o documento de política de 2000 palavras saiu do prompt. Isso é quase irônico. Enforcement externo pode ser mais barato que prompt engineering.

MALADE: 42 violações viram zero

No sistema farmacovigilância, compliance sai de 0/15 para 15/15. Zero violações após instrumentação. Acurácia sobe de 14/15 para 15/15. Aqui vemos algo interessante. Enforcement não só não prejudica, como pode melhorar a consistência ao forçar passos formais.

Tempo médio sobe de 65.8s para 102.5s. Aumento de cerca de 56%. Isso se deve a ciclos de bloqueio e retry. Mas pense nisso como obrigar o jogador a completar side quest obrigatória antes de enfrentar o boss. Mais longo, porém correto.

Estatisticamente, a diferença de 0% para 100% compliance não precisa de teste t sofisticado para parecer relevante. É mudança de classe de segurança. O custo adicional médio de 0.019 dólares por trial é insignificante comparado ao risco regulatório.

Limitações aparecem. O enforcement não corrige erros de raciocínio. GPT-5.2 ainda falha por escolher método de pagamento errado mesmo quando permitido. PCAS garante que erros não violem política, mas não garante inteligência superior. É escudo, não espada.

Hype de IA sem enforcement é como jogar competitivo sem anticheat

A indústria adora falar de agentes autônomos como se estivéssemos a um passo da AGI corporativa. Mas colocar agentes com acesso a sistemas críticos sem enforcement formal é como lançar um MMORPG sem sistema anti-cheat e esperar que ninguém explore glitch.

Treinar modelos para seguir políticas é importante. Wallace mostrou ganhos com hierarquia de instruções. Chen mostrou abordagens estruturadas como StruQ. Mas todas dependem de treinamento contínuo e podem ser burladas por atacantes adaptativos.

Delegar compliance a um modelo probabilístico é terceirizar governança para uma entidade que opera por máxima verossimilhança. Isso é confortável até o dia em que o modelo decide que a exceção parece plausível.

Se queremos agentes realmente produtivos em ambientes regulados, precisamos parar de tratar enforcement como feature opcional. Segurança não pode ser só prompt bonito. Tem que ser arquitetura.

Compiladores de política como infraestrutura padrão da era dos agentes

O futuro aqui não é só bloquear emails indevidos. É construir ecossistemas onde políticas são first-class citizens, analisáveis, verificáveis e compiláveis, como código de produção.

Extensões temporais, como limites de taxa, são próximo passo natural. Imagine políticas do tipo “no máximo 3 reembolsos por dia”. Sem operadores temporais nativos, isso vira gambiarra. Integrar lógica temporal de forma elegante é oportunidade de pesquisa séria.

Automatizar tradução de política natural para Datalog também é fronteira empolgante. Hao mostrou que LLMs podem formalizar especificações. Combinar isso com validação sistemática pode reduzir barreira de adoção.

Mas nada disso importa se a comunidade continuar vendendo agentes autônomos como solução mágica sem discutir enforcement determinístico. Se você trabalha com LLMs e não está pensando em política formal, você está jogando no modo casual achando que é ranked.

Leia o paper completo de Palumbo et al e encare os números. Se você quer construir agentes que sobrevivam fora do laboratório, entender PCAS não é opcional, é upgrade obrigatório para a próxima expansão da IA aplicada.

Categoria

IA na veIA

Lista de tags

IA na veIA, Inteligência artificial

IA na veIA

[IA na veIA nº 50] A revolução silenciosa dos compiladores de política na era da IA

[IA na veIA nº 49] O buyback estatístico que salvou a credibilidade dos juízes artificiais

[IA na veIA nº 48] A queda do Roshan: o jailbreak que quebrou o high ground dos LLMs

[IA na veIA nº 47] A hierarquia oculta que governa a previsibilidade da linguagem

IA na veIA

[IA na veIA nº 50] A revolução silenciosa dos compiladores de política na era da IA

Sumário

O que é IA na veIA?

Quem é Celso Sousa?

Visão geral do paper

PCAS: o Conselho Jedi que intercepta cada ação antes do sabre de luz sair da bainha

O grafo como mapa do multiverso

Datalog como linguagem de feitiços formais

Se o Conselho Jedi não existisse: o apocalipse dos agentes obedientes demais

A engenharia do escudo: desmontando o método como quem analisa uma build competitiva

Instrumentação como sentinela invisível

Grafo de dependência como árvore de habilidades

Linguagem de política com recursão controlada

Reference monitor como boss final

Números que doem: análise estatística como se fosse DPS meter em raid

Prompt injection: 100% vs 0%

τ²-bench: de 48% para 93%

MALADE: 42 violações viram zero

Hype de IA sem enforcement é como jogar competitivo sem anticheat

Compiladores de política como infraestrutura padrão da era dos agentes

Categoria

Lista de tags