Sumário
- O que é IA na veIA?
- Quem é Celso Sousa?
- Visão geral do paper
- Como transformar texto em árvore tipo skill tree de RPG
- O mundo sem chunking semântico seria um multiverso caótico
- O algoritmo como se fosse um boss fight em fases múltiplas
- Resultados que fariam qualquer fã de números abrir um grimório
- A hype dos LLMs precisa de menos sabre de luz e mais estatística
- O futuro da IA passa por entender árvores, não só transformers
- Categoria
- Lista de tags
O que é IA na veIA?
IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Semantic Chunking and the Entropy of Natural Language
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
Lá em 1951, Shannon fez um experimento que parece saído de um RPG old school, onde o jogador precisa adivinhar a próxima letra antes que o mestre revele a história completa. Ele estimou que a entropia do inglês impresso gira em torno de um bit por caractere, algo chocantemente baixo se lembrarmos que o alfabeto permitiria cerca de cinco bits por caractere em texto totalmente aleatório. Isso implica quase 80 por cento de redundância, como se cada frase carregasse armaduras extras contra o caos estatístico.
Cover & King aprofundaram essa intuição ao mostrar que métodos baseados em apostas convergentes também apontavam para taxas semelhantes de entropia. Brown et al exploraram limites superiores com modelos estatísticos clássicos e ainda assim o número mágico continuava orbitando o mesmo valor, como se fosse uma constante cosmológica da linguagem. Newman & Waugh mostraram que essa redundância não era exclusividade do inglês, sugerindo que a estrutura hierárquica é uma propriedade quase universal da comunicação humana.
O problema é que durante décadas tivemos números, mas não uma teoria de primeiros princípios que explicasse de onde essa redundância realmente emerge. Kaplan et al falaram sobre leis de escala em modelos neurais, mas isso é sobre performance, não sobre ontologia da linguagem. Takahashi & Tanaka-Ishii discutiram limites assintóticos de entropia em modelos neurais, mas ainda dentro do paradigma de predição token a token.
Enquanto isso, Grosz & Sidner defendiam que o discurso é organizado hierarquicamente, como uma árvore de quests em Skyrim. Mann & Thompson propuseram a Rhetorical Structure Theory, basicamente dizendo que textos têm esqueleto, não são sopa de palavras. Levy mostrou que previsibilidade sintática afeta processamento humano, conectando surpresa a tempo de leitura como se cada palavra fosse um ataque crítico que pode ou não acertar.
Mas ninguém uniu de forma limpa a hierarquia semântica com a entropia medida por modelos probabilísticos modernos. Ficamos presos entre dois mundos, como se tivéssemos a lore de Star Wars separada das equações da física que governam os sabres de luz. Resolver essa lacuna não é só academicismo, é entender por que LLMs funcionam tão bem e onde eles inevitavelmente falham.
Como transformar texto em árvore tipo skill tree de RPG
Weishun Zhong et al propõem algo que parece simples, mas é perigosamente elegante. Eles pegam um texto e pedem a um LLM que o segmente recursivamente em blocos semanticamente coerentes, formando uma árvore K-ária onde cada nó representa um chunk de significado. É como se cada documento ganhasse sua própria skill tree, indo do tema global até palavras individuais.
A sacada é assumir que, no nível de corpus, essas árvores podem ser modeladas como partições aleatórias auto-similares com um único parâmetro livre, K, o número máximo de filhos por nó. Zhong et al mostram que essa hipótese não é só filosófica, ela gera distribuições de tamanho de chunks que batem com dados reais em diferentes gêneros textuais. Isso inclui desde histórias infantis até poesia moderna, que aqui funciona como o modo nightmare da linguagem.
O parâmetro K como limite de mana cognitiva
O K funciona como um limite de ramificação, quase um teto de memória de trabalho. Zhong et al conectam essa ideia a trabalhos anteriores sobre memória narrativa, sugerindo que K reflete quantos blocos semânticos conseguimos manter ativos simultaneamente. É como tentar jogar LoL controlando múltiplas lanes ao mesmo tempo, há um limite antes de você tiltar.
Do chunk à entropia
A partir dessas árvores, os autores calculam a probabilidade de cada configuração sob um ensemble aleatório. Convertendo essa probabilidade em informação de Shannon por token, eles obtêm uma taxa de entropia teórica hK. E aqui vem o plot twist digno de Naruto revelando o verdadeiro vilão: essa entropia teórica coincide com a entropia medida por perplexidade de LLMs em nível de corpus.
O mundo sem chunking semântico seria um multiverso caótico
Sem essa ponte entre estrutura hierárquica e entropia, continuaríamos tratando LLMs como caixas pretas que magicamente comprimem texto. Seria como aceitar que a Força existe sem nunca estudar midi-chlorians, só que menos divertido. Não teríamos um modelo que explica por que textos infantis têm menor entropia que poesia experimental.
Sem essa teoria, a diferença entre 1.2 nats por token e 3.2 nats por token seria apenas um número frio. Com ela, entendemos que textos mais complexos exigem maior K ótimo e, portanto, maior taxa de informação estrutural. Ignorar isso seria como comparar builds de personagens sem olhar a árvore de talentos, apenas o dano final.
O algoritmo como se fosse um boss fight em fases múltiplas
A metodologia é dividida em duas grandes rotas que depois convergem. Uma rota usa LLMs para medir surprisal token a token, gerando hLLM via cross-entropia média. A outra rota usa o mesmo tipo de modelo para segmentar o texto recursivamente, construindo a árvore semântica e avaliando sua probabilidade sob o ensemble K-ário.
Fase 1: Surprisal estilo combo de fighting game
Para um texto com N tokens, eles computam menos log P(ti dado contexto anterior) e fazem a média. Isso gera hLLM, que é essencialmente log perplexidade. É o dano médio por golpe que o modelo sofre ao prever cada token, como se cada palavra fosse um boss imprevisível.
Fase 2: Construção da árvore como dungeon procedural
Na segmentação, o texto é dividido em até K chunks coerentes. Cada chunk é recursivamente subdividido até chegar a folhas unitárias, quase sempre tokens individuais. O modelo teórico assume que, dado um nó de tamanho n, as partições em K filhos seguem uma distribuição uniforme sobre partições fracas ordenadas.
O kernel de divisão como dado viciado
A probabilidade de um filho ter tamanho m dado pai de tamanho n envolve coeficientes combinatórios ZK. Isso define uma cadeia de Markov sobre tamanhos de chunks. É como um sistema de loot onde a chance de obter certo item depende do tamanho do boss derrotado.
Regime assintótico como late game
No limite de N grande, a entropia total H(N) cresce linearmente com N, H(N) aproximadamente igual a hK vezes N. Isso implica uma taxa extensiva, como energia proporcional ao número de partículas em física estatística. Eles mostram inclusive propriedade de equipartição assintótica, onde a maioria das árvores típicas converge para a mesma taxa por token.
Resultados que fariam qualquer fã de números abrir um grimório
Os experimentos cobrem múltiplos corpora, incluindo TinyStories, RedditStories, arXiv abstracts e poesia moderna. Para cada corpus, Zhong et al ajustam K de 2 a 8 e escolhem o K que minimiza divergência KL entre distribuições empíricas e teóricas de tamanhos de chunks. Isso não é chute, é fitting explícito via divergência média ao longo de níveis da árvore.
TinyStories como modo easy
Para textos infantis, a taxa de entropia medida via LLM fica em torno de 1.2 nats por token. O K ótimo é baixo, refletindo menor complexidade estrutural. É como jogar no modo história, onde as quests são lineares e previsíveis.
RedditStories como modo normal
Para narrativas de Reddit, a taxa gira em torno de 2.5 nats por token. O K ótimo frequentemente é 4, alinhando-se com a interpretação de memória de trabalho. A coincidência entre hLLM e hK é impressionante, com flutuações diminuindo conforme N aumenta.
Poesia moderna como modo nightmare
Para poesia, a taxa sobe para cerca de 3.2 nats por token. O K ótimo é maior, indicando ramificação semântica mais rica e imprevisível. É como enfrentar um boss que muda padrão de ataque a cada turno.
Colapso universal tipo transformação Super Saiyajin
No regime de grandes níveis L, as distribuições normalizadas de tamanho de chunks convergem para lognormal. Quando reescaladas via variável x padronizada, colapsam para uma normal padrão. Isso é uma assinatura de universalidade, como se diferentes gêneros textuais obedecessem à mesma física estatística profunda.
Comparação estatística sem piedade
Eles mostram que as estimativas de entropia baseadas em árvores convergem para o mesmo valor previsto teoricamente, cerca de 2.5 nats por token para K igual a 4. A variabilidade entre textos individuais existe, mas a média de corpus se alinha ao modelo. Isso não é ajuste pós-hoc trivial, é compatibilidade quantitativa.
Interpretação cognitiva quase herética
Zhong et al sugerem que K ótimo pode refletir carga de memória de trabalho. Valores entre 2 e 6 são compatíveis com limites cognitivos clássicos. Se isso estiver correto, entropia textual não é só propriedade estatística, é assinatura de dificuldade cognitiva.
A hype dos LLMs precisa de menos sabre de luz e mais estatística
Hoje muita gente trata perplexidade como métrica mágica. Se o número cai, o modelo é melhor, ponto final. Mas sem entender o que gera essa entropia, ficamos como fãs que sabem todos os golpes do personagem, mas não entendem a lore.
Esse trabalho sugere que grande parte da imprevisibilidade token a token já está codificada na estrutura semântica hierárquica. Isso implica que modelos gigantes podem estar apenas aproximando uma estatística estrutural profunda, não criando magia do zero. A indústria adora falar em emergent abilities, mas talvez parte do milagre seja apenas combinatória elegante.
O futuro da IA passa por entender árvores, não só transformers
Se entropia cresce com complexidade semântica capturada por K, então podemos usar esse framework para medir dificuldade textual de forma mais principiada. Isso abre portas para estudar legibilidade, compressão e até diagnósticos cognitivos sob nova lente. É como descobrir que o mapa do jogo tem uma topologia que explica todos os glitches.
Há espaço para explorar variação de K dentro de um mesmo texto, abandonando a suposição de valor fixo por corpus. Também é possível investigar como diferentes línguas se posicionam nesse espaço, testando a universalidade da lognormalidade prevista. E claro, conectar diretamente essa entropia estrutural a métricas comportamentais como tempo de leitura.
Se você trabalha com LLMs e nunca pensou seriamente de onde vem a entropia que seu modelo otimiza, está na hora de sair do modo automático. Leia o paper completo, absorva as equações, questione suas intuições e use essa lente para repensar seus próprios experimentos. Pode ser que, ao invés de só treinar modelos maiores, a próxima revolução venha de entender melhor a árvore escondida dentro de cada texto.
Categoria
Lista de tags
[IA na veIA nº 46] Do fine-tuning ingênuo ao subespaço estratégico: a revolução do LoRA no…
[IA na veIA nº 45] Como transformar um LLM em um cientista e não em um papagaio estatístico
[IA na veIA nº 44] Embeddings são bons, mas atenção são outros 500