IA na veIA é uma iniciativa que explica os avanços da inteligência artificial com bom humor e analogias divertidas vindas direto do universo Geek. Aqui, conceitos complexos ganham vida através de comparações com filmes, séries, games e HQs, tornando a tecnologia mais próxima e muito mais divertida para todos.
A missão é democratizar o conhecimento sobre inteligência artificial, aproximando a comunidade científica do público leigo sem aquele “tecniquês” que dá sono. Ao usar referências de sagas épicas, super-heróis ou mundos de fantasia, transformamos pesquisas e inovações em histórias que qualquer fã de cultura pop entende e curte.
Essa abordagem cria uma ponte entre especialistas e curiosos, incentivando debates sobre o impacto ético, social e econômico da IA de forma leve, mas consciente. O resultado é uma conversa mais inclusiva, onde qualquer pessoa pode entender e participar da construção do nosso futuro tecnológico.
Se você é fã de IA e também vibra com referências Geek, o IA na veIA é o seu portal para explorar ciência com uma boa dose de risadas e imaginação.
Vamos revisar o paper a seguir:
- Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech
- Link do paper

Quem é Celso Sousa?
Celso Sousa é especialista e palestrante de inteligência artificial (IA), com doutorado em IA pela USP. Além disso, ele possui mais de 15 anos de experiência no mercado de IA para negócios.
Celso participou da gestão e/ou desenvolvimento de diversos projetos de IA nos setores financeiro e agronegócio. Alguns dos projetos de inteligência artificial mais relevantes na carreira dele são:
- previsão de produtividade de fazendas;
- reconhecimento visual de nematóides;
- visão computacional para monitoramento de rebanhos por drones;
- identificação de públicos vulneráveis;
- sistema de gerenciamento de pastejo rotacionado;
- identificação de irregularidades em notas fiscais de serviço.
Celso ministrou vários treinamentos e mentorias sobre inteligência artificial nos últimos anos. Ainda mais, ele foi Cientista Chefe na Secretaria das Finanças de Fortaleza-CE na auditoria fiscal.
O foco do Celso é desenvolver soluções de IA para empresas de todos os portes e segmentos. Entretanto, a prioridade é criar soluções de IA de baixo custo para empresas de pequeno e médio porte.
Celso iniciou a sua carreira ao abrir uma consultoria de inteligência artificial em 2009. Portanto, ele adquiriu muita experiência prática de como gerar resultados expressivos para as empresas usando IA.
A pesquisa científica do Celso é sobre classificação em grafos para alavancagem de negócios com marketing analytics. Além disso, ele publicou artigos científicos em diversas conferências internacionais de renome em 4 continentes.
Hoje ele aplica sua experiência na IA para ajudar os empresários a aumentarem os seus lucros. Ainda mais, ele implementa automações com agentes de IA para que os empresários tenham mais liberdade.
Essas automações podem ser aplicadas em diversos setores, como marketing, vendas, recursos humanos, tecnologia, financeiro, atendimento, etc.
Fale com o especialista e palestrante de inteligência artificial Celso Sousa nas redes sociais:
- Instagram: https://www.instagram.com/celsosousaia
- LinkedIn: https://www.linkedin.com/in/celso-sousa/
Visão geral do paper
As interfaces de voz são a nova fronteira. Ninguém quer mais digitar, esperar ou interpretar um chatbot truncado. A promessa da IA conversacional parece saída de um episódio de Star Trek: você fala, a máquina entende e responde com clareza, rapidez e inteligência. Mas a realidade ainda está mais para um protocolo Klingon mal traduzido. E a culpa é de um detalhe que a comunidade de NLP vem ignorando há tempo demais: pensar bem não é o mesmo que falar bem.
Essa diferença — entre raciocinar como um mestre Jedi e comunicar como um droide sem contexto — virou o maior gargalo da atual geração de LLMs. Enquanto modelos como GPT-4, LLaMA-3 e Qwen2.5 são capazes de resolver problemas complexos com chain-of-thoughts detalhados, suas respostas ainda soam como monólogos entediantes de um professor de matemática explicando equações em LaTeX para um grupo de Ewoks.
E o problema é mais profundo do que parece. Cho et al mostraram que forçar LLMs a produzirem saídas amigáveis para fala compromete o raciocínio. Isso é tipo pedir pro Gandalf fazer piada durante uma batalha: o carisma mata a estratégia. Hyeon et al evidenciaram que, quando forçados a evitar expressões matemáticas ou estruturas formais, os modelos sacrificam precisão por clareza. Resultado? Um discurso fofo e errado. Um clássico “Jar Jar Binks explica física quântica”.
Cobbe et al destacaram outra questão: LLMs são excelentes em resolver problemas matemáticos e lógicos se deixados livres para construir seu raciocínio com precisão, mas seus outputs são pensados para serem lidos, não ouvidos. Isso faz com que as interações por voz — que são lineares, sem a chance de “pular um parágrafo” como num texto — se tornem cansativas e confusas.
Zhang et al apostaram em modelos end-to-end sem texto intermediário, buscando uma experiência mais natural. Só que ao remover o texto, removeram também a estrutura lógica. Resultado: modelos que falam bonito, mas não pensam. O equivalente IA de um discurso do Loki — sedutor, fluido e vazio.
Défossez et al investiram em modelos multimodais focados em diálogo em tempo real, preservando pistas paralinguísticas. Mas ainda sofrem com falta de raciocínio estruturado. Gao et al foram além e tentaram intercalar texto e fala num modelo de decodificação paralela, mas o mesmo dilema persistia: como garantir que o que soa bem também faça sentido?
Levelt já havia proposto, décadas atrás, que humanos naturalmente separam pensamento interno e expressão verbal. Nós traduzimos nossa lógica para o mundo externo. Mas a IA atual ainda não aprendeu essa lição básica de psicologia cognitiva.
Sahin et al reforçaram que nosso cérebro processa diferentes camadas da linguagem (léxico, gramática, fonologia) de forma sequencial e separada — mas as LLMs querem fazer tudo ao mesmo tempo. Isso compromete tudo. Indefrey e Levelt mapearam até a assinatura temporal dessas etapas em Broca. Mas parece que poucos pesquisadores em IA têm lido essa literatura.
Ji et al tentaram consertar isso com frameworks tipo THINK-SPEAK, onde o modelo primeiro pensa e depois fala. Mas sem uma etapa intermediária, ainda há um abismo entre o raciocínio em CoT e a fala fluida.
Donrgre et al e Xu et al chegaram perto ao tentar modular a saída textual, mas não quebraram o ciclo. Fang et al mostraram que modelos como LLaMA-Omni ainda falham em balancear precisão com naturalidade.
Ou seja: ou a IA fala bem e pensa mal, ou pensa bem e fala como o Sheldon explicando regras de D&D. Essa dicotomia está travando a evolução da IA falante.
A fusão de mentes: Woo et al trazem o mid-game que faltava
Sang Hoon Woo et al colocam o pé na porta e dizem: chega. Separamos o que tem que ser separado. O framework THINK-VERBALIZE-SPEAK (TVS) finalmente traz uma arquitetura que entende que pensar, verbalizar e falar são três coisas diferentes — e que, para IAs realmente conversacionais, essa distinção é crítica.
A sacada é simples e genial. O sistema recebe a pergunta do usuário e ativa um LLM robusto para pensar, usando raciocínio encadeado detalhado. Isso garante precisão e profundidade, como se o modelo fosse um estrategista de guerra em Game of Thrones. Só que, ao invés de cuspir isso direto no output, o sistema ativa o REVERT — uma espécie de tradutor mental — que transforma esses pensamentos em frases claras, concisas e adequadas para fala. A cereja do bolo: tudo isso rola de forma incremental e assíncrona, reduzindo latência brutalmente.
O impacto disso para a comunidade é enorme. Em vez de escolher entre raciocínio ou naturalidade, o TVS entrega ambos. E mais: faz isso em tempo quase real. É o sabre de luz que faltava para as interfaces de voz cortarem de vez o monólogo robótico dos chatbots.
Se o REVERT não existisse, estaríamos presos no loop da verborragia
Imagine um assistente de voz que precisa resolver um problema de probabilidade, como no SciBench. Sem o TVS, ele vai responder com uma sequência de LaTeX, variáveis e integrais… tudo isso narrado como se fosse um NPC explicando a lore do Elden Ring. Ninguém entende. Ninguém ouve. Ninguém usa.
Ou pior: imagine que, para parecer amigável, o sistema tenta simplificar o raciocínio. Resultado? Resposta errada. A IA vira aquele aluno do colégio que tenta parecer que entendeu, mas está só enrolando o professor.
Sem o REVERT, essa escolha binária entre “falar bem” e “responder certo” seria inevitável. O TVS quebra esse dilema com estilo.
O anel do meio: REVERT, o elfo tradutor dos raciocínios
O poder dos dois modos: como Gandalf alternando entre mago cinza e branco
O REVERT opera em dois modos: o thinking mode, onde coleta e acumula partes do raciocínio, e o verbalizing mode, onde transforma esse conteúdo em linguagem falada clara e coesa. Essa alternância é controlada por tokens especiais, como ⟨bov⟩, ⟨eov⟩ e ⟨con⟩, permitindo granularidade cirúrgica no fluxo de informação.
Chunking: como invocar feitiços por componentes
Em vez de esperar o raciocínio inteiro, o REVERT age por chunks — pequenos pedaços de lógica que vão sendo convertidos progressivamente. É como conjurar um feitiço de cura enquanto ainda se luta com o boss final.
Treinamento no estilo “solve-summarize-scatter”: uma mecânica de sidequest genial
O REVERT é treinado com um pipeline bem gamer: o modelo resolve (solve), depois resume (summarize) e então insere os resumos no ponto certo (scatter). É como pegar um walkthrough de missão, resumir cada etapa e posicionar os checkpoints no lugar exato. Resultado: um dataset que ensina o modelo a ser claro sem perder lógica.
Separação de responsabilidades: cada um no seu quadrado
O THINK usa LLMs pesados como GPT-4o-mini, Qwen2.5-7B, LLaMA-3.1. Já o REVERT pode ser menor e mais leve (até 0.5B), porque só traduz — não raciocina. Isso permite eficiência em setups com menos recursos.
Testes, métricas e benchmarks: o verdadeiro torneio do poder
Speech-friendliness: quando a IA parece o Tony Stark e não o C3PO
Nos testes automáticos, REVERT arrebenta nas métricas de fala: Word Count, Flesch Reading Ease, Dependency Depth e Nonvocalizable Characters. As respostas são curtas, fáceis de entender e sem ruído técnico — o equivalente IA de um monólogo do Stark em Vingadores.
Precisão: o modelo acerta como um Legolas atirando
Mesmo com essa simplificação na fala, o REVERT mantém os acertos altíssimos, superando baselines em datasets como GSM8K, 2WikiMultiHopQA e SciBench. E isso é feito sem comprometer a lógica. Ou seja, a IA continua sendo um estrategista, só que agora com voz agradável.
Latência: o tempo de resposta cai como a barra de vida de um minion
Com o REVERT, o tempo até a primeira palavra falada (T1 + T2) cai de 8 segundos para menos de 3. Isso muda o jogo para aplicações em tempo real. E o melhor: esse delay pode ser disfarçado com frases do tipo “deixa eu pensar”, tornando o sistema ainda mais natural.
Escalabilidade: modelos menores continuam jogando bem
Mesmo versões menores do REVERT (0.5B) mantêm boa performance. Isso significa que setups com menos recursos ainda conseguem resultados decentes. É como rodar Elden Ring num notebook sem GPU dedicada — funciona, se você souber configurar.
A ilusão do hype falante: quando a IA se acha bard, mas só solta ruído
O mercado adora mostrar demos de IA falando bonito. Mas por trás dos “uau” tem muita resposta errada, raciocínio quebrado e delay de geladeira da Positivo.
A hype vende modelos que “conversam”, mas esquece que entender e explicar são coisas diferentes. Muitos sistemas fingem fluência, mas entregam respostas que não passam nem no Enem.
A real é que sem frameworks como o TVS, estamos presos no dilema Jedi: ou usamos a Força bruta do raciocínio ou o carisma da oratória. Mas nunca os dois juntos.
A jornada do herói geek: por que pensar, verbalizar e falar deve ser o novo padrão da IA
Tá na hora de parar de se encantar com vozes doces que não sabem resolver uma equação. O futuro da IA não é só parecer humana. É pensar como um cientista, explicar como um professor e falar como um streamer carismático.
O THINK-VERBALIZE-SPEAK é o primeiro framework que entende isso. E o REVERT é o elo perdido entre lógica e linguagem. Agora, a IA pode ser inteligente e carismática — sem parecer um robô disfarçado de ser humano.
Se você está pesquisando IA, é hora de rever seu pipeline. Colocar um TTS no final de um LLM não basta. É preciso ensinar a IA a pensar e depois traduzir isso para fala. Como um bom mestre Pokémon, você não solta o Pikachu no campo antes de entender a estratégia. E se sua IA está fazendo isso… talvez esteja na hora de treinar melhor.
![[IA na veIA nº 22] Entre o caos e a ordem: por que entender o localmax pode decidir o futuro dos Transformers?](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 22] Entre o caos e a ordem: por que entender o localmax pode decidir o futuro dos…
![[IA na veIA nº 21] O Goku da autonomia em IA: como 78 exemplos derrotaram 10.000 com pura estratégia](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 21] O Goku da autonomia em IA: como 78 exemplos derrotaram 10.000 com pura…
![[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está levando a IA direto pro abismo de Moria](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)
[IA na veIA nº 19] O Gandalf da Ambiguidade: como a incapacidade dos LLMs de pedir ajuda está…
![[IA na veIA nº 18] O LLM é forte, mas cego: CodeRAG é o Byakugan que enxerga o repositório inteiro](https://celsosousa.com.br/wp-content/uploads/2025/08/IA-na-veIA-470x313.png)