Por que o ChatGPT inventa coisas?

Problema: Você pede uma fonte para um chatbot. Ele te dá um título de artigo, autor, revista, ano. A citação parece perfeita. Só que o artigo não existe. Você insiste, pergunta de novo, questiona se ele tem certeza. Ele pede desculpas, e te entrega outra fonte falsa. Seu instinto diz que o modelo está mentindo. Não está. Ele nem consegue.

O mecanismo é mais antigo que o ChatGPT. A solução não é "confiar mais na IA." A solução é entender o que a IA realmente faz quando você pergunta algo, e o que seu próprio cérebro faz quando lê a resposta.

Vitória rápida: Quando a resposta importa, cole isso depois da sua pergunta:

Liste suas fontes. Para cada uma, dê uma URL que eu possa abrir. Se você não tiver certeza de que uma fonte existe, diga isso antes de listá-la.

Esse parágrafo já corta a maior parte das invenções casuais. Continua lendo pra entender o que está rolando, por que seus olhos confiam mesmo assim, e o que os builders deixam pronto para o usuário nunca ver uma mentira convicta.

O advogado que protocolou seis casos falsos

Em maio de 2023, um advogado de Nova York chamado Steven Schwartz protocolou uma petição em Mata v. Avianca. O ChatGPT tinha dado a ele seis casos de apoio. Nomes que pareciam reais. Citações que pareciam reais. Os casos não existiam. O juiz multou Schwartz e o sócio dele em 5.000 dólares cada. A transcrição é brutal. Schwartz disse à corte que "nunca tinha usado ChatGPT" antes e "não sabia que o conteúdo poderia ser falso."

Foi a largada. Até abril de 2026, mais de 600 petições judiciais nos EUA foram sinalizadas com citações fabricadas por IA. O advogado Richard Bednar, de Utah, foi sancionado por citar Royer v. Nelson, um caso que existe só porque o ChatGPT escreveu. Austrália, Reino Unido, França, mesma cartilha. Toda semana uma manchete nova. Sempre o mesmo ritmo. Advogado confiou na resposta. A resposta parecia perfeita. A resposta foi inventada.

Você também já fez isso

Os advogados foram os mais barulhentos. O padrão está em todo lugar.

Em maio de 2025, o Chicago Sun-Times publicou uma lista de leituras de verão gerada por IA. Dez dos quinze livros eram falsos. Autores reais, títulos inventados. O relatório federal MAHA sobre saúde infantil, também de maio de 2025, citou pelo menos sete estudos que não existem (a NOTUS auditou a bibliografia). Bibliotecários da Library of Virginia estimam que quinze por cento das perguntas de referência por e-mail hoje são geradas por IA, muitas vezes apontando para fontes que nunca foram escritas. O Comitê Internacional da Cruz Vermelha precisou colocar um aviso no arquivo: quando uma referência não pode ser encontrada, ela talvez não esteja perdida. Talvez seja uma alucinação.

Se você já colou uma resposta de chatbot num documento e enviou, está na mesma curva. Só teve sorte.

O que o ChatGPT realmente é

Um modelo de linguagem grande é um previsor de próxima palavra. Dado o texto até aquele ponto, ele gera uma distribuição de probabilidade sobre o próximo token, escolhe um, gruda no fim, e repete. Esse é o algoritmo inteiro.

Não tem busca de fato. Não tem banco de dados interno. Não tem checagem de "isso é verdade?". Quando você pergunta "Quem escreveu O Porão no Fim do Caminho?" o modelo não está vasculhando uma biblioteca. Ele está se perguntando outra coisa: dado tudo que li no treinamento, qual palavra mais plausível vem em seguida aqui? Se o livro estava nos dados de treinamento, o autor certo cai naturalmente. Se não estava, o modelo precisa produzir alguma coisa mesmo assim. Então ele produz o nome que soa mais plausível. Geralmente um romancista que existe. Às vezes um romancista real que nunca escreveu aquele livro.

Karpathy resumiu bem no X: o algoritmo é fixo na previsão do próximo token. O significado dos tokens muda por domínio. O procedimento não muda.

Fluência e verdade não são a mesma coisa

Dois sistemas rodam quando o modelo escreve. Um é fluência: isso soa como um bom português? O outro é precisão: a afirmação está correta? O treinamento despeja bilhões de dólares no primeiro. O segundo é um efeito colateral.

Precisão só aparece quando a resposta verdadeira também é o padrão mais frequente no treinamento. Fatos comuns (a capital da França, o ponto de ebulição da água) são memorizados o suficiente para fluência e precisão apontarem pra mesma palavra. Para fatos obscuros (uma citação específica de processo, o aniversário de uma pessoa específica), a continuação plausível e a continuação correta se separam. A fluência ganha. O modelo se compromete.

Um comentarista do Hacker News colocou as consequências de forma seca: tudo que um LLM produz é alucinação. Algumas alucinações por acaso são verdadeiras.

O problema do "não sei"

A OpenAI publicou um paper em setembro de 2025 chamado "Why Language Models Hallucinate." A descoberta principal não é sobre o modelo. É sobre como o modelo é avaliado.

Avaliações padrão pontuam respostas como certas ou erradas. Dizer "não sei" vale zero. Um chute tem valor esperado positivo, mesmo quando o modelo está inseguro. Então durante o fine-tuning e o RLHF, o modelo aprende a política certa para uma prova de múltipla escolha: sempre responde alguma coisa. Hesitar garante zero pontos. Chutar tem chance.

Os próprios números do SimpleQA da OpenAI deixam claro:

Modelo	Taxa de erro	Taxa de abstenção
GPT-5-thinking-mini	26%	52%
OpenAI o4-mini (mais antigo)	75%	1%

O modelo mais antigo erra menos no geral, mas quase nunca diz "não sei." O mais novo é mais honesto sobre os limites dele. Esse trade-off não é sorte. É a alavanca.

A Anthropic olhou dentro do cérebro do Claude

Em março de 2025, a Anthropic publicou "On the Biology of a Large Language Model." A equipe de interpretabilidade abriu o Claude e rastreou os circuitos por trás de uma alucinação. A descoberta é o modelo mental mais útil deste post inteiro.

Recusar é o padrão. Um circuito fica "ligado" por padrão fazendo o Claude dizer "não tenho informação suficiente pra isso." Um segundo circuito, uma feature de "entidade conhecida," pode disparar quando o modelo reconhece algo. Quando esse segundo circuito dispara, ele suprime a recusa padrão. O modelo se compromete a produzir uma resposta.

Alucinações acontecem quando o circuito de "entidade conhecida" dispara por engano. O modelo vê um nome que ele meio que reconhece (um título de livro plausível, uma capa de processo que soa real, uma pessoa que ele leu sobre noutro contexto), o sinal de reconhecimento dispara, o circuito de recusa é desligado, e o modelo agora está comprometido. As palavras da Anthropic: "Uma vez que o modelo decidiu que precisa responder à pergunta, ele parte para confabular: gerar uma resposta plausível (mas infelizmente falsa)."

A IA não está mentindo. O reflexo de "eu deveria responder isso" disparou errado. Daí pra frente, a fluência assume o volante.

Por que seu cérebro cai nessa

O modelo é metade do problema. Seu cérebro leitor é a outra metade.

Reber e Schwarz fizeram um experimento limpo em 1999. Eles imprimiram afirmações em diferentes níveis de contraste. Frases de alto contraste, fáceis de ler, foram julgadas verdadeiras com mais frequência do que as de baixo contraste. Mesmo conteúdo. Fluência visual diferente. Resultado: qualquer variável que torna o texto mais fácil de processar aumenta a percepção de veracidade.

As respostas do ChatGPT são perceptivamente máximas. Markdown limpo. Gramática apertada. Voz confiante. Formatação perfeita. Seu Sistema 1 (a parte rápida e automática que o Kahneman descreveu em Rápido e Devagar) lê "fácil" como "verdadeiro" antes do Sistema 2 ter tempo de checar. Você não consentiu com esse passo. Ele roda sozinho.

Essa é a armadilha da facilidade cognitiva. A prosa mais polida já escrita encontra a parte de você que confunde polimento com precisão. O modelo ganha esse duelo na maioria das vezes.

A ilusão de que você entende IA

Rozenblit e Keil, 2002. Cognitive Science. Pediram a alunos de Yale pra avaliar quão bem entendiam objetos do dia a dia (vasos sanitários, zíperes, máquinas de costura). Depois pediram pra explicar como cada um funcionava, passo a passo. Aí pediram pra avaliar de novo. Depois de explicar, a autoavaliação despencou. Saber o que algo faz não é a mesma coisa que saber como funciona. As pessoas superestimam seu conhecimento explicativo. O viés tem nome: ilusão de profundidade explicativa.

Faça o teste em você. Você sabe o que o ChatGPT faz. Agora explique "token" em voz alta. Explique "treinamento." Explique por que o vocabulário de um modelo é fixo mas as saídas parecem infinitas. A distância entre o que você consegue descrever e o que você realmente entende é exatamente a brecha por onde uma resposta convicta passa. Auditoria só pega o que você entende. A maioria dos usuários não consegue auditar uma citação que ela não foi treinada pra questionar.

O que os builders realmente fazem com isso

Se você lança uma feature com IA, um modelo 91% honesto ainda erra 9% das vezes. Em um milhão de consultas por semana, isso é muita fonte fabricada chegando em usuários pagantes. A pilha de mitigação é conhecida. A maioria dos artigos pula. Aqui vai a versão curta.

Aterre o modelo nos seus próprios dados. Retrieval augmented generation (RAG) puxa registros reais do seu banco antes do modelo escrever qualquer coisa. O paper do Lewis 2020 é a referência canônica. A Stanford RegLab mediu as melhores ferramentas jurídicas de RAG em taxas de alucinação de 17 a 34 por cento, então RAG não é mágica. É o piso, não o teto.

Torne a incerteza visível. Peça citações com URLs ao modelo. Recuse renderizar uma resposta se o campo de citação estiver vazio. Mostre a fonte ao usuário. Se a fonte não carregar, marque a resposta como não verificada.

Treine a recusa de volta. Adiciona esse bloco no system prompt:

Se você não tiver certeza de que um fato está correto, diga "não sei" antes de responder.
Cite fontes só quando puder dar uma URL que o usuário consiga abrir.
Nunca invente uma citação. Se uma fonte puder estar errada, peça ao usuário pra verificar.
Você pode se recusar a responder quando a evidência for fraca.

Teste de forma adversarial. Pergunte ao modelo coisas capciosas sobre entidades que não existem. Peça fontes que você sabe que são falsas. Pontue taxa de abstenção, não só precisão. MASK e Petri 2.0 são avaliações abertas que você pode plugar no CI hoje.

Use um gerador e um avaliador. Um modelo escreve. Um modelo separado, com prompt e temperatura diferentes, pontua a saída por aderência aos dados, validade de citação e abstenção. Rejeita e regera quando a pontuação está baixa. É o mesmo padrão gerador-avaliador que pega regressões de código.

Modelos de fronteira hoje, ranqueados por honestidade

A diferença de honestidade entre modelos é real e está crescendo. Números de avaliações públicas em fim de abril de 2026:

Modelo	Pontuação MASK de honestidade	Notas
Mythos Preview (Anthropic)	95.4%	Acesso só pra pesquisa. Empurra de volta em premissas falsas 80% das vezes.
Claude Opus 4.7	91.7%	Modelo público. Vem com comportamento de recusa treinado de volta.
Claude Sonnet 4.6	89.1%	Mais barato, um pouco mais frouxo.
GPT-5.5	Pontuação pública pendente	OpenAI entrega abstenção como botão configurável.
Gemini 3.1 Pro	Pontuação pública pendente	Forte em recuperação aterrada, fraco em abstenção.
Grok 4.20	Pontuação pública pendente	Menor taxa de abstenção entre os modelos de fronteira grandes.

Pega o modelo que combina com seu orçamento de erro. Um app de coaching e uma ferramenta interna de dados têm tolerâncias diferentes. O número que importa não é "mais inteligente." É "disposto a dizer não sei."

A linha de fundo

IA não mente. Mentir exige saber a verdade. O modelo está chutando cada palavra, e na maior parte do tempo o chute acerta porque a verdade também é o padrão mais comum. Quando não é, o modelo se compromete mesmo assim. Scott Alexander reformulou isso em março de 2026: chutes sem vergonha, não alucinações.

Humanos confabulam também. Memória de testemunha ocular, experimentos de cérebro dividido, "tenho quase certeza que li em algum lugar." O modelo aprendeu isso com a gente. A solução é a mesma dos dois lados. Recompense o "não sei." Audite respostas fluentes. Mostre o recibo.

Como o Build This Now já entrega isso

Build This Now é um sistema de construção de SaaS movido a IA. Dezoito agentes especialistas. Cinquenta e cinco skills. Um pipeline de cinco passos da ideia ao produto no ar. O agente Tester roda checagens adversariais. O Database Architect aterra features no schema real. Quality gates (type-check, lint, build) disparam em cada feature. Um agente gera. Um agente separado avalia. O padrão que pega bugs convictos é o mesmo padrão que pega mentiras convictas.

Se você está plugando uma feature de IA num produto, a arquitetura importa mais que o modelo. Aterre a saída. Torne a incerteza visível. Pontue abstenção. Roda a avaliação a cada mudança de prompt. A maior parte do trabalho já está feita. A gente só pluga isso pra você.

O ChatGPT não sabe que está errado. Seu cérebro não sabe que precisa perguntar. Um produto de verdade sabe os dois, e responde mesmo assim.

Por que o ChatGPT inventa coisas?

On this page