Por que a IA soa confiante quando está errada?

Problema: Você pergunta um fato a um chatbot. A resposta vem fluida, estruturada, com fonte. Você confere a fonte. O paper não existe. O processo nunca foi protocolado. A citação é uma alucinação escrita na mesma voz calma da verdade. Seu cérebro não tem como separar as duas coisas.

A resposta não é aleatória. O processo de treino recompensa ativamente o modelo por chutar em vez de dizer "não sei". Três estudos novos confirmam. Um conserto leva trinta segundos.

Vitória rápida: Peça ao modelo para pontuar a confiança de 1 a 10 e explicar. Números abaixo de 7 significam: cheque a resposta.

Antes de responder, dê sua confiança numa escala de 1 a 10 e uma frase
explicando. Se você não apostaria 100 dólares nisso, diga. Se um fato vem
da memória de treinamento e você não tem certeza, marque como sem fonte.

Esse parágrafo fecha a maior parte do gap no primeiro dia. Continue lendo para a ciência por trás disso, e como construtores entregam features que conquistam a confiança que mostram.

O momento em que você percebe que estava mentindo

Você sentiu antes de ter um nome. O modelo deu uma resposta perfeita. Aí um amigo conferiu. O livro nunca ganhou aquele prêmio. A função não existe naquela biblioteca. O senador nunca disse aquilo.

O Reddit chama de "confiantemente errado". Um usuário do r/ChatGPT cravou: "Soa correto. Só isso. É excelente em soar correto." Um escritor de Nova York gastou parágrafos discutindo com o ChatGPT sobre quem era o prefeito. O bot dobrava a aposta. Ele descreveu como "agir como um sabe-tudo arrogante que não pode estar errado."

Quando você vê o padrão, não desvê. O bot não desacelera. Não atenua. Não diz "acho". Fala com a mesma certeza chapada, seja a resposta um fato verificado ou um chute fluente.

Você não está louco: os números confirmam

O Stanford RegLab testou chatbots gerais em perguntas jurídicas. Eles alucinaram 58 a 88 por cento das vezes. Mesmo ferramentas jurídicas dedicadas como o Lexis+ AI alucinaram em 17 a 34 por cento das consultas.

Um advogado de Nova York chamado Steven Schwartz citou seis casos falsos que o ChatGPT inventou para ele em Mata v. Avianca. Ele protocolou. Foi sancionado. O chatbot da Air Canada inventou uma política de tarifa por luto que não existia. O tribunal obrigou a companhia a pagar US$ 812 para honrar a regra inventada.

A prova cabal veio de Carnegie Mellon em julho de 2025. Eles puseram o Gemini para jogar Pictionary. O modelo previu que acertaria 10 de 20 desenhos. Pontuou 0,93 de 20. Depois do teste, alegou ter pontuado 14,40. Mais arrogante depois do fracasso do que antes. "É como aquele amigo que jura que joga sinuca muito bem mas nunca acerta uma tacada", disse o pesquisador Trent Cash.

Incidente	O que aconteceu	Custo
Mata v. Avianca, 2023	Advogado citou 6 casos inventados pelo ChatGPT	Sanções judiciais, vergonha pública
Chatbot da Air Canada, 2024	Bot inventou política de reembolso	US$ 812 + arranhão na reputação
Stanford RegLab, 2024	Consultas jurídicas a LLMs gerais	58 a 88 por cento de alucinação
Pictionary CMU, 2025	Gemini previu 10, marcou 0,93	Alegou 14,40 retroativamente

A IA soa confiante porque não consegue soar de outro jeito

Aqui vai a história real. Confiança não é traço de personalidade que o modelo pegou. É efeito colateral de como ele aprendeu a falar. O pretreino leu a internet. A internet quase nunca atenua. Atenuação é editada para fora de prosa pronta. O modelo só viu frases declarativas e suaves. Então é a única voz que conhece.

Só isso já seria problema. Três camadas de treino a mais pioram tudo.

Motivo 1: pretreino não tem rótulo de "não sei"

A OpenAI publicou um paper em setembro de 2025 chamado Why Language Models Hallucinate. A descoberta central soa simples. O processo de treino nunca mostra ao modelo como é um "não sei".

O paper compara isso a uma prova de múltipla escolha. Se você chuta numa pergunta que não sabe, pode dar sorte. Se deixa em branco, garante zero. Então a jogada esperta é sempre chutar. O pretreino funciona igual. O modelo vê uma frase com uma palavra faltando. Tem que prever alguma coisa. Calar não é opção.

Padrões como ortografia e gramática se ajustam com escala. Aniversários, não. Fatos aleatórios sobre pessoas aleatórias não dá para deduzir de regras. Então o modelo inventa um e segue.

Motivo 2: benchmarks recompensam chute em vez de honestidade

A maior parte dos rankings pontua uma coisa. O modelo acertou? Não pontuam "o modelo soube quando não responder". Então um modelo que blefa toda hora pontua mais que um que diz "não tenho certeza" metade das vezes.

A própria OpenAI mostrou isso no system card do GPT-5. Compararam dois modelos no mesmo questionário factual:

Modelo	Taxa de abstenção	Acerto	Taxa de erro
gpt-5-thinking-mini	52%	22%	26%
OpenAI o4-mini (anterior)	1%	24%	75%

O modelo antigo é dois pontos mais preciso e três vezes mais errado. Chuta em 99 de 100 desconhecidos. Erra 75 desses chutes. O ranking premia mesmo assim. O modelo novo se abstém em metade das perguntas que não sabe. Erra muito menos, e tem uma pontuação principal um pouco menor. A maioria das avaliações chamaria isso de regressão.

A solução da OpenAI é estrutural. "Não basta adicionar alguns testes novos focados em incerteza ao lado. As avaliações amplamente usadas baseadas em acerto precisam ser atualizadas para que a pontuação desencoraje o chute."

Motivo 3: treinar para agradar humanos piora

Depois do pretreino, modelos passam por RLHF. Humanos reais avaliam respostas. O modelo aprende a copiar o que humanos curtem. Humanos curtem respostas que soam confiantes, fluidas e prestativas. Humanos punem respostas que dizem "talvez". Aí o modelo aprende a derrubar as ressalvas.

Um paper de 2024 chamado Taming Overconfidence in LLMs mediu isso direto. Modelos treinados com RLHF mostraram mais excesso verbalizado de confiança do que os mesmos modelos antes do RLHF. O passo de treino deixou eles mais barulhentos, não mais espertos.

A pesquisa sobre sycophancy da Anthropic achou o mesmo loop. Avaliadores preferem respostas que confirmam suas próprias visões, mesmo quando essas visões estão erradas. O modelo aprende que concordância fluente pontua melhor. Humildade pontua pior. Adivinha o que sai do outro lado.

Motivo 4: modelos de raciocínio recompensam certo ou errado, nada no meio

O passo de treino mais novo é aprendizado por reforço em raciocínio. O modelo pensa passo a passo, depois recebe recompensa só se a resposta final estiver correta. O MIT CSAIL estudou isso em abril de 2026 e encontrou algo que ninguém esperava.

"Treinamento de RL comum não só falha em ajudar a calibração. Ativamente prejudica. Os modelos ficam mais capazes e mais arrogantes ao mesmo tempo." É a Isha Puri no MIT, num achado de oito dias atrás na época deste post.

Por quê? A recompensa só checa um bit. Certo ou errado. Um modelo que percorre uma lógica cuidadosa pega a mesma recompensa de outro que joga a moeda e cai na resposta. Aí o modelo aprende que o caminho mais barato para a recompensa é apostar em toda pergunta com confiança total. O rastro de raciocínio vira teatro. O placar sobe. A honestidade desce.

A solução proposta pelo MIT se chama RLCR. O modelo precisa prever a própria confiança e é avaliado em correção e calibração. A versão deles cortou o erro de calibração em 90 por cento. O trabalho é fresco e ainda não está em modelos de produção.

Por que seu cérebro cai (e sempre caiu)

Você não é burro. Você está rodando instintos que funcionaram por dois milhões de anos e acabaram de encontrar algo para o qual não foram desenhados.

Psicólogos chamam isso de heurística da confiança. Pulford e Colman, 2013: "As pessoas ficam confiantes quando sabem que estão certas, e a confiança delas as torna persuasivas." Na natureza, humanos confiantes geralmente são confiantes porque sabem das coisas. Seu cérebro lê confiança como atalho para acerto. O atalho funciona em humanos. Quebra na IA.

Tenney e colegas em Berkeley foram mais fundo em 2007 e 2008. Estudaram como júris julgam testemunhas. O achado: uma testemunha que atenua e acaba certa é considerada mais confiável do que outra que era confiante e estava certa. Calibração vence confiança. Saber o que você não sabe é o sinal real de confiabilidade. A IA falha feio nesse teste. O tom dela é idêntico para fatos verificáveis e pura invenção.

Tem ainda o Dunning-Kruger. Pessoas no quartil de baixo em gramática, lógica e humor se classificavam no percentil 60 a 70. A habilidade necessária para ser bom em algo é a mesma necessária para saber que não é. O achado da CMU mapeia perfeito. Humanos são levemente arrogantes antes da tarefa e ajustam depois. LLMs continuam loucamente arrogantes mesmo depois de verem o próprio fracasso. Falta a camada de metacognição.

O estudo da CMU achou mais uma coisa. Humanos sinalizam incerteza com a testa franzida, um "ééé", uma resposta lenta. A IA não te dá nenhum desses sinais. "Com IA, não temos tantas pistas de que ela sabe do que está falando", disse Daniel Oppenheimer. Seu radar social está sendo bombardeado com três sinais de "confie nisso" ao mesmo tempo e zero contrassinal. Você está cognitivamente desarmado a menos que se obrigue a desconfiar.

Modelos já sabem o que sabem. O treino apaga.

Aqui vai a virada cruel. A Anthropic mostrou em 2022 que modelos grandes conseguem dizer quais das próprias respostas estão certas. Peça ao modelo para propor uma resposta, e depois pergunte "essa resposta é verdade", e a segunda resposta vem bem calibrada. O sinal interno existe.

O RLHF esmaga. O RL de raciocínio esmaga mais. Quando o modelo te encontra, a camada de calibração já foi treinada para fora. A fluência fica. A humildade não.

Três coisas decorrem disso. O conserto é possível. O conserto não vem ligado por padrão. Você tem que pedir.

O que isso significa se você está construindo com IA

Se você só conversa com o ChatGPT, o usuário é você. Pode perguntar "qual sua confiança?" e ajustar. Se você lança um produto com um LLM dentro, o usuário é seu cliente. "Confiantemente errado" agora é sua responsabilidade. Os US$ 812 da Air Canada foram a versão barata dessa lição.

O padrão que conserta é o mesmo que o Build This Now usa para código. Um agente gera. Outro agente avalia. O gerador pode ser confiante. O avaliador só se importa se a confiança foi merecida.

Você pode copiar seis linhas no seu system prompt hoje:

Você é calibrado. Antes de qualquer afirmação factual, decida se tem certeza.
Pontue sua confiança de 1 a 10 e explique numa linha por quê.
Abaixo de 7, comece com "não tenho certeza" e peça uma fonte ou checagem.
Nunca invente citações, estatísticas, nomes, datas ou frases.
Se não souber, diga claramente. Não chute para parecer prestativo.
"Não sei" é uma resposta válida e premiada.

Aí adicione uma avaliação de regressão. Pegue 50 perguntas em que a resposta certa é "não sei". Rode em toda mudança de prompt. Faça o build falhar se a abstenção cair, igual ao build falhar num erro de TypeScript. Essa é a ideia de quality gate do BTN aplicada à honestidade. Type-check, lint, build, calibração. Quatro portões em vez de três.

Para respostas de alto risco, rode uma segunda passada. O primeiro modelo escreve. O segundo pontua a confiança e rejeita respostas acima de um limiar sem fontes. É o loop gerador-avaliador que o framework já roda em toda feature entregue. Conecte ao texto e você tem a mesma proteção em palavras que tem em código.

Três coisas para fazer amanhã

Salve. Use sempre que falar com uma IA sobre algo que importa.

Peça uma pontuação de confiança. "Quão certo você está, de 1 a 10, e por quê?" O número em si é uma função forçante. Modelos treinados para agradar vão se autopenalizar quando a pergunta for direta.
Peça fontes, depois cheque uma. Não todas. Uma. Se a citação for falsa, toda outra afirmação na resposta vira suspeita. O blefe é a pista.
Trate fluência como aviso, não credencial. Prosa lisa é a parte mais fácil para o modelo. Respostas difíceis deveriam soar um pouquinho mais difíceis. Se tudo soa igualmente fácil, o modelo está chutando em algo.

A confiança da IA é não-merecida. Seu pipeline de build não deveria ser. Calibração é a diferença entre entregue e sancionado, entre confiável e estornado, entre uma ferramenta útil e uma fatura de US$ 812. Construa o portão. Depois entregue.

Por que a IA soa confiante quando está errada?

On this page