なぜAIはさっき話したことを忘れるのか？

問題: 1時間かけてChatGPTにあなたのプロジェクトを説明する。トーンも制約もゴールも、ちゃんと理解してくれた。20メッセージ後にはファイル名を忘れている。30メッセージ後には自分が書いたルールに矛盾し始める。50メッセージ目には、1時間前に「やめろ」と警告したプランを褒め始める。GPT-5のローンチスレッドでRedditユーザーが見事に表現していました。「うちのChatGPTが重度の脳損傷を負って、読み方を忘れたみたい」。

すぐ使える対策: 間違った答えが出たら、毎回新しいチャットを始めましょう。重要なコンテキストだけを添えて、同じ質問をし直してください。

この習慣だけで、初日からほとんどのギャップが埋まります。続きを読めば、何が実際に起きているのか、認知心理学はどう説明するのか、そしてなぜBuild This Nowのアーキテクチャがこの失敗モードを回避できるのかが分かります。

「脳損傷」の瞬間

名前を知る前から、あなたはこの現象を体感していたはずです。鋭く始まった長いセッションが、徐々に鈍くなる。モデルがループする。前の質問を繰り返す。たった今あなたがリネームした変数を忘れる。3メッセージ前に訂正したはずの事実を、満面の笑顔で再発明する。

これはあなたのせいではありません。運が悪かったわけでもありません。市場のすべてのチャットボットの構造的な性質です。100万トークンのコンテキストウィンドウを持つモデルでも同じ。この現象には、もう名前があります。Hacker Newsのコメンターが2025年6月に名付けました。Anthropicのエンジニアリングが使っています。Chromaも使っている。OpenAIのドキュメントも使っている。その名前がコンテキストロットです。

脳ではなく、メモ帳

AIには記憶がありません。もう一度言います。セッションも、再生も、過去のチャットの蓄積された印象もない。あなたが打つ言葉も、モデルが返す言葉も、すべてトークンと呼ばれる小さな塊に分解されます。会話全体は、そのトークンが連なった1本の長いリボンです。

コンテキストウィンドウは、モデルが一度に読めるリボンの最大長です。固定サイズのスクラッチパッドだと考えてください。新しいターンのたびに、モデルはリボン全体を最初から読み直し、次のトークンを書きます。タブを閉じれば、リボンは消えます。

ChatGPTやClaudeの「メモリー」機能は、この事実を変えません。あなたの小さな要約を別の場所に保存し、新しいチャットの開始時にシステムプロンプトに貼り付けているだけです。賢い仕組みではありますが、記憶ではありません。

なぜスポットライトが薄暗くなるのか

モデルは次のトークンを書く前に、アテンション機構を使って、そのトークンとリボン上のすべての既存トークンを比較します。リボン全体を再スイープして、何が重要かを判断するスポットライトをイメージしてください。これがTransformerの中核的なブレイクスルーです。GPTのTです。

アテンションは二乗のコストがかかります。100トークンのチャットなら、新しいトークンごとに約100回のアテンション操作。1,000トークンなら約1,000回。100,000トークンなら約100,000回。コストはトークンごとにかかるので、10倍長いセッションは約100倍の計算量を要します。

Anthropicはエンジニアリングブログでこう端的に表現しています。

「人間が限られたワーキングメモリ容量を持つように、LLMには大量のコンテキストを解析する際に引き出す『アテンション予算』がある。新しいトークンが導入されるたびに、この予算は減る」

これが問題のすべてです。ウィンドウは100万トークンを保持できる。アテンション予算は保持できない。

真ん中で迷子になる

2023年、StanfordのLiuらがこのテーマの正典的な論文を発表しました。タイトルがすべてを物語ります。Lost in the Middle: How Language Models Use Long Contexts(arXiv:2307.03172)。

結果はこうです。

「関連情報が入力コンテキストの最初か最後にあるとき、性能は最も高い。長いコンテキストの真ん中にある関連情報にアクセスする必要があるとき、明示的にロングコンテキストモデルとされたモデルでさえ、性能は大きく低下する」

U字カーブです。モデルは冒頭をよく覚えている。終端もよく覚えている。真ん中は消える。会議の2時間目に意識が飛んでいる人間のリスナーと同じです。

100万トークンでも、コンテキストロットは現実

ウィンドウを大きくしても、バグは消えませんでした。むしろ、より目立つようになりました。

Chromaの2025年研究は、18のフロンティアモデルを徐々に長くなる入力でテストしました。すべて劣化しました。100万トークンウィンドウのモデルでさえ、わずか50,000トークンで計測可能な劣化を示しました。Adobe Researchは同年、マルチホップ推論テストを実施し、コンテキストが長くなるにつれて精度が崩れていく様子を観察しました。

モデル	短いコンテキスト	長いコンテキスト
GPT-4o	99%	70%
Claude 3.5 Sonnet	88%	30%
Llama 4 Scout	82%	22%

長いドキュメントの中からフレーズを探すだけならモデルは持ちこたえます。長いチャットに埋め込まれた複数の事実を横断して推論させると、精度は崖から落ちます。後者こそが、あなたの実際の使い方です。

2026年に主要チャットボットが提供するスペックはこちらです。

モデル	コンテキストウィンドウ
Claude Opus 4.7	1,000,000トークン (GA)
Claude Sonnet 4.6	1,000,000トークン (GA)
GPT-5.5	1,000,000+トークン
Gemini 3.1 Pro	1,000,000トークン
Mythos Preview	1,000,000トークン (リサーチのみ)

パターンに注目してください。上限は4年で約244倍になりました。「忘れる」というユーザーの不満は史上最高に達しました。ボトルネックはウィンドウではないのです。

あなたの脳にも同じバグがある

認知心理学者は、人間で同じ現象を70年研究してきました。

George Miller、1956年、「The Magical Number Seven, Plus or Minus Two」。人間は即時記憶で約7±2のアイテムを同時に保持できる。電話番号はこの限界に合わせて設計されました。Nelson Cowanは2001年に再計算し、リハーサルのトリックを除いた本当の上限は4±1に近いと主張しました。Alan BaddeleyとGraham Hitchはすでに、ワーキングメモリを音韻ループ、視空間スケッチパッド、そして何に注意を向けるかを決める中央実行系に分割していました。

形は同じ、スケールは桁違いです。

性質	人間のワーキングメモリ	LLMコンテキストウィンドウ
「アクティブ」な情報の上限	約4チャンク	約1,000,000トークン
想起しやすい位置	冒頭と終端 (初頭効果と新近効果)	冒頭と終端 (lost in the middle)
中間アイテムの減衰	あり	あり
書き留めることで回避できる	はい	はい

人間は4チャンク。モデルは100万トークン。両者とも長い会話の真ん中を忘れます。ボトルネックは保管容量ではない。アテンションです。人間は限られた保管容量を、積極的に忘れて書き留めることで対処しています。モデルは巨大な保管容量を持ちながら、薄いアテンション予算しか持たず、しかも生成前にすべてを見なければならないのです。

なぜウィンドウを大きくしても救われないのか

チャットが伸びるにつれて、3つの失敗モードが積み重なります。

容量。リボンがウィンドウ上限に達すると、古いトークンは捨てられるか要約されます。モデルは切られた部分を文字通り見ることができません。

アテンションの希釈。上限に達する前ですら、スポットライトが見るべき対象が多すぎます。新しいターンごとにS/N比が下がります。

真ん中で迷子。モデルは最新トークンと最古トークンに過剰な重みを置きます。間にあるものは消えていきます。

「コンパクション」がこれを陰険な形で悪化させます。ClaudeやChatGPTが上限の約95%に達すると、それまでのターンを要約し、履歴をその要約に置き換えます。要約は決定事項を保持しますが、訂正、作業中のパターン、40メッセージかけて確立したトーンを失います。2025年10月にGitHubに上がったバグ報告がそれを言い当てています。コンパクション前は完璧に守られていたルールが、コンパクション後は100%違反される、と。

実際に効く対策

ユーザーとして使えるレバーは3つあります。順に使ってください。

新しい質問のたびに新しいチャットを始める。古いコンテキストは長いセッションの悪い回答の最大原因です。新しいチャットは無料です。

新しい質問の中に、関連するコンテキストを再度書く。「さっき話したファイルを覚えてる？」と書いてはいけません。ファイルを貼り付ける。ルールを貼り付ける。制約を貼り付ける。モデルに記憶はありません。今日リボンに載せたものしか持たないのです。

重要な指示はプロンプトの最初と最後の両方に置く。Liuらが示したように、モデルは両端に重みを置きます。両端を使ってください。

ビルダー側の答えはアーキテクチャです。Karpathyは2025年6月、Xでこう名付けました。

「コンテキストエンジニアリングとは、次のステップに必要なちょうどいい情報でコンテキストウィンドウを満たす、繊細なアートとサイエンスである」

3つのパターンが大半の仕事をします。

パターン	何をするか
サブエージェント	各エージェントがクリーンなウィンドウで動き、短い要約だけを返す。メインスレッドはノイズを見ない
ジャストインタイム取得	ファイル、検索結果、メモリーをウィンドウの外に置く。エージェントは必要なときだけ読む
永続的なプロジェクトメモリ	エージェントが毎セッション開始時に読み込む小さなファイル。チャットの外にあるのでコンパクションを生き延びる

これはAnthropicの自社エンジニアリングチームが推奨する形そのままです。あなたの脳がやっていることそのものでもあります。あなたは受信箱を暗記しません。検索するのです。

AIで何かを作るあなたへの示唆

ソロのファウンダーが1つのChatGPTスレッドでMVPをバイブコーディングする。3時間目にコンテキストロットに当たります。モデルが矛盾を始める。午前中にすり合わせたプランが溶ける。彼らはツールを責めます。ツールはアーキテクチャが許す通りに動いているだけなのに。

Build This NowはClaude Code上で動くAIパワードのSaaSビルドシステムです。18の専門エージェント、55以上のスキル、アイデアからライブプロダクトまでの5ステップパイプライン。アーキテクチャはlost-in-the-middle論文に「逆らって」ではなく、「沿って」設計されています。

18のエージェントはそれぞれ自分のフレッシュなコンテキストウィンドウで動きます。Database ArchitectはDesignerの下書きを見ません。TesterはBackend Developerの失敗した試みを引き継ぎません。オーケストレーターは各エージェントから短い圧縮された要約を受け取ります。サブエージェントアーキテクチャはAnthropicがコンテキストロット対策として明示的に推奨するパターンであり、デフォルトで組み込まれています。

スキルはウィンドウの外で生きています。55以上の再利用可能なミニ命令が必要なときだけロードされます。CLAUDE.mdはプロジェクトの永続メモリーファイルで、毎セッション開始時にすべてのエージェントが読みます。/auto-memoryスキルはセッションをまたいで決定事項をキャプチャするので、次のチャットは前のチャットの続きから始められます。ファイルはglobとgrepで読み、プロンプトに詰め込みません。フレームワークはコンテキストウィンドウを、有限なリソースとして扱っています。

答えはウィンドウを大きくすることではない

迎合(シコファンシー)はAIの最初のダークパターンでした。コンテキストロットは2つ目です。あなたは名前がつく前から、これを感じていました。今は名前があります。使ってください。チームに、長いセッションが鈍くなる理由を伝えてください。ユーザーに、新しいチャットが答えだと伝えてください。

科学は決着済みです。人間もモデルも、真ん中を忘れる。両者とも、書き留めることで対処する。Build This Nowはノートブックを開いた状態で出荷されています。新しいチャットを始める。重要なものを貼る。あるいは、両方を代わりにやってくれるシステムに仕事を渡してください。

なぜAIはさっき話したことを忘れるのか？

On this page