—·
全てのコンテンツはAIによって生成されており、誤りが含まれる可能性があります。ご自身でご確認ください。
圧縮とは、LLMアプリが文脈ウィンドウに収めるために先行の文脈を圧縮する“見えない工程”です。いつ起きるのか、何が保持されたかをどう確認するのかを解説します。
典型的なLLMのセッションは、単に「満杯になって動かなくなる」だけではありません。現実の多くのプロダクトでは、状況に応じて戦略を静かに切り替えます。会話が大きくなりすぎると、システムは古いメッセージをコンパクトな表現へと自動的に圧縮(要約)し、モデルがその先へ進めるようにするのです。
この仕組みは、いまでは開発者や上級ユーザーの間でも、たとえば「圧縮(compaction)」という名前や、長い文脈を扱うツールチェーンでの呼称として、また特定のチャット/エージェントのワークフローでは「auto-compact」といった挙動として、比較的明示されるようになっています。たとえばAnthropicは、会話が設定されたトークン閾値に近づくと発動する自動要約の仕組みとして圧縮を説明しています。
(Source)
だからこそ、「LLMの基礎」だけをトークンや文脈ウィンドウに閉じて学んでは不十分なのです。初心者はしばしば“信じる前に検証する”という安全な習慣を身につけますが、それでも見落としがある。圧縮が発動したとき、モデルはもはやあなたの元になった証拠そのものを見ていない可能性があるからです。代わりに見ているのは、あなたの証拠の要約です。
その要約は不完全でありえます(重要な詳細が落ちる)。歪んでいることもあります(言い換えによって枠組みが変わる)。さらに、微妙に誤っている場合もある(要約が事実を導入したり、言い換えるだけでなく事実関係を取り違えたりする)。圧縮は文脈オーバーフローのような“状況そのもの”のエラーを減らしますが、リスクの所在を「テキストが欠ける」から「要約ベースの幻覚」へと移してしまうのです。つまり、要約が主張する内容から、モデルが自信を持って先へ拡張してしまう状態が問題になります。
本当の理解モデルはこうなります。トークンと文脈ウィンドウが、モデルに“アクセスできるもの”を制限する。圧縮は、その制限のなかで「過去トークンのどの部分が生き残るのか」を決めるのです。実務上、圧縮は「トークンからプロンプトへ」というパイプラインにおける前処理であり、特にLLMを研究や慎重な文章作成に使う場合に重要性が跳ね上がります。そこでは、以前の詳細が検査可能であるべきだからです。
(Source)
現代のロング文脈モデルは、初期の8K/16K時代を大きく超えるウィンドウへと押し広げてきました。GoogleのGemini 1.5 Proは、Google自身が製品運用で最大100万トークンをサポートすると説明しています。
(Source)
またAnthropicも、Claude向けに10万トークン刻みの拡張を公表しており、「およそ75,000語」に相当すると述べています。
(Source)
さらにAnthropicの現行APIドキュメントでは、チャンネルに応じて具体的な予算を割り当てつつ、100万トークン文脈ウィンドウが利用可能であることにも触れています。
(Source)
とはいえ、100万トークン規模のウィンドウがあっても、圧縮の価値は簡単には消えません。プロンプトには、あなたの文章だけでなく、ツール出力、システム指示、会話履歴、そして場合によっては見えない(内部の)オーバーヘッドも含まれるためです。
たとえばOpenAIのGPT-4oのAPIドキュメントでは128,000の文脈ウィンドウが示されており、大きく見える数字でも、実際の多くの導入は依然として“硬い予算”の範囲内で運用されることが補強されます。
(Source)
予算が有限である限り、圧縮はデフォルトの制御システムになります。このガイドの残りでは、圧縮を偶発的な細部として扱うのではなく、第一級の概念として扱うことにします。
パイプラインを次のように考えてください。
Anthropicの圧縮ドキュメントは、この流れをまさに説明しています。「ウィンドウ制限に近づくと古い文脈を自動的に要約し、長時間の会話やタスクに対して実効的な文脈長を拡張する」ことで、モデルがそこから続けられる「圧縮ブロック」を生成する、としています。
(Source)
ここが、初心者から中級者へ向けた安全性の学習が“着地すべき”要所です。「文脈ウィンドウの限界でモデルが“忘れる”ことがある」というだけではありません。中間の変換工程によって、「文脈として数えられるもの」が書き換わってしまうのです。
重要な分析上の転換はこうです。圧縮は、証拠の“量”だけでなく、“証拠の状態(evidence state)”を変える。切り詰め(truncation)なら、モデルはそれ以前の文章を完全に見なくなります。圧縮なら、モデルは続行できます。しかし、その続行は、先行トークンに“取って代わろうとする”新しく生成されたトークンを使って行われます。この置換は忠実である場合もありますが、体系的に非忠実になりうる。
たとえば次のような形です。
・ カバレッジの失敗:出典の中で稀にしか出てこない詳細は、後の意思決定に重要であっても、圧縮表現から落ちることがあります。
・ 制約のドリフト:修飾語、否定、範囲条件が、要約の過程で単純化されたり、落とされたりします。
・ 主体と関係の誤り:固有名詞や「誰が何をしたか」のつながりが、明確な体裁の変化なしに別の構造へ言い換えられてしまうことがあります。
言い換えれば、圧縮は単に「場所を節約する」だけではありません。二段階目の依存関係を生むのです。後続の出力は、あなたの元の入力だけに基づくのではなく、モデルの“先行する圧縮判断”に条件づけられます。だから失敗モードは、単なる切り詰めの失敗ではなく、「要約ベースの幻覚」になりやすいのです。
では、圧縮が有効なときに何を期待すべきでしょうか。実務的には、モデルがアクセスできる文脈は“混合物”になると考えるべきです。つまり、あるトークンはあなたの元の会話に直接根拠づけられている一方で、別のトークンはモデルが生成した置換であり、その正しさは自信のような指標から推測できません。タスクが、言い換えやすい詳細(日時、数値、帰属、例外条項)にどれだけ依存しているかが重要になります。依存が大きいほど、圧縮を“監査可能な変換”として扱う価値が高まります。単なるバックグラウンドの実装詳細だと見なすべきではありません。
トークンは会計単位です。圧縮は、その会計への実務的な応答です。それは、あなたが書いたものの“耐久性のあるデータベース”ではありません。モデルがこれから見るものについての、書き換え方針に近いものです。
この違いは、検証ループを回すときに効いてきます。検証ループは次の問いを中心に設計されるべきです。「モデルは要約の内容を検証したのか。それとも、元の資料を検証したのか?」 多くのユーザーは、両者は同じだと思いがちです。しかし圧縮下では、両者が分岐しうる。
さらに圧縮は、他の「記憶のような」機能と紛らわしい形で相互作用する可能性があります。たとえばOpenAIは、ChatGPTの「Memory」を、生の会話文脈とは別の仕組みとして説明し、保存された記憶を管理・削除するための制御を提供しています。
(Source)
対照的に、圧縮は通常、会話の文脈をセッション単位で圧縮し、直近のプロンプトを制限内に収めるための工程です。初心者は、これらのシステムを同等のものとして扱わないほうがよいでしょう。
圧縮を「純粋な改善」として捉えたくなる誘惑は強い。つまり、「続けられない」場面が減る、長い作業セッションが滑らかになる、再プロンプトの繰り返しが減る。これは確かに利益です。古い文脈を早めに要約しておくことは、性能面でも助けになり得ます。モデルに“タスクの形”へ集中させ、あれこれを全部読み直させる強制を減らせるからです。
しかし編集上の代償があります。要約は欠落のある表現です。たとえ要約が精神として正確であっても、特異性が変わりうる。落とされた段落が、厳密に言い切るための証拠を消してしまうかもしれません。言い換えによって「誰が言ったか」が変わることもある。さらに、要約がギャップを埋める形で新しい記述を生み出してしまうことさえあります。長い文脈のワークフローでは「要約してから回答する」がこの効果を増幅し得ます。なぜなら回答段階が要約を“文脈上の真実”として扱ってしまうことがあるからです。
要約における幻覚のパターンに関する研究は、ここで直接関連します。複数ドキュメントの要約を対象にした研究では、LLMが生成した要約の平均で「最大75%」が幻覚だったと報告されており、幻覚は要約の末尾ほど起こりやすいとも述べています。
(Source)
この論文は、圧縮要約そのものではなく複数ドキュメント要約を対象としています。それでも示唆は明確です。要約は、特に要約が長くなったり推論が増えたりするほど、入力に根拠づけられていない内容を含み得る。
ここで注意しておきます。圧縮要約は「3本の記事をマーケ風に要約して」と頼むのとまったく同一ではありません。とはいえ両者とも、次の段階が再利用するための“コンパクトな表現”へと内容を変換する工程を含んでいます。要約に誤りが混ざるなら、その再利用によって誤りが自信ある出力へ転化してしまう可能性があるのです。
圧縮の品質が高かったとしても、幻覚は文脈ウィンドウの問題だけで説明できません。OpenAIは、幻覚が部分的には「不確実性を認めること」より「推測すること」を、標準的な訓練や評価の手続きが報いてしまうことに起因すると述べています。
(Source)
つまり、システムが続行する必要があり、根拠が不完全でも、もっともらしく聞こえる文章を流暢に生成してしまえる可能性があるということです。圧縮下では、その不完全な根拠が、圧縮表現に欠けている詳細に由来しているかもしれません。
したがって実務的な立場はこうなります。「圧縮が悪い」ではありません。「圧縮によって、あなたが検証すべき対象が変わる」のです。要約を検証する必要があります。なぜなら要約は、後続の推論へ渡される“入力”になるからです。
ここでは、官僚主義に傾かずに要約ベースの幻覚を減らしたい初心者から中級者向けの、シンプルな検証ループを提示します。
まず、モデルが何を使っているのかを明確に要請します。たとえば次のようにします。
・「圧縮された要約のうち、依拠している重要事実を箇条書きで列挙してください。」
・「どの事実が私が提供した文書から来ていて、どれがあなたの推測なのかを示してください。」
・「不確かな事実については、そうだと述べてください。」
これだけで“完全な正直さ”が保証されるわけではありません。ただし、監査できる形の成果物を作ることになります。さらに、あなたが持つ元の資料との比較対象も得られます。
次に二段階目を実行します。
・「列挙した各事実について、裏付けとなる引用、または私の元テキストへの正確な参照を提示してください。」
・「私の資料内で裏付けの引用を見つけられない場合は、未検証としてラベル付けしてください。」
これは、検証に近いプロンプトによって幻覚を減らす方向性として確立されつつある研究に類似しています。たとえば「Chain-of-Verification(CoVe)」は、まず回答案を作り、検証のための質問を計画し、それらに独立に答えたうえで、最後に最終的な“検証済み”回答を生成します。
(Source)
実装がアルゴリズム的でなくても、要点は同じです。最初の草案を“真実”として信じるのを止めることです。
三段階目で、最も頻出の圧縮被害である「制約の欠落」を捕捉します。
・「元の資料から、落とされたり圧縮されたりしたかもしれない詳細は何ですか。」
・「あなたの回答が正しくなるために必要な前提は何で、それらが誤っていた場合、どこで破綻しますか。」
これはモデルに“脆さ”を強調させる試みです。良い回答は、要約が何を欠いている可能性を、しばしば露わにします。
注意していても、圧縮は「限界にぶつかったとき」ではなく「限界に近づいたとき」に発動し得ます。Anthropicの圧縮説明は、ハードな天井だけでなく、設定されたトークン閾値へ近づく段階で作動することを示しています。
(Source)
つまり、圧縮は例外的な出来事としてではなく、繰り返し起きうるものとして扱うべきです。検証ループは、タスクのフェーズを切り替えるたび(たとえば要約から議論へ切り替えた後、草案の新しいセクションを依頼した後など)に回せる形にしておきましょう。
プロダクトの振る舞いは一様ではありません。ただし、長時間の作業を想定したツールチェーンでは、圧縮に類する仕組みが現れます。以下は、圧縮がシステム設計として明示されている例、または長期的なワークフローが継続のために要約を必要とする例です。
Anthropicは、トークン閾値に近づくと古い文脈を自動的に要約し、それを圧縮ブロックとして置き換えることで会話を継続できるようにする機能として、圧縮を説明しています。
(Source)
結果: 文脈オーバーフローが起きにくく、長時間のセッションを維持できるようになります。
タイムライン: Anthropicの圧縮ドキュメントには、更新された圧縮ヘッダーのパターンが説明されており、Claude APIのワークフローにプロダクト機能として投入されたことを示しています。
([Source](https://platform.claude.com/docs/en/build-with-claude/compaction?utm_source=pulse.latellu.com&utm_medium=editorial###%20%E3%82%B1%E3%83%BC%E3%82%B92%EF%BC%9AClaude%E3%81%AE%E3%83%AD%E3%83%B3%E3%82%B0%E6%96%87%E8%84%88%E6%8B%A1%E5%BC%B5%EF%BC%88%E5%9C%A7%E7%B8%AE%E6%88%A6%E7%95%A5%E3%81%AB%E4%BE%9D%E5%AD%98%E3%81%99%E3%82%8B%E3%83%AF%E3%83%BC%E3%82%AF%E3%83%95%E3%83%AD%E3%83%BC%E3%81%B8%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%82%92%E6%8A%BC%E3%81%97%E5%87%BA%E3%81%99%EF%BC%89Anthropic%E3%81%AE%E3%80%8C100K%20Context%20Windows%E3%80%8D%E3%81%AE%E7%99%BA%E8%A1%A8%E3%81%AF%E3%80%819K%E3%81%8B%E3%82%89100K%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E3%81%B8%E3%81%A8%E3%81%84%E3%81%86%E7%A7%BB%E8%A1%8C%E3%82%92%E3%80%81%E7%B4%8475,000%E8%AA%9E%E3%81%AB%E7%9B%B8%E5%BD%93%E3%81%99%E3%82%8B%E3%81%A8%E7%B5%90%E3%81%B3%E3%81%A4%E3%81%91%E3%80%81%E3%81%93%E3%82%8C%E3%82%89%E3%81%AE%E6%96%87%E8%84%88%E3%82%A6%E3%82%A3%E3%83%B3%E3%83%89%E3%82%A6%E3%81%8CAPI%E3%81%A7%E5%88%A9%E7%94%A8%E5%8F%AF%E8%83%BD%E3%81%AB%E3%81%AA%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8%E3%82%92%E8%BF%B0%E3%81%B9%E3%81%A6%E3%81%84%E3%81%BE%E3%81%99%E3%80%82%20%20%EF%BC%88[Source](https://www.anthropic.com/news/100k-context-windows?utm_source=pulse.latellu.com&utm_medium=editorial))
結果: 1セッションあたりに含められる情報量は増え、圧縮の発動を遅らせ、早期の文脈を圧縮ブロックへ置き換える頻度を下げられる可能性があります。
タイムライン: Anthropicの100K文脈ウィンドウの投稿で初めて告知されたものです(その拡張をロールアウトしたタイミングで公開されています)。
([Source](https://www.anthropic.com/news/100k-context-windows?utm_source=pulse.latellu.com&utm_medium=editorial###%20%E3%82%B1%E3%83%BC%E3%82%B93%EF%BC%9AGemini%201.5%20Pro%E3%81%AE100%E4%B8%87%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E6%96%87%E8%84%88%E3%81%8C%E4%BD%93%E9%A8%93%E3%82%92%E5%A4%89%E3%81%88%E3%82%8B%E3%81%8C%E3%80%81%E6%A4%9C%E8%A8%BC%E3%81%AF%E3%81%AA%E3%81%8A%E9%87%8D%E8%A6%81Google%E3%81%AFGemini%201.5%20Pro%E3%81%8C%E6%9C%AC%E7%95%AA%E9%81%8B%E7%94%A8%E3%81%A7%E6%9C%80%E5%A4%A7100%E4%B8%87%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E3%82%92%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%81%99%E3%82%8B%E3%81%A8%E8%AA%AC%E6%98%8E%E3%81%97%E3%81%A6%E3%81%84%E3%81%BE%E3%81%99%E3%80%82%20%20%EF%BC%88[Source](https://blog.google/innovation-and-ai/products/google-gemini-next-generation-model-february-2024/?utm_source=pulse.latellu.com&utm_medium=editorial))
結果: 1セッションで扱えるテキスト量が大きくなり、圧縮のトリガーを遅らせたり、早期の文脈を圧縮ブロックへ置き換える回数を減らしたりできる可能性があります。
タイムライン: Googleの2024年2月の投稿で告知されました。
(Source)
実務上の教訓: 基盤モデルのウィンドウが巨大であっても、アプリケーションが内部で「圧縮されたブリーフィング」成果物を生成する限り、圧縮に類する変換は起こりやすいままです。つまり検証は、“硬い閾値”のためだけではなく、後続の段階がそれを根拠(ground truth)として扱うような、どの段階であっても必要になります。
複数ドキュメント要約のベンチマークでは、幻覚が要約内容を支配し得ることが示されており、評価されたモデルにおいて平均で「最大75%」が幻覚だったと報告されています。
(Source)
結果: 圧縮表現が、誤りを抱えたまま先へ運ばれる可能性が現実味を帯びます。
タイムライン: 研究はプレプリントとして公開されており、arXivの記録から当該研究の期間が分かります。
(Source)
実務上の教訓: 圧縮要約は、長文の逐語ログより本質的に安全だと決めつけないでください。検証を要する“成果物”として扱いましょう。
研究や下書きの段階では、LLMアシスタントに求める性質が2つあります。(1)根拠の安定性。(2)根拠が欠けている場合に不確実性を明示すること。圧縮は、この両方に影響します。
議論や統合(シンセサイズ)を求める前に、資料から構造化された抽出を要請します。
・「提供されたテキストに追跡可能な事実主張をすべて抽出してください。」
・「各主張について、根拠となる正確な文(またはセクション/ページ/段落などの明確な参照)を含めてください。」
このやり方は、モデルに“主張の台帳(claim ledger)”を構築させる方向へ促します。そして台帳ができた後に、文章作成を依頼できます。圧縮によって、後の文章に必要な証拠が消える確率を下げられるのです。
アシスタントが圧縮しやすい場合は、あえて再要約させ、そのうえで監査するよう頼むことができます。
・「先行資料を圧縮要約してください。ただし、何が欠けているのかも列挙してください。」
・「次に、圧縮要約の各要素を元のテキストと照合して検証してください。」
これにより、圧縮を“隠れた処理”から“明示的でレビュー可能な工程”へと変換できます。検証ループは、チェックすべき具体物を持てるようになります。Anthropicのドキュメントでは圧縮を自動要約ブロックとして位置づけていますが、そのうえで制御された「圧縮要約」を求めることは、変換への主体性を取り戻す方法になり得ます。
(Source)
OpenAIの幻覚に関する取り組みは、評価のインセンティブが重要であり、モデルが自信のある推測へ押しやられる可能性があることを強調しています。
(Source)
したがって実務上の翻訳はこうです。主張を証拠へ結び付けさせ、未検証の項目にはラベル付けさせるような“チェック”を依頼してください。
関連する研究方向として、連鎖的な検証は実験タスクにおいて幻覚を減らすとされています。
(Source)
あなたの「検証ループ」は、そのアイデアに対する人間主導のアナログだと言えます。
圧縮は、長時間のLLMアプリケーションにおいて実務上デフォルト化しつつあります。文脈予算が現実に存在すること、そして先行メッセージを自動要約するのがセッションを維持する最安の方法であることが、その背景です。Anthropicは圧縮を、閾値の近くで発動する自動要約工程として明示的に文書化しています。
(Source)
ロング文脈モデルが拡大すれば圧縮の発動頻度は下がるかもしれません。しかし消えることはないでしょう。文章作成や分析では、要約による凝縮の恩恵が引き続き大きいからです。
2026年Q4までに、チームは検証ループのUXパターン(たとえば「圧縮された要約」ペインの可視化、保持された文脈の監査トレイルなど)が、特にコンプライアンスや編集審査が重い領域で、プロ向けツールにおいてより標準的になるよう見通しを立てて計画すべきです。技術的な理由は明快です。圧縮は変換工程を導入し、それを可視化して試験できるようになる。さらに検証に近い手法は、幻覚を減らすための研究的裏付けもすでにあります。
(Source)
加えて、圧縮自体は文書化されているため、プロダクト設計に落とし込めます。
(Source)
(現実チェック:これは計画のための予測であり、保証ではありません。モデル系統やアプリ設計により、圧縮を明示するかどうかは異なります。また、監査ペインを見せずに「影の要約」を好む設計もあり得ます。したがって、政策は“完全な可視性が得られないかもしれない”前提で立てるべきです。)
導入ポリシーは単一のルールでよいでしょう。圧縮要約から“根拠を伴う主張”を採用する場合、必ず元の資料に紐づけた検証工程を経ること。
具体的には、研究と執筆のためにLLMの圧縮を使うチームは、二段階ワークフローを実装する必要があります。
この方針は、圧縮によって導入される「要約ベースの幻覚」リスクを正面から狙い撃ちします。さらに、それは「不確実性を評価しないまま自信ある推測が報われると幻覚が残る」という広い理解とも整合的です。
(Source)
短くまとめるならこうです。圧縮は信頼のショートカットではありません。便利な“層”です。あなたの仕事は、その便利さの層が、あなたの事実の最終著者になってしまわないようにすることです。