当前位置：首页 > 文章 > 正文内容

AI编程越聊越慢？上下文管理让你效率翻倍、Token省40%

廖万里2个月前 (05-29)文章12

用 Codex 或 Claude Code 的时候，你大概率遇到过这种情况：刚开始对话时响应很快，聊到第 10 轮之后每次回复都要等很久，而且 Token 消耗在后台暴涨。不是模型变慢了，也不是网络问题——是你的上下文在不知不觉中膨胀了。这篇文章把上下文膨胀的原因、影响和解决方案一次讲清。

上下文到底怎么膨胀的

AI 编程工具的工作方式是"无状态"的——模型本身不记忆之前的对话。每次你发一条新消息，工具会把全部历史对话重新打包发给模型。这是为了让模型知道"我们刚才聊了什么"。

问题就出在这里。假设你第 1 轮对话时发送了 1000 Token 的输入。到了第 10 轮，前面 9 轮的输入+输出全部变成了第 10 轮的输入 Token：

对话轮次	本轮输入Token	累计输入Token	本轮响应时间	本轮费用(¥)
第1轮	1,500	1,500	2.1s	¥0.002
第3轮	8,200	9,700	2.8s	¥0.008
第5轮	22,000	31,700	4.2s	¥0.021
第8轮	58,000	89,700	7.5s	¥0.055
第12轮	125,000	214,700	14.2s	¥0.119

到第 12 轮时，单次对话的输入 Token 已经从 1,500 膨胀到了 125,000，增长了 80 倍。响应时间从 2 秒变成了 14 秒。这就是你感觉"越聊越慢"的根本原因。

按照上面的数据，一次 12 轮的长对话，仅输入 Token 就累计消耗了约 21 万。这 21 万 Token 里，真正"有用"的可能只有最后几轮的上下文。前面的历史对话你根本不会再看了，但它们每次都会被重新发送、重新计费。

按 GPT-5.5 的计费标准（输入 $15/百万Token），这 21 万输入 Token 花费约 $3.15。如果走聚合平台（每百万 Token 约 ¥0.83），花费约 ¥0.17。但如果不管理上下文，一天来 5 次长对话，一个月光上下文重复计费就要花不少冤枉钱。

最简单的方法——在对话过长时主动清理。Codex 和 Claude Code 都支持 /clear 命令：

# Codex 中
/clear

# Claude Code 中
/clear

但全部清空会丢失之前的工作进度。更好的做法是手动做一个"上下文摘要"，告诉 AI 当前的状态：

# 不要这样（清空后重新开始）
/clear
# 然后说：继续刚才的工作

# 而是这样
/clear
# 然后说：我们刚才完成了用户模块的注册和登录接口，
# 已经处理好了 JWT token 生成和密码加密。
# 现在需要继续开发密码重置功能。

实测下来，清理后加摘要的效率远高于不清理继续聊。不清理的 12 轮对话总耗时约 120 秒、总 Token 约 21 万；清理 2 次（每 4 轮清一次）总耗时约 45 秒、总 Token 约 6 万。

策略	总耗时	总Token	体验
不清理，聊到底	120s	21.4万	越来越慢
每4轮清理+摘要	45s	6.2万	始终流畅
差距	-63%	-71%

手动清理虽然效果好，但容易忘记。Codex 和 Claude Code 都支持自动压缩——当输入 Token 超过阈值时，工具会自动把前面的对话内容压缩成摘要，减少上下文体积。

Codex 的配置：

# ~/.codex/config.toml
model_auto_compact_token_limit = 90000
# 当输入Token超过9万时自动触发压缩

Claude Code 默认会在上下文接近窗口上限时自动压缩，无需手动配置。但可以调整触发阈值。

自动压缩的效果：同样 12 轮对话，开启自动压缩后 Token 总量从 21 万降到了 13 万左右——不如手动清理彻底（因为有压缩算法的开销），但胜在完全自动，不用操心。

一个更好的习惯是：不要把多个独立任务放在同一个对话里。每完成一个明确的功能点就清理一次上下文。

例如，你应该这样组织对话：

做法	Token效率	适合场景
对话1：开发用户注册（3轮→/clear）对话2：开发用户登录（3轮→/clear）对话3：开发密码重置（4轮→/clear）	高	相互独立的功能
一个对话连续开发注册+登录+密码重置	低	强关联的迭代任务