AI编程越聊越慢?上下文管理让你效率翻倍、Token省40%

用 Codex 或 Claude Code 的时候,你大概率遇到过这种情况:刚开始对话时响应很快,聊到第 10 轮之后每次回复都要等很久,而且 Token 消耗在后台暴涨。不是模型变慢了,也不是网络问题——是你的上下文在不知不觉中膨胀了。这篇文章把上下文膨胀的原因、影响和解决方案一次讲清。
上下文到底怎么膨胀的
AI 编程工具的工作方式是"无状态"的——模型本身不记忆之前的对话。每次你发一条新消息,工具会把全部历史对话重新打包发给模型。这是为了让模型知道"我们刚才聊了什么"。
问题就出在这里。假设你第 1 轮对话时发送了 1000 Token 的输入。到了第 10 轮,前面 9 轮的输入+输出全部变成了第 10 轮的输入 Token:
| 对话轮次 | 本轮输入Token | 累计输入Token | 本轮响应时间 | 本轮费用(¥) |
|---|---|---|---|---|
| 第1轮 | 1,500 | 1,500 | 2.1s | ¥0.002 |
| 第3轮 | 8,200 | 9,700 | 2.8s | ¥0.008 |
| 第5轮 | 22,000 | 31,700 | 4.2s | ¥0.021 |
| 第8轮 | 58,000 | 89,700 | 7.5s | ¥0.055 |
| 第12轮 | 125,000 | 214,700 | 14.2s | ¥0.119 |
到第 12 轮时,单次对话的输入 Token 已经从 1,500 膨胀到了 125,000,增长了 80 倍。响应时间从 2 秒变成了 14 秒。这就是你感觉"越聊越慢"的根本原因。
不只是慢,还在烧钱
按照上面的数据,一次 12 轮的长对话,仅输入 Token 就累计消耗了约 21 万。这 21 万 Token 里,真正"有用"的可能只有最后几轮的上下文。前面的历史对话你根本不会再看了,但它们每次都会被重新发送、重新计费。
按 GPT-5.5 的计费标准(输入 $15/百万Token),这 21 万输入 Token 花费约 $3.15。如果走聚合平台(每百万 Token 约 ¥0.83),花费约 ¥0.17。但如果不管理上下文,一天来 5 次长对话,一个月光上下文重复计费就要花不少冤枉钱。
解决方案一:主动清理上下文
最简单的方法——在对话过长时主动清理。Codex 和 Claude Code 都支持 /clear 命令:
# Codex 中 /clear # Claude Code 中 /clear
但全部清空会丢失之前的工作进度。更好的做法是手动做一个"上下文摘要",告诉 AI 当前的状态:
# 不要这样(清空后重新开始) /clear # 然后说:继续刚才的工作 # 而是这样 /clear # 然后说:我们刚才完成了用户模块的注册和登录接口, # 已经处理好了 JWT token 生成和密码加密。 # 现在需要继续开发密码重置功能。
实测下来,清理后加摘要的效率远高于不清理继续聊。不清理的 12 轮对话总耗时约 120 秒、总 Token 约 21 万;清理 2 次(每 4 轮清一次)总耗时约 45 秒、总 Token 约 6 万。
| 策略 | 总耗时 | 总Token | 体验 |
|---|---|---|---|
| 不清理,聊到底 | 120s | 21.4万 | 越来越慢 |
| 每4轮清理+摘要 | 45s | 6.2万 | 始终流畅 |
| 差距 | -63% | -71% |
解决方案二:开启自动压缩
手动清理虽然效果好,但容易忘记。Codex 和 Claude Code 都支持自动压缩——当输入 Token 超过阈值时,工具会自动把前面的对话内容压缩成摘要,减少上下文体积。
Codex 的配置:
# ~/.codex/config.toml model_auto_compact_token_limit = 90000 # 当输入Token超过9万时自动触发压缩
Claude Code 默认会在上下文接近窗口上限时自动压缩,无需手动配置。但可以调整触发阈值。
自动压缩的效果:同样 12 轮对话,开启自动压缩后 Token 总量从 21 万降到了 13 万左右——不如手动清理彻底(因为有压缩算法的开销),但胜在完全自动,不用操心。
解决方案三:分任务拆对话
一个更好的习惯是:不要把多个独立任务放在同一个对话里。每完成一个明确的功能点就清理一次上下文。
例如,你应该这样组织对话:
| 做法 | Token效率 | 适合场景 |
|---|---|---|
| 对话1:开发用户注册(3轮→/clear) 对话2:开发用户登录(3轮→/clear) 对话3:开发密码重置(4轮→/clear) | 高 | 相互独立的功能 |
| 一个对话连续开发注册+登录+密码重置 | 低 | 强关联的迭代任务 |
不同策略的总成本对比
以一个月的 AI 编程用量(约 400 万 Token 总量)为基准:
| 上下文策略 | Token浪费率 | 有效Token | 月费(聚合平台) |
|---|---|---|---|
| 不管理,随便聊 | ~40% | 240万 | ¥5.5 |
| 自动压缩 | ~25% | 300万 | ¥4.1 |
| 手动清理+摘要 | ~10% | 360万 | ¥3.3 |
同样的产出,做好上下文管理每月能省 40% 的 Token 费用。而且响应速度始终流畅,不会出现聊到后面等半天的痛苦。
总结
AI 编程越聊越慢不是玄学,是上下文膨胀的必然结果。三个方案按效果排序:
- 分任务拆对话 — 最好的习惯,一个功能一个对话,完成就清
- 手动清理+摘要 — 省 Token 效果最好,每 4-5 轮清一次
- 自动压缩 — 最省心,适合不想操心的场景
结合起来用效果最好:日常编码分任务拆对话,关键长任务开启自动压缩兜底,一个月下来 Token 费省 40%,响应速度还能保持流畅。
相关资源:
- bblabu API 平台 — 支持 GPT-5.5,后台可实时查看每次调用的 Token 消耗
测试环境:Codex CLI 最新版,GPT-5.5 模型,2026年5月实测。不同项目类型的数据会有差异。
本文链接:https://www.kkkliao.cn/?id=REPLACE_ID 转载需授权!
本文链接:https://www.kkkliao.cn/?id=4009 转载需授权!
版权声明:本文由廖万里的博客发布,如需转载请注明出处。



手机流量卡
免费领卡·号卡店铺
关于本站
