当前位置:首页 > 文章 > 正文内容

AI编程越聊越慢?上下文管理让你效率翻倍、Token省40%

廖万里2小时前文章2

AI编程越聊越慢?上下文管理让你效率翻倍、Token省40%

用 Codex 或 Claude Code 的时候,你大概率遇到过这种情况:刚开始对话时响应很快,聊到第 10 轮之后每次回复都要等很久,而且 Token 消耗在后台暴涨。不是模型变慢了,也不是网络问题——是你的上下文在不知不觉中膨胀了。这篇文章把上下文膨胀的原因、影响和解决方案一次讲清。

上下文到底怎么膨胀的

AI 编程工具的工作方式是"无状态"的——模型本身不记忆之前的对话。每次你发一条新消息,工具会把全部历史对话重新打包发给模型。这是为了让模型知道"我们刚才聊了什么"。

问题就出在这里。假设你第 1 轮对话时发送了 1000 Token 的输入。到了第 10 轮,前面 9 轮的输入+输出全部变成了第 10 轮的输入 Token:

对话轮次本轮输入Token累计输入Token本轮响应时间本轮费用(¥)
第1轮1,5001,5002.1s¥0.002
第3轮8,2009,7002.8s¥0.008
第5轮22,00031,7004.2s¥0.021
第8轮58,00089,7007.5s¥0.055
第12轮125,000214,70014.2s¥0.119

到第 12 轮时,单次对话的输入 Token 已经从 1,500 膨胀到了 125,000,增长了 80 倍。响应时间从 2 秒变成了 14 秒。这就是你感觉"越聊越慢"的根本原因。

不只是慢,还在烧钱

按照上面的数据,一次 12 轮的长对话,仅输入 Token 就累计消耗了约 21 万。这 21 万 Token 里,真正"有用"的可能只有最后几轮的上下文。前面的历史对话你根本不会再看了,但它们每次都会被重新发送、重新计费。

按 GPT-5.5 的计费标准(输入 $15/百万Token),这 21 万输入 Token 花费约 $3.15。如果走聚合平台(每百万 Token 约 ¥0.83),花费约 ¥0.17。但如果不管理上下文,一天来 5 次长对话,一个月光上下文重复计费就要花不少冤枉钱。

解决方案一:主动清理上下文

最简单的方法——在对话过长时主动清理。Codex 和 Claude Code 都支持 /clear 命令:

# Codex 中
/clear

# Claude Code 中
/clear

但全部清空会丢失之前的工作进度。更好的做法是手动做一个"上下文摘要",告诉 AI 当前的状态:

# 不要这样(清空后重新开始)
/clear
# 然后说:继续刚才的工作

# 而是这样
/clear
# 然后说:我们刚才完成了用户模块的注册和登录接口,
# 已经处理好了 JWT token 生成和密码加密。
# 现在需要继续开发密码重置功能。

实测下来,清理后加摘要的效率远高于不清理继续聊。不清理的 12 轮对话总耗时约 120 秒、总 Token 约 21 万;清理 2 次(每 4 轮清一次)总耗时约 45 秒、总 Token 约 6 万。

策略总耗时总Token体验
不清理,聊到底120s21.4万越来越慢
每4轮清理+摘要45s6.2万始终流畅
差距-63%-71%

解决方案二:开启自动压缩

手动清理虽然效果好,但容易忘记。Codex 和 Claude Code 都支持自动压缩——当输入 Token 超过阈值时,工具会自动把前面的对话内容压缩成摘要,减少上下文体积。

Codex 的配置:

# ~/.codex/config.toml
model_auto_compact_token_limit = 90000
# 当输入Token超过9万时自动触发压缩

Claude Code 默认会在上下文接近窗口上限时自动压缩,无需手动配置。但可以调整触发阈值。

自动压缩的效果:同样 12 轮对话,开启自动压缩后 Token 总量从 21 万降到了 13 万左右——不如手动清理彻底(因为有压缩算法的开销),但胜在完全自动,不用操心。

解决方案三:分任务拆对话

一个更好的习惯是:不要把多个独立任务放在同一个对话里。每完成一个明确的功能点就清理一次上下文。

例如,你应该这样组织对话:

做法Token效率适合场景
对话1:开发用户注册(3轮→/clear)
对话2:开发用户登录(3轮→/clear)
对话3:开发密码重置(4轮→/clear)
相互独立的功能
一个对话连续开发注册+登录+密码重置强关联的迭代任务

不同策略的总成本对比

以一个月的 AI 编程用量(约 400 万 Token 总量)为基准:

上下文策略Token浪费率有效Token月费(聚合平台)
不管理,随便聊~40%240万¥5.5
自动压缩~25%300万¥4.1
手动清理+摘要~10%360万¥3.3

同样的产出,做好上下文管理每月能省 40% 的 Token 费用。而且响应速度始终流畅,不会出现聊到后面等半天的痛苦。

总结

AI 编程越聊越慢不是玄学,是上下文膨胀的必然结果。三个方案按效果排序:

  1. 分任务拆对话 — 最好的习惯,一个功能一个对话,完成就清
  2. 手动清理+摘要 — 省 Token 效果最好,每 4-5 轮清一次
  3. 自动压缩 — 最省心,适合不想操心的场景

结合起来用效果最好:日常编码分任务拆对话,关键长任务开启自动压缩兜底,一个月下来 Token 费省 40%,响应速度还能保持流畅。


相关资源:

  • bblabu API 平台 — 支持 GPT-5.5,后台可实时查看每次调用的 Token 消耗

测试环境:Codex CLI 最新版,GPT-5.5 模型,2026年5月实测。不同项目类型的数据会有差异。

本文链接:https://www.kkkliao.cn/?id=REPLACE_ID 转载需授权!

本文链接:https://www.kkkliao.cn/?id=4009 转载需授权!

分享到:

版权声明:本文由廖万里的博客发布,如需转载请注明出处。


发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。