登顶GitHub Hacker News，这个开源项目让AI编程成本降低 98%

文｜李嘉星

编辑｜周鑫雨

一句话介绍

context-mode 是一款专为 AI 编程打造的上下文优化 MCP（Anthropic 发布的模型上下文协议）插件。

它解决了开发者在长周期开发中遭遇的“模型失忆”与“Token 过多消耗”的核心痛点。

据团队表示，在编程场景下，context-mode 能够让 AI 编程的成本降低 98%，同时将大模型的记忆力从30分钟提升至 3 小时。

团队背景

context-mode 的背后是一支背景多元的跨国初创团队。目前团队的核心成员分布在土耳其、法国等 4 个国家，主要通过 GitHub 异步协作。

Mert Köseoğlu（核心开发者、创始人）：曾作为技术顾问为 OpenAI 等企业提供技术服务，拥有超 10 年全栈工程与系统架构经验。创业前，他曾先后任职于 Countly、Planhat 及 Jotform 等全球知名数据与 SaaS 平台，担任高级软件工程师。

孙逸诚（核心开发者、多平台适配负责人）：团队里的中国面孔，目前大二在读。他曾入围强基计划（数学与物理全省前 18 名），具有 Temporal-RAG（时序数据检索增强）引擎的独立开发经验，并获得知乎全球 A2A（Agent-to-Agent）黑客松银奖。

产品及业务

图源: context-mode

简单来说，context-mode 是一款专门为 AI 编程助手“减负”和“整理记忆”的开源 MCP 插件。

该项目发布后曾登顶 GitHub Hacker News，目前已在 GitHub 获得超 1.5 万颗 Star。context-mode 现已吸引逾 24.3 万名开发者接入，完成了对 15 个主流平台的底层适配，并被微软、谷歌、Meta、字节跳动及 Cursor 等科技公司的研发团队采用。

context-mode 之所以能在极客圈获得大量的关注，正是因为其精准切中了一个令人头疼的行业焦虑：被昂贵API账单和大模型失忆逼疯的开发者

随着“龙虾（OpenClaw，一个开源 Agent 框架）”等全自动AI编程智能体的普及，Vibe Coding 的应用门槛进一步降低。

然而，享受到 AI 带来的效率提升的同时，用户很快意识到，智力是昂贵的：一方面，Claude、GPT等顶尖模型的 Token 定价并不便宜，包含充足 Token 额度的高级套餐，定价动辄高达 200 美元/月。

另一方面，受制于当下的能力，在执行具体任务过程中，模型的反复试错、重复检索都会造成额外的 Token 浪费。

在实际开发场景中，大模型往往表现得像一个“没有常识的数据处理机器”。团队成员孙逸诚分享了一个踩坑经历：

参加 Kaggle 数据竞赛时，他将一个包含 300 组数据的训练任务交给了 Claude。为了确认任务进度，Claude 没有选择写一段定时脚本，而是选择每隔 5 秒钟向整个项目发起一次全局检索。这种极其低效的“死盯”策略，让一个高配会员账号的 API 额度在短短半小时内消耗了 90%。

与此同时，大模型还存在“失忆”的问题。开发者发现，当代码量触及某些主流 IDE（集成开发环境）的隐形上限（如 164K）时，系统会不得不丢弃或压缩历史信息，导致模型遗忘关键细节。这就导致：前一秒还在流畅写代码的 AI，下一秒就会把前置的关键架构和约束条件忘得一干二净。

面对大模型严重的“幻觉”与“失忆”，context-mode 给出了解法：既然大模型处理海量原始数据又贵又笨，那就剥夺它直接阅读原始数据的权利。

孙逸诚打了一个比方：“传统的 AI 编程就像看一场马拉松，大模型会死死盯着每一个选手的每一步，这当然会耗尽它的上下文。而 context-mode 做的，是把跑马拉松的过程扔进一个屏蔽的沙盒（Sandbox）里，大模型只需要看最后的排名结果。”

具体到工作原理，首先，通过引入“虚拟沙盒”与精准检索，context-mode 能够有效降低 Token 的消耗。

在传统的调用模式中，每一次 MCP 工具的调用都极其昂贵，庞大的原始数据会被直接倾倒进大模型的上下文窗口，导致 Token 消耗量上升。

context-mode 的“虚拟化沙盒”机制，就好比在大模型和操作系统间建立了一道“防火墙”。它会先把所有文件和运行记录存放在本地，需要用到时再帮大模型把相关内容找出来。

《智能涌现》的测试结果。

根据《智能涌现》的测试，接入 context-mode 后，大模型读取一份 79.3 KB 的文件时，Token 的消耗成本降低了 87.7%。

其次，为了解决大模型的“失忆”痛点，context-mode 通过构建“存档点”，实时监控开发者的每一次文件编辑。

当对话太长，它会主动构建并向 AI 注入一个通常小于 2KB 的“快照”，相当于在代码编辑过程中建立了一个“存档点”。官方表示，这种机制能将大模型连续编程的有效时间从 30 分钟提升至 3 小时。

最后，context-mode 引入了强制性“用代码思考（Think in Code）”的范式，从而节省 Token 消耗。

所谓的 Think in Code，简单而言，就是不让模型逐行阅读、处理文件，而是先让模型编写一个“小程序”，让“小程序”先在本地完成数据分析，再将提炼后的结果反馈给模型。

context-mode 创始人 Mert 告诉《智能涌现》，开发者陷入了一个误区：习惯将海量数据直接丢给大模型进行处理。实际上，面对 50 个文件的数据统计任务，与其让模型亲自逐个阅读，不如先让模型写一段脚本，由脚本完成统计工作，再把结果返回给模型。

用 Mert 的话说，一个脚本可以替代十几个昂贵的工具调用，并节省百倍的上下文。

根据《智能涌现》的测试，接入 context-mode 后，模型处理一份文件时，节省了 99.98% 的 Token 成本。

context-mode 的上手门槛，比 Cursor 等需要重新下载并适应环境的独立开发软件（IDE）更低。作为一个轻量级的 MCP（模型上下文协议）插件中间件，context-mode 可以直接接入开发者原有的工作流中。

context-mode 团队还提供了一系列快捷指令，用来查看各大平台的 Token 节省情况。用户只需要在聊天框中输入指令，浏览器就会弹出一个本地的数据统计面板，记录着当周调用了多少次 API，以及 context-mode 拦截了多少次无效的数据读取。

△快捷指令列表。图源: context-mode

近期，context-mode 针对企业研发场景，推出了“上下文即服务”。

在企业研发场景中，AI 的 ROI 往往难以衡量。

为此，context-mode 推出了企业服务“Insights”。获得授权后，安装在程序员电脑上的插件，可以直接将程序员使用 AI 的过程数据（比如调用了什么工具、报错了几次、消耗了多少钱），发送到Insights 所在服务器上。

与此同时，Insights 还能针对不同岗位，提供不同的数据报告。比如面向安全总监，系统会自动生成安全报告；面向财务团队，系统可以提供 Tokens 消耗明细。

目前，Insights 仍处于定向内测阶段。

Founder思考

停止将大模型视为“数据处理器”，它本质上是“代码生成器”。

现在很多平台和开发者陷入了一个误区，喜欢把 50 个文件直接读入上下文，让大模型去里面“数”有多少个函数。

这不仅缓慢，而且极其浪费算力。我们的主张是“用代码思考（Think in Code）”——LLM 应该去编写一个统计脚本来完成计数，最后只输出结果。

一个脚本可以替代十几个昂贵的工具调用，并节省百倍的上下文。在未来的 AI 编程范式中，这是所有平台都必须遵循的底层铁律。

无限上下文是一个伪命题，克制才是 AI 工具最难建立的壁垒。

行业里都在卷大模型的长文本能力（比如 100K 甚至 1M 的上下文），但这其实是个陷阱。把几十 KB 的报错日志一股脑倾倒给 AI，只会加速它的“失忆”和幻觉。

真正的解法不是盲目扩容，而是建立起一套极度克制的“状态记忆层（沙盒）”。谁能把传给 AI 的无效噪音压缩到极致，谁才能真正帮开发者把连续编程的时间从 30 分钟延长到 3 个小时。

下一代 AI 编程的瓶颈不在于模型够不够聪明，而在于上下文管理框架够不够清晰。

现在大家都在抱怨 AI 会在同一个 Bug 上反复跌倒。这并不是因为模型变笨了，而是它在冗长的对话中迷失了。

只有给 AI 提供像单机游戏一样的存档点，强制它按优先级读取记忆，才能为它真正有价值的逻辑推理留出足够的空间。

大厂在卷“全家桶”，而我们在做跨平台的“万能插座”。

我们花大量精力去适配 Cursor、Claude、Gemini 等不同的底层逻辑，是因为真实的开发者生态永远是碎片化且快速迭代的。

开发者不需要另一个被大厂深度绑定的全能 Agent，他们需要的是一个轻量、不吃内存、即插即用且能极大降低 API 账单的中间件。