
July 1, 2026 · 8:02 PM
Kimi K2.7 Code:长代码任务里,少想 30% 也是能力
Kimi K2.7 Code 把 Kimi K2 系列进一步专门化到长代码任务与 Agent 执行:1T MoE、256K 上下文、开源权重,以及较 K2.6 约 30% 的 thinking-token 降幅。文章拆解它的 benchmark、架构、使用限制和真正值得验证的工程边界。
Kimi K2.7 Code 值得看的地方,不是「又一个 1T 参数开源模型」,而是 Moonshot 把模型优化目标明确压到一个更窄的战场:长代码任务里的 Agent 完成率,以及完成同样任务时少消耗推理 token。
官方 Hugging Face model card 把它定义为基于 Kimi K2.6 的 coding-focused agentic model,面向真实长周期软件工程工作流;Moonshot 在 Kimi 官网的相关发布中进一步强调,它在长程代码任务上提升端到端成功率,并把 thinking-token 用量较 K2.6 平均降低约 30%。12
先说结论:这是一次「代码 Agent 专用化」,不是通用模型换代
K2.7 Code 的定位很清楚:它不是替代 K2.6 的全能版本,而是把能力预算更多押给编程和 Agent 执行。Kimi 官网也直接给出取舍:代码任务用 K2.7 Code;写作、分析、普通对话这类通用任务仍推荐 K2.6。2
这意味着读者不应只问「它比上一代强多少」,而要问三个更实际的问题:它能不能稳定读完整个仓库上下文,能不能少走弯路,能不能把多文件修改、调试、验证这些步骤串起来。K2.7 Code 的 benchmark 设计也基本围绕这三件事展开。
分数提升最大的是长程编程,而不是单点刷题
官方给出的六项评测可以分成两组:coding 和 agentic。coding 看代码生成、复现程序行为、机器学习方案探索;agentic 看模型在工具、长会话、多步骤任务中的完成率。
| 评测 | K2.6 | K2.7 Code | 怎么读 |
|---|---|---|---|
| Kimi Code Bench v2 | 50.9 | 62.0 | Moonshot 自研真实工程任务集,增幅最大之一,但因是内部集,外部可复核性有限。2 |
| Program Bench | 48.3 | 53.6 | 给二进制和文档,让 Agent 复刻程序行为;更接近「从规格倒推出实现」。1 |
| MLS Bench Lite | 26.7 | 35.1 | 测机器学习方法探索,官方 Lite 子集有 30 个任务、每题 5 小时探索时间。1 |
| Kimi Claw 24/7 Bench | 42.9 | 46.9 | Moonshot 自研多日协作任务集,覆盖 17 类职业场景和 610 个评估点。1 |
| MCP Atlas | 69.4 | 76.0 | 工具调用 benchmark,官方配置为 100 次 tool-call 预算、每步 32k max tokens。1 |
| MCP Mark Verified | 72.8 | 81.1 | 覆盖 Notion、GitHub、Filesystem、Postgres、Playwright 五类真实 server 环境。1 |
和闭源对手相比,K2.7 Code 不是全面领先。官方表里,GPT-5.5 在 Kimi Code Bench v2、Program Bench、MCP Mark Verified 上仍明显更高;Claude Opus 4.8 在 MLS Bench Lite 和 MCP Atlas 上更高。更合理的判断是:K2.7 Code 把 Kimi 自家开源路线在代码 Agent 方向往前推了一大步,但官方数据还不足以说明它已经成为最强代码模型。2
「少想 30%」可能比单项跑分更关键
长代码 Agent 的成本不只来自输出代码,还来自每一步规划、检查、回滚和重新思考。Kimi 官网称,K2.7 Code 相比 K2.6 平均减少约 30% thinking-token,同时在 Kimi Code Bench v2、Program Bench 和 MLS Bench Lite 上分数更高。2
这对工程使用有两个含义。
第一,交互式编程里,少一些无效思考会直接影响等待时间。用户让 Agent 改一个跨目录功能时,真正拖慢体验的往往不是最后那段代码,而是模型在上下文里反复定位、怀疑、重写。
第二,生产环境里的 Agent 成本会被多步骤放大。一次工具调用省下的 token 不多,但如果任务需要几十步,缓存命中、上下文复用和思考长度都会进入成本模型。Moonshot 中国开放平台把 K2.7 Code 标为缓存命中 ¥1.30 / MTok、输入 ¥6.50 / MTok、输出 ¥27.00 / MTok;Kimi 官网国际页则给出 cache hit $0.19、cache miss input $0.95、output $4.00 per 1M tokens。32
架构延续 K2 系列,重点在训练与使用形态
K2.7 Code 的硬规格没有走「小模型轻量化」路线。官方 model card 给出的参数是 MoE 架构、1T 总参数、每 token 激活 32B、61 层、384 个专家、每 token 选 8 个专家、160K 词表、256K 上下文、MLA 注意力机制,并带一个 400M 参数的 MoonViT 视觉编码器。1
这里有两个边界要看清。
一是 256K 上下文足以覆盖很多仓库级任务,但它不是无限上下文。真实项目里,依赖图、历史 issue、测试日志和构建错误会很快吃掉窗口。Agent 框架仍需要做检索、压缩和任务分解。
二是开源权重不等于低门槛本地部署。官方推荐的推理引擎包括 vLLM、SGLang 和 KTransformers,并说明部署方式可复用 K2.5 / K2.6 路线;同时,模型权重规模达到 1.1T params,实际自托管仍更像团队级基础设施项目,而不是个人工作站下载即跑。1
使用上有一个硬限制:必须开 thinking
K2.7 Code 不是一个「快慢两档」都可用的模型。Hugging Face model card 写明,它会强制 thinking 和 preserve_thinking;第三方 vLLM 或 SGLang 部署时,推荐 temperature 1.0、top_p 0.95,并且 instant mode 不支持。1
Kimi Code 页面也把 K2.7 Code 与 coding 工具绑定:K2.7 Code 已集成进 Kimi for Coding,并且只在 Thinking mode 开启时可用。Kimi 官网进一步说明,在 Kimi Code 里如果关闭 thinking,请求会自动由 K2.6 服务。42
这会影响产品选型:如果你的场景是 IDE 内复杂重构、代码库迁移、测试修复,强制 thinking 是合理交换;如果只是低延迟补全、简单问答或批量小任务,K2.7 Code 可能不是成本和延迟最优选。
真正该跟进什么
对研究者和工程团队来说,K2.7 Code 的价值不在于「又多一个模型可调用」,而在于它把代码 Agent 的优化目标变得更可量化:长上下文下遵循指令、跨步骤执行、工具调用成功率、推理 token 成本。
后续最值得验证的不是官方表格里的单项名次,而是三类真实工作负载:
- 大型仓库改造:例如跨服务 API 迁移、类型系统重构、测试补全,观察它是否能稳定保持任务约束。
- 长会话调试:给它连续的失败日志、补丁和测试反馈,看 preserve thinking 是否真的减少重复试错。
- 工具链集成:在 GitHub、文件系统、数据库、浏览器等混合环境里,看它是否能少调用、少返工、少误操作。
如果这三类任务能成立,K2.7 Code 的核心卖点就不是「会写代码」,而是更接近一个能在长任务里持续推进的软件工程 Agent。反过来,如果任务短、上下文小、验证环节弱,那么 1T MoE、256K 窗口和强制 thinking 带来的成本,未必比更轻的模型划算。

Add more perspectives or context around this Post.