Z.AI Logo

GLM-4.7:更强的 Coding

基座模型

GLM-4.7,您的新编程搭档,带来了以下功能:

  • 核心编程:与上一代 GLM-4.6 相比,GLM-4.7 在多语言编程智能体和基于终端的任务方面带来了显著提升,包括在 SWE-bench 上达到 (73.8%, +5.8%),在 SWE-bench Multilingual 上达到 (66.7%, +12.9%),以及在 Terminal Bench 2.0 上达到 (41%, +16.5%)。GLM-4.7 还支持在行动前思考,在 Claude Code、Kilo Code、Cline 和 Roo Code 等主流智能体框架中的复杂任务上表现显著提升。
  • 氛围编程:GLM-4.7 在 UI 质量方面迈出了重要一步。它能生成更整洁、更现代化的网页,并制作布局和尺寸更准确、外观更精美的幻灯片。
  • 工具调用:GLM-4.7 在工具使用方面实现了显著改进。在 $\tau^2$-Bench 等基准测试以及通过 BrowseComp 进行网页浏览的任务中,均可观察到显著更好的性能表现。
  • 复杂推理:GLM-4.7 在数学和推理能力方面实现了大幅提升,在 HLE(Humanity’s Last Exam)基准测试中相比 GLM-4.6 达到了 (42.8%, +12.4%) 的成绩。
您还可以在许多其他场景中看到显著改进,例如聊天、创意写作和角色扮演场景。
LLM Performance Evaluation: Agentic, Reasoning and Coding
基准性能。下表更详细地比较了 GLM-4.7 与其他模型(GPT-5、GPT-5.1-High、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking)在 17 个基准测试(包括 8 个推理、5 个编程和 3 个智能体基准测试)中的表现。
Benchmark Performance
编程:AGI 是一段漫长的旅程,而基准测试只是评估性能的一种方式。虽然指标提供了必要的检查点,但最重要的仍然是一种感觉。真正的智能不仅仅是在考试中拿高分或更快地处理数据;最终,AGI 的成功将通过它如何无缝融入我们的生活来衡量——这一次是通过“编程”。

示例

前端开发展示

前端产物展示

海报展示

幻灯片制作展示

了解 GLM-4.7

交错式思考 & 保留式思考

GLM-4.7 增强了自 GLM-4.5 以来引入的交错式思考功能,并进一步引入了保留式思考轮级思考。通过在行动之间思考并在多轮对话中保持一致性,它使复杂任务更加稳定和可控:
  • 交错式思考:GLM-4.7 在每次响应和工具调用前都会进行思考,从而提高了指令遵循和生成质量。
  • 保留式思考:在编程智能体场景中,GLM-4.7 会自动在多轮对话中保留所有思维块,复用现有的推理过程而非从头重新推导。这减少了信息丢失和不一致性,非常适合长期且复杂的任务。
  • 轮级思考:GLM-4.7 支持在会话内对每个轮次的推理进行控制——对轻量级请求禁用思维以降低延迟/成本,对复杂任务启用思维以提高准确性和稳定性。
GLM-4.7 enhances Interleaved Thinking

通过 BigModel.cn 平台调用 GLM-4.7 API

BigModel.cn API 平台提供 GLM-4.7 模型。有关全面的 API 文档和集成指南,请参阅 https://docs.bigmodel.cn/cn/guide/models/text/glm-4.7。同时,该模型也可通过 OpenRouter (https://openrouter.ai/) 在全球范围内使用。

在编程智能体中使用 GLM-4.7

GLM-4.7 现已可在编程智能体(Claude Code、Kilo Code、Roo Code、Cline 等)中使用。
对于 GLM Coding Plan 订阅用户:您将自动升级到 GLM-4.7。如果您之前自定义了应用配置(例如 Claude Code 中的 ~/.claude/settings.json),只需将模型名称更新为 "glm-4.7" 即可完成升级。
对于 新用户:订阅 GLM Coding Plan 意味着可以以极低的价格获得 Claude 级别的编程模型——价格仅为 1/7,使用额度却是 3 倍。立即开始构建:https://bigmodel.cn/glm-coding

在 Z.ai 上与 GLM-4.7 聊天

GLM-4.7 可通过 Z.ai 访问。如果系统未自动切换,请尝试将模型选项更改为 GLM-4.7(那样的话就不太 AGI 了 :))。

本地部署 GLM-4.7

GLM-4.7 的模型权重已在 HuggingFace 和 ModelScope 上公开发布。对于本地部署,GLM-4.7 支持 vLLM 和 SGLang 等推理框架。全面的部署说明可在官方 GitHub 仓库中找到。

1:默认设置(大多数任务):temperature 1.0,top-p 0.95,max new tokens 131072。对于多轮智能体任务($\tau^2$-Bench 和 Terminal Bench 2),请启用 保留式思考 模式。
2:Terminal Bench 和 SWE-bench Verified 设置:temperature 0.7,top-p 1.0,max new tokens 16384。
3:$\tau^2$-Bench 设置:temperature 0,max new tokens 16384。对于 $\tau^2$-Bench,我们在零售和电信交互中添加了额外的提示,以避免因用户错误结束交互而导致的失败;对于航空领域,我们应用了 Claude Opus 4.5 发布报告中提出的领域修复方案。