GLM-4.5发布,全网最全测评和使用教程来了!
目录:
-- GLM-4.5全网最全测试
- 生命游戏模拟器
- 小说创作《气味调配师的最后订单》
- 2004年数学一选择题- 2004年数学一概率题
- 神经网络“梯度消失”交互式可视化- 明天的前天,是昨天的后天么?- “推箱子”游戏- 小说创作《退一步,圣宠倾天》-- GLM-4.5 接入 Claude Code 保姆教程与实战对比- 保姆级接入 Claude Code 教程- Kimi K2 接入 Claude Code- GLM 接入 Claude Code-- 总结
GLM-4.5 全网最全测试
一、生命游戏模拟器
这道题需要处理状态更新和循环,但侧重于算法逻辑和二维数据处理,这是许多科学计算和数据分析任务的核心。它不涉及复杂的物理引擎和图形库,能更纯粹地考察模型的算法思维。
这题会考察大模型的以下能力:
算法理解与实现:能否准确理解并用代码翻译“生命游戏”的规则。
二维数组/矩阵操作:如何高效地存储和遍历棋盘状态。
边界条件处理:如何处理棋盘边缘细胞的邻居计算。
状态同步更新:能否意识到所有细胞的状态必须基于“上一代”来计算,避免在单次迭代中混合新旧状态。这是此问题的关键难点。
算法理解与实现:能否准确理解并用代码翻译“生命游戏”的规则。
二维数组/矩阵操作:如何高效地存储和遍历棋盘状态。
边界条件处理:如何处理棋盘边缘细胞的邻居计算。
状态同步更新:能否意识到所有细胞的状态必须基于“上一代”来计算,避免在单次迭代中混合新旧状态。这是此问题的关键难点。
GLM-4.5 的回答
Claude Sonnet 4 的回答
Qwen3-coder的回答
三个模型都把“生命游戏”做出来了,而且都做得挺好。如果从第一印象来看,我觉得 GLM 的表现更好,因为视觉方面的设计比较符合我的视觉感官,而从超预期的角度评价,则 Qwen3 coder 做的比较好,添加了很多的预设模式。
二、小说创作《气味调配师的最后订单》
这个测试旨在评估模型在创意写作,特别是长篇故事开篇构建上的综合能力。它不仅仅是简单的文本生成,而是对一个高概念、强设定世界的具象化考验。它主要考察,世界观构建与氛围渲染,人物深度塑造,悬念设置与情节推动,遵循复杂指令的能力。
题目提示词如下:
GLM-4.5 的回答
左右结果
Gemini 2.5 pro 的回答
左右结果
Claude Sonnet 4 的回答
Qwen3-235B-A22B-2507 的回答
这几篇作品都很好地构建了一个独特的世界,并成功地引入了悬念。
总体来说,四个模型表现都差不多,主要是因为我很难欣赏这种风格的小说,大部分都是场景描写进行世界观构建与氛围渲染,还有少部分的心理描写进行人物深度塑造,不过人物深度塑造部分他们都没有让我感觉超预期,Claude 的表现是最好的,主要是比较丝滑所以加分,Gemini、GLM 和 Qwen 差不多。
三、2004年数学一选择题
择这两道来自真实大学入学考试的数学题,是为了检验模型在解决标准化、高难度学术问题上的严谨逻辑推理和数学知识应用能力。这超越了简单的计算,进入了抽象思维的范畴。这部分我们只看对不对,因为数学题我们做不了太专业的评估。
题目如下:
GLM-4.5 的答案是 D
Gemini2.5-Pro 的答案是 D
Claude Sonnet 4 的回答是 D
KIMI K2 的答案是 D
Qwen3-235B-A22B-2507 的答案是 C
Qwen3-235B-A22B-2507 的答案是 D(开启思考模式后)
最后公布答案:选择 D!
上面几个模型都回答对了,Qwen3-235B-A22B-2507在没有开启思考模式的时候回答是错误的,但是在开启思考后回答对了。
四、2004年数学一概率题题目如下:
GLM-4.5 的答案正确
gemini 2.5 pro 的答案正确
Qwen3-235B-A22B-2507 的答案错误
开启深度思考模式下的 Qwen3-235B-A22B-2507 的答案正确
Claude Sonnet 4 的答案正确
最终答案:
很明显的是除了 Qwen3-235B-A22B-2507 在没有开启思考的情况下会回答错误,其他的模型表现都还不错。
五、神经网络“梯度消失”交互式可视化
这个项目的核心目的,是检验模型化抽象为具体的能力,以及在教育和解释性场景下的应用价值。它不再是解决一个有标准答案的问题,而是要求模型创造一个工具,用来解释一个复杂且动态的科学概念。
题目提示词如下:
GLM-4.5 的回答:
Gemini 2.5 Pro 的回答:
Claude Sonnet 4的回答:
Qwen3-Coder的回答:
这个题目,它考察模型是否能将一个抽象的、发生在训练过程中的动态过程(梯度反向传播和衰减)转化为一个直观的可视化解释。选择这个示例主要是为了测试模型在教育场景下我们使用模型构建一个可视化的流程辅助我们理解某个概念用的。本轮GLM-4.5 的表现最为优秀(因为其他三个仅仅是展示了动画的效果),同时还加了一些超预期的内容,比如衰减率的显示等等。
六、明天的前天,是昨天的后天么?
这道题看似简单,像个脑筋急转弯,但它能精准地测试模型对自然语言中相对时间概念的理解能力和基础的逻辑演绎能力。
它考验的不是复杂的知识,而是能否在看似绕口的描述中保持清醒和精确。模型必须准确理解“明天”、“前天”、“昨天”、“后天”这些词语的相对关系,不能有任何混淆。
成功的关键是能否以“今天”为参照系,将“明天的前天”和“昨天的后天”分别转换成相对于“今天”的确定时间点(即“昨天”和“明天”)。
题目提示词如下:
明天的前天就是相对于今天的昨天,昨天的后天相当于今天的明天,今天的昨天不等于今天的明天,也就是相差两天,下面有请四位选手来回答。
GLM-4.5 的回答正确
Gemini 2.5 Pro 的回答正确
Claude Sonnet 4 的回答错误
Qwen3-235B-A22B-2507 的回答正确
这一轮的对比来看,似乎只有 Claude 输了,其他的模型都能够分析出来正确答案。
七、“推箱子”游戏
选择“推箱子”是为了在“生命游戏”的基础上,测试模型处理更复杂的交互逻辑和状态管理的能力。这代表了从简单算法向小型应用逻辑的跨越。推箱子的规则比生命游戏复杂得多,涉及玩家与箱子、箱子与墙壁、箱子与目标点等多元素间的互动判断。模型需要正确处理所有这些条件。
题目提示词如下:
GLM-4.5 的回答:
Claude Sonnet 4的回答:
Qwen3-Coder的回答:
在这一轮的测试里面他们的结果各有优势吧,GLM 的 UI 做的比较好,同时 GLM 和 Claude 都能够做到超预期的功能,比如下一关这些内容。布局设计方面主要是 Qwen 和 Claude 做的比较好,比如按钮的布局设计,Qwen的布局也还可以,就是颜值差了点。综合评分最高的我觉得是 Claude,不管是设计,还是逻辑,以及超预期都加打分。
八、小说创作《退一步,圣宠倾天》
这道题的核心是测试模型对文学手法的理解和运用能力,特别是“反讽”这一高级技巧。它要求模型不仅能讲一个故事,更要能塑造一个内心活动与外部结果完全错位的、充满戏剧张力的主角。我更期待它能生成类似短篇小说的那种非常有吸引力的风格,让人想看下去。
题目提示词如下:
GLM-4.5 的回答:
左右结果
Gemini 2.5 Pro的回答:
左右结果
Claude Sonnet 4 的回答:
左右结果
Qwen3-235B-A22B-2507 的回答:
因为我们也不具有专业的文学评价能力,所以下面我们使用网文的角度去评价上面写小说的质量,我只能说凭借自己的直觉判断。
四个模型表现其实都不太能看出来是 AI 写的了,我本人是比较难看出来是 AI 写的,相比第二轮的小说测试里面,这里一轮的表现要优秀一些,因为我在题目里面写了要求开头就有吸引力,确实是比较符合网文的条件的。在细分来看语言表达丝滑程度还是 Claude 更优秀一些,从情节细节设计上我觉得 GLM 和 Gemini 设计的比较好,Qwen 的语言词汇用语都比较高级。整体来看我觉得要是 Claude 的情节设计再优化一些就是最好的了,这一轮表现最好的我投 GLM。
GLM-4.5 接入 Claude Code 保姆教程与实战对比
为了测试真实场景下的Claude Code 的使用体验,基于了我的实际开源项目SmartImageFinder(https://github.com/li-xiu-qi/SmartlmageFinder),进行测试。
首先我们需要在电脑上安装 Claude code,这里我们提前给大家准备好了脚本在 https://github.com/li-xiu-qi/Eeasy_Claude_Code 上面,有 kimi k2 和 GLM 接入 Claude code 的脚本,按照 readme 的说明安装即可。这里也给出简单的教程。
注意安装的脚本在:
https://github.com/li-xiu-qi/Eeasy_Claude_Code
保姆级接入Claude code教程项目克隆
请先克隆本项目源码:
git clonehttps://github.com/li-xiu-qi/Eeasy_Claude_Code.gitcdEeasy_Claude_Code
glm-cc 安装脚本说明
本项目包含两个安装脚本:
1. install_glm_cc.sh,用于安装 GLM-CC 相关依赖和环境。使用方法:
脚本会自动安装所需的依赖包和配置环境。
2. install_kimi_cc.sh,用于安装 Kimi-CC 相关依赖和环境。使用方法:
脚本会自动安装所需的依赖包和配置环境。
如需自定义安装路径或参数,请根据脚本内容自行修改。
关于两种执行方式的区别:
sh install_glm_cc.sh与./install_glm_cc.sh的区别如下:
sh install_glm_cc.sh:用系统的sh解释器执行脚本,不需要脚本有执行权限。即使没有 chmod +x,也能运行。
./install_glm_cc.sh:直接执行脚本,需要脚本有执行权限(需先 chmod +x install_glm_cc.sh)。此方式会用脚本文件头部指定的解释器(如#!/bin/bash)来运行。
总结:
没有执行权限时用sh install_glm_cc.sh。
有执行权限且脚本指定了解释器时推荐用./install_glm_cc.sh,能保证用脚本作者指定的环境运行。
如遇权限问题,请尝试:
然后使用: 如果你在运行./install_glm_cc.sh时遇到Permission denied错误,请按照以下步骤解决(另一个同理):
1. 赋予脚本执行权限:
2. 再次运行脚本:
如果仍有问题,可以尝试使用sh install_glm_cc.sh方式运行。
安装完成之后输入到终端`Claude`,就可以出现这样的页面:
这里的页面显示我们使用的智谱的模型,也就是 bigmodel 的路线就说明成功了。
Kimi K2 接入 Claude code
当前任务是需要他帮我接入一个ai backend功能,以及帮我修复旧的文档内容,最后的任务是完成了。
下面是Kimi K2 接入Claude code的视频测试:
GLM 接入 Claude code
下面是 GLM 接入 Claude code 的视频测试。我主要是要求他帮我进行更新 README 文件以及重构项目的快速启动脚本,最后任务也是完成了。
我最开始测试的时候 GLM 接入Claude code 似乎存在一些问题,反馈后智谱应该就马上修复了。
最后来一个 notebook 翻译的任务,速度真的太快了,这一点确实很赞,没有任何加速,效果如下:
对比来说,K2 的自动化程度更高,可以改多处内容后请求内容反馈,GLM 的反馈更加及时,往往不会一次性改完全部内容,而是一次改部分内容,之后就开始反馈请求确认是否确认,速度反馈是挺快的,但是很多时候感觉改动都太小了,反馈过于频繁,不过这也算不错了,毕竟是价格最低、速度最快、性价比最高的 Agentic 模型,除了最低的 API 调用价格 GLM-4.5 具有最快的速度,实际体验里面也能平替 Claude 其他模型作为 Claude code 的基座模型了,而且官方在 Coding Agent 盲评对比中,实测体验能够平替闭源的 Claude Sonnet 4。
为了更客观的评价 GLM 接入Claude code的实际效果,我重新在我的新项目 https://github.com/li-xiu-qi/remote_mineru里面全程深度使用到了 GLM。
在两者的深度体验对比里面,我都尽量让模型自己修改代码,不干涉模型的代码编辑能力,几乎完全靠模型自己撰写对应的代码,我只需要观察结果以及对应的代码情况后对模型的行动给出指导意见,并观察任务执行结果,如果模型理解错误之后我需要纠正模型的任务方向,使得模型始终能聚焦到我的需求上进行执行任务。深度体验下来我觉得两者都是相当不错的,其实也很难判断谁更好,即使是 GLM 的反馈过于频繁,毕竟反馈频繁说明可控性更强,不过据我体验,对轮对话里面 K2 的理解能力要优于 GLM,因为我在长对话的情况下经常会出现 GLM 难以理解一个简单的需求需要多次进行纠正,但是 K2 出现这种情况会少一些,至于速度方面确实比 K2 快太多了。整体来说 GLM 性价比拉满了,体验也还不错,性能属于相当能打了。
总结
这次横评跑下来,GLM-4.5 的综合表现确实不错。它给人的整体感觉是:在核心能力上能与国外头部模型看齐,同时在成本上又有非常明显的优势。
具体可以归纳为几点:
从写代码、解数学题,到构思小说,几轮测试下来,它没有表现出明显的短板。性能稳定,能够和 Gemini、Claude 的新模型放在同一个水平线上比较,这说明它的基础能力是过关的。 在需要将抽象概念做成可视化工具(“梯度消失”)的测试里,它的完成度是最高的,甚至还加入了一些超出要求的设计,这一点是加分项。另外,在构思反套路小说这个任务上,它的情节设计也得到了最高的主观评分。 它最吸引人的地方还是成本。官方的 API 定价很低,这对任何需要控制预算的开发者或项目来说,都是一个非常现实的考量。在接入 Claude Code 的实测中,它能胜任基座模型的角色。虽然交互习惯和原版模型有些许不同,但反馈及时,能顺利完成开发任务。这意味着在实际开发流程中,它是一个可靠且经济的选择。
总而言之,这次对 GLM-4.5 的测试结果是积极的。它证明了国产模型在追赶的路上,已经到了一个可以在不少方面与国际先进模型直接对话的阶段。
对于用户而言,这意味着我们多了一个经过验证的、能兼顾性能和成本效益的选择。这本身就是一件好事。返回搜狐,查看更多