大模型高考测评第一期:DeepSeek V4 vs 豆包 2.0,谁才是国产最强?

大模型高考成绩榜
大模型高考成绩榜

现在的模型评测榜单琳琅满目,但对于中文语境下的逻辑、知识和综合能力,没有什么比高考更具公信力。

我做了一个 大模型高考成绩榜 的项目,让大模型挑战全科 6 门最新的高考真题(总分 750)。这不仅是一场能力的较量,更是对模型性价比和 Token 效率的深度测试。

本期是系列测评的第一期,我们邀请了三位重量级选手:

  1. Claude 4.7 Opus:公认的地表最强,作为本次考试的“标杆”和“主观题阅卷老师”。
  2. DeepSeek V4:刚刚发布的国产之光,包括 FlashPro 两款。
  3. 豆包 2.0 系列:字节跳动旗下的全能选手,派出 Pro, Lite, Mini 三兄弟。
<!--more-->

考试说明 (The Exam)

  • 试卷选择:最新 2025 年全国新高考一卷。
  • 理综选择:物理、化学、生物采用难度较高的最新 2025 年江苏卷真题。
  • 知识库偏差:几乎所有主流模型的知识库截止日期均早于 2025 年高考,确保了测试的公正性。

成绩单 (Leaderboard)

经过严谨的测试和阅卷,总分(750 分)排名如下:

模型总分备注
Claude 4.7 Opus659状元地位稳固,效率极高
Doubao 2.0 Pro640国产最强,表现均衡
Doubao 2.0 Mini635意外惊喜,数学表现抢眼
Doubao 2.0 Lite634性价比之选
DeepSeek V4 Pro572受到多模态能力限制
DeepSeek V4 Flash566纯文本模型中的佼佼者

深度分析:谁是真正的学霸?

1. DeepSeek:被“视力”耽误的天才

DeepSeek V4 在本次测试中总分偏低,核心原因在于它不支持多模态(无法识别图片)

在化学考试中,15 道题有 14 道带图,DeepSeek 几乎是以“盲人”身份应考,Pro 仅得 6 分。然而,令人惊叹的是其数学表现:在看不到图片的情况下,DeepSeek Pro 的数学成绩依然位列第一,甚至高于 Claude Opus 4.7 达 16 分!如果后期补齐了多模态短板,其实力不容小觑。

2. 豆包 Mini:勤能补拙的“思考者”

最让人意外的结果是:Doubao Mini 的总分居然比 Lite 还高 1 分

尤其在数学上,Mini 考出了 121 分的高分,超过了 Claude (115分) 和自家的 Pro (101分)。原因在于 Mini 开启了“思考模式”,在推导过程中生成了约 46 万个 Token(Lite 仅 16 万)。这种详尽的自我推导让它在复杂逻辑题中脱颖而出。

3. Claude:举重若轻的效率大师

Claude 4.7 Opus 展示了顶级模型的底蕴:Token 消耗最少,总分最高

在简单题目中,Claude 直击要害,不做无谓的思考;而 Doubao Mini 即使在简单题中也会不断自我怀疑。这就像人类学霸与普通学生的区别:学霸逻辑清晰简洁,而有的学生则显得罗里吧嗦。

总结与建议

  • 追求极致性能:首选 Claude 4.7 Opus
  • 追求国产最强/全能豆包 2.0 Pro 是目前的最佳平衡点。
  • 极致性价比豆包 Lite 和 Mini 用不到 1 块钱的成本考出了 630+ 的高分,非常适合大规模应用。

本项目还在持续更新中,未来我会加入更多模型,并持续优化提示词和评分标准。

完整榜单地址https://wycode.cn/gaokao

如果你想看哪个模型参加高考,或者有任何改进建议,欢迎在评论区留言!别忘了点赞关注,咱们下期见!

本文原始发表于 https://wycode.cn/blog/gaokao-01 并采用 CC-BY 国际许可协议 进行许可。

评论区

暂无评论