大模型高考测评第一期：DeepSeek V4 vs 豆包 2.0，谁才是国产最强？

现在的模型评测榜单琳琅满目，但对于中文语境下的逻辑、知识和综合能力，没有什么比高考更具公信力。

我做了一个 大模型高考成绩榜 的项目，让大模型挑战全科 6 门最新的高考真题（总分 750）。这不仅是一场能力的较量，更是对模型性价比和 Token 效率的深度测试。

本期是系列测评的第一期，我们邀请了三位重量级选手：

Claude 4.7 Opus：公认的地表最强，作为本次考试的“标杆”和“主观题阅卷老师”。
DeepSeek V4：刚刚发布的国产之光，包括 Flash 和 Pro 两款。
豆包 2.0 系列：字节跳动旗下的全能选手，派出 Pro, Lite, Mini 三兄弟。

考试说明 (The Exam)

试卷选择：最新 2025 年全国新高考一卷。
理综选择：物理、化学、生物采用难度较高的最新 2025 年江苏卷真题。
知识库偏差：几乎所有主流模型的知识库截止日期均早于 2025 年高考，确保了测试的公正性。

成绩单 (Leaderboard)

经过严谨的测试和阅卷，总分（750 分）排名如下：

模型	总分	备注
Claude 4.7 Opus	659	状元地位稳固，效率极高
Doubao 2.0 Pro	640	国产最强，表现均衡
Doubao 2.0 Mini	635	意外惊喜，数学表现抢眼
Doubao 2.0 Lite	634	性价比之选
DeepSeek V4 Pro	572	受到多模态能力限制
DeepSeek V4 Flash	566	纯文本模型中的佼佼者

深度分析：谁是真正的学霸？

1. DeepSeek：被“视力”耽误的天才

DeepSeek V4 在本次测试中总分偏低，核心原因在于它不支持多模态（无法识别图片）。

在化学考试中，15 道题有 14 道带图，DeepSeek 几乎是以“盲人”身份应考，Pro 仅得 6 分。然而，令人惊叹的是其数学表现：在看不到图片的情况下，DeepSeek Pro 的数学成绩依然位列第一，甚至高于 Claude Opus 4.7 达 16 分！如果后期补齐了多模态短板，其实力不容小觑。

2. 豆包 Mini：勤能补拙的“思考者”

最让人意外的结果是：Doubao Mini 的总分居然比 Lite 还高 1 分。

尤其在数学上，Mini 考出了 121 分的高分，超过了 Claude (115分) 和自家的 Pro (101分)。原因在于 Mini 开启了“思考模式”，在推导过程中生成了约 46 万个 Token（Lite 仅 16 万）。这种详尽的自我推导让它在复杂逻辑题中脱颖而出。

3. Claude：举重若轻的效率大师

Claude 4.7 Opus 展示了顶级模型的底蕴：Token 消耗最少，总分最高。

在简单题目中，Claude 直击要害，不做无谓的思考；而 Doubao Mini 即使在简单题中也会不断自我怀疑。这就像人类学霸与普通学生的区别：学霸逻辑清晰简洁，而有的学生则显得罗里吧嗦。

总结与建议

追求极致性能：首选 Claude 4.7 Opus。
追求国产最强/全能：豆包 2.0 Pro 是目前的最佳平衡点。
极致性价比：豆包 Lite 和 Mini 用不到 1 块钱的成本考出了 630+ 的高分，非常适合大规模应用。

本项目还在持续更新中，未来我会加入更多模型，并持续优化提示词和评分标准。

完整榜单地址：https://wycode.cn/gaokao

如果你想看哪个模型参加高考，或者有任何改进建议，欢迎在评论区留言！别忘了点赞关注，咱们下期见！