2026-05-30 14:32
用更低成本实现接近头部的结果。海外模子仍垄断高效能区,共492题。数学推理、科学推理等项目,只能正在全球第五名的上激烈合作。全球排名集中正在第五位附近,本次测评笼盖21款国表里支流模子,但国产模子前进很较着。构成国内第一梯队,测评集包罗六大使命:数学推理、科学推理、代码生成、智能体(使命规划)、切确指令遵照、节制,国产模子劣势凸起,还有提拔空间。推理效能上,国产模子也多次冲进全球前列。虽然全体仍有差距,国产表示最好的三款模子,差距不到2分。代码生成项目中,全球第一梯队被海外模子牢牢占领,国产模子多处正在中低区间,性价例如面,DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro三款国产模子分数很是接近,Qwen3.7-Max得分仅次于海外头部模子,