资讯 > 正文

用高考数学折磨 AI 要不要说谢谢

三表龙门阵

下载客户端
独家抢先看

2025年06月13日 12:13:50 来自江苏省

朋友们，真没必要一惊一乍的像个韭菜，尤其在 AI 领域。

我反正就一个念头——你们且研究着吧，到时候咱们共享这人类共同的财富就完事了。

完全没有必要为了谁谁比我先体验了某个大模型新版本感到焦虑，人类目前的焦虑绝大部分不是 AI 带来的，是缺爱带来的。

但 AI 能力高低的比拼代表了话语权的争夺这倒是真的——谁在决定我们的未来。

我惊讶的看到了狂热分子们搞了一个评测——让各家大模型考2025高考数学题。

什么感觉呢？

他们曾经说——别对大模型讲「谢谢」了，两个字让巨头多烧数十亿。

好，那你们让大模型做让人类头秃的数学题就很经济，很高尚了？

重点是什么呢？

我在不同的媒体看到了不同的测评结果，遍地是大王。

而且按照我朴素的认知——只要大模型认为答高考数学卷拿高分是个很重要的能力指标，那么它下一次一定会拿高分。

我将这称为「三表 AI 第一定律」。

坦白讲，高考数学题，我是看不懂了，准确的说高考那天也没懂。

所以各家媒体评测的过程，评判的标准，我就是看天书一般了。

那我如果非得从这些评测中找到使用大模型时的「信任度指标」，那只能先打量评测媒体的专业度了。

首先排除传统机构媒体，如各类地方报、经济报，他们没这个条件，不展开论述了；

再排除营销号，如xxx\xxxxxxx，他们为了搞个大新闻，什么事都干得出来；

接着排除我这样的自媒体，平时也不聊 AI ，突然发了评测，非奸即盗，大概率是蹭热度。

好，那么就剩一些垂直的行业媒体了，看看过往作品，打听一下圈内口碑，就差不多了。

某家颇有口碑的媒体发布的评测结果如下：

看总分都挺强的，如果不偏科的话，985 闭眼睛上。

这个结果，我还挺惊讶的，大模型在数学推理这块干出 140 多分，这可比高考作文满分难多了。

再看，前几名之间的差距就几分而已，考虑到在评测过程中参数设置、评分细节（找数学老师评的）或答案格式影响，你很难讲第二就比第一能力上有差距。

这就跟英超联赛一样，利物浦领先曼联一分夺冠了（虽然现实里不可能），你就能说利物浦是比曼联高一个档次的球队吗？利物浦球迷都不好意思了。

当然现实中存在，数学考了 145 分上了北大，144 分上了交大（没有说交大不好的意思），就差一分与理想中的大学失之交臂。

但大模型这块，我觉得像足球比赛那样分档就可以了——

头号种子队：阿根廷、法国、英格兰、西班牙，谁赢谁都有可能；

传统强队：荷兰、葡萄牙、克罗地亚、英格兰

鱼腩球队：中国队、列支敦士登、安道尔、卢森堡

那么我看这个评测结果，Gemini、豆包、DeepSeek 这就是第一梯队，在这次评测中展示了优秀的数学推理能力，不分伯仲，看临场状态。

其他的，我只能说，还得练。

实际上，朋友们，AI 大模型领域现在还没有所谓的「王朝」，百舸争流挺好，第一梯队那几家，能一直保持竞争态势。

要知道，英超就是利物浦挑翻曼城的统治才变得越来越精彩。

思考题：你怎么看评测结果？你同意我的分类法吗？明年他们能拿满分吗？你平时用哪家大模型？

你还可以看：

重塑长安的荔枝：一条驿道，两场生死赌局

人类一思考，小红书就想笑

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

用高考数学折磨 AI 要不要说谢谢

亲爱的凤凰网用户:

第三方浏览器推荐: