


朋友们,真没必要一惊一乍的像个韭菜,尤其在 AI 领域。
我反正就一个念头——你们且研究着吧,到时候咱们共享这人类共同的财富就完事了。
完全没有必要为了谁谁比我先体验了某个大模型新版本感到焦虑,人类目前的焦虑绝大部分不是 AI 带来的,是缺爱带来的。
但 AI 能力高低的比拼代表了话语权的争夺这倒是真的——谁在决定我们的未来。
我惊讶的看到了狂热分子们搞了一个评测——让各家大模型考2025高考数学题。
什么感觉呢?
他们曾经说——别对大模型讲「谢谢」了,两个字让巨头多烧数十亿。
好,那你们让大模型做让人类头秃的数学题就很经济,很高尚了?
重点是什么呢?
我在不同的媒体看到了不同的测评结果,遍地是大王。
而且按照我朴素的认知——只要大模型认为答高考数学卷拿高分是个很重要的能力指标,那么它下一次一定会拿高分。
我将这称为「三表 AI 第一定律」。
坦白讲,高考数学题,我是看不懂了,准确的说高考那天也没懂。
所以各家媒体评测的过程,评判的标准,我就是看天书一般了。
那我如果非得从这些评测中找到使用大模型时的「信任度指标」,那只能先打量评测媒体的专业度了。
首先排除传统机构媒体,如各类地方报、经济报,他们没这个条件,不展开论述了;
再排除营销号,如xxx\xxxxxxx,他们为了搞个大新闻,什么事都干得出来;
接着排除我这样的自媒体,平时也不聊 AI ,突然发了评测,非奸即盗,大概率是蹭热度。
好,那么就剩一些垂直的行业媒体了,看看过往作品,打听一下圈内口碑,就差不多了。
某家颇有口碑的媒体发布的评测结果如下:
看总分都挺强的,如果不偏科的话,985 闭眼睛上。
这个结果,我还挺惊讶的,大模型在数学推理这块干出 140 多分,这可比高考作文满分难多了。
再看,前几名之间的差距就几分而已,考虑到在评测过程中参数设置、评分细节(找数学老师评的)或答案格式影响,你很难讲第二就比第一能力上有差距。
这就跟英超联赛一样,利物浦领先曼联一分夺冠了(虽然现实里不可能),你就能说利物浦是比曼联高一个档次的球队吗?利物浦球迷都不好意思了。
当然现实中存在,数学考了 145 分上了北大,144 分上了交大(没有说交大不好的意思),就差一分与理想中的大学失之交臂。
但大模型这块,我觉得像足球比赛那样分档就可以了——
头号种子队:阿根廷、法国、英格兰、西班牙,谁赢谁都有可能;
传统强队:荷兰、葡萄牙、克罗地亚、英格兰
鱼腩球队:中国队、列支敦士登、安道尔、卢森堡
那么我看这个评测结果,Gemini、豆包、DeepSeek 这就是第一梯队,在这次评测中展示了优秀的数学推理能力,不分伯仲,看临场状态。
其他的,我只能说,还得练。
实际上,朋友们,AI 大模型领域现在还没有所谓的「王朝」,百舸争流挺好,第一梯队那几家,能一直保持竞争态势。
要知道,英超就是利物浦挑翻曼城的统治才变得越来越精彩。
思考题:你怎么看评测结果?你同意我的分类法吗?明年他们能拿满分吗?你平时用哪家大模型?
你还可以看:
重塑长安的荔枝:一条驿道,两场生死赌局
人类一思考,小红书就想笑
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”