注册登录

资讯 > 社会 > 正文

站内

“80后死亡率超5%”，别上假数据的当

新周刊

下载客户端
独家抢先看

2025年03月28日 09:21:27 来自广东省

生成式AI是有可能“胡说八道”的，它们会在看似真实的陈述中夹杂错误信息。

但偏偏，每个人都生活在信息茧房当中，接收信息的精力有限，不可能对互联网信息逐一甄别，如果一篇文章用充足的数据做出了“严谨的行文姿态”，就已天然具备了被信任的基础。

更不用说，人往往更倾向相信于那些符合期望的“事实”。在一个争议话题下加上刻意营造的噱头，这些编造的数据往往会当做打口水仗的武器，被二次加工、传播，造成信息污染，真真假假也就说不清了。

作者 | 阿瑞

编辑 | DR

题图 | 《乘上独角兽》

“截至2024年末，80后死亡率突破5.2%，相当于每20个80后中就有1人已经去世。”

这句话，你信了吗？

虽然当代打工人的健康状况确实值得担忧，但好消息是，这一数据是假的。

今年2月，相关数据和评论刷屏互联网，人们感慨“活着不易”，更有人借机卖起了保健品和保险。3月4日，公安部网安局公布调查结果：网民夏某在视频《80后到底还剩多少人》中捏造数据，被予以行政处罚。

造谣一张嘴，辟谣跑断腿。如今，造谣甚至不需要嘴了——只要在AI的对话框中输入几个字，指引AI生成虚假信息的人或许都意识不到自己在助力谣言的诞生。

AI编的数据，你信了吗？

先来说说“80后死亡率”的离谱错误。

死亡率作为人口学的重要统计指标，其计算公式为“某时期死亡人数除以同期平均人口数，再乘以1000‰”，也就是说，它的单位是‰，而非%。

中国人民大学人口与健康学院教授李婷在其公众号“严肃的人口学八卦”撰文表示，国家每年会公布预期寿命和人口粗死亡率，但不会根据“80后”“90后”这些年龄段公布死亡状况，因此，“80后死亡率”这类说法本身就缺少数据支撑。

（图/《保你平安》）

（图/《保你平安》）

如果有人真的想计算80后的“存活比例”，还存在两个问题：一是过往人口普查的数据不够准确，多种计算方法都有误差；二是这份数据也会被新生儿的死亡数据污染，也就是说，哪怕5.2%的数据准确，其中也可能包括了一半以上出生时就夭折的人，青壮年死亡率还得降低不少。因此，人们大可不必为80后今天的健康状况恐慌。

如果说80后的“存活比例”，还不过是“无伤大雅”的谈资，引发全网侧目的“顶流明星在澳门狂输10亿”，则算得上惊天大瓜，甚至让周杰伦无辜躺枪。

但就是这么一个被传得有鼻子有眼的瓜，经公安机关证实，同样也是AI编造。

与此同时，也有网友感慨：“每天上网就想看看作者的观点，结果现在满屏‘量子’‘坍缩’‘代码’‘基因’……”当机械感满满的AI文案充斥着互联网，对人的判断力又增加了几分考验。

比如最近，网上有一篇《“离婚冷静期”制度简史：历史终将记住这个黑色幽默》的文章被大量转发。

我们对文中的二手信息，保持一种本能的警惕，试图找到源头加以查证。而这篇看似严谨的文章尽管引用了大量数据，但当逐一搜索这些数据时，会发现数据来源几乎都是无中生有。

（图/《“离婚冷静期”制度简史》）

（图/《“离婚冷静期”制度简史》）

就基层法官是否会统计离婚案件的类别和比例一事，有法律界人士向《新周刊》记者表示不会统计如此详尽的案件情形：“基层没有这么闲，最多统计一下结案率和胜诉率。”况且，“北京某律所”作为服务机构，本就没有统计和公布“冷静期后复婚率”的能力和权限。

（图/《“离婚冷静期”制度简史》）

（图/《“离婚冷静期”制度简史》）

“中国社科院2024年《婚姻制度民意调查》”，则是一个不存在的调查。“202X年”“冷静期XX倒计时”这些词更是满满的编造感——如果是真的，为什么不写明真实日期？

至于所谓当初支持立法的学者反思“我们用农耕时代的温情滤镜，强行矫正互联网时代的婚姻形态”‌，看似语言优美，实则言之无物。现代婚姻法本身既不是农耕时代的产物，也不是互联网时代的产物。法律是一件严肃的事，倘若学者真的要反思，恐怕也不会使用如此模糊的表述。

人不该为了流量而编造虚假信息。图/《保你平安》

人不该为了流量而编造虚假信息。图/《保你平安》

这就是“AI幻觉”——说白了，生成式AI是有可能“胡说八道”的，它们会在看似真实的陈述中夹杂错误信息。

AI幻觉无法消除，该怎么办

日常工作中试图让AI帮自己省力的人，对它胡编乱造的能力大多心里有数。

近日，在Vectara HHEM人工智能幻觉测试中，2025年1月发布的DeepSeek-R1模型显示出高幻觉率。对于这个现象，中科闻歌董事长王磊告诉《新周刊》：“我猜测这可能与模型的精度有关。”

有专家认为，AI软件在增强创意和想象力的同时，不可避免地增加了产生幻觉的副作用。

（图/《人工智能》）

（图/《人工智能》）

王磊认为，问题的核心在于神经网络设计原理本身。“幻觉产生的原因在于模型选择词时，是基于词的概率分布进行预测。当问题的复杂程度提高时，这种预测方法可能会出现知识盲区，模型为了回答而回答，人云亦云。”

也就是说，当用户给出上半句，生成式AI会根据它学过的知识，“猜测”最有可能的答案。一旦问题涉及到它的知识盲区，其设计原理又决定了它必须“接话茬”，就会给出自动“脑补”的答案。

清华大学新闻与传播学院教授陈昌凤向《新周刊》表示：“生成式人工智能的主要功能，一是搜索，二是推理。前者通常要有基础数据，它才能搜到。而幻觉更可能出现在推理的环节。”

她指出，人类本身就会产生幻觉，而人工神经网络系统学习的是人类神经系统。“生成式人工智能从诞生起就免不了幻觉，我相信随着使用时间增加和技术提升，它的幻觉会越来越少，但不太可能完全消除。”

人类的认知具有主观性，AI也会效仿人类。（图/《勿言推理》）

人类的认知具有主观性，AI也会效仿人类。（图/《勿言推理》）

比如，就AI对话截图来看，“80后死亡率”的数据参考了一个并无权威性的网页文章。这类“三无”网站的页面，很多人本来是连看都不会看一眼的，但AI的强大却很容易产生让人迷惑的“权威性”，以至于很多人甚至没发现它的数据来源也是“三无”网站。

如果人们积极辟谣，持续优化AI所学习的数据库，肯定能降低AI幻觉的发生。但反过来试想一下，假如AI生成的谣言和假数据持续污染互联网，会发生什么？

2024年7月，一篇来自牛津、剑桥等大学的论文登上了Nature封面。学者们发现，如果在训练中不加区别地使用AI产生的内容，会导致大模型崩溃——多次迭代后AI反而会退化，产生越来越多的事实错误甚至乱码。

众所周知，当今市面上的AI工具都是由海量的数据训练而成的。但随着AI的胃口越来越大，可“食用”的新数据越来越少，大模型将纷纷面临“高质量数据荒”。人工智能研究组织Epoch预测，高质量的文本数据可能会在未来几年内耗尽。

换句话说，真实的数据价值连城。人类仍然需要持续创造真实的内容，更要学会辨别AI生成内容的真假。

（图/《人工智能》）

（图/《人工智能》）

王磊表示：“大模型它绝不能够给你提供决策。人类世界的复杂性在于许多情况都是动态变化的。大模型的知识面很广，但（这些知识）毕竟是固化的，它并不能察觉世界的变化，也不能认知到很多问题的复杂性。它输出的结果，仅仅是基于其数据库的经验性建议。”

他建议：“使用AI时的偏见和幻觉问题，需要我们的自我审视和判断。即使AI能够搜索互联网信息，我们同样需要鉴别其提供的信息是否真实。我们不能完全依赖和盲信AI，而应将其视为一种工具，辅助我们的工作和决策。AI目前只是我们的工具，而非结论和教条的源泉。”

对普通人而言，该如何辨别AI幻觉、防止被AI欺骗？我们的心得是，要始终对AI生成的事实性描述保持警惕。可以使用搜索引擎核查出处，一般而言，若出处为权威机构，信息就更可靠。也可以使用多个AI联网搜索，交叉印证和检查某个AI生成的内容。

现在AI生成内容时，也有概率出现提示。

刘慈欣的短篇小说《诗云》中，外星文明为了写出超越李白的诗，穷尽太阳系的能量列举出了所有字词组合，却无法从庞大的“诗云”中检索出真正的诗歌。作者借这篇小说表明，AI生成内容的本质是词汇的排列组合，但欣赏和评价的权力属于人类。

或许，我们可以进一步说：AI可以生产万千种内容，但判断其真实性和价值的任务仍然掌握在人类手中。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

[责任编辑：李冠宏 PX246]

推荐0