“80后死亡率超5%”,别上假数据的当
资讯
资讯 > 社会 > 正文
站内

“80后死亡率超5%”,别上假数据的当

生成式AI是有可能“胡说八道”的,它们会在看似真实的陈述中夹杂错误信息。

但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了“严谨的行文姿态”,就已天然具备了被信任的基础。

更不用说,人往往更倾向相信于那些符合期望的“事实”。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。

作者 | 阿瑞

编辑 | DR

题图 | 《乘上独角兽》

“截至2024年末,80后死亡率突破5.2%,相当于每20个80后中就有1人已经去世。”

这句话,你信了吗?

虽然当代打工人的健康状况确实值得担忧,但好消息是,这一数据是假的。

今年2月,相关数据和评论刷屏互联网,人们感慨“活着不易”,更有人借机卖起了保健品和保险。3月4日,公安部网安局公布调查结果:网民夏某在视频《80后到底还剩多少人》中捏造数据,被予以行政处罚。

造谣一张嘴,辟谣跑断腿。如今,造谣甚至不需要嘴了——只要在AI的对话框中输入几个字,指引AI生成虚假信息的人或许都意识不到自己在助力谣言的诞生。

AI编的数据,你信了吗?

先来说说“80后死亡率”的离谱错误。

死亡率作为人口学的重要统计指标,其计算公式为“某时期死亡人数除以同期平均人口数,再乘以1000‰”,也就是说,它的单位是‰,而非%。

中国人民大学人口与健康学院教授李婷在其公众号“严肃的人口学八卦”撰文表示,国家每年会公布预期寿命和人口粗死亡率,但不会根据“80后”“90后”这些年龄段公布死亡状况,因此,“80后死亡率”这类说法本身就缺少数据支撑。

(图/《保你平安》)

(图/《保你平安》)

如果有人真的想计算80后的“存活比例”,还存在两个问题:一是过往人口普查的数据不够准确,多种计算方法都有误差;二是这份数据也会被新生儿的死亡数据污染,也就是说,哪怕5.2%的数据准确,其中也可能包括了一半以上出生时就夭折的人,青壮年死亡率还得降低不少。因此,人们大可不必为80后今天的健康状况恐慌。

如果说80后的“存活比例”,还不过是“无伤大雅”的谈资,引发全网侧目的“顶流明星在澳门狂输10亿”,则算得上惊天大瓜,甚至让周杰伦无辜躺枪。

但就是这么一个被传得有鼻子有眼的瓜,经公安机关证实,同样也是AI编造。

与此同时,也有网友感慨:“每天上网就想看看作者的观点,结果现在满屏‘量子’‘坍缩’‘代码’‘基因’……”当机械感满满的AI文案充斥着互联网,对人的判断力又增加了几分考验。

比如最近,网上有一篇《“离婚冷静期”制度简史:历史终将记住这个黑色幽默》的文章被大量转发。

我们对文中的二手信息,保持一种本能的警惕,试图找到源头加以查证。而这篇看似严谨的文章尽管引用了大量数据,但当逐一搜索这些数据时,会发现数据来源几乎都是无中生有。

(图/《“离婚冷静期”制度简史》)

(图/《“离婚冷静期”制度简史》)

就基层法官是否会统计离婚案件的类别和比例一事,有法律界人士向《新周刊》记者表示不会统计如此详尽的案件情形:“基层没有这么闲,最多统计一下结案率和胜诉率。”况且,“北京某律所”作为服务机构,本就没有统计和公布“冷静期后复婚率”的能力和权限。

(图/《“离婚冷静期”制度简史》)

(图/《“离婚冷静期”制度简史》)

“中国社科院2024年《婚姻制度民意调查》”,则是一个不存在的调查。“202X年”“冷静期XX倒计时”这些词更是满满的编造感——如果是真的,为什么不写明真实日期?

至于所谓当初支持立法的学者反思“我们用农耕时代的温情滤镜,强行矫正互联网时代的婚姻形态”‌,看似语言优美,实则言之无物。现代婚姻法本身既不是农耕时代的产物,也不是互联网时代的产物。法律是一件严肃的事,倘若学者真的要反思,恐怕也不会使用如此模糊的表述。

人不该为了流量而编造虚假信息。图/《保你平安》

人不该为了流量而编造虚假信息。图/《保你平安》

这就是“AI幻觉”——说白了,生成式AI是有可能“胡说八道”的,它们会在看似真实的陈述中夹杂错误信息。

但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了“严谨的行文姿态”,就已天然具备了被信任的基础。

更不用说,人往往更倾向相信于那些符合期望的“事实”。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。

AI幻觉无法消除,该怎么办

日常工作中试图让AI帮自己省力的人,对它胡编乱造的能力大多心里有数。

近日,在Vectara HHEM人工智能幻觉测试中,2025年1月发布的DeepSeek-R1模型显示出高幻觉率。对于这个现象,中科闻歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。”

有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。

(图/《人工智能》)

(图/《人工智能》)

王磊认为,问题的核心在于神经网络设计原理本身。“幻觉产生的原因在于模型选择词时,是基于词的概率分布进行预测。当问题的复杂程度提高时,这种预测方法可能会出现知识盲区,模型为了回答而回答,人云亦云。”

也就是说,当用户给出上半句,生成式AI会根据它学过的知识,“猜测”最有可能的答案。一旦问题涉及到它的知识盲区,设计原理又决定了它必须“接话茬”,就会给出自动“脑补”的答案

清华大学新闻与传播学院教授陈昌凤向《新周刊》表示:“生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基础数据,它才能搜到。而幻觉更可能出现在推理的环节。”

她指出,人类本身就会产生幻觉,而人工神经网络系统学习的是人类神经系统。“生成式人工智能从诞生起就免不了幻觉,我相信随着使用时间增加和技术提升,它的幻觉会越来越少,但不太可能完全消除。”

人类的认知具有主观性,AI也会效仿人类。(图/《勿言推理》)

人类的认知具有主观性,AI也会效仿人类。(图/《勿言推理》)

比如,就AI对话截图来看,“80后死亡率”的数据参考了一个并无权威性的网页文章。这类“三无”网站的页面,很多人本来是连看都不会看一眼的,AI的强大却很容易产生让人迷惑的“权威性”,以至于很多人甚至没发现它的数据来源也是“三无”网站

如果人们积极辟谣,持续优化AI所学习的数据库,肯定能降低AI幻觉的发生。但反过来试想一下,假如AI生成的谣言和假数据持续污染互联网,会发生什么?

2024年7月,一篇来自牛津、剑桥等大学的论文登上了Nature封面。学者们发现,如果在训练中不加区别地使用AI产生的内容,会导致大模型崩溃——多次迭代后AI反而会退化,产生越来越多的事实错误甚至乱码。

众所周知,当今市面上的AI工具都是由海量的数据训练而成的。但随着AI的胃口越来越大,可“食用”的新数据越来越少,大模型将纷纷面临“高质量数据荒”。人工智能研究组织Epoch预测,高质量的文本数据可能会在未来几年内耗尽。

换句话说,真实的数据价值连城。人类仍然需要持续创造真实的内容,更要学会辨别AI生成内容的真假。

(图/《人工智能》)

图/《人工智能》)

王磊表示:“大模型它绝不能够给你提供决策。人类世界的复杂性在于许多情况都是动态变化的。大模型的知识面很广,但(这些知识)毕竟是固化的,它并不能察觉世界的变化,也不能认知到很多问题的复杂性。它输出的结果,仅仅是基于其数据库的经验性建议。”

他建议:“使用AI时的偏见和幻觉问题,需要我们的自我审视和判断。即使AI能够搜索互联网信息,我们同样需要鉴别其提供的信息是否真实。我们不能完全依赖和盲信AI,而应将其视为一种工具,辅助我们的工作和决策。AI目前只是我们的工具,而非结论和教条的源泉。”

对普通人而言,该如何辨别AI幻觉、防止被AI欺骗?我们的心得是,要始终对AI生成的事实性描述保持警惕。可以使用搜索引擎核查出处,一般而言,若出处为权威机构,信息就更可靠。也可以使用多个AI联网搜索,交叉印证和检查某个AI生成的内容。

现在AI生成内容时,也有概率出现提示。

刘慈欣的短篇小说《诗云》中,外星文明为了写出超越李白的诗,穷尽太阳系的能量列举出了所有字词组合,却无法从庞大的“诗云”中检索出真正的诗歌。作者借这篇小说表明,AI生成内容的本质是词汇的排列组合,但欣赏和评价的权力属于人类。

或许,我们可以进一步说:AI可以生产万千种内容,但判断其真实性和价值的任务仍然掌握在人类手中。

[责任编辑:李冠宏 PX246]

推荐0

为您推荐

算法反馈
已显示全部内容

凤凰资讯官方微信

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载