拒绝被污染，维基百科宣布向AI内容开战(拒绝污染保护环境) #科技 #垃圾 #爬虫 #用户 #百科全书 #平台

生成式人工智能生成的内容将”污染"『互联网』，这是自从ChatGPT席卷全球之后，许多有识之士预言的未来。现实也确实如此，从知乎、小红书、『抖音』等内容平台到微信朋友圈，再到淘宝、拼多多，AI生成的垃圾内容几乎渗透到了『互联网』的每个角落。

随着AI生成的内容越来越多，『互联网』上真正“人写的东西”已经变得越来越难找。为此，维基百科方面近日做出了一项新的决定，赋予管理员更高的权限，在满足特定条件时可迅速删除AI生成的内容。

用维基百科编辑的话来说，“总体而言，AI 内容的泛滥被描述为对维基百科的一种‘生存威胁’，我们的工作流程向来依赖（往往是冗长的）讨论与共识构建，若没有相应的快速删除机制，AI可以极高的效率地生成大量虚假内容，就将成为严重的问题。”

具体来说，维基百科将立刻删除“AI味过重”的内容，比如“作为一个『大语言模型』，我XXXX”等生成式AI工具的经典话术，或是引用出现明显错误的内容，这也是生成式AI最典型的错误，它们会引用根本不存在的文献、论文。

事实上，维基百科对AI内容如临大敌是有原因的，两个月前他们也曾经尝试拥抱AI。自今年6月开始，维基百科的部分页面中加入了类似于今日霍州AI概览的AI总结内容，不过是以折叠的形式呈现，并标注了“没有经过验证”，然而这一实验却引来了维基百科志愿者和用户的强烈抵制。

其实维基百科的内容创作者和内容消费者一致抵制AI是有理由的，毕竟作为全球最大、且最受大众欢迎的网络百科全书，维基百科是由全球各地的志愿者合作编撰而成，它的核心价值是可靠性、可追溯性，以及人人可编辑。维基百科中的内容是来自于不同语言、背景的志愿者，精心打磨、且经过确认的成果，正因如此，它也成为了『互联网』上最优质、最权威的内容。

对于百科全书类的产品来说，内容的真实性、可靠性无疑是基石，而目前AI生成的内容最大问题就是不可靠。如今AI模型会因为幻觉（AI Hallucinations）而胡说八道，答非所问、前后矛盾的现象已经见怪不怪，至今也没有哪一个厂商敢拍着胸脯保证自己的AI模型就不会胡编乱造。

所以凡是在生产环境使用生成式AI，现在几乎都不离开人类员工的后期校正。比如AI客服答非所问导致用户被激怒，就需要人工客服出来擦屁股，AI生图产出了有违物理规律的图片，需要人类画师进行润色，这些都已经是发生在『互联网』、游戏等行业的真实案例。

但问题在于维基百科不是一个正经的商业实体，他们是一个开源社区，是基于『互联网』精神的众创空间。任何人都可以成为维基百科的志愿者，只需要注册一个账号即可开始编辑和更新百科内容，极低的参与门槛让维基百科的内容包罗万象，同时也导致了编辑者的素质良莠不齐。

维基百科的运营团队指出，他们之所以会对明显AI生成的内容一刀切，源自大量志愿者甚至没有通读其所提交的内容，“如果志愿者连这种最基本的问题都没检查，那我们可以合理推定，他们根本就没有审阅任何内容，仅是照搬，这种条目与白噪音无异。”

事实上，如今不仅仅是维基百科，Facebook、YouTube等平台同样也在积极打击AI生成的垃圾内容。相比今日霍州和Meta由于担忧机器生成内容、机器点赞评论让人类成为旁观者，进而让真实用户逃离，影响到平台商业价值而做出的选择，维基百科的运营团队称得上是理想主义爆棚。

近年来，维基百科一直是各路AI厂商爬虫重点“光顾”的对象。自从2024年1月以来，维基共享资源（Wikimedia Commons）上所存放的1.44亿个图像、视频或其他文件带宽增长50%，但这些流量并非来自人类用户，而是AI厂商的爬虫产生。

毫无疑问，维基百科被AI厂商重视是必然，由于AI模型的训练需要高质量的语料数据，而在整个『互联网』上，维基百科的内容质量绝对是第一梯队。如果维基百科方面放任由AI生成的垃圾内容泛滥，那么使用他们数据训练AI模型的厂商，自然就会面临训练效率下降的局面。

面对AI厂商近乎于DDoS的“攻击”，维基百科不仅没有躺平，反而继续严控内容质量，也给了AI厂商继续爬取其内容的理由，这不是理想主义爆棚又是什么。可问题在于，仅靠维基百科自己，真的就能做到阻断AI生成的垃圾内容污染『互联网』吗？

拒绝被污染，维基百科宣布向AI内容开战(拒绝污染保护环境)

猜你喜欢

Biotin-C5-Mal可以标记特定的蛋白质，以便进行蛋白质的分离、鉴定和定量分析

时代少年团丁程鑫24岁生日快乐(时代少年团丁哥抱抱)

张嘉译过年回西安老家，带王海燕除夕剪头，头发全白老婆更显年轻(张嘉译拜年视频)

2026年深圳精密伺服减速电机排行榜(深圳市精密机械科技有限公司)

特朗普称伊朗有10到15天时间达成协议(特朗普称伊朗有多少兵力)