生成式人工智能生成的内容将”污染"互联网,这是自从ChatGPT席卷全球之后,许多有识之士预言的未来。现实也确实如此,从知乎、小红书、抖音等内容平台到微信朋友圈,再到淘宝、拼多多,AI生成的垃圾内容几乎渗透到了互联网的每个角落。
随着AI生成的内容越来越多,互联网上真正“人写的东西”已经变得越来越难找。为此,维基百科方面近日做出了一项新的决定,赋予管理员更高的权限,在满足特定条件时可迅速删除AI生成的内容。
用维基百科编辑的话来说,“总体而言,AI 内容的泛滥被描述为对维基百科的一种‘生存威胁’,我们的工作流程向来依赖(往往是冗长的)讨论与共识构建,若没有相应的快速删除机制,AI可以极高的效率地生成大量虚假内容,就将成为严重的问题。”
具体来说,维基百科将立刻删除“AI味过重”的内容,比如“作为一个大语言模型,我XXXX”等生成式AI工具的经典话术,或是引用出现明显错误的内容,这也是生成式AI最典型的错误,它们会引用根本不存在的文献、论文。
事实上,维基百科对AI内容如临大敌是有原因的,两个月前他们也曾经尝试拥抱AI。自今年6月开始,维基百科的部分页面中加入了类似于谷歌AI概览的AI总结内容,不过是以折叠的形式呈现,并标注了“没有经过验证”,然而这一实验却引来了维基百科志愿者和用户的强烈抵制。
其实维基百科的内容创作者和内容消费者一致抵制AI是有理由的,毕竟作为全球最大、且最受大众欢迎的网络百科全书,维基百科是由全球各地的志愿者合作编撰而成,它的核心价值是可靠性、可追溯性,以及人人可编辑。维基百科中的内容是来自于不同语言、背景的志愿者,精心打磨、且经过确认的成果,正因如此,它也成为了互联网上最优质、最权威的内容。
对于百科全书类的产品来说,内容的真实性、可靠性无疑是基石,而目前AI生成的内容最大问题就是不可靠。如今AI模型会因为幻觉(AI Hallucinations)而胡说八道,答非所问、前后矛盾的现象已经见怪不怪,至今也没有哪一个厂商敢拍着胸脯保证自己的AI模型就不会胡编乱造。
所以凡是在生产环境使用生成式AI,现在几乎都不离开人类员工的后期校正。比如AI客服答非所问导致用户被激怒,就需要人工客服出来擦屁股,AI生图产出了有违物理规律的图片,需要人类画师进行润色,这些都已经是发生在互联网、游戏等行业的真实案例。
但问题在于维基百科不是一个正经的商业实体,他们是一个开源社区,是基于互联网精神的众创空间。任何人都可以成为维基百科的志愿者,只需要注册一个账号即可开始编辑和更新百科内容,极低的参与门槛让维基百科的内容包罗万象,同时也导致了编辑者的素质良莠不齐。
维基百科的运营团队指出,他们之所以会对明显AI生成的内容一刀切,源自大量志愿者甚至没有通读其所提交的内容,“如果志愿者连这种最基本的问题都没检查,那我们可以合理推定,他们根本就没有审阅任何内容,仅是照搬,这种条目与白噪音无异。”
事实上,如今不仅仅是维基百科,Facebook、YouTube等平台同样也在积极打击AI生成的垃圾内容。相比谷歌和Meta由于担忧机器生成内容、机器点赞评论让人类成为旁观者,进而让真实用户逃离,影响到平台商业价值而做出的选择,维基百科的运营团队称得上是理想主义爆棚。
近年来,维基百科一直是各路AI厂商爬虫重点“光顾”的对象。自从2024年1月以来,维基共享资源(Wikimedia Commons)上所存放的1.44亿个图像、视频或其他文件带宽增长50%,但这些流量并非来自人类用户,而是AI厂商的爬虫产生。
毫无疑问,维基百科被AI厂商重视是必然,由于AI模型的训练需要高质量的语料数据,而在整个互联网上,维基百科的内容质量绝对是第一梯队。如果维基百科方面放任由AI生成的垃圾内容泛滥,那么使用他们数据训练AI模型的厂商,自然就会面临训练效率下降的局面。
面对AI厂商近乎于DDoS的“攻击”,维基百科不仅没有躺平,反而继续严控内容质量,也给了AI厂商继续爬取其内容的理由,这不是理想主义爆棚又是什么。可问题在于,仅靠维基百科自己,真的就能做到阻断AI生成的垃圾内容污染互联网吗?