随着AI技术和应用的蓬勃发展,各类AI工具已经成为我们日常工作和生活的助手,我们的生活与人工智能的关系越来越密切。然而,近年来不少网民发现,部分人工智能的回答开始变得不靠谱。
今年上半年,宁波发生了两件事,被人工智能荒唐地联系在一起。2月6日,宁波警方注销了“宁波交警”抖音号。三个月后的5月2日,在浙江宁波余姚境内的省道嘉余线上,一辆未悬挂车牌的轿车在违法超车过程中撞倒一辆摩托车。小车驾驶人并未第一时间检查伤者受伤情况,而是从后备厢里拿出车牌进行安装。当网民询问AI软件2月6日宁波交警抖音号为何注销时,人工智能给出的答案竟然是“主要与5月2日的这起交通事故引发广泛关注有关”的结论。这个回答引起了网民广泛关注,宁波交警随后进行了紧急辟谣。
去年有网民询问一款儿童手表AI软件,“中国人是世界上最聪明的人吗?”人工智能给出的回答是否定中国发明创造、否定中国文化的答案。这一荒唐的回答在网络上引起轩然大波。儿童手表的厂家随后紧急道歉,称已经修正了相关数据,删除了不良信息源。
近年来,AI杜撰的信息更是数不胜数,包括不存在的论文及其作者、网址等。AI甚至成了谣言类信息的帮凶,游船侧翻、幼儿园大火等谣言都可以通过AI编造出来。
这些案例与人工智能的数据污染有着或多或少的联系。通俗来讲,如果把AI比喻成食物的话,训练数据就相当于食材,食材腐败变质,最终生产出来的食物就会有问题。人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。一旦数据受到污染,就可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。
国家安全部门发布提示,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。网络安全专家曹辉解释说,数据投毒主要针对视觉类和自然语言处理类。例如,在斑马识别系统的训练数据中添加一个绿点,特意不进行标注,这样的少量污染数据会导致生成的人工智能模型带有后门,导致判断受到干扰。
人工智能数据污染分为两类:一种是人为主观恶意篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量收集网络庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。
国家安全部数据显示,AI在训练过程中,即使是0.001%的虚假文本被采用,其有害输出也会相应上升7.2%。专家介绍,被污染的数据可能被AI误认为“有特点和高信息量”,并增加在算力中使用的比例。这种错觉会在多层传播中被逐层放大,最终导致输出结果出现明显偏差。
AI数据污染还可能在金融、公共安全等领域引发一系列现实风险。例如,在经济金融领域,一旦数据受到污染,一些市场行为分析、信用风险评估、异常交易监控等工作可能出现判断和决策错误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以辨别信息的真伪,可能引发社会舆论风险。
针对AI数据污染,应加强源头监管,防范污染生成。制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等安全措施。此外,可以使用自动化工具、人工审查以及AI算法相结合的方式,对数据不一致性、格式错误、语法语义冲突等问题进行分析和处理。定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。
对于广大网友而言,在日常生活和工作中,应该使用正规平台和企业提供的AI工具,科学合理地使用AI工具,AI产生的结果可以参考但不能盲信。同时注意保护个人信息,避免不必要的个人隐私暴露,不作不良信息的投喂者,共同守护网络家园。