AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光

AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光

Common Crawl 非营利组织维护着一个庞大的开源存储库,其中存储了自 2008 年以来收集的数 PB 级网络数据,任何人都能免费使用这些数据。由于数据集规模巨大,许多人工智能项目,包括 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型语言模型(LLM)训练,可能至少部分依赖这一数字档案。

Truffle Security 公司(TruffleHog 敏感数据开源扫描器背后的公司)的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行检查后,发现了 11,908 个成功验证的有效机密。这些机密均为开发人员硬编码,这意味着 LLM 存在在不安全代码上进行训练的可能性。

在这些机密中,有 Amazon Web Services(AWS)的根密钥、MailChimp API 密钥以及 WalkScore 服务的有效 API 密钥等。

源代码中的 AWS 根密钥:Truffle Security

TruffleHog 在 Common Crawl 数据集中总共识别出 219 种不同类型的秘密,其中最常见的是 MailChimp API 密钥,近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中。

MailChimp API 密钥在前端 HTML 源代码中泄露:Truffle Security

开发人员的失误在于将这些密钥硬编码到 HTML 表单和 JavaScript 片段中,而未使用服务器端环境变量,这使得攻击者有可能利用这些密钥开展恶意活动,如进行网络钓鱼、品牌冒充,进而导致数据泄露。

此外,研究人员还发现报告中的机密存在高重复使用率,63% 的机密出现在多个页面上。例如,一个 WalkScore API 密钥在 1,871 个子域中出现了 57,029 次。研究人员还在一个网页上发现了 17 个独特的实时 Slack webhook,而 Slack 明确警告 webhook URL 包含秘密,严禁在网上(包括通过公共版本控制存储库)分享。

尽管 LLM 训练数据会经过预处理阶段,旨在清理和过滤掉不相关数据、重复内容、有害或敏感信息,但机密数据仍然难以彻底删除,且无法保证完全清除如此庞大数据集中的所有个人身份信息(PII)、财务数据、医疗记录和其他敏感内容。

研究结束后,Truffle Security 联系了受影响的供应商,并协助他们撤销了用户的密钥,成功帮助这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模型使用的是比研究人员扫描的数据集更旧的档案,Truffle Security 的发现仍给我们敲响了警钟,不安全的编码实践可能会对 LLM 的行为产生影响。

特别声明:[AI 训练数据藏雷:近 12,000 个 API 密钥与密码曝光] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

雕刻光影十五载 索尼携手创作者共启非凡篇章(光影雕刻师投影仪怎么样)

站在十五年的起点之上,索尼将继续推动影像技术的发展,不断完善影像生态体系,并携手全球创作者与行业伙伴不断拓展影像创作的边界,让每一位热爱表达的创作者,都能以镜头传递情感、书写自我,奔赴下一个更加精彩的非凡旅…

雕刻光影十五载 索尼携手创作者共启非凡篇章(光影雕刻师投影仪怎么样)

陈芋汐回应身边搭档不再是全红婵 扛起更大责任(陈芋汐单人赛后采访)

当地时间7月31日晚,2025世界游泳锦标赛女子跳水十米台决赛在新加坡落下帷幕,中国选手陈芋汐以总分430.50分夺得金牌,这是她个人第四次获得世锦赛女子十米台冠军。至此,中国跳水队在本届世锦赛上已斩获8枚金牌

陈芋汐回应身边搭档不再是全红婵 扛起更大责任(陈芋汐单人赛后采访)

社群运营岗位必备能力有哪些?3个阶段+成长地图帮你通关升级(社群运营岗位描述)

👀用户行为X光机能快速绘制用户画像(年龄职业活跃时段核心诉求),熟练使用用户分层工具(RFM模型、AARRR漏斗),像医生一样随时监测社群“心跳数据”✍️内容爆款制造机 撰写20字抓眼球的群公告、…

社群运营岗位必备能力有哪些?3个阶段+成长地图帮你通关升级(社群运营岗位描述)

无对比没伤害:《扫毒风暴》收官,3人可期,2人拉胯,1人翻红!(没有对比就没有伤害图)

她在剧中的角色是云安娜,一个毒枭的女儿,应该是那种表面天真、内心危险的形象,然而她的表演却过于单一,总是重复“瞪眼抿嘴”这种固定动作,似乎整个剧集的氛围都跟着她的演技走偏了。段奕宏的精彩演绎,证明了他依旧是这…

无对比没伤害:《扫毒风暴》收官,3人可期,2人拉胯,1人翻红!(没有对比就没有伤害图)

装配搬运效率低?机器人末端浮动补偿装置,替代同类提效率(工厂搬运与装配)

**WOMMER**深耕智能执行末端技术,推出的浮动补偿解决方案融合精密机械设计与工业场景深度优化,已在新能源、3C电子、汽车零部件、医疗设备等多个领域实现规模化应用,助力企业实现从“自动化”到“高效智能”…

装配搬运效率低?机器人末端浮动补偿装置,替代同类提效率(工厂搬运与装配)