type
status
date
slug
summary
tags
category
icon
password
一种新研究揭示的攻击手段,可能让人工智能模型在训练过程中无意“记住”的个人信息暴露出来。这种被称为 CAMIA(上下文感知成员推断攻击) 的技术,是由 Brave 浏览器团队与新加坡国立大学的研究人员携手打造的。与以往方法相比,它在识别 AI 是否使用特定数据进行训练方面表现更为精准。
如今,随着生成式 AI 的广泛应用,其是否会在训练时存储并泄露敏感内容引发越来越多的关注。在医疗、金融和企业通信等领域,模型可能接触到包含个人健康信息、财务细节或内部邮件等内容。一旦这些被用于训练的数据被模型记住,攻击者就可能借助某些技巧,让 AI 重新输出这些本应保密的内容。
比如,若一个语言模型是在大量私人对话基础上训练出来的,那么理论上,攻击者只需提供合适的提示词,就能诱导该模型复现其中的具体信息。类似的情况也出现在一些平台的公开声明中。像 LinkedIn 最近宣布将用户发布的内容用于其生成式 AI 的训练,这就带来了新的问题:你我分享的文字会不会以某种形式出现在 AI 的回答里?
为了防范这类风险,安全领域常用一种叫做 成员推断攻击(MIA) 的技术。它的基本原理是挑战模型:“你是不是见过这条数据?”如果攻击者能准确判断出答案,那就说明模型存在隐私泄露的风险。
不过传统 MIA 方法通常适用于分类任务模型,这类模型输出单一结果。相比之下,大型语言模型通过逐词生成的方式构建文本,每一个新词都会受到前文影响。因此仅仅观察整段输出的置信度,并不足以完整捕捉到模型对训练数据的记忆特征。
CAMIA 所采取的创新思路,则紧扣这一过程中的“瞬间反应”。它发现了一个关键点:当 AI 在面对模糊语境、缺乏清晰线索时,反而更可能依赖其训练记忆做出准确预测。
举例来说,如果模型接收到的输入是 “Harry Potter is…written by… The world of Harry…”,这个语境已经非常明确,即使没有记忆也能较容易地预测下一个词。但在仅有 “Harry” 作为上下文的情况下,要准确接续为 “Potter”,就必须真正“记得”相关训练内容。这时的高置信预测,就更像是记忆的体现。
基于这个逻辑,CAMIA 能够实时分析模型在生成文本时的不确定程度,并追踪其转向确定性回应的过程。这种方法不只是看结果,而是深入到生成的每一步中去,提高了检测的灵敏度。
研究团队在 MIMIR 数据集上对包括 Pythia 和 GPT‑Neo 在内的多个模型进行了测试。结果显示,在 2.8 B 参数的 Pythia 模型中,CAMIA 的真阳性识别率由原来的 20.11% 提升到 32.00%,而且误判率被控制在 1% 左右,展现出优异的准确性和可靠性。
此外,该攻击方法在资源消耗方面也具备较高的效率。在一个 A100 GPU 上,处理 1,000 条数据样本只需要大约 38 分钟。这意味着 CAMIA 可作为常规审计手段,用于评估模型是否存在隐私泄露风险。
这项研究成果发出一个重要警示:当我们在不断扩大模型规模、并用各种原始数据来训练它们的时候,模型本身可能不知不觉地成为敏感信息的“活档案”。开发更具隐私保护能力的技术,已变得日益迫切。研究人员希望通过这项工作,促使行业在 AI 能力与用户隐私之间找到更稳妥的平衡点。
- 作者:数字Baby
- 链接:myaigc.top/article/27cb7c2d-0e98-815e-917c-c6c1725173df
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。








