在模型反转攻击中,攻击者的目标是利用目标训练示例的已知非敏感特征和预测 AI 模型的输出来暴露目标训练示例的未知敏感特征。为了说明这一点,在现实世界的模型反转攻击中,数据科学家建立了一个预测性人工智能模型,该模型经过训练可以预测给患者开出的抗凝剂的正确剂量。该预测性人工智能模型的建立是为了接收患者的某些遗传生物标记和其他人口统计信息作为输入。对手可以访问训练数据中包含的有关患者的部分人口统计信息。对手使用模型反转攻击来推断训练数据中包含的患者的敏感遗传生物标记,即使对手无法访问训练数据。
对预测性 AI 模型的会员推理攻击
攻击者可以执行成员推理攻击,以推断给定用户记录是否 WhatsApp 数据 包含在预测 AI 模型的训练数据中。这是一种黑盒隐私攻击,因此,攻击者无法访问训练数据或训练后的预测模型。举例来说,电子健康记录用于训练预测 AI 模型,该模型旨在预测患者出院的最佳时间。如果攻击者可以获得访问权限,使用任何患者特征查询训练后的预测 AI 模型并接收输出(例如,通过 API),那么攻击者就可以发起成员推理攻击。虽然成员推理攻击不会泄露给定训练示例中包含的信息,但这种类型的 以进一步 使用计算机视觉训练数据的好处 询问 隐私攻击确实会泄露训练数据中给定训练示例的存在。在某些情况下,训练数据中给定用户记录的存在是敏感信息,例如,在用户参加机密基因组研究的情况下。
ICO 关于保护训练数据中所含商业机密隐私的建议
ICO 建议评估向企业外部人员提供预测 AI 模型所涉及的隐私风险。
ICO 建议,避免构建过度拟合训练数据的预测 AI 模型,以防止模 任 线数据库 何数 型反转攻击和成员推理攻击等隐私攻击。过度拟合训练数据的预测 AI 模型会学习训练数据的噪声。学习训练数据的噪声会导致预测 AI 模型无意中记住训练数据中的特定训练示例,而不是学习训练数据中的可推广模式。如果嘈杂的训练数据包含商业机密或任何敏感信息,则该信息可能会作为模型的输出被无意中泄露。