type
status
date
slug
summary
tags
category
icon
password
📝 A Survey of Machine Unlearning
发布于2022年,介绍遗忘学习的相关原理算法与应用。文章的相关资源开源在github。
#1 INTRODUCTION
#1.1 Reasons for Machine Unlearning
Security:文中提到了任奎老师关于对抗攻击的论文[1] Adversarial Attacks and Defenses in Deep Learning,有空去读读。当我们检测到这种攻击存在,就把它忘了
Privacy:保护用户数据
Usability:消除一些错误记录的数据,保存模型准确性,类似B站抖音中的不感兴趣(感觉目前这些网站的这个功能效果不是很好呢)
Fidelity:不是很能翻译这个词,大意是讲消除模型的偏见,模型的偏见大概率来自训练数据集
#1.2 Challenges in Machine Unlearning
在真正实现遗忘学习之前,需要克服几个关于训练的难题:
- 训练随机性:数据点对模型的影响未知,batch也是随机的
- 训练增量性:增量学习,过去的学习会影响未来的
- 灾难性遗忘:忘了一些数据后,性能陡然下降
#1.3 Contributions of this survey
- 如何设计一个遗忘学习框架
- 如何在机器学习系统中定义遗忘学习问题
- 介绍遗忘学习方案
- 介绍遗忘学习分类
- 开源数据库
- 提出未来趋势与研究方向
#2 UNLEARNING FRAMEWORK
#2.1 Unlearning Workflow
一般来说,模型是根据一些数据进行训练,然后用于推理。根据删除请求,将从模型中删除要忘记的数据。然后根据隐私标准验证遗忘后的模型,如果不满足这些标准,则重新训练模型。
#2.2 Unlearning Requests
Item Removal
最常见请求,忘记训练数据中的项
Feature Removal
许多情况中,隐私泄露不仅源于单个数据项,还可能源于一组有相似标签或特征的数据。比如中毒的垃圾邮件过滤器会对邮件错误分类,仅仅忘记可疑邮件是不够的,没有消除源头。
REFERENCES
- Author:N2F7
- URL:https://www.n2f7.site/article/Machine-Unlearning/survey_1
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!