近日,王骞教授课题组2020级博士生龚雪鸾的研究成果被第44届IEEE安全和隐私会议(The44th IEEE Symposium on Security and Privacy,简称IEEES&P)录用,会议将于2023年5月22日至25日在美国加利福尼亚州Oakland举行。龚雪鸾为第一作者,Betway必威手机版为第一单位。Betway必威手机版研究生首次以第一作者在IEEE S&P上发表学术论文,实现了信息安全领域国际四大顶级会议(IEEES&P、ACMCCS、USENIXSecurity、NDSS)成果发表“大满贯”。
论文题目为“Redeem Myself: Purifying Backdoors in Deep Learning Models using Self Attention Distillation”(基于自注意力蒸馏的深度学习模型后门移除),指导老师为必威BETWAY官网王骞教授(通讯作者),与浙江大学陈艳姣研究员(通讯作者)和西安交通大学沈超教授合作完成。必威BETWAY官网2021级研究生杨旺和黄华洋、2020级本科生顾宇喆参与了该成果的研究工作。
近年来,深度神经网络(DNN)由于其卓越的性能,已被广泛地应用于各种现实场景,如物体检测、人脸识别、自动驾驶等。然而,研究表明深度神经网络在模型训练阶段易受到后门攻击(BackdoorAttacks)。攻击者可以通过污染模型的训练数据集,从而操控模型的训练过程向模型注入后门,后门攻击将误导深度学习模型将所有带有后门触发器的样本分类为目标标签,同时对其他输入样本表现正常。毫无疑问,隐蔽的后门将给当前基于深度神经网络的各类智能应用系统带来极大的安全威胁。现有防御方案主要聚焦后门检测,且只能检测到后门存在,而不能将植入后门的模型恢复为良性模型。目前,仅有的一些后门移除方案无法应对更先进的后门攻击手段(例如ATTEQ-NN攻击等),同时还会降低净化模型在干净样本上的识别准确率。本文提出了一种全新的后门模型净化防御方案,命名为SAGE(如图1所示)。SAGE基于自注意力蒸馏机制(Self-Attention Distillation),由三个关键模块组成,即注意力表示、损失计算和学习率更新。SAGE不依赖于额外的教师模型,而是依据模型自身的校正能力移除后门,利用自上而下的注意力蒸馏实现自清洁。同时,通过精巧地设计损失函数,该方案能够保证模型在良性样本输入时,预测准确率不受影响。为进一步增强后门净化能力,本文设计了一种新型学习率调整算法,能够通过当前的防御效果来动态地调整学习率,使模型能够更快地收敛。该研究成果为当前后门移除领域研究提供了更具实际应用价值的解决思路。