大多数比较的方法都不适合现实世界的应用,因为现实世界的内存是有限的,而且任务交织重叠。最近,[11]介绍了一系列CL方法应该实现的准则,以便在实践中适用:
给出定义,要优化的项
与其他基于排练的方法不同,我们保留了网络的logits z ≜ h θ t ( x ) z \triangleq h_{θ_t} (x) z≜hθt(x),而不是真实标签y
在温和的假设下,公式4中KL散度的优化等同于最小化相应的pre-softmax(即logits)之间的欧氏距离。在这项工作中,我们选择匹配logits,因为它避免了由于挤压函数(如软化函数)而在概率空间发生的信息损失。基于这些考虑,黑暗经验重放(DER,算法1)优化了以下目标
Dark Experience Replay++。值得注意的是,水库策略在某些特定情况下可能会削弱DER。也就是说,当输入流中发生突然的分布变化时,那些被以前的任务训练严重偏向的logits可能会被抽样用于以后的重放:同时利用真实标签–如ER所做的那样–可以减轻这样的缺陷。基于这些理由,我们还提出了Dark Experience Replay++,它为公式5的目标配备了一个关于缓冲区数据点的附加项,以最小的内存开销促进了对其真实标签的更高条件的可能性
虽然我们提出的方法和LWF[25]都利用了持续学习中的知识蒸馏,但它们采用的方法明显不同。后者不回放过去的例子,所以它只鼓励教师和学生对当前任务的数据点的反应的相似性
iCaRL通过过去的例子来提炼过去输出的知识,这与我们的建议更为相似
然而前者利用每个任务结束时指定的网络作为唯一的教学信号
我们的方法在整个优化轨迹中存储了采样的对数,这类似于有几个不同的教师准则
与我们接近的建议是由函数距离正则化(FDR),用于对抗灾难性遗忘([4]的第3.1节)。与FDR一样,我们使用过去的典范和网络输出来调整过去和当前的输出
与上述iCaRL的讨论类似,FDR在任务边界存储网络反应,因此不能在GCL环境中使用
我们在第5节中提出的实验分析显示,任务边界的需要可以通过水库采样来放松,而不会出现性能下降
我们从经验上观察到DER和DER++取得了明显优越的结果和显著的特性
背后的动机主要在于研究如何在函数 L 2 L^2 L2 希尔伯特空间中表征神经网络的训练轨迹,而函数空间正则化对于连续学习问题的潜力只是通过MNIST上的一个实验粗略地解决
在本文中,我们介绍了Dark Experience Replay:一个简单的持续学习baseline,它利用知识蒸馏来保留过去的经验,从而避免灾难性的遗忘。我们通过在标准基准上进行的广泛的实验分析,展示了我们建议的有效性。另外,我们认为最近正式化的通用持续学习为不同应用的进展提供了基础
方法很简单,但是效果还可以?不过是两年前的东西了
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ryyc.cn 版权所有 湘ICP备2023022495号-3
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务