摘要:该方法的主要思想是使用数值较大的排在前面的梯度进行反向传播,可以认为是一种在线难例挖掘方法,该方法使模型讲注意力放在较难学习的样本上,以此让模型产生更好的效果。 本文分享自华为云社区《ATK Loss论文复现与代码实战》,作者:李长安。 损失是一种非常通用的聚合损失,其可以和很多现有的定义在单