深度神经网络最主要的应用之一是图像与文本分类。由于训练数据通常存在一定的缺陷,许多研究对常规的“深度神经网络+交叉熵损失”分类方法进行了改进。经过广泛调研,我们发现许多算法本质上是对训练数据的一种扰动。为此,我们提出了一个深度学习数据扰动分类体系,系统梳理了相关算法。该体系不仅能将表面上毫无关联的算法建立起内在联系,还可衍生出新的分类算法。受此启发,我们设计了逻辑向量扰动算法与反对抗样本学习算法,从理论上分析了这些算法的有效性,并将其应用于不平衡学习、多标签学习等任务,取得了良好的效果。相关成果发表在ACM TKDD、IEEE TPAM1、AAAI等国际期刊与会议上。此外,本报告还将讨论当前LLM应用趋势下的数据优化新挑战。