近期,实验室机器学习团队在标签噪声学习理论与方法研究中取得了突破性进展,相关成果“Which Is More Effective in Label Noise Cleaning, Correction or Filtering?”发表于中国计算机学会(CCF)推荐的A类人工智能领域会议AAAI。该论文以山西大学为第一单位,通讯作者为王文剑教授,第一作者为姜高霞副教授,2021级硕士生张佳、白雪飞副教授、西安交通大学孟德宇教授为合作作者。
高质量数据为包括大模型在内的人工智能技术的提升和发展提供了重要支撑。然而实际数据中可能存在弱标注、数据噪声等数据质量问题,这将误导深度模型训练并降低泛化性能。如何在噪声标签环境下实现良好泛化能力已成为深度学习的重大挑战之一。标签纠正和噪声过滤是数据层面两种常用的标签噪声清洗模式,但其有效性和适用性尚未系统地比较和整合。
针对标签噪声清洗模式(纠正/过滤)选择问题,研究团队重建了标签噪声环境下的泛化误差界,并在此视角下比较了纠正和过滤模式的有效性、适用性和超参数不敏感性(见图1),进而总结了各种清洗模式的选择准则。
(a) 有效性比较理论 (b)清洗模式选择
图1 误差界视角下的清洗模式(纠正/过滤)比较与选择
研究团队还提出了一种噪声清洗融合框架FCF(见图2)。与现有单一清洗模式不同,FCF结合了纠正和过滤的优点来处理不同类型的可疑标签,并可以与其他噪声概率估计和标签纠正器集成。该方法显著提高了标签的质量和泛化性能(见图3a),在CIFAR-10图像数据集上采用EM算法估计了各个标签噪声概率值并找到了明显不准确的标签(见图3b),其中大概率噪声标签被纠正为正确标签,较小噪声概率的图像模糊,适合过滤。
图2 FCF算法框架图
图3(a)FCF准确率和标签纯度 (b)CIFAR-10测试集上的真实标签噪声
本研究工作针对分类任务,完善了标签噪声的泛化误差界估计理论,为数据视角下的标签噪声处理奠定了可靠的基础,揭示了不同清洗模式(纠正/过滤)的适用范围,为噪声数据的清洗模式选择提供了理论指导,同时可与其它噪声估计方法结合形成新的自适应过滤算法。这项工作得到计算智能与中文信息处理教育部重点实验室、国家重点研发计划、国家自然科学基金区域创新发展联合基金项目及面上项目、山西省“1331工程”重点学科建设计划的支持。
研究成果原文阅读链接:
https://ojs.aaai.org/index.php/AAAI/article/view/29183
AAAI (AAAI Conference on Artificial Intelligence) 由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。第38届AAAI人工智能年度会议于2024年2月在加拿大温哥华举办。