近日,我院“数据挖掘与机器学习”团队(CUG-Miner)张文钧博士以第一作者身份在CCF-A英文期刊《SCIENCE CHINA Information Sciences》上发表了题为“FNNWV: Farthest-Nearest Neighbor-based Weighted Voting for Class-Imbalanced Crowdsourcing”的研究成果。
论文的工作主要聚焦于处理类不平衡众包场景下的标记集成任务。最近的研究表明,在标记集成时考虑被推断实例的最近邻居的信息,有助于取得更加良好的集成效果。然而,当众包任务满足类不平衡时,由于任务中负类实例居多,负类实例更容易出现在被推断实例的最近邻居中,最终导致最近的标记集成算法更容易偏向负类。为此,研究提出了一个新颖的标记集成算法FNNWV,来处理类不平衡众包场景下的标记集成任务。FNNWV认为最近邻居与被推断实例更相似,因此在加权投票中使用它们投赞成票。相反,FNNWV认为最远邻居与被推断实例更不同,因此在加权投票中使用它们投反对票。由于负类实例同时容易出现在最近邻居和最远邻居中,因此FNNWV可以通过投赞成票和反对票的方式来削弱负类实例的影响。经实验验证,与现有最先进的标记集成算法相比,FNNWV在处理类不平衡的众包任务时,可以取得更加良好的集成效果。同时,即使面对类平衡的众包任务,FNNWV的集成效果也可以与现有最先进的标记集成算法相媲美。
FNNWV的算法示意图
论文链接:http://engine.scichina.com/doi/10.1007/s11432-023-3854-7
通讯员:牟扬
审核:曾德泽
校对:石剑峰