克隆代码有害性预测中分类不平衡问题的解决方法
2017-01-13王欢张丽萍闫盛
计算机应用 2016年12期
王欢+张丽萍+闫盛
摘 要:针对克隆代码有害性预测中有害和无害数据分类不平衡的问题,提出一种基于随机下采样(RUS)的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集;然后选取比例不同的分类不平衡新数据集;接着对已选取的新数据集进行有害性预测;最后,通过观察分类器的不同表现自动选择一个最适合的分类不平衡比例值。在7款C语言开源软件共170个版本上对克隆有害性预测模型的性能进行评估,并和其他分类不平衡解决方法进行对比,实验结果表明所提方法对有害和无害克隆的分类预测效果(受试者工作特征曲线下方面积(AUC)值)提高了2.62个百分点~36.70个百分点,能有效地改善分类不平衡的预测问题,为软件质量评估提供了参考。
关键词:克隆代码;有害性;不平衡分类;随机下采样;参数搜索
中图分类号: TP311.5
文献标志码:A
文章编号:1001-9081(2016)12-3468-08