APP下载

基于组合分类算法的源代码注释质量评估方法

2017-01-13余海李斌王培霞贾荻王永吉

计算机应用 2016年12期
关键词:质量评估文本分类自然语言处理

余海+李斌+王培霞+贾荻+王永吉

摘 要:源代码注释是软件的重要组成部分,研究者往往需要利用人工或自动化的方法产生分析注释,注释的质量评估也往往是通过人工来完成,这无疑是低效不客观的。为此,首先从注释的格式、语言形式、内容以及与代码相关度4个方面出发构建注释评估准则;进而,基于这一准则提出了一种基于组合分类算法的注释质量评估方法。该方法将机器学习以及自然语言处理技术引入到注释质量评估中来,利用分类算法将注释分为不合格、合格、良好、优秀四个等级。通过对基本分类算法的组合使用,使得评估效果进一步提高。组合分类算法的准确率和F1值较单独使用某一种分类算法提高20个百分点左右,除宏平均F1值外,各项指标都达到了70%以上。实验结果表明,所提方法能够很好地应用于注释质量评估。

关键词:源码注释;质量评估;文本分类;组合算法;自然语言处理

中图分类号:TP311

文献标志码:A

文章编号:1001-9081(2016)12-3448-06

猜你喜欢

质量评估文本分类自然语言处理
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
中国上市公司会计信息质量研究
HowNet在自然语言处理领域的研究现状与分析
澳大利亚研究生课程的外部质量评估