结合机器学习提升规则维护效率
2018-02-26邓杰
邓杰
【摘 要】在大数据的领域中,对大量数据的文本分析是基石,后面的所有数据的解析都是依赖与此,规则维护的效率以及准确率至关重要。本文主要是对比了目前常用的几种语义分析的方法,提出了相对来说效率更高,准确率也能得到保障的方法。
【关键词】文本分析;手工编写规则;机器学习
1 背景内容
规则维护的办法,目前主要思路如下:先整理大量的样本数据,先手工打上各种分类标签或者关键字,然后以这些手工梳理好后的样本数据或者关键字为基准去手工编写规则。
但是后期随着关键字的变化或者样本数据的丰富,会发现现有规则的准确性、覆盖率越来越低,甚至出现大量的样本数据都匹配不到现在的分类中。定期对现有规则的维护是一项很重要并且很必须的工作。
随着规则的积累和样本量的增加,手工维护规则的工作量会越来越来,为了保证语义分析的效果,规则开发维护的人员会越来越多,会使得成本增加;另一方面因为规则的积累,导致规则混乱,在累加规则中,甚至会出现在手工維护规则后,规则的准确性和覆盖性越来越低。
2 文本分析常用方法
2.1 手工编写规则
1)提供大量的样本数据;
2)通过人工手动去打上相应的标签、关键字;
3)数据分析师根据关键词,输出分类对应的规则;
4)再用另外一部分样本去验证手工编写规则的准确率、覆盖率;
5)对于有明显某些分类的准确率覆盖率较低的分类,需要专项再重新去分析优化。
优点:
相应分类样本充足的情况下,准确率覆盖率都可以达到较高的值。
缺点:
需要大量的业务人员,能够对样本数据归纳分类;
需要大量的分析师,并且对分析师要求还较高,需要了解业务,能够通过大量数据识别关键字进行分析;
编写规则的周期较长;
规则需要定期维护,否则准确率覆盖率会逐渐降低;
由于样本局限性,在实际应用场景中,会有大量的数据匹配不到分类;
2.2 机器学习通过训练生成数据模型
1)提供样本数据(对比手工编写规则的量要小);
2)用样本数据做训练,生成数据模型;
3)用训练后的数据模型验证新的样本数据;
4)对于准确性较差的分类,需要再次调整优化数据模型,提高准确率。
优点:
规则周期短;
需要的人力少;
需要样本量相对来说少;
缺点:
整体的准确率达不到手工编写规则的值;
3 机器学习结合人工编写规则
3.1 方法论的产生
纯手工维护规则,可以使得某些分类的准确率达到很高,但是输出规则需要很长的周期,并且也很多人力支撑,输出的规则很有局限性,不在样本范围内的规则或者关键字,无法识别,后期需要很高的维
成本;
机器学习通过训练,能够很快速的生成数据模型,对业务数据进行分析。但是准确率无法达到手工收工维护规则的程度。
手工维护规则精度够,但是周期长、可扩展性不强;机器学习可扩展性好,周期短,但是精度不够。
那何不集合这两种方法的优点,提升规则维护效率,缩短规则生成周期,并且后期维护成本也不用那么高。
3.2 方法步骤
1)提供样本数据(对比手工编写规则的量要小);
2)通过样本数据做训练,生成数据模型;
3)用训练后的数据模型验证新的样本数据;
4)对于准确率较差的分类,需要再次调整优化提高准确性5)模型训练后准确性还是较差的分类,手工编写规则,提供准确性;
6)机器学习可以输出相应的关键字,提高了编写规则的效率;
7)对于后期新增的业务场景和数据,机器学习可以及时识别,降低了无法识别分类的概率。
3.3 方法论总结
机器学习和传统的手工编写规则相结合的方法,既提高了规则输出的效率,又保障了一定的准确性;既减少了维护工作的人力诉求,也保障了维护工作的准确率的稳定性。两者相互取长补短,互相融合使用,可以有效得提升规则维护得效率。