APP下载

改进TF-IDF算法在电商仿真实训平台中的应用

2023-09-04刘国柱张津烽王华东

计算机仿真 2023年7期
关键词:数据量主题词分词

刘国柱,张津烽,王华东

(青岛科技大学信息科学技术学院,山东 青岛 266061)

1 引言

从20世纪九十年代开始,中国电子商务飞速发展,已成为全球电子商务领先者。电商仿真实训平台的建设是企业需求人才培养目标导向的重要实践,也是目前中国高校电商专业教学改革的重要内容,在提高教学可实践性、前沿性,突破传统教学模式瓶颈,加强教学创新力度方面有重要的意义。仿真平台将模拟现实行业平台的运营思想应用于实践教学中来,为电商相关专业教学提供了真实互动的教学与实践环境,让学生在实践中提高岗位能力。在电商仿真实训平台中,学生可扮演六大角色:厂家、商场、外贸公司、银行、物流以及消费者,角色之间进行自主商务交互,展现电子商务交易,从原材料采购开始,制成中间产品及最终产品,最后通过网络服务平台将产品送到消费者手中。同时,电商仿真实训平台也是一个学生能力评测的教学应用平台,不仅能让学生在平台项目中进行实操,获得职业技能,而且可以将学生专业能力与就业岗位进行对应,实现对学生岗位能力的智能评分和评价。其中,商品详情是评测学生专业能力的重要内容,用户的购买意愿是通过描述来深入了解商品的,在很大程度上决定着商品的销售量,影响店铺的利润率。

商品编写能力的智能评测功能需要通过自然语言处理中的主题词提取技术实现。自然语言处理研究内容可细分到语法与句法分析、语义理解、语言认知、语言表示和知识图谱等基础研究,其应用领域有:文本的分类与聚类分析、信息抽取等[1]。国内许多学者致力于中文自然语言处理的研究,早期的如董振东先生的知网,哈尔滨工业大学信息管理实验室的同义词词林,黄曾阳先生的HNC理论等,都在各自的研究方向上对自然语言处理的发展做出了不同程度的贡献,极大地推动了国内自然语言处理的发展。日常所能获取到的信息中约有百分之八十是依赖自然语言商品详情的文本形式存在的,如何快速获取文章的主要内容取决于是否能够快速定位文章主题以及能否准确地获取文章的关键词[1]。从近年来主题词提取的研究进展来看,虽然针对短文本的主题词提取发展快速,但不足的是短文本应用方向的不同导致其文本格式差距较大,算法针对性强,适用范围也就大大降低。因此,短文本主题词提取这一领域,仍有很大的发展空间。本文在TF-IDF算法基础上,综合词语位置、词性、频率等特征并创新性提出数据字典这一特征强化方式对词语权值进行重定义,该方法提升了短文本提取主题词的正确率,并用于评测电商实训平台中学生撰写的商品描述。

2 问题描述

商品详情是内容包含商品的重要信息,是顾客近一步获取商品信息的方式。仿真实训平台通过商品详情与商品标题的契合度为依据评测判断学生编写的商品详情是否符合岗位能力要求,但商品详情一般文字相对较多,教师人工评测需要花费大量的时间,工作效率比较低,且不利于平台数字化过程评测的整体应用。因此,平台需要实现对学生编写的商品详情进行智能化评测,即通过提取商品详情中的主题词来检验描述是否紧扣主题,是否和商品标题相对应等。

目前,暂无适用于此类短文本主题词提取的算法。主流如LDA[2]、LSI,TextRank[3-5]、TF-IDF[6,7]等算法在长文本的主题词提取中应用较多,但在短文本主题词提取中效果不理想。综合考虑上述几种算法的特点,TF-IDF算法实现原理简单,操作复杂度更低,运行效率更高,本文在现有的TF-IDF算法基础上,保留算法简便、容易实现等优点,针对提取特征单一的缺点进行改进。改进后的TF-IDF算法将在商品详情类短文本主题词提取中更具优势,提升主题词提取的正确率,实现商品详情与商品标题契合度的更准确评测。

3 TF-IDF算法介绍

3.1 TF-IDF算法

TF-IDF算法主要评估字词对于一个文件集或一个语料库中其中一份文件的重要程度。字词对于一个文本的重要性会随着它在此文中的出现频率TF的增加而增加,也会随着它在文档集合的其他文档中的出现频率IDF的增加而减少[7]。TF-IDF算法基本思想是找到现文中出现频率较高但在其它文档中出现频率低的词语并以它去代表这篇文章。

3.2 TF的介绍

TF表示商品详情文本中一个词的出现频率。作为衡量一个词的重要程度的权值,TF的取值极大程度上决定了一个词被选取为主题词的概率[8]。TF的计算公式如下所示

IDF为逆向文本频率,可以由商品详情总条数的数目除以包含该词语的商品详情的数目,再将得到的商取对数得到。包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力[9]。其计算公式如下

其中,D为商品详情总数; |{j:ti∈dj}|为包含词语ti的商品详情数目,即ni,j≠ 0 的文件数目。如果该词语不在D中,就会导致被除数为 0,因此一般情况下使用|{j:ti∈dj}|+1,即公式改为

TF-IDF的公式为

TF-IDF=TFij×IDFi

由于不同商品的描述不同,即文本的长短不一。需要对公式进行归一化处理,处理后的公式为

式中:N为商品详情Di中特征词的个数;|{j:ti∈dj}|+1为包含词语ti的商品详情数目。

3.4 传统TF-IDF的优劣分析

传统的TF-IDF算法在长文本、多文档的情况下具有较好的提取效果。在足够长的文档中,各词语出现的频率更高,便于TF的计算。多文档的情况下,传统算法获得的IDF值更具区分性。其劣势在于传统TF-IDF提取特征单一,在短文本中计算的TF值与IDF值不具备区分性。此外,IDF是一种试图去除噪声的加权,词语出现的文档数越多,其代表一篇文章的能力越弱,由此降低词语的权值[9]。但对于商品详情这一特定形式的文档来说,同一件商品的信息,如:材质、名称、用途等描述性词语的重复度就会随着商品重复次数的增高而增高。假定商品详情总数为N,若物品i的数量为m,则商品i的名称就有可能出现m次,这样的词语恰恰是商品信息提取的关键词,而如商品的推荐性词语将会因店主的不同宣传有了更大的差异性,从而获得更大的IDF值,若使用传统的TF-IDF来提取,将会错漏重要的信息词。商品详情格式简单,通常以较短的文本对商品进行描述,词语的重合度较低。对于依靠词频来抽取关键词的TF-的IDF算法来说,无法通过频率这一单一特征有效辨别词语的重要程度。本文将在传统TF-IDF算法的基础上对IDF值的影响进行弱化,着重加强TF值及位置、词性等特征的影响。

4 算法的改进

4.1 根据词性设置权值

商品详情是对商品的描述介绍,篇幅较短,描述主要围绕商品和商品的各种属性展开,如:材质、颜色、成分等属性名称。此类词语为系统的主要提取对象,暂称为一类提取对象。通过分词结果来看,一类词中名词的占比近百分之百。其次是产品的属性值,如:颜色、材料等等,此类词语暂称为二类词,二类词中多为名词与形容词。第三种是表达产品用途和使用方法的词语,暂称为三类词,三类词中含有名词与动词,可以同词性词语在分词结果中做占比重对这三种词性的词语设置词性权重,对测试的一万条样本进行分词后的结果可得:在过滤掉停用词后,名词在剩余总词数中的占比达到近百分之八十,为体现这三类词的优先级并防止词性影响大于词频影响,可将三类词的词性权重设为0.8、0.5、0.3,权值影响因子的数学表达式式为

4.2 根据词语位置设定位置影响因子

商品详情的行文脉络基本为总分结构,即文段开头即会出现商品名称等关键信息。从采集的实际电商平台数据中随机抽取一千条进行观察,其中高达百分之九十七的商品详情格式为两部分:首先,总体介绍商品或者商品制造商;其次,分句对商品的各个属性进行介绍。针对商品详情文本的规律,可以提取文本词语的位置特征并融入权值的计算中,参考文献其位置因素的计算公式如下,其中Posi为词语在句中的位置,Address_leni为词语所在句子的长度,Weight_posi为词语i的位置权重

4.3 设置分词字典

传统TF-IDF不善于短文本的主题词提取,其主要是因为TF-IDF算法所能提取到的频率特征单一,而短文本中词语重复度低、词量少,仅仅靠频率这一单一特征难以发挥作用。商品详情重点是对商品的介绍,商品的种类很多,但相同类别的商品其属性名(如:材质、用料等等)一定相同,同类商品的描述越多,分词过后其属性值出现的概率越高。基于以上分析,可以用足够多的样本建立数据字典,计算各个分词的出现频率,以此强化文本特征的提取,以Num_Wi表示Wordi出现的总次数,Num_Di表示Wordi出现的总文档数,则每个词语出现的频率计算公式如下

在短文本中使用分词字典,可以有效解决TF-IDF因词量少、词频差距小而无法有效抓取文本特征的弊端。

4.4 改进分词结果

调用Jieba对文本进行分词后,文本将被分割为单字、二字或者多字的词语集合,一些动词-名词、名词-名词、形容词-名词的短语组合将被拆分。期望的算法提取对象是商品的名称以及商品的各种属性及属性值,如果同一修饰性的词语出现的频率过高,将会在一定程度上影响对期望对象的提取,间接的影响提取效果。所以,在前述主题词提取的结果中,找出与提取结果位置相近的动词、名词、形容词等修饰性词语,将修饰性词语与分词结果拼接,重新构成短语。

4.5 改进后的权值的计算公式

算法改进的目的在于提取尽可能多的文本特征,提升主题词的提取效率与准确率,使得原算法不局限于单一的频率特征。要实现的功能是通过主题词的提取来查验文本描述是否脱离了商品的实际范围,描述是否与当前的商品相对应。所以,在计算词语权重时,改进后的算法会基于词语的频率-逆文本频率进行多特征融合,使得主题词的抽取更加准确、完整[10-15]。权值的计算公式如下(除以3做归一化处理,防止数值过大)

其中:为词语i新权值,Ti=TF-IDFi,Pi=Weight_posi,Wi=Weight(Wordi),Fi=Freq(Wordi)

5 实现过程

5.1 实验过程

改进后的TF-IDF主题词提取流程如图1所示。

图1 算法运行流程图

其步骤可总结如下:

1)采集实验数据,对实验数据进行预处理,数据清洗、格式符号的清除、分词、词性标注、停用词过滤;

2)建立数据字典,计算各个词语出现的文本数n及各个词语在此次建立数据字典所用的文本中出现的总次数N,以N/n作为各个词语在数据字典中的频率值,将所得数据依次存入Excel中;

3)搜集词语在文中的具体位置信息,通过jieba分词获取词语的词性,获取词语的频率-逆文本频率值,导入数据字典Excel,获得词语在数据字典中的值;

4)结合所获得的特征信息带入权值计算公式,计算词语权值,并以权值降序排列;

5)对标题进行分词处理,过滤停用词,将处理后的剩余词语个数作为要提取的主题词个数,提取主题词。

5.2 评价标准

本次实验所用亚马逊平台数据本身并无标注,但从商品详情类文本的特性而言,其商品名称及标题可看作其主题词的集合。可以就标题分词结果进行过滤,过滤后的词语集合作为参照集。实验选用准确率 P、召回率 R、F1-Measure(F1值)作为评价指标;准确率 P 是标题分词处理后的词语集合与计算机提取关键词的交集和计算机提取关键词的比率,是用于评价查找准确程度的指标;召回率是用设定的关键词与算法提取的关键词的比率,是用于评价查找完全程度的指标;F1 因子是两者的综合指标,F1值越高,表示算法越有效。

6 实验验证

6.1 实验结果

不同数据量下改进前后的TF-IDF提取结果如表1、表2所示,同数据量(2000)下各算法的提取结果如表3、表4所示,各项数据准确率P、召回率R、F1值的对比结果如图2所示。P、R、F1对比散点图如图3所示:

表1 改进的TF-IDF算法在不同数据量下的实验结果对比

表2 改进的TF-IDF算法在不同数据量下的提取效果对比

表3 各算法同数据量下的提取效果对比

表4 各算法同数据量下的实验结果对比

图2 各算法的准确率、召回率、F1值柱形图对比

图3 改进TF-IDF在不同数据量下的实验结果散点图

6.2 结果分析

1)不同数据量下改进后的TF-IDF提取效果

数据量的大小不会对改进后的TF-IDF算法准确率与健壮性造成直接影响。改进后的TF-IDF算法融合位置、词频、词性等多方面的特征结合数据字典重新设立权值,词语的权值仅仅受到其自身特征影响,并不会因为数据量的上升而产生明显变化。但对标题进行分词后无法将噪声完全剔除,商品标题的描述方式不同会造成标题内赘词数量的变化,从而导致准确率、召回率的轻微浮动。因此,数据量的变化所造成结果的轻微浮动属于正常现象。

2)相同数据量下不同算法提取结果对比

通过实验结果可以得出结论:改进后的TF-IDF算法在正确率及召回率等方面已有明显提升。针对商品详情类文本的主题词提取,改进后的TF-IDF算法在准确率、召回率、F1值方面相较于原算法均有提升,原因为:改进后的算法针对此类短文本进行多方面的特征提取,弥补了原算法及其它三类算法在此类短文本中的缺陷,如LDA主题模型本质为词袋模型,不考虑文内词语的相对顺序。但改进后的TF-IDF算法结合了词语位置这一特征,可补足LDA在词语顺序这一方面的不足。所以,改进后的TF-IDF算法能更充分的提取文本词语在文中的特征。此外,由本文首次提出的数据字典这一特征强化方式可有效强化词语特征,提升词语的提取准确率。

3)算法尚存的不足

本算法提升了实验效果,也暴露出一些问题,如:改进后的位置影响因素同时作用在句子两端的名词,会同时提取商品的属性名及属性值,虽然它们同属商品主题词,但标题分词中不含商品属性名,降低了召回率。另外,算法无法识别如渔具、鱼竿、钓竿、钓具等同义词,影响了提取结果比对,降低了提取的准确率。

7 总结

改进后的TF-IDF算法经过实验验证取得了显著的效果,在电商仿真实训平台智能评测应用中,此算法可有效提取商品详情中的主题词,提高评测功能的准确率。通过提取的主题词与商品标题的分词结果做比对,可以验证学生编写的商品描述与当前商品标题的契合度,并可以通过主题词与标题分词结果的交集查验描述是否准确充分,利用算法对此进行查验可以保证评测的及时性和数据的有效性,减轻教师的工作量。同时,本文首次提出的数据字典特征强化方法,在一定程度上弥补了传统TF-IDF算法提取文本特征单一、权重分配不准确的问题。本算法通过对多文档进行分词,收集属性等词语出现的频率信息,将短文本词语少、频率低的问题放入多文本、大词量中进行解决。经过实验证明,对商品详情这类主题范围明确的特殊文本,数据字典可有效提高算法提取的正确率,最终很好的实现了对学生专业能力智能评测的平台功能。

猜你喜欢

数据量主题词分词
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
分词在英语教学中的妙用
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
结巴分词在词云中的应用
结巴分词在词云中的应用
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引