基于TF-IDF算法的供应链信息定向挖掘模型
2021-11-17范增民刘彩娜
路 健,范增民,刘彩娜
(河北地质大学华信学院,河北 石家庄 050700)
1 引言
伴随经济全球化发展趋势的不断发展,市场资源发生巨大改变,信息化在供应链管理中发挥着至关重要的作用。信息是供应链的驱动元素之一,是供应链每个环节的沟通载体[1],具有连接与增强供应链全局效率与效益的功能,可为供应链决策者提供事实依据。供应链内包含诸多内容,如信息流、物流和资金流等[2]。不同工作内容对信息的选择也各不相同,实现高效快速的信息定向挖掘是目前供应链数据应用领域的重要问题之一。
阮阳[3]等人提出了一种基于爬虫技术的定向信息检索挖掘模型。根据逆k近邻中出现的枢纽现象以及与离群数据的关系,利用k近邻中的距离信息作为权值实现离群分数加权,然后随机产生区分度临界值,依据爬虫技术挑选离群程度最大的多个数据对象当作离群数据。但该模型运算时间过长,其时效性有待增强;刘海涛[4]等人设计了基于潜在因子模型的信息定向挖掘及匹配模型。该模型使用高频项目集合,不断深化迭代的方法形成自顶向下挖掘过程,整合模糊集合理论和潜在因子模型,在事务数据集内探寻模糊关联规则,挖掘出储存在多层次结构事务数据库中定量值信息隐含知识,完成定制化信息挖掘需求。但该模型在处理大规模、高维度、包含非线性关系供应链信息时,挖掘效果并不理想。
针对以上方法不足,本研究建立了一种基于词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法的供应链信息定向挖掘模型。在分析用户对供应链信息的内在需求的基础上,运用TF-IDF算法计算信息权重大小,然后利用支持向量机方法建立高效率供应链信息定向挖掘过程。
2 供应链信息定向挖掘取向分析
供应链信息挖掘取向是定向挖掘重要的前提条件,也是整个挖掘工作的关键知识源。以用户为核心,根据用户需求为其提取想要的资源,明确信息挖掘范围[5]。因此,建立用户层次向量空间模型,该模型决定了用户对供应链中哪类信息的关注程度。层次向量空间模型使用树形结构对进行分类,运用向量空间模型描述用户信息挖掘取向。
首先使用三层树状结构表示用户取向模型,第一层节点为用户,第二层节点是用户信息取向,一个信息取向拥有若干取向特征项,第三层节点为用户某个取向主题下的特征项。将用户模型架构如图1所示。
假如用户具备m个不同取向的兴趣主题,则将用户取向模型描述成以下特征矢量
Model={(T1,W1,n1),(T2,W2,n2),…,(Ti,Wi,ni)}
(1)
式中,Ti是第i个取向特征矢量,Wi是取向权重,ni是第i个取向涵盖的信息数量。将Wi采取初始化,得到
Wi=I(page1)I(page2)…I(pageni)
(2)
式中,I(pagek)(k=1,2,…,ni)是用户对网页的兴趣,即网页兴趣度。
主题Si内文档实例提取关键词特征项如下
Si={(ki1,wi1),(ki2,wi2),…,(kij,wij)}
(3)
式中,(kij,wij)表示Si类的第j个取向关键词条,kij表示关键词,wij是关键词kij的权重。
现阶段的有关工作多数围绕浏览行为判断用户对供应链哪些页面内容兴趣较大。利用相关性分析获得五个典型浏览行为:储存页面、打印页面、Bookmark、访问数量与停留时间[6-8]。五个浏览行为是用户取向性分析的最优组合。设定I(w)是用户对页面w的兴趣度,将I(w)记作
I(w)=φ(S(w),P(w),B(w),F(w),D(w))
(4)
式中,S(w)代表保存页面,P(w)是打印页面,B(w)表示把页面储存于Bookmark内,F(w)是页面访问频度,D(w)是在页面内的停留时长。
对于保存页面、打印页面、Bookmark页面三类行为来说,有其中一个行为发生就证明用户对该页面拥有很大的兴趣取向,将评估过程记作
(5)
针对用户访问页面,用户对页面访问次数越多,且页面浏览速率越缓慢,证明用户对该页面信息兴趣越高,获得如下定义
(6)
式中,w表示用户访问页面集合,Size(w)是网页w的大小。为化简取向分析过程,设定α值等于0。用户信息取向的计算考虑访问页面变换成文本实例后的文本大小
(7)
3 基于TF-IDF算法的供应链信息文本权重计算
在明确用户对供应链信息取向后,可为后续定向挖掘提供可靠依据。在构建定向挖掘模型之前,首先要确立词位置与词跨度对定向挖掘中关键词权重的影响。传统信息预处理无法阐明词语在文本内的分布状态,本文在信息预处理过程中引入词语段落标注技术[9],融合数据结构实现信息预处理目标,排除多余信息干扰,增强定向挖掘效率。
采用四元组〈ci,tfi,di,li〉描述预处理后的文本集合,其中,ci表示词语,tfi表示词语的词频,di表示词语处于文本内的位置权重,li表示文本内出现处于的段落个数。详细计算过程为:
1)将语料库采取分词处理;
2)去除停用词。也就是提出文本内出现次数很多,但对所需供应链信息不拥有代表性或代表性较低的词语;
3)识别未登录词语。未登录此表示文本内无法使用词典识别的词语,如人名、地名、专业术语等[10]。未登录词大部分为名词,即专有名词与新词汇。通常阐述的是固定对象,具备很强的重要性;
4)统计分析。统计词语的词频、位置和出现该词语的段落数量。对词语实施位置权重计算时,使用表1的推导原则,将最终获得的四元组当作信息预处理结果。
表1 位置权值系数
设定文本集合为C,N是C内所有文本个数。在固定文档e中,使用TF-IDF算法算出固定词i的权重解析式
(8)
式中,fij是词语i在文本dj内出现的频度,Ni是文本内出现词语i的文本个数,β表示经验值,通常取值为1。
从式(8)可以看出,词语i在文本内出现的频度越大,在文本集合内出现的概率越小,词语的权重越大,证明涵盖的信息熵越高,拥有很强代表性。
词汇的跨段落状态证明该词汇是阐明局部还是表达全文。跨段落次数越多,表明词汇越关键,全局性越高。局部关键词不在信息挖掘范围内。在其它算法中,局部关键词通常会因为其高频率变成文本中心词,减少了获取关键词的正确性[11]。为此,设计一个词汇跨度权重,其计算过程为
(9)
式中,li是词汇出现的段落,L是段落数量总和。
针对文本内随机一个候选供应链关键词,按照位置权重和跨度权重,创建基于改进TF-IDF算法的文本权重计算公式
(10)
通过式(10)获得各个候选关键词的综合权重,按照权重对候选关键词实施排列[12],利用排列,可以挑选前g个关键词当作文本关键词,减少供应链信息定向挖掘所耗时间。
4 供应链信息定向挖掘模型构建
支持向量机是一种机器学习方法,通过线性可分前提下的最优分类面拓展得到的,最优分类面即要求分类面既能把两个类别进行准确划分,且分类间隔距离大,和最优分类超平面距离最接近的向量为支持向量。
将支持向量机线性可分训练集合描述成如下形式
T={(x1,y1),(x2,y2),K,(xn,yn)}
(11)
式中,x∈Rn,y∈{-1,1}。基于此可得到
f(x)=sgn((ω·x)+b)
(12)
倘若具备如式(12)的判别函数,则在线性条件下,把最优分类超平面使用图2中的二维模式进行说明。
图2 最优分类超平面示意图
图2中,较粗的实线H为分类面,空心点与实心点依次表示两种样本。H1、H2是和分类面平行的平面,该平面取决于各种分类线最近样本,两个平面的间距是分类间隙。
通过式(13)能划分两个样本的超平面。式中,ω表示权重指数,b是偏置项。
ω·x+b=0
(13)
为了让分类超平面可以最大程度划分两种样本,提高所建模型定向挖掘性能,需要让间隔为最大,也就是创建一个间隔优化问题,可得到
(14)
在线性不可分情况下,某些样本点无法符合式(14)计算条件,则代入松弛变量,将式(14)转变成
s.t.yi(ω·x+b)≥1-ξii=1,2,K,n
(15)
经过引入拉格朗日乘子就把初始的约束优化问题变成对偶问题,可得到
(16)
经过计式(16)获得如下计算公式
(17)
最终获得线性判别函数如下
(18)
通常大部分系数αi的值是0,不会影响定向挖掘结果。增量学习是把新引入的训练样本当作增加向量,对原始训练样本获得分类器实施训练,让重新获得的分类器具备良好的区分效果。对增量学习时的各类新增训练集而言,支持向量集合即为向量集的子集,详情如图3所示。
图3 壳向量和支持向量之间的关联
针对供应链信息定向挖掘,多Agent是现阶段使用最多的技术手段。企业网络化数据库可采用Agent映射出定向信息源特征属性,构建贴合企业供应链目标查询的模型,如图4所示。
图4 供应链定向挖掘模型
模型关键思路为:对分站点数据集实施支持向量机局部信息挖掘,将局部挖掘获取的支持向量表示成局部特征多叉树,经过移动Agent把支持向量机与壳向量信息传输至下个站点,把新增样本和原有样本融合后进行信息挖掘,伴随样本集的不断积累,逐步提升学习精度,最终完成供应链信息定向挖掘任务。
5 仿真与结果分析
为验证上述基于TF-IDF算法的供应链信息定向挖掘模型的实际应用性能,设计如下仿真。将其与文献[3]中的基于爬虫的定向信息检索挖掘模型、文献[4]中的基于潜在因子模型的信息定向挖掘及匹配模型进行对比。仿真参数如表2所示。
表2 仿真它参数设置
在以上仿真参数下,从挖掘效率与挖掘错误率两方面对3种模型的性能加以验证。
以挖掘过程耗时为指标,验证不同模型的挖掘效率,对比结果如图5所示。
图5 不同模型挖掘效率对比分析
从图5中可以看到,伴随节点数量的持续增多,本文模型的挖掘过程耗时始终保持较低状态,仅在最初时略高于文献[4]模型,说明其挖掘效率较高。这是因为本文模型采用TF-IDF算法计算文本权重,能降低供应链信息定向挖掘时间损耗,充分利用网络节点挖掘能力,所以挖掘效率为最高。而传统模型因为忽略了计算节点数量增多时可能具备的竞争元素,所以运算挖掘效率不佳。
为深入验证本文模型的应用效果,以挖掘错误率为指标对不同模型加以验证,对比结果如图6所示。
图6 不同模型挖掘错误率对比分析
从图6中可以看到,伴随节点数量的持续增多,本文模型的挖掘错误率始终小于2种对比模型,且上浮程度较小,始终保持在10%以下。原因在于本文模型利用支持向量机机器学习模式,可得到优秀的信息分类精度,运用多Agent技术构建出符合企业供应链查询需求的定向挖掘模型,挖掘错误率得到有效遏制。而文献[3]模型在挖掘中没有对数据进行修正,文献[4]模型在寻找模糊关联规则时的精度不高,难以获得满意的数据挖掘结果。
6 结语
针对传统的供应链信息定向挖掘模型存在的精准度不高、效率低的问题,本研究构建了基于TF-IDF算法的供应链信息定向挖掘模型。该模型能有效甄别用户对供应链若干信息中的哪类信息需求最高,且定向挖掘时效性强,大幅提升了定向挖掘整体性能,为精准提取供应链信息发挥关键作用。今后会对模型动态性与并行运算等方面开展深入研究,进一步提高模型的适用性。