企业内网项目档案检索方法的优化
2017-11-09王建永
摘 要现阶段,计算机技术应用在各行各业,企业项目档案也全部转换为电子版,并构建企业内网档案检索系统方便管理。当前的企业内网项目档案检索方法存在效率低、准确率低的问题,已经无法满足企业使用要求。为此,提出一种基于计量算法的企业内网项目档案检索优化方法。该检索方法通过计量算法算法对档案数据进行分类处理,强化了信息查询环节,加强了检索的智能程度,提高检索效率,为档案检索技术发展提供借鉴作用。
【关键词】企业项目档案 数据 B/S模式 相关度排序算法
最近几年,随着计算机信息技术的高速发展,企业项目从立项、撰写项目计划、启动实施到项目结束,几乎都是通过计算机来完成,由此也产生了数量庞大的项目电子档案。而传统的档案检索技术耗时长、精准度差,给整体企业工作造成一定程度的影响。因此,本文提出一种基于计量算法的企业内网项目档案检索优化方法,该方法利用计量算法处理档案数据,增强检索操作过程的智能程度,大幅度地提高了整体检索效率,对未来企业内网项目档案信息化检索工作的发展提供示范作用。
1 企业内网项目档案检索计量算法优化
1.1 用户向量计算
用户向量计算时信息检索计算的重要组成之一,是决定整体检索计算是否准确的重要影响因素,能够为信息检索系统奠定坚实的基础,为此,本文首先优化用户向量计算。
人们在系统输入想要查询的文字内容时,一般围绕关键词,再输入一些限定因素,比如用来修饰关键词的定语,限制关键词范围或是说明关键词意图的词语,因此,本文所提信息检索计量算法优化区别与传统算法的地方是,更加慎重考虑了关键词所在位置,鉴于更加准确地掌握用户所要检索到的信息。
1.1.1 查询关键词重要程度
将用户输入平台查询的文字按照字符串经的方法进行分词,获得 n个所需关键词,而关键词排列的前后顺序就代表其重要性,以此规律为其匹配相适应的权重。设定关键词为L,其权重为:
且n≥1 (1)
代表第l个关键词的权重,n是关键词数量,i为求和变量。
改公式反映的是通过用户反复输入文字的频率,来确定哪个为关键词,搜索频率代表改关键词的核心程度。高频出现的关键词是需要的核心内容,关键词被输入平台中查询的频率越高,说明该关键词越重要。因此该算法充分考虑这一要素,以此获得更加准确的检索结果。
1.1.2 关键词历史查询次数权重
设定数据库中关键词个数为n,其查询次数为m,第1个关键词被查询的次数为f1,第2 个关键词被查询的次数为f2,…,第n个关键词被查询的次数为fn。定义第l个关键词的历史查询次数:
(2)
由公式(2)可知,代表第l个关键词检索次数的权重值,n为关键词数量,m代表关键词在整体数据库中检索次数,f1代表第l个关键词的检索次数。
利用权重值Wzy和Wly计算用户向量,用Q来表示。Q的定义式:
(3)
其中,Q1为用户向量的第l个值,Wzy(l)为第l个关键词的权重,Wly(l)为第l个关键被查询次数,m为对数据库共进行的查询次数,n为关键词数量,C1、C2、ω为调节常数,i 为求和变量。
公式(3)中,ω、C1、C2、均为常数,ω数值代表根据关键词查询频率得到的权重值。若
的数值过低,就表示这一关键词在上述向量查询公式里并不重要,可以作为辅助功能用词,甚至忽略不计。所以无法证明关键词查询频率对相关度具有影响作用。因此,需要参考上述公式的测试结果合理精确地调整关键词权重值。C1、C2、相加为1。这代表着在使用者眼里,关键词与歷史查询次数还是存在一定差别的,通过公式可知,关键词要比检索次数更重要,因此设定为C1>C2。
1.2 记录向量计算优化
一般情况下,数据库会通过表格形式进行数据分类存储,其中每一个表格都有大量字段,字段用于记录不同的关键词,如何在这些字段中排列出关键词的重要程度,是记录向量算法所要做的。
假设字段为μ,第1 个字段所在位置的权重值设置为θ1,第2 个字段位置权重值为θ2,依次列推,当字段为μ时,其位置权重则为θμ。
假设在第j 个字段关键词位置的权重值为:
θj表示常数,(4)
其中,Wwz(l)为关键词出现在第j个字段的位置权重,
代表所需计算字段位置的权重值总和,j代表字段,i是各字段求和变量,μ表示检索字段的数量,θj表示第j个字段的位置权重值。
通过上述公式计算得到权重值Wcs和Wwz,并用二者记录向量,定义为T,具体公式如(5)。
(5)
fp代表第p个字段数量,Wcs(l,p)代表在第p个字段出现第l个关键词检索次数的权重值,
代表整个检索平台全部字段位置权重的总和,代表在检索平台中第p个字段中第l个关键词的检索次数,θp代表第p个字段所处位置的权重值,Wwz(p)代表第p个字段在数据库中检索次数,xi代表第l个具体关键词,T1代表记录向量过程中第l个值,μ为字段数量,n为关键词数量,
代表在整体检索平台全部字段中,第l个关键词被检索的次数。
2 结语
通过计量算法对企业内网项目档案检索技术进行优化,该方法下的平台检索功能更加完善,准差率低,具有较高实践价值。但由于受到操作人员使用错误及研究能力局限性的影响,该计量算法还有很多不如意之处。因此,无论是从人员操作水平来看,还是现阶段研发水平开说,信息检索技术都具有巨大的进步空间,希望所提方法能够对企业内网项目档案检索工作提供帮助,并为其发展提供借鉴作用。
参考文献
[1]欧阳磊.基于分布式访问控制的内网搜索[J].中国航天第二研究院;航天科工集团第二研究院,2015.
[2]安建福,郑咏海.网络环境下高校科研成果档案信息检索的探讨[J].上海工程技术大学教育研究,2006(02):50-51.
[3]周铭,康蠡,赵德美.网络时代档案检索学科创新问题摭探[J].档案学通讯,2010(05):55-59.
作者简介
王建永(1980-),男,山西省朔州市人。硕士学位。高级工程师。主要研究方向为电力信息系统需求分析。
作者单位
广东电网有限责任公司信息中心 广东省广州市 510000