APP下载

面向内容文档管理系统的研究

2012-10-14刘义丰

科技传播 2012年6期
关键词:词法关键字词典

刘 杨,陈 帅,赵 稳,刘义丰

天津市博盈科技发展有限公司,天津 300200

1 系统的研究目标

随着信息技术的深入发展,计算机给工作、生活等带来了极大的方便,在极大地提高劳动生产率的同时,给社会带来了无限的商机与财富。但随着各个企事业单位对计算机使用程度的不断加深,大量的、不同类型的电子文档管理和利用成为越来越显著的难题。尽管文档管理人员花费了大量的精力和时间通过各种分类方法去管理和维护电子文档,但在实际工作中检索所需文档依旧要花费大量时间。如何有效、安全的对大量电子文档进行管理和利用成为文档管理人员和文档使用人员的当务之急。工作人员在检索文件的时候往往不是需要找到“包含”某个关键字的文档,而是希望找到与搜索目标相关性最大的文档。

因此,理想的文档管理软件的目标设定为:

1)高效率:在检索海量文档的时候,能以较高的速度返回结果。

2)高准确性:可根据文档内容进行查询,并根据待查询文档和查询条件之间的相关性进行排序,在最短的时间内找到内容最相关的文档。

3)高灵活性 :管理各类文档 :txt、eml、doc、docx、html、xml、pdf等等;同时考虑一个文档的多个版本。

4)高适应性:适应各个行业的特点。比如律师行业、建筑行业、会计师事务所等等所用的文档中的词汇有较大不同,应该区别对待。

5)高易用性:支持模糊查询,支持复杂查询条件,支持同义词;

2 系统的关键技术路线

文章涉及到的技术原理简述及设计原理如图1。

图1 设计原理图

在设计文档管理系统中,开发的重点和关键技术如下:

1)文件分析分析技术:通过文件分析器,将用户纳入管理的电子文件进行分析。通过分析配置器使文件分析器能面向多种格式文档的内容,忽略文档格式,以保证面向多类型文件;

2)词法分析。根据系统管理员设置的精度和选择的专业词典,将信息转化为关键字信息;

3)专用索引数据库开发及使用技术:开发专用数据库以保存文档相关关键字、文档访问路径、权值(相关度)、访问权限、文件版本信息等信息。分析用户权限、根据关键字组合对索引数据库进行扫描,得到组合权值最高的前若干条数据,反馈给用户,对之后部分数据进行缓存。当关键字组合查询频度较高时,缓存前一部分的查询结果,以提高查询效率;

4)服务接口,根据协议提供文件利用、备份接口。

面向内容文档管理系统的技术路线分为以下几个步骤:文件分析、词法分析、索引保存、用户检索关键字分析、数据检索、返回结果。系统框架如图2。

图2 系统框架图

1)文件分析:通过文件分析器,将用户纳入管理的电子文件进行分析。通过分析配置器使文件分析器能面向多种格式文档,忽略文档格式,将文档内容生成XML文件进入内容词法分析。同时,分析文档是否修改文档和重复文档,是否有安全级别等等;

2)词法分析。根据系统管理员设置的精度和选择的专业词典,将信息转化为关键字、出现频度和文章权重的信息,并将如下信息提交给专用文档索引数据库;

3)索引保存。保存关键字、文档访问路径、权值(相关度)、访问权限、文件版本信息等信息;

4)用户检索关键字分析。通过词法分析中间件对用户搜索关键信息进行分析,将搜索信息分解成为搜索关键字和同义词并提交索引数据库进行检索;

5)数据检索。分析用户权限、根据关键字组合对索引数据库进行扫描,得到组合权值最高的前20条数据,反馈给用户,对后60条数据进行缓存。当关键字组合查询频度较高时,缓存前20条查询结果,以提高查询效率;

6)返回结果。用户根据返回结果对文件进行访问,如果访问出现异常,则记录异常、标记异常文档。

主要的功能的在现有的产品如Lucense中有比较完善的实现,但仍然有许多需要进一步细化的工作:

1)面向多种文档的特征配置器的开发使用。提高系统的可扩展性,使系统能面向多种文档。文档提供者提供的文档往往是多类型的。文档可能包含几个大类:MS Office,PDF,金山Office,文本文件,email,其他文档。现有的检索只能识别对其中的几类文档。应该可以通过对文档特征的配置,增加指定文档的特征配置文件,以保证文档可以进行分析查询,使系统具备了近乎无限的扩展性;

2)结合专业词典及专业词典生成器。保证分词的准确和词汇量的丰富。根据各个行业专业词汇的不同,对词语精度的要求,对同义词的定义等等,以明确使用各类的词典,减少语言的歧义性。生成器可以分析多篇专业文档并和日常工作词典相比较,自动生成专业词典生成器;

3)面向多类型文档的高速分析器。结合windows/Linux底层文件系统构建文件分析中间件,结合文档定义以进行高速分析并索引;

4)多方式词法分析技术。引入多种词法分析技术,根据用户不同的要求,可按照不同精度进行词法分析。基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

3 系统展望

内容相关文档管理系统是海量文档管理的必然方向,是文档共享和资源利用的有效手段。为了有效的体现文档资源社会价值和经济价值,可以对不涉密的文档向局域网或internet网进行共享。可以说面向内容文档管理系统有着广阔的市场前景和巨大的经济价值。

[1]Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom.Database Systems:The Complete Book(数据库系统全书).Prentice Hall/Pearson,2003(机械工业出版社影印版).

[2]Baeza-Yates, R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press, 1999(国内有机械工业出版社出版的影印版和中文翻译版).

[3]李国辉,等著.信息的组织与检索.科学出版社,2003.

[4]Witten, Ian et al.Managing Gigabytes.Orlando, FL:Morgan Kaufmann Publishers Incorporated,1999.

[5]William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms.PrenticeHall,1992.

[6]Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann,1997.

[7]李晓明,闫宏飞,王继民著.搜索引擎-原理、技术与系统.北京:科学出版社,2005.

猜你喜欢

词法关键字词典
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
成功避开“关键字”
评《现代汉语词典》(第6版)
词典例证翻译标准探索
谈对外汉语“词法词”教学
《胡言词典》(合集版)刊行
2010年高考英语“相似”考题例析
智能垃圾箱