APP下载

基于企业海量电子文件的数据采集模型

2018-05-08杨迪陈雪萍冯宇李沛斐陈风熙

电子技术与软件工程 2018年22期
关键词:电子文件数据采集

杨迪 陈雪萍 冯宇 李沛斐 陈风熙

摘要 文章在参考前人研究结果的基础上,结合闭着多年的工作经验,提出了企业海量电子文件数据采集模型,并详细介绍了该系统的数据采集来源、数据预处理流程、数据清洗方法以及数据转化功能等模块,力求为企业海量电子文件数据的采集和管理提供可靠的参考依据。

【关键词】电子文件 数据采集 数据预处理数据清洗

在互联网技术日益完善、多媒体功能逐渐强大以及先进办公软件不断普及等因素的共同作用下,电子文件已被广泛运用于企业中,且因其与纸质文件相比,具有可塑性高、便捷性强以及传递速度快等优点,有效的增强了文件在企业生存与发展中的价值,为企业及时获取文件信息、全面运用信息资源等都创造了良好的环境。但是,随着电子文件种类和涉及范围不断增多,企业传统文件管理制度、管理方法以及管理软件中存在的问题也在不断显现出来,严重制约着电子文件真实性、完整性以及及时性的提升,大大降低了电子文件的价值和使用价值。换而言之,要想增强电子文件的使用质量和利用效率,我们就必须要建立符合海量电子文件数据采集模型,因此,对本文进行深入的分析与研究具有十分重要的意义。

1 电子文件数据采集来源

文章对电子文件数据采集主要分为两部分,一部分是通过爬虫等系統采集的数据,另一部分是企业现有的电子文件资料数据。这两部分数据在被收集以后,并不能直接作为企业海量电子文件的数据源,需要通过数据预处理平台进行数据的清洗,转换和过滤,最终将完整的有价值的数据保存到企业电子文件数据路中。

1.1 数据采集器

数据采集器主要包含了调度器、采集器以及预处理三个部分:

1.1.1 调度器

调度采集和预处理器进行数据采集和预处理。调度方法可以采用定时、事件触发方式。

1.1.2 采集器

(l)爬虫系统:自动抓取网页及链接的网页内容,适用于内外网网站Web内容的采集。

(2) ETL程序:采用存储过程、脚本或外部程序来读取被采集系统的新数据。

(3)上传接收:个人整理或原创的文档,通过上传方式采集。

1.1.3 预处理器

完成对采集到数据的加工处理,转换产生文库需要的数据格式。

(l)过滤器:将不符合条件的数据过滤掉,保证进入文库数据的质量和价值。

(2)清洗:处理脏数据。

(3)转换:数据编码映射转化;调用搜索和大数据引擎进行全文索引处理。

1.2 数据采集来源

企业电子文件数据主要来自以下三个渠道:

(1)系统来源:主要是针对电子文件系统与档案管理系统中面向全网开放的电子文件。结构化数据,通过ETL工具采集数据,非结构化数据通过文本信息分析技术进行采集;

(2)个人来源:针对个人上传的电子文件分为普通文件与私有文件,普通文件任何人可以检索和阅读,私有文件仅自己可见,针对私有的电子文件可以设置共享或是授权共享的功能;

(3)外部来源:主要是引入外部的资源如:知网、万方等外部资源,所有引入的资源面向所有用户公开;个人来源和外部来源将会完善和丰富文库的数据内容,增强其专业性,满足员工对专业化文档资料的需求。

2 电子文件数据预处理平台

2.1 数据的预处理

随着电子信息化的发展,企业现存的电子文件数量越来越庞大,数据的种类繁多,不同系统中存储的电子文件内容和格式都不尽相同,为了保证在企业数据库中电子文件资料从数量和质量达到最优的效果,所以需要将采集到的电子文件资料进行预处理,从而提高系统的性能和用户的满意度。预处理流程为:数据预处理是企业电子文件的数据准备工作,一方面保证企业电子文件数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合电子文件数据库的需要。系统收集到元数据后,需要经过预处理平台对数据进行处理,用全新的“数据模型”来组织原来的电子文件数据,摒弃一些重复的、无效的垃圾数据。为企业电子文件数据库提取干净、准确、更有针对性的数据创造良好的环境,从而减少系统的数据处理量,提高使用效率,提高发现资料数据的准确度。

2.2 数据清洗

数据清洗是清除错误和不一致数据的过程,主要任务是过滤或者修改那些不符合要求的数据。将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。数据清洗需要解决的数据质量问题主要有空值问题,错误值问题和不一致的数据等。缺失值的清洗方法主要包括下面几种:

(1)忽略其属性包括缺失值的记录。

(2)某些缺失值可以从本数据源或其他数据源推导出来。由于原始外部数据不同,录入习惯不同,不同系统对记录属性的要求不同,导致同一实体对应的各个记录缺失程度不同,通过清洗可以得到一条相对完整的记录。

(3)可用平均值、中间值、最大值、最小值或更为复杂的概率统计函数值代替缺失的值。

(4)人工输入一个可接受的值。对于大规模的数据量一般不采用该方法。错误值的检测及清洗方法包括以下几种:1利用统计分析或人工智能的方法检测属性可能的错误值或异常值。2使用简单规则库(常识性规则和业务特定规则等)检测和修正错误。3使用不同属性间的约束检测和修正错误。第四,使用外部数据源检测和修正错误。

2.3 数据转换

从数据源中抽取的数据不一定完全满足存储的要求,例如数据格式的不一致、数据输入错误、数据不完整等等,还要对采集到的数据进行数据转换和加工,保证数据按共同理懈的业务需求转换为目标数据结构。不一致数据转换,这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个分类数据增加分类编码,这样在抽取过来之后统一转换成一个编码。在数据结构中数据之间的关系通过转换成线性关系存储。线性表是一个比较灵活的数据结构,它的长度根据需要增长或缩短,也可以对线性表的数据元素进行不同的操作(如访问数据元素、插入、删除数据元素等)。

3 结束语

随着企业电子文件的使用频率和使用范围不断扩大,传统电子文件数据采集系统中存在的弊端也在不断凸显,很难满足企业对电子文件的管理需求。文章所提及的数据采集模型在提升电子文件管理质量和管理效率等方面都有着极为显著的作用,值得我们在今后的工作中不断推广和使用。

参考文献

[1]杨强,胡心宇.基于HBase的海量电子文件元数据管理的研究与实践[J],贵州电力技术,2017,20 (10):69-73.

[2]张琳.基于海量数据的市场投放策略研究[D].浙江理工大学,2018.

[3]邓芳.大型物联网电子设备的海量数据高效挖掘方法研究[J].现代电子技术,2016, 39 (04): 159-162.

猜你喜欢

电子文件数据采集
电子文件检查归档移交备份存储机研究
浅谈电子文档与纸质文档在保护技术上的差异
档案管理中电子文件的存储探究
浅谈电子文件的全过程管理
基于开源系统的综合业务数据采集系统的开发研究