搜索引擎数据管理系统的设计与实施
2017-05-30杨心博
杨心博
摘 要:在全网页搜索的强大技术支撑下,众多互联网企业推出了一系列优质互联网产品。这些不同形态不同数据所组成的产品,对于数据的需求也是差异非常大的。获得这些数据可以开展很多方面的工作,通过對这些数据进行分析来总结出大量的算法策略,可以更加快速的提升搜索引擎搜索质量,但是这种方式会需要大量的数据样本量,由于内部人力有限且成本控制不下来,无法满足这些数据的需求。
关键词:搜索引擎;数据管理;系统测试
1 关键业务流程梳理
人民搜索数据管理业务主要是围绕着搜索数据展开的,从数据需求的产生,到数据分析任务创建,到数据抓取、解析、存储和分析,再到任务验收,最终到数据产出结算。中间会涉及到对分析人员的管理、权限管理等与业务结合很紧密的基础管理工作。主要的业务流程分为两块:数据分析任务管理以及数据分析任务验收结算管理。下面是这两块的业务流程详细介绍。
(1)数据分析任务管理业务流程。
数据分析任务管理业务流程主要进行的工作是制定数据分析任务计划、创建数据分析任务、数据抓取、数据处理、以及数据分配和分析人员进行数据分析。部门经理的职责:对相应的计划进行审批,进行相应的把关。内部管理员的工作职责:首先内部管理员需要确定对哪些类型的主题数据进行分析,对数据分析任务汇总编制相应的数据分析任务计划,把相应的计划报部门经理进行审批,如果审核不通过,则需要重新对数据任务计划进行编制,直到通过为止。任务创建好后,提交到服务器中,服务器按照管理员的要求去进行数据调用或者抓取,若抓取不成功,则提示给管理员重新提交任务进行抓取,若抓取成功,系统根据设定的数据处理规则进行数据预处理,处理完毕后管理员就可以根据数据分析的情况来进行任务分配,将合适的任务分配给相应的分析人员去进行分析。
(2)任务验收结算管理业务流程。
数据分析任务验收结算管理业务流程参与者相对比较多,管理员、财务人员以及分析人员都会有比较多的参与。首先分析人员在接收到由管理员发出的分析任务后,开始进行任务分析,分析完成后,提交分析任务,若不成功,则需要去查看是否有遗漏的数据没有分析到。若提交通过,管理员收到来自分析人员发出的待验收分析任务,开始进行验收标准的制定,完成后依据验收标准要求来抽取相应的任务进行验收。若验收通过,则给相应的分析人员发送验收通过通知单,若没有通过,则需要分析人员进行返工,值到通过为止。
(3)功能性需求。
功能性需求主要分为:数据分析任务需求、数据抓取需求、任务分析需求、分析人员管理需求、数据验收需求和结算需求等几大部分,下面主要以数据分析任务需求、数据抓取需求、数据验收需求和结算需求来做详细介绍。
(4)数据分析任务管理。
数据分析任务管理主要的工作是能够录入数据分析任务,编制数据分析任务计划表,提交数据分析任务计划表给相应的部门经理审批,并反馈审批结果,根据通过的审批结果创建数据分析任务,并提交抓取。
2 数据分析任务计划管理
数据分析任务计划管理主要的工作是满足管理员录入数据需求分析任务计划、制定数据分析任务计划,提交给相应的部门经理审批。录入数据分析任务计划:数据分析任务计划名称、数据量、数据截止时间、具体要求、录入时间、录入人信息。制定数据分析任务计划:汇总数据分析任务数据数量、任务类别、编制人信息、编制时间、计划审核状态。
(1)数据分析任务管理。
数据分析任务管理管理主要的工作是根据审批过的数据分析任务计划,创建数据分析任务,并提交服务器抓取相应任务的数据,对数据分析人物进行分配,最后进行数据分析任务进度管理。创建数据分析任务:数据分析任务名称、创建时间、截止时间、创建人、主题规范、分析规则。
(2)分析规范管理。
分析规范管理是对数据分析进行的一个详细说明,在用户进行数据分析的时候,能够看到应该怎样分析。主要包括的内容包含分析规范名称、规范说明、规范详细内容、创建人和创建时间。
(3)任务验收管理。
分析人员在完成分析任务后,需要由任务创建者来对其结果进行验收,保证数据产出的质量。验收需要有验收的标准,需要能够在系统中完成,同时验收一般都是抽样处理,需要有一个抽样验收的功能,验收完成后将验收报告发给相应的分析人员。收管理。详细的需求如下:
a.验收标准管理验收标准在管理员开启验收任务之前给予提示,验收标准主要是一个文字说明,在制定验收标准时,能够将之前数据需求的主体规范、分析规则展现出来,供新建验收标准使用。
b.任务验收管理验收标准制定完成后就可以开始任务验收了,任务验收需要能够输入抽取数据的比例,并按照数据样本量的情况分层均匀抽取,抽取完成后创建一个任务验收表,管理员可以在任务验收表中进行数据验收。
(4)结算管理。
在验收完成后,需要对数据分析人员进行结算,同时需要能够在系统中编制报表和对账单,对支出以及任务的总体情况进行管理,主要的负责人为财务人员,这一块主要的需求点为:对账单管理、付款管理、报表管理。
a.付款管理:财务人员根据之前收到的任务验收报告,并查看相应的合同规定,来编制付款单。所以需要能够在系统中编制付款单,包括付款单号、编制人、编制时间、付款明细、收款人、验收报告编号等,编制完成后可以讲此提交给财务主管处审核,完成后进行付款操作,将付款单发送一份给数据分析人员和管理员。
b.对账单管理:对账单管理主要是将单个的数据分析人员每月任务完成情况和付款情况汇总后生成的一个单据。需要能够在线编制完成,完成后确认就可以直接发放给相应的分析用户。
(5)非功能性需求。
人民搜索数据管理系统是一个整个内部各类数据及处理的系统,会涉及到调用各类数据,抓取、解析、存储、展现等,同时由于搜索引擎内部的策略比较多,对数据的依赖度比较大,因而使用频率数据并发处理等方面要求都比较高。
3 总结
本文主要描述了人民搜索数据管理系统需要达到的技术指标和预期,将整个系统的需求、各个模块的流程和用例、以及系统在安全性等非功能性需求方面进行相近的阐述,对后面做详细的系统设计作支撑。
参考文献:
[1]施佺,王恒山,肖仰华,丁卫平.面向主题的垂直搜索引擎系统的研究与实现[J],微电子学与计算机, 201107.
[2]张敏.基于WEB的学科资源垂直搜索引擎的设计与实现[J],华中师范大学, 2012.