APP下载

基于网络爬虫技术的大数据采集系统设计

2021-01-14阎泽群

现代信息科技 2021年12期
关键词:财务审计数据采集大数据

摘  要:在电力企业运营大数据环境中,企业财务数据在公司审计工作中发挥着重要作用。财务数据是企业进行有效财务审计的基础,因此,确保企业财务数据的完整性、有效性和准确性,是财务管理工作的关键。文章基于企业财务审计工作的特点,利用网络爬虫技术,提出了企业大数据采集系统的设计方案。该系统的设计从数据获取角度出发,从互联网中获取有效数据,完成数据整合清洗,帮助企业在审计工作中及时发现漏洞,防止出现财务风险等问题。

关键词:财务审计;大数据;爬虫技术;数据采集

中图分类号:TP311   文献标识码:A 文章编号:2096-4706(2021)12-0083-04

Abstract: In the big data environment of power enterprise operation, enterprise financial data plays an important role in company audit. Financial data is the basis for enterprises realizing effective financial audit. Therefore, ensuring the integrity, effectiveness and accuracy of enterprise financial data is the key to financial management. Based on the characteristics of enterprise financial audit, this paper puts forward the design scheme of enterprise big data acquisition system by using web crawler technology. From the perspective of data acquisition, the system is designed to obtain effective data from the internet, completes data integration and cleaning, helps enterprises find loopholes in time in audit work, and prevents financial risks and other problems.

Keywords: financial audit; big data; crawler technology; data acquisition

0  引  言

現代科学技术的不断进步,使人工智能、大数据、区块链等一些创新技术应运而生。信息化的快速发展与企业财务数据有效采集之间的矛盾日益凸显,如果无法采集到真实、完整、有效的财务数据,势必会对企业审计工作造成一定障碍[1]。通常情况下,企业审计工作的数据获取主要来源于两个方面:一是企业主动向审计部门提供的数据,数据的完整性和真实性难以保证;二是从企业上级主管部门、企业公开信息、企业合作方获取的数据等。但企业审计工作中经常会忽略这些网络数据,这些互联网数据中隐藏的信息在企业审计工作中发挥着不可替代的作用,甚至会改变企业的审计结果。尤其是在经济市场领域信息化建设的不断深入过程中,企业审计工作中对财务数据的需求量越来越大,仅凭企业主动提供的财务数据很难发现潜在的漏洞和问题,因此,需要不断创新工作方式,主动对互联网数据、企业内外部数据进行采集,分析这些数据之间内在的关联性,这样才能尽早发现问题,寻找问题线索。综上所述,只有通过大数据采集系统,才能获取完整有效的企业财务数据,提高企业审计工作的效率。在信息时代、人工智能时代,为有效应对海量数据带来的调整,本文提出的基于网络爬虫技术的大数据采集系统能够有效地应用于企业财务审计工作中,防止企业出现财务风险,及时纠正和指导企业违法违规行为,提高企业财务风险防控的有效性[2,3]。

1  网络爬虫技术及原理

1.1  网络爬虫技术

网络爬虫技术(Web Crawler)又称为网络机器人,属于一种按照设计的规则自动获取互联网数据的脚本或程序。网络爬虫技术可以对整个万维网的连接进行遍历,实现自动检索和定位。网络爬虫技术可以从某一个网页页面开始,对该网页中的内容进行读取,获取网页中包含的网络链接,再从这些链接中读取并得到其他链接,如此循环往复,直到抓取完全部网页信息[4]。一般情况下,网络爬虫技术的爬行会沿着某一个方向进行遍历[5],网络爬虫流程如图1所示。

1.2  Scrapy网络爬虫框架

Scrapy框架能够从海量网络资源中获取有效数据(包括网页资源、历史资源等),是一种强大的数据挖掘应用程序。数据采集系统中应用Scrapy框架的案例比较多,主要是由于Scrapy框架可以从网页中获取大量非结构化数据,再将这些数据结构化;Scrapy框架的代码结构比较简单,易于维护。因此,Scrapy框架已经广泛应用于招聘网站、购物网站运营,以及数据挖掘领域[6]。

Scrapy框架是基于Twisted编程模型的数据处理框架,是通过Python编程语言实现的网络爬虫框架。Scrapy框架结构分明,扩展性强,各层次之间的耦合性比较低。Scrapy框架可以快速从网页中获取数据,爬虫效率高,可配置性强。Scrapy框架在提取结构性数据的同时具有反爬取功能,是目前应用最多的网络爬虫框架[7,8]。

2  系统设计

互联网中有价值的数据非常多,对于公司财务审计工作来说,只需获取与审计项目相关的数据即可。但是,采用网络爬虫技术的目的是尽可能扩大网页爬取范围,以全面获取结构化数据。然而,如果该过程没有明确的目标主题,会造成网络资源和网络带宽的巨大浪费,所获取的数据也无法为具体工作带来实际用处。因此,文章选用聚焦网络爬虫技术对数据采集系统进行设计,聚焦网络爬虫技术可以预先设定主题,按照主题对网页中的链接进行分析,准确获取所需内容,进而避免获取与主题无关的网页数据。

2.1  聚焦网络爬虫步骤

本文基于聚焦网络爬虫技术进行研究,从企业财务审计角度出发,以审计项目相关信息为主题,所设计的聚焦网络爬虫的具体流程为:(1)通过网络爬虫模块获取互联网中的网页;(2)分析财務审计项目主题,以及网络爬虫模块与财务审计项目主题之间的关联性;(3)网络爬虫模块根据统计分析结果进行数据处理;(4)按照网页权重设计网络爬虫队列;(5)网络爬虫模块主动获取每一个等待执行的URL,如此循环往复;(6)循环爬行,直到网络爬行队列为空。

由此可见,聚焦网络爬虫技术是根据事先设定好的具体主题完成数据获取,再对非结构化数据进行汇总。聚焦网络爬虫技术所获取的网页信息具有较强的相关性。通过对爬取主题的设定,可以大大节约网络资源和网络带宽,获取到的数据关联性也更强,有利于下一步具体工作对数据的高效利用。

2.2  网页搜索策略

聚焦网络爬虫技术的搜索策略是最佳优先搜索策略,该策略采用性能优良的算法,选择与设定主题相关的网页链接进行遍历,同时还可以提前设定优先级别,以先对优先级别高的网页链接进行爬取。因此,聚焦网络最佳优先搜索可以视为一种优先广度搜索,在进行网络爬取的过程中,其自动优先选择对主题“有用”的网页,最大限度减少与主题无关的网页。然而,聚焦网络最佳优先搜索策略也存在一定的弊端,致使无法爬取部分有效的网页数据。

2.3  判断主题相似度

为了有效地节约时间成本,避免过度浪费网络资源和网络带宽,在使用聚焦网络爬虫技术的过程中要提前设定主题,以达到从网页中获取有效数据的目的。本文选择了聚焦网络最佳优先搜索策略,预先设定主题,在网络爬取的过程中优先获取最具价值的URL,将聚焦网络爬行主题关键字的权重表示为TF·IDF。TF指的是网络爬取过程中词汇出现的频率,将TF进行定义得到式(1):

在进行聚焦网络爬取的过程中,根据情况设定阈值r。当cos〈α,β〉≥r时,判断为该网页页面与主题相关。

2.4  关键字多模匹配

Aho算法(Aho-Corasick automaton)于1975年在诺贝尔实验室提出,属于一种自动机搜索算法。Aho算法可以为待匹配的所有关键字创建一个状态机,只需对文本进行一次扫描,即可完成关键字匹配工作。一般情况下,在每次计算时字符串算法需要重新退回到原始起点位置,因此字符串算法的执行效率非常低。但Aho算法可以避免因退回而产生的资源浪费。本文大数据采集系统设计采用的是Aho算法,用于对关键字进行匹配。算法执行代码为:

q:= INIT_ STATE;// root

for i:=1 to m do

while g(q, T[i])=Φdo

q:= f(q);// follow a fail

q= g(q, T[i]);// follow a goto

nodes= q;

while node ≠ root do

if flag(node)≠Φthen print i,out(node);

node:=f(node);// backtracking

end for;

以上代码在执行过程中主要实现三个函数,分别是Goto函数、Output函数和Fail函数。T为目标字符串,目标字符串的长度设为m,q为节点指针,g为返回节点到路径目标的下一个节点指针,f为回溯节点指针,flag为标志节点。

2.5  主题爬取步骤

本文基于聚焦网络爬虫技术的大数据采集系统对主题的爬取流程为:

(1)系统初始化,对主题集合、URL集合、阈值、网络爬取深度、爬取数量进行定义。

(2)当爬取队列中不为空时,将URL置于Scrapy框架中进行解析,获取超文本标记语言。

(3)从URL集合中获取全部超链接目标,对URL进行归一化处理,放置于爬取队列中。

(4)对URL集合中的网页页面进行一系列处理,包括解码、降噪、清洗等,得到提取文本。

(5)对爬取到的文本与主题进行关联性判断,对有关联的网页页面数据进行存储。

(6)对新爬取网页中的URL进行处理后置于爬取队列中,按照优先级对爬取队列进行排序。

(7)重复以上步骤,直到获得的爬取队列为空,或者爬取到的数量已经达到所需数量。

3  基于聚焦网络爬虫的大数据采集系统框架设计

文章基于聚焦网络爬虫技术,构建了大数据采集系统框架,如图2所示。

具体的爬虫流程为:

(1)针对企业财务审计实际工作需求,确定大数据采集来源,对企业官网、合作伙伴官网、政府公开信息和各大门户网站进行大数据采集。

(2)构建初始URL,将其置于爬取队列中。

(3)利用Scrapy框架,通过网络搜索引擎调度器下载网页超链接文本,再根据超链接文本中包含的主题内容,在Scrapy框架中获取链接并加重网页页面。对于真实的网络链接,采用聚焦网络爬虫技术Scrapy框架进行爬取;对于渲染网页页面,则采用模拟浏览器的方式获取数据。

(4)对超链接语言文本进行链接抽取,进行与主题关联度的计算,如果是符合主题要求的链接,则将其置于URL种子队列中进行网络爬取。

(5)对于抽取得到的文本数据,在对其进行降噪、清洗和核对后存储到系统数据库中。

(6)对系统数据库中的数据进行分析,以提高企业财务审计工作效率。

4  基于聚焦网络爬虫的大数据采集系统的应用

天眼查是收录2亿条社会实体企业信息的商业数据库应用,本文将基于聚焦网络爬虫技术的大数据采集系统应用于电力企业节能环保专项资金审计项目,主要是利用爬虫技术对天眼查中上千家企业市场监管数据进行采集和分析,如图3所示。

本文通过基于聚焦网络爬虫技术的大数据采集系统,从天眼查应用中获取上千家企业工商数据信息,通过数据统计分析,对电力企业节能环保专项资金中是否存在骗补、伪经营进行有效查处,辅助审计工作人员进行审计判断,具有良好的实践应用效果。

5  结  论

综上所述,本文以电力企业财务审计工作为背景,对网络爬虫技术和相关理论知识进行了研究,提出了基于聚焦网络爬虫技术的大数据采集系统构建方案,对网络爬虫技术应用的具体步骤、网页优先搜索策略、主题关联性判断、关键字匹配和主题爬取流程进行了详细分析,设计了基于聚焦网络爬虫技术的大数据采集系统框架,以期能够为企业的财务审计工作提供完整、高效、可靠的数据资源。网络爬虫技术的应用不应该是简单的数据获取,而是应该将网络爬虫技术与算法模型、数据挖掘方法相结合,在大数据、人工智能背景下,充分利用关联规则数据挖掘、分类挖掘、网页异常检测等方法,主动发现企业财务审计工作中存在的问题和风险点。同时,还可以利用机器人规则和AI交互技术等,对网络进行深度遍历,分析网络社交特征等,从分散的非结构化数据中获取有用的数据信息,并对这些数据资源进行分类存储,在下一步的工作中不断挖掘数据资源之间的联系,预判数据资源的发展方向。

参考文献:

[1] 肖新凤,张绛丽,邓祖民.基于Python的爬虫技术的网站设计与实现 [J].现代信息科技,2020,4(14):73-75+78.

[2]赵北庚.基于Flask与爬虫技术的可视化深度学习数据标注系统 [J].电子制作,2020(20):36-37.

[3] 钟机灵.基于Python网络爬虫技术的数据采集系统研究 [J].信息通信,2020(4):96-98.

[4] 张泽吾.大数据法律保护模式的比较分析——以全国首例利用网络爬虫技术非法获取計算机信息系统数据案为例 [J].法制与经济,2020(3):5-6.

[5] 宋小满,黄鑫,王怀相.基于ASP.NET网络爬虫技术的公路货运价格数据采集方法研究 [J].铁道货运,2018,36(12):54-58.

[6] 刘贵平,刘娜,段红义.基于聚焦网络爬虫技术的人才招聘数据采集 [J].电脑编程技巧与维护,2018(5):69-70+75.

[7] 卞伟玮,王永超,崔立真,等.基于网络爬虫技术的健康医疗大数据采集整理系统 [J].山东大学学报(医学版),2017,55(6):47-55.

[8] 张明杰.基于网络爬虫技术的舆情数据采集系统设计与实现 [J].现代计算机(专业版),2015(18):72-75.

作者简介:阎泽群(1989—),女,汉族,山东淄博人,助理专业师Ⅱ级,硕士研究生,研究方向:多媒体应用系统类交互式界面设计与实施。

猜你喜欢

财务审计数据采集大数据
供电企业财务审计风险成因及控制分析
加强农村财务审计工作之我见
西部农村村级财务审计思考
现代网络技术在企业财务审计中的应用探讨
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
基于大数据背景下的智慧城市建设研究