如何利用网络爬虫插件抓取审计所需数据
2021-05-27
数据时代,数据来源多渠道,数据格式多样化,各种数据处理和分析技术不断应用于审计。本文以常见的房屋出租租金审计事项为例,介绍如何利用网络爬虫插件抓取房屋出租类垂直网站某地段房屋出租信息,再进行整理分析,得出审计所需房屋出租价格等信息。
一、明确审计需求,搜寻所需数据
我们常见的数据来源有被审计单位提供的数据、审计机关积累的历史数据和互联网公开的数据。审计中需要根据具体项目,并考虑条件及技术可能性,提出细化到核心字段的明确需求,为下一步分析数据做好铺垫。就本文而言,要识别审计对象出租房屋租金是否合理,就需要有相对可比性的价格做参考。常见思路是与同一地段、同一类型房屋出租价格进行比较。明确了这个需求之后,开始网络搜索,查询房屋出租行业排名靠前的几个网站,特别是当地实体门店较多的网站。抓取的数据均为写字楼等办公用房,根据地理位置,对同一楼盘、相近楼分类整理,去掉每一类网站的最高值和最低值,再进行简单的求平均。也可根据需要,对数据进行更为复杂的清洗整理,得到更为准确的参考信息,为下一步延伸审计锁定方向。
二、熟练掌握工具软件,获取必要数据
本文以介绍抓取“房天下”办公用房出租房信息为例,说明如何取得网络数据。
第一步:计算机软件工具准备。本方法需要用到Google Chrome浏览器和Web Scraper插件,两种软件都是免费的,可以在互联网下载并安装。
第二步:确定要抓取的信息。进入网“房天下”站首页,点击“写字楼”标签,“房天下”网站列出有100页近6000条办公用房出租信息,为提高效率,本例选择“东湖高新”区域,数据缩减为29页1713条办公用房出租信息。实际应用中根据情况取舍,定位越准,搜索的结果可比较性更强,但相应的数据量少,可信度也会降低。本案例的抓取网站首页地址确定为:
https://wuhan.office.fang.com/zu/house-a013126/
根据审计需要,抓取的信息包括出租房源标题、租金、出租房源地址、出租房源楼盘名称、房源等级和装修标准和物业费等信息。
第三步:分析站点结构。分析该网站网页层次,页面分割标记等内容,确定Web Scraper抓取所需要的参数。
打开Web Scraper,设置相关参数。本案例的主要参数设置如下:
(1)设计抓取结构图(图1)
图1
(2)抓取项目名称及地址
Sitemap name:example_fang(可随意命名)
StartURL:https://wuhan.office.fang.com/zu/house-a0131 26/?i3[2-29:1]
(3)Jump跳转页面参数
Type:Link
Selector:.title a
Multiple:√(打勾)
(4)数据抓取页面主要参数如图2示
图2
第四步:测试运行,抓取数据。数据不符合要求时调整相关参数,直至抓取的数据符合要求为止,抓取的数据另存为csv格式文件,再在Excel中处理。另外抓取脚本也可以导出分享他人使用,参数无需再次设置。
第五步:整理分析已保存的Excel数据。本案例根据位置信息,对抓取数据的先进行筛选,再进行了简单地去掉最高值和最低值、求平均操作。本案例抓起的数据,还可以根据出租租房源楼盘名称、房源等级和装修标准等进行更为细致的分析。
三、插件提升了审计效率,仍需知晓数据不足
抓取租房网站的公开数据,数据来源广,数据量大,相较传统到现场到房屋中介走访调查和其他租户交谈等方式取得的参考价格可信度更高,也更为快捷。需要说明的是,互联网公开数据,一方面透明度相对较高,另一方面数据来源参差不齐,质量不高,审计人员可通过多收集类似网站的数据,扩大数据来源渠道和数据量来克服数据质量不高的问题。
四、方法可拓展,审慎得结论
本文介绍的方法也较容易拓展其他审计应用。诸如政府购房服务的价格,在审计实践中难以判断高低,通过查询抓取各地政府类似购买服务中标公告,再进行简单的数据整理,也可以得出非常有价值参考数据。再如在涉及民生的审计项目中,可以抓取一些网站投诉类信息,从中寻找审计线索,迅速打开审计突破口。需要注意的是,网络抓取的数据具备参考价值,但要作为审计发现问题证据,需要进一步核实。