基于主题爬虫算法的养殖投入品质量信息监管系统
2017-06-30李辉张标吴文良
李辉++张标++吴文良
摘要:为了解决养殖投入品的质量信息匮乏、监管效率低下等问题,结合网络舆情信息发布与获取的特点,引入了信息抽取和行政监管并存的理念,构建了基于B/S架构的养殖投入品质量的信息发布与舆情监管系统。采用主题爬虫算法作为抓取网络舆情的信息关键步骤,避免下载大量与主题不相关的网页,提高了信息抓取的效率和准确率。并利用向量空间模型对主题爬虫算法中的内容相似度进行计算与评价,提高了该算法爬行的准确性,并在实际系统中得到了验证。同时该系统还提供了用户信息管理、质量安全信息管理、养殖投入品供求信息管理等功能。系统测试和应用结果表明,该系统具有功能丰富、运行稳定、信息抓取准确、可扩展性强等优点,能较好地满足不同角色对养殖投入品质量信息的需求。
关键词:养殖投入品;主题爬虫;质量信息;舆情监管;向量空间模型;B/S
中图分类号: S126文献标志码: A文章编号:1002-1302(2017)08-0210-05
目前,针对当前养殖投入品市场上制假售假行为仍有不同程度存在,哄抬物价、坑农害农时有发生,养殖投入品经营监管网络力量薄弱,导致严重影响农产品质量和社会稳定[1-4]。同时我国养殖投入品质量的信息存在需求不足、供给乏力、信息失真、分布不均衡等问题,这些问题给生产者、消费者和管理者都带来信息不对称,造成各种逆向选择和道德风险。虽然我国对养殖投入品质量的安全尤为重视,并提出了采用电子监管来保障该投入品的安全要求,但是现实中仍然存在许多养殖投入品质量的安全问题,比如养殖投入品制假造假行为、不法分子销售劣质养殖投入品欺骗农户、农户对养殖投入品质量的安全信息掌握不足、政府执法监督效率低下、网民问政信息不通畅等现象[5-7]。信息科技高速发展的今天,我们应该充分利用网络技术优势,把互联网技术应用到养殖投入品质量的安全与监管中去,为农业信息化增添活力,为农产品质量的安全保驾护航[8-11]。
因此,通过构建养殖投入品质量的信息发布与舆情监管系统,从根本上保护农户利益,并为合格养殖投入品的企业提供供求平台,保障养殖产品质量安全、广大人民群众的身体健康和生命安全,提升我国养殖产品质量安全水平,增强我国养殖业整体实力和养殖产品国际竞争力。
1系统需求分析
养殖投入品质量的信息网络发布与执法监管力量在网络执行,充分运用信息技术并将其融入食品安全信息化监控当中。以供求平台为中心,信息共享为基础,执法力量常驻为政治支持,网络舆情信息为信息后盾,就是养殖投入品质量的信息发布与监管系统最大的目标需求。
1.1用户分析及角色定义
养殖投入品质量的信息发布与舆情监管系统的用户有系统管理员,养殖农户,养殖投入品商户,质检、工商、卫生等国家相关部门工作人员,共4种用户。
系统管理员要求计算机专业技术过硬,需要具备本系统故障维护能力。养殖户和养殖投入品商户以及国家相关部门工作人员需要通过实名认证才可以使用本系统对应功能模块。同时要求他们熟悉本系统提供的信息处理操作。具体角色分析定义如下。
1.1.1养殖户养殖户是指在这个监管系统中通过客户端提交申请信息并通过合格验证的养殖户,这个角色主要使用本系统提供的养殖投入品供求平台购买满意产品,并通过反馈意见和打分来继续巩固维护质量信息监管体系。
1.1.2养殖投入品供货商养殖投入品供货商是指在这个监管系统中通过客户端提交申请信息并通过合格验证的商户,这个角色主要使用本系统提供的养殖投入品供求平台出售合格养殖投入品,并通过监管平台相关的网络舆情分析,主动自我产品监督与完善,共同维护养殖投入品市场的公平与诚信。
1.1.3执法人员质监、工商、卫生等国家相关部门的工作人员向系统管理员提出申请,得到认证许可后,可以在相应模块发布与养殖投入品质量信息相关的新闻公告,审核产品。利用系统的用户意见反馈、举报信息,整治规范养殖投入品市场。
1.1.4管理员管理员是指在这个监管系统中权限最高的角色,它主要参与系统故障维护,具有审核其他任何类型用户申请资料权限,同时负责质量安全信息发布。
1.2系统功能需求分析
根据上述功能需求分析,系统按功能划分为以下八大模块(图1)。包括用户管理、供应产品信息管理、求购产品信息管理、执法公告管理、信息抓取管理、评论信息管理、注册登录管理、个人信息管理。
1.2.1用户管理功能系统管理员权限。管理员可以在系统中根据情况添加、删除用户,并为用户分配权限和添加角色。
1.2.2供应产品信息管理功能养殖投入品供货商权限。提供对供应产品基本信息添加、修改、删除的功能。企业商户可在系统中录入供应的养殖投入品的基本信息,提交到系统数据库等待执法管理员审核。
1.2.3求购信息管理功能养殖农户权限。提供对求购产品基本信息添加、修改、删除的功能。养殖农户可在系统中录入求购养殖投入品的基本信息,提交到系统数据库等待执法管理员审核。
1.2.4执法公告管理执法人员权限。提供对养殖投入品市场整顿信息、相关政策法规等信息的录入、删除、修改功能。
1.2.5信息抓取管理系统管理员的权限,系统管理员可以手工添加网络舆情信息,也可以借助第3方爬虫或搜索引擎接口智能获取相关网页URL地址,供用户浏览。
1.2.6评论管理功能提供对供求平台信息评论打分功能,以及相关管理员对用户所评论打分信息管理的功能。用户登录后可以对供求平台对应感兴趣的信息发表评论并打分,同时相关管理員可以管理、利用评论信息,标志近期热门供求信息,对供求信息进行调整管理。
1.2.7注册登录功能用户注册审核通过后,才可以使用后台信息管理平台。
1.2.8个人信息管理功能主要提供用户自主修改基本信息的功能,如常用的密码修改功能。
1.3系统业务流程
系统从养殖投入品供货商录入供应产品信息开始,由执法员审核通过后发布供应信息,完成监管平台的第一次质检监督。然后养殖农户在供求平台查找符合自己需求的养殖投入品:如果没有符合条件的,则录入自己需要的养殖投入品信息,系统管理员审核通过后发布求购信息,完成监管平台的第2次监管。如果有符合条件的供给产品,则与供货商站内联系,同时可以对产品进行评论打分。随后系统管理员、执法员根据评论信息对供求平台信息进行整理,标志热门信息,同时发布网络舆情信息、执法公告,完成监管平台的第3次质检监督。具体流程见图2。
2系统设计
2.1系统框架设计
由于系统面向的群体主要为广大养殖农户和各地方的养殖投入品供货商,系统采用B/S体系结构、C2C模式、基于Web的方式进行设计开发。这样不仅可以方便系统用户在不同地方进行投入品质量安全信息查询,为相关政府部门提供与网民互动平台,而且方便各地养殖农户与供货商利用本系统提供的供求平台,发布养殖投入品的供求信息。
系统利用数据库技术、网络技术,通过构建统一的供求平台和质量信息监管体系结构,充分发挥政府相关职能部门的公信力与职责,协调整顿养殖投入品互联网市场,保障养殖农户的利益,为养殖投入品的供货商提供供应信息的发布平台。监管平台拥有执法人员入驻的优势,以及网络舆情信息的提供,大大提高了本系统供求平台的公信力,而且改进了关于互联网质量信息监督管理模式,推进了政府产品质量安全工作的展开。一旦网络舆情发现相关产品质量出现问题,通过监管体系,可立即在系统发布并提醒系统用户。综上所述,建立系统基本框架见图3。
2.2系统功能架构设计
本系统采用模块化设计,一方面保证每个模块的完整性和独立性,另一方面便于对系统灵活地扩展和维护。在功能需求方面实现养殖投入品质量信息采集、信息分析、用户信息反馈提取、行政执法监管。系统由用户信息管理子系统、质量安全信息管理子系统、养殖投入品供求信息管理子系统、网络舆情信息抽取子系统,共4个子系统组成,系统功能构架见图4。
用户信息管理子系统主要提供系统各类用户管理个人基本信息的功能,尤其是系统管理员利用该子系统进行用户信息审核及授权管理的功能。质量安全信息管理子系统为行政执法员提供相关政策法规、市场规范整顿信息发布和管理的功能,同时网络舆情信息发布也需要该子系统提供支持。养殖投入品供求信息管理子系统主要是为养殖农户和供货商提供交易信息平台,同时该子系统的监督管理权限由行政执法员支配。网络舆情信息抽取子系统主要实现从互联网抽取相关信息,并进行筛选后存入质量安全信息系统。
3网络舆情抓取的关键算法
3.1网络舆情的抓取
网络已经成为公众舆情表达最为重要的传播平台,其影响已远远超出传统主流媒体的影响。网络舆情是民众情绪、意见、态度、意愿等的综合,而开放的信息发布平台,使网络舆情可以通过不同的途径表现出来,如网络新闻、新闻跟帖、社交空间、博客微信等,其传播影响深远。网络舆情的抓取,是指借助成熟的搜索引擎或普通网络爬虫程序定点定时在互联网中抽取目标信息。所以,本监管平台将凭借网络爬虫的信息抽取能力,主动获取养殖投入品质量信息,扩大监管信息库,完善信息发布平台功能。
网络爬虫分为通用爬虫和主题爬虫2种。通用爬虫都是基于传统的图算法作为工作原理,从种子链接开始,利用广度或深度优先算法抓取互联网信息,这种爬虫的目标是覆盖整个Web网络,不考虑网页与主题的相关度。而主题爬虫的目标就是要尽可能多地采集与主题相关的页面,尽可能少地采集无关页面,这是主题搜索引擎的关键性问题。由于主题爬虫只下载少量的主题相关的网页,不会花费大量的时间遍历整个Web网络海洋,提高了爬行效率和抓取的准确率。通过分析通用爬虫和主题爬虫的技术特性,同时结合养殖投入品的质量信息特点,该平台将选择主题爬虫算法作为网络舆情抓取的关键算法。
3.2基于主题爬虫算法的网络舆情信息抓取流程
网络舆情信息抓取的核心就是主题爬虫算法,执行主题爬虫算法抓取养殖投入品质量舆情信息的流程见图5。首先将种子URL初始化,根据一定的网页分析算法过滤与主题无关的链接,抓取与预先设定的主题相关性较高的Web页面,同时将抓取到的页面链接保存到待抓取的URL队列中。然后提取相应的URL到处理队列中,之后提取所要处理的网页文本信息,方便下一步计算。通过特定模型,计算网页内容、子链接、锚文本等与主题的相关性。从而确保主题网页抓取系统在程序执行时尽可能多地抓取、采集与特定主题相关度较高的网页,同时最大限度地过滤掉与主题无关的网页[12-15]。重复上述过程,直到系统的停止条件得到满足时才停止对主题网页的抓取。所有被爬虫抓取的网页将会被系统存起来,进行一定的分析、过滤,并建立索引,以方便之后的查询和检索[16]。
在主题爬虫算法的网络舆情信息抓取过程中,页面分析及相似度计算是信息抓取的关键与核心步骤,该步骤通过特定的爬虫算法判定抓取的网页是否与给定的主题相关,直接决定了主题爬虫抓取页面的准确率[17]。
3.3基于向量空间模型的内容相似度计算评价
针对页面内容质量,一般是以内容相似度作为评价标准,若内容与主题内容相似度大于某个阈值,就将该页面保存起来,若内容与主题内容相似度小于该阈值,将其视为不相关页面并丢弃。对于内容相似度计算与评价较为常用的是向量空间模型,该模型计算简单、正确率较高,从而得到广泛应用。向量空间模型基于这样一個关键假设,即组成文章的词条所出现的顺序是无关紧要的,它们对于文章的主题所起的作用是相互独立的,因此,可以把文档看作一系列无序词条的集合。该算法的基本思想就是用2个向量之间的某种距离来表示它们之间的相似度,页面内容相似度可以用夹角余弦值进行计算[18-21]:
4系统实现与应用
根据系统设计,利用PHP语言完成系统开发、MySQL数据库完成后台数据管理和Apache作为系统存放平台部署在浪潮服务器上运行。登录系统可以进入系统首页(图6),通过不同角色登录系统,进行相关模块验证,经过测试运行,表明该系统已实现前台展示、登录注册控制、用户信息管理、公告信息管理、信息抓取管理、供求平台管理、评论模块管理七大模块。
重点对舆情信息抓取模块进行测试验证,抓取信息列表展示见图7,在抓取信息时已经去除推广链接,满足系统用户搜索自己感兴趣的信息主题。信息抓取模块的功能实现,解
决了信息资源不足、网络舆情收集难等问题。
在测试后,该系统进行了实际运行应用,各項功能都得到了有效实际验证,且运行稳定,使养殖户和养殖投入品供应商能够方便有效地获取养殖投入品的质量信息,为执法人员提供了灵活有效的监管手段。
5结论
本研究结合养殖投入品质量信息的特点,基于B/S的3层体系结构系统架构,采用模块化设计方法,设计开发了基于主题爬虫算法的养殖投入品质量的信息发布与监管系统。系统由用户信息管理子系统、质量安全信息管理子系统、养殖投入品供求信息管理子系统和网络舆情信息抽取子系统4部分组成,设计中各部分相对独立,具有较高的可扩展性、可维护性和应用性。
采用主题爬虫算法作为抓取网络舆情的信息关键步骤,该算法执行时只下载少量与主题高度相关的网页,提高了爬行效率和抓取的准确率。同时引入向量空间模型对主题爬虫算法中的内容相似度进行计算与评价,该模型计算简单、正确率较高,并在实际系统中得到了验证。
该系统为养殖户、企业商家提供了丰富的网络在线功能,实现了网络舆情共享、舆情主动获取、网络执政、网络问政的有效整合和质量信息过程控制,解决了养殖投入品质量的信息资源不足、数据分散、信息共享率低下等问题。
参考文献:
[1]唐承明,陈文,黎书长,等. 广西养殖投入品与畜产品的质量现状分析[J]. 南方农业学报,2014,45(11):2093-2097.
[2]李隆春. 临泽县畜牧业养殖投入品使用现状调查[J]. 畜牧兽医杂志,2015,34(2):90-91.
[3]罗承金. 确保养殖投入品质量安全的对策[J]. 四川畜牧兽医,2011(12):12-13.
[4]张祥国. 加强对养殖投入品的监管确保水产品质量安全[J]. 今日科苑,2014(5):114.
[5]隆瑞贤. 武鸣县动物养殖投入品经营和使用环节安全监管存在的问题及建议[J]. 广西畜牧兽医,2014,30(6):320-321.
[6]季坤岭,陈新华,董燕萍,等. 健康的养殖业来源于健康的环境与投入品[J]. 中国动物保健,2007(7):31-33.
[7]柏凡. 加强投入品管理保障无公害畜产品质量[J]. 中国畜牧业,2014(18):29-31.
[8]马明远,秦向阳,李瑾. 农产品质量安全信息化技术进展及应用前景[J]. 中国农学通报,2009,25(2):258-262.
[9]成维莉,徐冬寅,程涛. 基于追溯的农产品质量安全监管平台设计与实现[J]. 农机化研究,2015(5):113-117.
[10]杨斌,陈平,董朝. 动态信息发布平台的设计和实现[J]. 计算机工程,2005,31(6):225-227.
[11]龚建疆,杨沙,范尧. 产品质量监管平台的设计[J]. 现代企业文化,2010(27):121-122.
[12]谢治军. 垂直搜索引擎的主题网页抓取策略研究[D]. 重庆:重庆理工大学,2012:17-18.
[13]李勇,韩亮. 主题搜索引擎中网络爬虫的搜索策略研究[J]. 计算机工程与科学,2008,30(3):4-6.
[14]Dong H,Hussain F K. Self-Adaptive semantic focused crawler for mining services information discovery[J]. IEEE Transactions on Industrial Informatics,2014,10(2):1616-1626.
[15]Ahmadi-Abkenari F,Selamat A. An architecture for a focused trend parallel Web crawler with the application of clickstrearn analysis[J]. Information Sciences,2012,184(1):266-281.
[16]王鲁荣. 基于主题网络爬虫的高校网络信息动态搜索策略研究[J]. 四川师范大学学报(自然科学版),2011,34(6):919-921.
[17]张环. 垂直搜索引擎中主题网络爬虫算法研究[D]. 济南:山东师范大学,2015:12-13.
[18]史宝明,贺元香,吴崇正. 主题搜索引擎中爬虫搜索策略的研究[J]. 计算机工程与应用,2014,50(2):116-119.
[19]徐明子,吕立,李喜旺. 改进空间向量模型主题网络爬虫系统[J]. 计算机系统应用,2013,22(7):36-39.
[20]Du Y,Liu W,Lv X,et al. An improved focused crawler based on semantic similarity vector space model[J]. Applied Soft Computing,2015,36:392-407.
[21]Kim D. Group-theoretical vector space model[J]. International Journal of Computer Mathematics,2015,92(8):1536-1550.
[22]贺晟. 搜索引擎中主题网络爬虫的研究与设计[D]. 合肥:安徽大学,2010:15-16.
[23]李连,朱爱红,苏涛. 一种改进的基于向量空间文本相似度算法的研究与实现[J]. 计算机应用与软件,2012,29(2):282-284.
[24]Hong T P,Lin C W,Yang K T,et al. Using TF-IDF to hide sensitive item sets[J]. Applied Intelligence,2013,38(4):502-510.
[25]魏晶晶,杨定达,廖祥文. 基于网页内容相似度改进算法的主题网络爬虫[J]. 计算机与现代化,2011(9):1-4.