基于Web信息挖掘的商业分析系统设计研究
2021-01-27朱育颉浙江工商大学
朱育颉 浙江工商大学
前言:将Web中商业信息加以挖掘并提取分析可以利用Web信息技术引导企业和商业高效率的运行;将最新式的web信息服务引入管理部门以及政府,实现高质量的监管。因此,可以结合Web信息挖掘技术,利用非结构化的特征和网上信息的发布,结合信息块多主题的分割技术,构建基于Web信息挖掘的商业分析系统。
一、非结构化Web信息提取
虽然Web具有丰富的信息资源,但是这些信息一般使用在用户的浏览过程。其中包含着许多HTML标记,此标记不可以代表网页信息的实际含义,只可以用作浏览器的显示解释。同时,网页格式也与以往的文本文档具有较大的不同,其中也许包含图片、框架、表格各种形式的内容,将机器理解复杂化。若想实现非结构化的存在信息,需要对这些内容进行提取。关于Web的信息提取方案主要有三种:全自动方法、半自动方法、人工方法。具体内容如下:包装器的归纳方式提取、基于HTML结构信息的提取、基于ontology的提取、依据自然语言进行信息的提取、基于Web信息查询的提取[1]。例如,其中最常见的应用技术是利用Wrapper包装器针对HTML等形式的网页信息进行提取。其中,Wrapper(包装器)实际上是软件构件。一个包装器对应单一数据源的一种页面,主要负责将查询请求与数据从一种形式转变为另一种形式。在Web开发环境下,包装器的工作主要是提取隐含在HTML中的信息,将其转化成可以进行下一步处理的数据结构存储数据。
在提取信息时主要有两个步骤:其一,筛掉网页上没有的信息数据。因为网页的框架格式是固定的,因此其中的文本信息是孤立的。DOM(文档对象模型)会与网页信息之间形成对应的页面模板信息。其二,词频统计工作。在数据表单工作中,表单格式可以标识专业域名的词典业务信息记录。其中,具体的信息分离工作有如下步骤:循环反复读取页面信息、读取表格和标题、提取图片与段落信息、建立新式提取模板[2]。通过一系列的信息块分离,可以帮助系统构建HTML信息块树,实现信息分离的效果。
二、信息块分割和信息抽取
提取的信息块目前是分离的状态,需要将商业信息本身的混合性与复杂性融合在内。一般同一个信息块中富含着多种主题的信息。例如,在测试五种摄像手机时,信息中包含着五种手机的详细信息。本课题可以引入主题分割的信息提取算法获得网页中各种信息块的商业含义。具体的操作内容如下:其一,需要利用通用切分词表对文本信息块中的中文进行分词操作。其二,通过商业范围中实体名字典的引导,详细统计各个信息块中关键词条的频率。公式为:Wf=Wst+∑Waf,其中,Wst是词条在信息块中的出现频率;Waf是商业实体名的字典中该词条的同义词出现频率。其三,按照词条频率统计句子的权重,公式为:S=∑Wf。其四,依据权重求出最大的主题句子,用字母S表示。其中,S>N/5,N是句子的总量。将信息块可以分为S个主题,在将S主题相关的信息进行合并。其五,对分离之后再进行合并的各个主题信息块按照实体名字典中例如商品、类别、厂商的一些词条,得到相应的商业信息,如商品名、价格、型号、所属企业等。接着提取出信息块中的商业信息,将其存到的信息库中。其六,未出现在商业实体名词字典中的高频词条,需要分析其与同信息块的实体名之间的关联,最后加入到商业实体名的字典中。其七,判定块内的URL地址的具体信息是否为之前分析的Web内容。如果是,需要将其添加到URL的地址列表中。
三、信息评价
可以采取评价机制进一步保障提交结果的真实性与可靠性。此系统通过使用信息反馈以及先验知识对信息进行评估,科学分析出获取商业信息的正确方式。可以在专家或者技术人员的支持下构建评价机制,评价系统的重点是围绕信息的准确性和权威性。此外,还需要对信息的准确性与权威性进一步分级和评价,需要实现以下几方面:其一,信息加权,经过筛选之后的信息可以按照信用评级进行加权。比如信息仓库中具有关键词时但是表述内容不全面时,可以利用信息的加权大小判断可靠性。其二,信息筛选过程需要去掉与领域需求不相关的信息。
四、信息提交
系统需要提取的信息面很大。不过对于特殊用户,只需要查看小范围的视图即可。可以使用B/S形式,这样一来用户就可以轻松的访问系统中利用Java编程语言系统提供的服务,后台数据库可以选择SQL Serve。通过Jsp系统可以进行用户的调度,在系统中可以留置企业接口B也就是智能/业务信息系统,方便将系统的结果通过接口传递到企业的BI系统内部,可以将CABWIM系统内部的实际结果利用接口调用的形式传递到企业的BI系统中。
结论:因此,在建立Web信息挖掘商业信息系统时,需要结合数据的异构信息块分割特性,通过商业实体名称代码分类提取商业信息。通过潜在的信息商业价值,达到实用性的应用效果,可以对企业的科学管理起到高效的指导作用。不过,系统需要结合需求进行进一步的改进,例如信息源和命名系统均是研究的重点。