APP下载

计算机半结构化数据源的数据挖掘技术探析

2011-01-15潘大胜

武汉轻工大学学报 2011年4期
关键词:数据源结构化数据挖掘

潘大胜

(百色学院物理与电信工程系,广西百色533000)

计算机半结构化数据源的数据挖掘技术探析

潘大胜

(百色学院物理与电信工程系,广西百色533000)

随着信息化时代的到来,计算机技术在全球范围内得到了广泛的运用,这为我国市场经济的发展创造了有利的条件。在市场经济体制改革之后,许多先进的计算机技术逐渐成为了企业日常经营管理的辅助方式,在新技术的推动下企业实现了办公自动化经管模式。计算机模式下创建的各类数据库是存储企业信息资料的常用工具,但对于数据库中潜在的数据信息,企业并没有全面地挖掘利用,导致大部分有价值、有商机、有效益的信息没有充分发挥价值。针对这一点,本文主要分析了半结构化数据源的挖掘技术。

计算机技术;半结构化;数据源;挖掘

计算机技术形式的多样性决定了其创建数据库结构的复杂性,半结构化数据仅仅是计算机数据库的一类特殊形式,与其它数据相比存在着诸多不同点。尽管数据组成形式上存在差异,但半结构化数据具备的利用价值与其它数据是相同的。企业在日常经营中需要对大量半结构化数据深入筛选利用,从而创造出预期中理想的经济收益。因此,对计算机半结构化数据源全面挖掘利用是企业引进计算机技术后的重点任务。

1 数据挖掘与半结构化数据模型

从根本上来说,数据挖掘的最终目的是为了将企业存有的数据资源充分利用起来,让企业掌握的资源信息能创造出理想的经济价值。最近几年,数据挖掘已经被看成是企业结合计算机系统实现自动化、智能化、一体化的数据处理方案,为企业起源的循环利用带来了巨大的方便。半结构化数据是企业数据的重要组成,对其实施数据挖掘处理必须要建立相对应的计算机模型。

1.1 半结构化数据的定义

从大范围对计算机数据进行分析,其包括:结构化数据、非结构化数据、半结构化数据,每一种数据组成都是企业计算机系统存储的主要对象。三大数据形式中,半结构化数据属于比较特殊的种类。从专业理论讲,半结构化数据的定义为:一是物理层上结构缺少的数据,二是逻辑层上结构缺少的数据[1]。如:互联网中的数据量庞大,但90%以上的数据都存储于html文件里,使得数据的结构、类型等都未能严格的定义,该类数据则属于逻辑层半结构化的数据。此外,由于互联网在功能、结构等方面的特性,其内部数据基本了自述性、可变性、多样性等特点,导致互联网数据并非非完全结构化的数据,即“半结构化数据”。

1.2 半结构化数据的来源

从企业现有的半结构化数据资源分析,国内用户的半结构化数据来源途径广泛,主要集中在三个方面:①数据存储。通常都是WWW等没有严格限制存储数据的条件下,计算机系统会出现HTML、XML和SGML等不同文件,均属于半结构化数据;②数据处理。用户会借助于电子邮件、电子商务、文献检索等方法处理信息,在处理过程中也会产生许多结构、性质、内容等不稳定的半结构化数据;③集成数据。计算机能存储的信息来源十分广泛,为了达到互相操作控制的需要会产生异构信息源的集成,此条件下的数据库、知识库、电子图书馆等也数据半结构化数据。

1.3 半结构化数据的数据模型

半结构化数据的模型描述有5中方式,即基于图的描述形式、基于树的描述形式、基于逻辑的描述形式、基于关系的描述、基于对象的描述,各描述方式都有明显的特点[2]。如:基于图的描述中,通常在半结构化数据里选择标记有向图进行显示,最经典的则是OEM模型,该模型主要由对象的标识OID、标记、类型、值等4个部分组成。企业采用该类半结构化数据模型可提高数据的处理速度,保证每项数据都能得到充分的调控利用。

2 企业常见的半结构化数据源形式

在市场经济体制深化改革的背景下,国内各行企业面临的竞争程度更加激烈。企业要想在市场竞争中占据优势,则必须要依赖于计算机网络化技术的运用。数据库是计算机技术发挥价值的基本保证,其能通自动化的收集、分析、处理数据,为企业经营管理或市场决策提供科学的指导依据,实现了企业现代化经营效益的增收。半结构化数据源的构建,可以向企业提供庞大的数据库体系以供日常经营中的随时调用。企业常见的半结构化数据源包括:

2.1 观察性数据源

观察数据是所有数据中最为直接的一种,该数据不仅获取形式直接,且在信息表达上也更容易让用户理解。对于企业来说,其常见的观察数据主要是从观测、勘察中获得。观察数据源包括:地质勘测、实地测量、仪器勘察等等,每一种数据对企业的经营管理都会产生较大的影响[3]。如:在建筑行业中,通过对观察数据源的分析可掌握建筑工程的设计、施工、管理等方面的情况,为后期的经营决策提供依据。

2.2 处理性数据源

当企业信息收集人员把诸多数据聚集到一起后,还需要根据企业的实际需要对数据源进行二次分析处理,从这一类情况中筛选的数据则属于处理性数据源。此数据源主要包括:分析数据、测定数据等两方面,在数据源处理时一般采用了额物理法、化学法等对信息详细分析处理。如:物理方法处理数据时,常会利用物理学中的实验、计算、仪器等对数据源处理,以获取适合的数据供经营使用。

2.3 图例性数据源

为满足企业经营中数据使用的需要,早期的文字数据形式开始出现了变化调整,图例性数据源也日趋成为企业不可缺少的信息。图例性数据源即“图形数据”,这种数据可以更加直观地将数据需要表达的意思呈现出来,常用的有:地形图、结构图、预算图等。如:企业对某个季度的财务收支状况调查分析时,可利用图例性数据源将受益大小展现出来,经营者根据图性上的曲线变化便能熟悉企业状况。

2.4 统计性数据源

社会主义市场是企业销售经营的主要阵地,市场不仅为企业提供了商品交易的平台,也提供了大量对企业有用的数据信息。统计性数据源是半结构化数据源的普遍形式,也是大部分企业常用的数据收集方式。如:企业在销售某一款新产品时,为了解产品在消费者中的情况,可以采用统计性数据分析。该数据源有统计报表、调查报告、回访表格等,因调查范围的广泛性,统计性数据源通常都是比较全面综合的。

2.5 遥感性数据源

遥感性数据源的创建及数据来源渠道比较特殊,通常都是从地面、航空、航天遥感等过程中获得的数据,如图1。市政工程企业在进行城市规划时,则可采用航空遥感的方法获得大面积区域的信息[4]。由于此种性质的数据源的收集设备、仪器等精度级别很高,使得数据源中的数据准确性加强,能为企业呈现更加精确的数据内容。同时,遥感性数据源的出现带动了半结构化数据源发展,让更多的企业信息有发挥价值的平台。

图1 遥感数据源

3 半结构化数据挖掘的主要方法

鉴于半结构化数据源对企业经营管理的决策性意义,企业必须要采取多项措施对数据源进行深入挖掘,尽可能将数据的利用价值发挥到最大,这样才能为企业在市场中创造更多的经济价值。数据挖掘技术的推广运用要借助于计算机技术及相关设备的协调运作,并且还要采用针对性的数据挖掘方法,从而维持了数据源信息的全面运用。根据国内掌握的计算机技术分析,数据挖掘的主要方法包括:数据分类、数据分析、数据聚类、关联原则、网页挖掘等等。具体的挖掘方法如下。

3.1 数据分类

考虑到企业生产、经营、销售等多项规模的扩大,数据源内存储的信息总量、信息类别、信息结构等均会产生很大的变化,尤其是半结构化数据源的形式将变得复杂多样,如图2。数据分类是数据挖掘技术的普遍方法,其利用计算机技术对大量的数据按照一定的特性分类,如:结构特性、对象特性、价值特性等,从而对数据实施进一步的分类,为后期的利用提供可靠的参考依据。如:就半结构化数据源中的客户数据,数据分类可对不同客户进行详细归类,让企业所掌握的客户资源能得到充分挖掘、利用。

图2 数据挖掘中的半结构化数据

3.2 数据分析

对本结构化数据源详细分类之后,企业用户则可以结合实际经营决策需要对数据详细分析,以尽快挖掘出数据源中可以利用的相关信息。数据分析中常用的方法是“回归分析法”,不仅对现有的数据资源分析处理,也可对企业过去积累的数据综合研究[5]。回归分析法本质上是体现企业数据库中属性值在时间因素上的特点,能够反映出多个方面的企业问题,如:把数据项目映射到具体的变量函数中,再对变量之间的关系、趋势、结构等综合分析,为企业弄清数据结构的内在关联提供了可靠的参考依据。

3.3 数据聚类

数据聚类实际上是对数据分类的“二次处理”,能对半结构化数据源进行更深层次的分类。此方法中是在数据分类的基础上,对同一类别的数据划分处理,其分类的范围更小、内容更细、数据更准。数据聚类是根据某组数据的相似性、差异性等特点区分类别,并把数据间的差异逐渐放大,让用于在筛选数据时能明显看出差异。企业半结构化数据源经过数据分类环节之后,总体上包括客户数据、市场数据、产品数据等,通过数据聚类则可对某一类数据再次划分,如:对客户数据源的客户类别进一步归类。

3.4 关联原则

数据挖掘中的数据关联法运用来源于“关联性原则”,借助于半结构化数据源内的各种关联性因素,用户可对数据源内的数据信息进行关联性分析,并找出影响关联特性的几个重点因素。当前,企业利用数据关联法挖掘数据价值通常都用在产品需求分析上,有助于弄清消费者对产品需求、评价等方面的数据分析[6]。如:若企业把新一款产品推向市场后,挖掘客户数据库价值时采用数据关联法,能弄清客户对新产品的诸多问题,如:对产品质量的评价、对产品价格的评价等,帮助了企业及时调整市场营销策略。

3.5 网页挖掘

互联网技术的更新发展使得计算机网络更加先进,市场上大部分企业也开始根据自己的经营需要开设了企业网站、网页。网页的创建既可以对企业产生宣传作用,也能帮助企业上传、收集各类信息,方便了用户与企业之间的沟通交流。网页挖掘技术运用于半结构化数据源中能形成一体化的数据挖掘流程,减小了用户对数据源利用的难度。如:半结构化数据利用Web网页后,可最大限度地将网页里的数据挖掘利用,涵盖了经济、政治、文化、市场、商品等大大小小的数据信息,满足了企业应对市场的需要。

4 结论

总之,半结构化数据源也是一种可挖掘利用的信息资源,而数据挖掘技术的运用能显著提升数据挖掘技术的效率,让数据库内部的各项信息能得到充分的利用。在对半结构化数据源深入挖掘时,要合理选择数据挖掘技术作为支撑,从而实现了理想的挖掘效果。企业用户在挖掘半结构化数据之前,应详细分析目前掌握的半结构化数据源的种类形式,根据数据源的具体特点采用不同的数据挖掘方法,让半结构化数据源的利用价值最大发挥。

[1] 陈明峰.半结构化数据的特点与实际运用分析[J].计算机数据研究,2010,24(13):65 -67.

[2] 邵坤军.数据挖掘技术运用于半结构化数据的优化处理[J].安徽科技信息,2009,33(6):51-54.

[3] 吴一鸣.计算机半结构化数据源的结构组成与功能作用[J].计算机科技,2010,28(16):42-43.

[4] 凡修文.数据挖掘操作中构建的模型研究[J].东南大学学报,2009,18(11):90 -92.

[5] 邱俊鑫.计算机数据库权限设置与资源利用的管理[J].管理观察,2010,42(19):86 -88.

[6] 陶丽琳.企业办公自动化中的数据库资源配置方法[J].科技咨询,2010,36(5):39-42.

Research on data mining technology computer semi-structured

PAN Da-sheng
(Department Physics and Telecommunication Engineering,Baise University,Baise 533000,China)

With the arrival of the information era,the computer technology on a global scale has been widely used,and our country market economy development has created favorable conditions.In the market economic system reform,many advanced computer technologies gradually become the enterprise daily management and operation of auxiliary.And with the development of the technology enterprise realizes office automation management mode.Computer mode to create all kinds of database is storing data of information of business the often used tools for,but for the database of potential data information,enterprise and has no comprehensive mining use,led to no sufficient play the most valuable business opportunities,and the benefit of information value.In view of this,this article mainly analyzes the semi- structured data source mining technology.

computer technology;semi- structured data source;mining

TP 311.131;F272.7

A

1009-4881(2011)04-0069-04

10.3969/j.issn.1009-4881.2011.04.018

2011-09-02.

潘大胜(1975-)男,副教授,E -mail:723606464@qq.com.

2011年度广西教育厅科研项目(201106lx623).

猜你喜欢

数据源结构化数据挖掘
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
探讨人工智能与数据挖掘发展趋势
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
Web 大数据系统数据源选择*
基于并行计算的大数据挖掘在电网中的应用
基于不同网络数据源的期刊评价研究
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法