数据挖掘及其在网络信息检索中的应用
2018-12-23陈永强
陈永强
数据挖掘及其在网络信息检索中的应用
陈永强
广东省电信规划设计院有限公司,广东 广州 510630
在大数据时代,信息资源是最有价值的信息。在信息量极大、极丰富的网络中,如何选择对自己有用的信息是一个重要课题。在传统的信息资源利用过程中,搜索引擎可以查询到各种信息,但是只限于查询信息,对信息的深入挖掘力度不够,因此导致信息的价值得不到体现。基于此,对数据挖掘技术在信息网络检索过程中的应用策略进行了分析与探讨。
数据挖掘;网络信息检索;数据应用
引言
当今社会已进入信息时代。计算机信息技术已成为工作和生活中的常用技术。互联网为人们的交流以及信息传递过程带来了便利。网络环境中产生了巨大的信息数据量,催生了大数据技术。在海量的信息数据中想要寻找自己所需要的信息,想要挖掘各种网络信息数据中的核心内容,并非易事。数据挖掘技术是挖掘信息技术的主要技术之一,可以满足人们的信息基本需求,能够从大量的网络信息资源中筛选出自己所需要的信息,并且能够深入分析信息,挖掘出信息中隐含的知识和价值。数据挖掘技术是在信息检索技术的基础上发展起来的一种新技术。首先要通过信息检索,得出一定范围内的数据信息,然后才能对这些信息进行挖掘和分析,从而使得更多隐性知识可以被挖掘出来。数据挖掘过程还能拓展信息数据的检索范围,在检索的过程中实现对数据的深入挖掘,真正发挥出信息资源的价值。
1 网络信息资源的特点
网络是人们生活中的重要工具。通过网络人们可以完成各种工作,可以开展娱乐,也可以满足自己的精神文化需求。人们生活中的方方面面都可以在网络上进行。网络上的信息资源量巨大、丰富,涉及各行各业,如工业、农业、文学、航天、地理、医疗、娱乐等,每个领域都有大量的网络信息[1]。在网络信息资源的利用过程中,信息的利用方式也发生了巨大的改变,计算机和互联网是网络信息资源的载体。在利用网络信息资源的时候也要利用计算机技术。
第一,信息量巨大。网络信息资源已不再以MB计算,而是以ZB为单位计算。网络信息资源的信息量非常大,种类繁多,主要的信息数据有文本、图像、音频、视频等,类型越来越丰富。网络信息资源的内容不是单一的。不仅存在健康的、积极正面的消息,而且也有很多消极的、虚假负面的消息;不仅包括个人信息,而且也包括政府信息。
第二,网络信息资源管理机制多样化。由于网络信息资源数量巨大,而且信息资源的管理难度较大,缺乏统一的管理机制,因此在网络中信息数据存在很大的安全隐患。一些黑客和不法分子可能通过计算机技术、病毒等入侵用户的计算机系统,获取一些信息,从而威胁用户的信息安全。
第三,网络信息资源的质量参差不齐。随着科学技术的不断发展,网络信息资源的更新速度十分快。不仅有专业的信息平台发布信息,而且人们也是发布信息的主体,也可以成为信息的发送方和接收方。日常生活中产生了多种多样的信息,导致网络信息的监管比较困难,内容多样化,质量参差不齐。
第四,交流更多元化。信息化时代背景下,网络信息资源的类型十分丰富,涉及的行业、领域等都不相同,给用户之间的信息交流提供了很好的渠道和平台。人们可以利用网络查询自己想要的信息,并且能够对这些网络信息进行加工,从而使得分散的网络信息整合成为完整的信息,形成信息网络。
2 网络信息挖掘概述
在网络信息技术发展的过程中,对网络信息挖掘技术的研究也越来越深入,信息数据的挖掘能力有了很大程度的提升。网络信息挖掘主要包括以下几个方面。
2.1 网络信息的内容挖掘
在海量信息系统中,信息的类型多种多样。对各种信息数据进行挖掘,实质是对信息的内容进行分析,从海量信息内容中挖掘出最有价值的部分。传统的信息利用往往只是利用信息的表层信息,利用了信息的表层价值,但有的网络信息资源需要通过专业的工具或者方法获取,比如用户通过提问而动态生成的结果就属于深入挖掘产生的信息。还有一些私人的网络数据,普通的检索技术是不能检索出来的。数据挖掘技术对应的是数据的深层次应用。在分析数据的过程中,多种不同类型的数据信息,比如文字、图像、视频等信息资源,都是数据挖掘和分析的对象[2]。
2.2 网络信息的结构挖掘
在整合网络信息过程中会产生不同的网络信息结构,对网络信息的结构形式进行挖掘、分析,也是了解数据的本质,是对数据进行充分利用的关键。结构挖掘是一种结合互联网开展的信息挖掘方式,其目的就是要对Web和网页结构中的各种隐性知识以及隐藏的数据进行挖掘,然后将这些网页中的信息整合起来,形成规范的、统一的分类,并且通过不同网页之间相互联系,建立起数据之间的相互联系,让用户在某一个网页中挖掘信息的时候也能浏览到相关的数据和网页结构。
2.3 网络信息的用法挖掘
网络信息的使用目的各不相同,其具体的使用目的是根据网络信息的类型确定的。在分析网络信息用法的时候,首先要了解这些网络数据的实际意义。网络信息的用法挖掘针对的是用户在使用网络的过程中所产生的各种信息数据,侧重于信息的使用过程。例如,用户在使用浏览器搜索信息、查询相关文件的时候,浏览器就会记载相关的信息等。这些都是用户在使用信息的时候留下的痕迹。对网络信息用法进行挖掘,就可以对浏览器、服务器中的一些隐藏的信息进行挖掘,从而了解用户使用网络以及使用信息的行为习惯。根据大数据技术的分析结果,对用户的习惯做出相应的判断和分析,实现对用户的高效管理。
3 数据挖掘技术在网络信息检索中的应用
网络搜索引擎是网络信息利用过程中的关键。搜索引擎是搜索信息的工具,能及时搜索网络中的信息,但对数据的深入分析和挖掘的能力较弱,所以在使用搜索引擎的时候只能根据用户给出的关键词收集网络信息数据,无法处理用户给出的模糊样本信息,而且也不能对网络数据未来的变化趋势进行预测和统计。网络信息挖掘中往往不止使用一种技术,而是多种技术的相互融合,只有这样才能发挥数据检索和挖掘的功能。
3.1 数据挖掘技术与信息过滤技术
网络的快速发展导致网络上的信息量巨大,信息过载、信息超载的现象十分严重。网络上有各种各样的信息。有的信息资源是有价值的,有的却是虚假的、负面的,毫无应用价值。数据挖掘通常都和信息过滤技术相互配合使用,在挖掘信息的时候就会自动过滤一些不相关的、虚假的消息,从而使得网络中留下来的、呈现给用户的信息是一些健康的、积极的、有价值的信息。为了实现信息过滤,在挖掘网络信息数据之前,系统一般会对网络文档的信息进行初次过滤,然后根据用户的搜索情况对搜索到的数据进行分类,减少了挖掘处理的数据量,提高了数据质量以及用户处理信息的效率。另外,数据的挖掘本身也是对网络信息进行过滤的过程,其中最重要的是个性化。因为不同的用户需要不同的信息,在信息检索和信息挖掘过程中必须根据用户的挖掘行为得出相应的数据信息。因为现阶段大数据技术的应用十分广泛,通过大数据技术可以及时了解用户的浏览习惯,了解用户感兴趣的信息的领域、范畴,使用户在挖掘信息的时候可以自动筛选,给用户提供相应的信息。经过过滤技术的应用,系统在给用户推荐相关信息的时候,这些网页以及信息的内容是已被过滤掉的,剩余的信息就是高质量的优质信息,可以提高用户服务质量[3]。
3.2 数据挖掘技术与可视化技术
可视化技术与数据挖掘技术是两个相互补充的技术。这两个领域相互关联性强。通常来讲,如果可以将一个业务问题转化成多维度的、可比较的、层次性问题,那么就可以通过数据可视化工具以及可视化技术对该业务进行分析、评估,解决业务中的各种实际问题。通过信息挖掘产生的信息具有很高的信息利用价值。这些知识都能成为预示未来的信息,通过可视化技术可以很好地揭示信息之间的关系。在信息挖掘过程中,可视化技术可以使得整个信息的检索和挖掘过程变得可视、可控制,而且有助于了解用户的信息需求和使用信息网络的习惯,还可以使用一些比较直观的图像来实现信息检索目的,提高用户的检索效率。此外,图像的可视化也加深了用户对各种数据信息的理解,有助于提高信息资源的利用效率。
4 结语
综上所述,随着互联网的快速发展,网络信息资源越来越多。如何从海量信息中挖掘出有用的信息,是未来计算机信息技术领域研究的重点内容之一。在信息数据的利用过程中,必须加强对数据挖掘技术的应用,利用数据挖掘技术实现对数据的深层次挖掘、分析,发挥数据信息的价值。
[1]董慧,唐敏. 数据挖掘及其在网络信息检索中的应用[J]. 情报杂志,2010,29(b06):153-156.
[2]张敬. 数据挖掘及其在网络信息检索中的类型及应用[J]. 数字技术与应用,2012(1):144.
[3]张欣,郭广楠,张瑜. 数据挖掘在网络信息检索中的应用[J]. 电脑迷旬刊,2013(5):40-41.
Data Mining and Its Application in Network Information Retrieval
Chen Yongqiang
Guangdong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630
In the era of big data, information resources are the most valuable information. In the network with great and abundant information, how to choose the useful information is an important topic. In the process of using the traditional information resources, the search engine can query the information, but only the information is limited to the information, so the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. The value can not be reflected. The paper analyzes and discusses the application strategy of data mining technology in information network retrieval process.
data mining; network information retrieval; data application
TP311.13;TP391.3
A