网络论坛中中医药信息的聚类分析研究

2012-11-21贾李蓉李园白刘丽红李敬华张竹绿

世界中医药 2012年6期

田野贾李蓉李园白刘静刘丽红李敬华于彤杨策张竹绿

(中国中医科学院中医药信息研究所，北京市东城区东直门内南小街16号，100700)

1 研究背景

近年来，随着INTERNET网络在国内的普及以及互联网用户的大量增加，以文本信息为载体的网络论坛已经成为人们获取信息［1］，发表个人看法或评论，与其他人进行交流的重要平台［2－3］。每天在线论坛中皆会涌现大量主题信息，这些信息的特点往往是数量巨大，难于持久，也就是说发表过的主题隔一段时间就会被后来出现的主题所替代，最终淹没在诸多主题信息中。这些信息虽然数量庞大，但往往内容杂乱，即使有一些信息是有效的，也很容易被淹没掺杂在无效垃圾信息之中。

从这些海量的、有噪声的数据中提取挖掘出隐含其内、但又有用的信息知识是我们要尝试进行探讨的问题。数据挖掘是一门新近的热门研究方法，它是从大型数据集中发现可行信息的过程，数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常，由于这些模式的关系过于复杂或涉及数据过多，因此使用传统数据浏览无法发现这些模式。它主要探讨如何在海量的、有噪声的、模糊的数据资料中，挖掘出潜在的有用信息，从而为相关决策人员提供数据参考。

2 研究方法

2.1 选择数据数据的选择是根据需求设定数据抽取目标。对本文而言，数据的抽取目标就是当前热点中医药网站论坛中的词条。随着网络的极速发展，疾病、健康、养生，已不仅是医生才关心的问题，越来越多的普通大众开始予以关注。在绝大多数医药网站中都专门辟有沟通平台——网络论坛。各种角色的人们活跃在论坛上各抒己见。我们试对这些论坛上的词条进行抽取来作为数据的选择。需要注意的是，为了避免人为导向因素的影响，抽取时不对具体内容进行筛选，仅按顺序对词条进行抽取。抽取内容包括论题标题及所有回贴信息。

2.2 数据预处理数据挖掘对数据的要求比较高，因此对未规范化的数据进行预处理就十分必要。数据的预处理是一个对数据进行格式转化的过程，它的一般过程包括数据清理、用户识别、会话识别、路径补充、事务识别等等［4］。这其中，数据清理是整个数据预处理工作的基础，在数据挖掘中起着至关重要的作用。在这一阶段，可根据挖掘任务的不同对抽取后的词条进行整理转化，如消除噪声、清除重复记录，并对不完整数据进行处理等等，使之成为一种可用形式。

人们在论坛中所使用的往往是自然语言，自然语言因其用词不够规范，或者词汇的重复使用造成了查全率和查准率低下，这就对词条内信息全面抽取工作带来了一定的影响，因此对选择的数据进行预处理就成为了一项不可或缺的工作［5］。

2.3 数据转换数据转换的主要目的是降维，也就是从初始特征中找出真正有用的特征。在此可以选择中文分词技术［6－7］。网络论坛的特点决定了使用者的用词遣句往往不是那么标准严谨，而是以自然语言为主。中文分词技术刚好属于自然语言处理技术范畴［8］。对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解［9］?这个处理过程就需要分词算法技术的支持。中文分词方法的基本原理是针对输入文字串进行分词、过滤处理，输出中文单词、英文单词以及数字串等一系列分割好的字符串［10］。

图1

2.4 数据挖掘聚类方法最早应用于20世纪70年代中后期，近年逐渐被广泛应用于各个领域，并为我们的研究提供了参考与借鉴［11］。针对本文研究的情况，对主题论坛中的论题标题及相关回贴信息中的信息进行分词处理后，对词语进行两两统计，得出其在同一论题中出现的次数，形成共词矩阵［12］。共词分析认为两个词语在同一篇文献中出现的频率越高，表示主题间的关系越紧密。以共同矩阵为基础进行聚类分析，通过分析确认与中医药信息相关的词语间的联系，进而分析学科结构的变化［13］。

要想找到词语之间真正的共现关系，需要对词语之间的共现强度按照特定公式进行计算。常用Salton指数表示词语之间的关联强度，其计算公式为: