基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究

2014-01-05舒红平郑皎凌梁繁荣任玉兰文立玉

成都信息工程大学学报 2014年1期

宋艳, 何嘉, 舒红平, 郑皎凌, 梁繁荣, 任玉兰, 文立玉

(1.成都信息工程学院计算机系,四川成都610225;2.成都信息工程学院软件工程系,四川成都 610225;3.成都中医药大学,四川成都610075)

0 引言

中医讲求辨证论治[1-2],也称辨证施治,是中医学对疾病的一种特殊的研究和处理方法。辨证是决定治疗的前提和依据,不同的证(症状与体征)在辨证过程中所起作用大小是不同的[3],半身不遂、瘫痪、口噤不开、恶风、疼痛、头昏的重要性就不同[4],其中半身不遂、瘫痪、口噤不开的重要性就比其余几个症状大。如果见到半身不遂、瘫痪,病人患中风的可能性就很大;而见到头昏、疼痛则不然。因而,考虑各症状[5]的权重问题在制定中医疾病诊断标准方面也起到极大作用[6]。

1 基于文本挖掘TF-IDF词频统计模型

1.1 TF-IDF简介

TF-IDF[7-8](Term Frequency-Inverse Document Frequency)是一种用于资讯检索与资讯探勘的常用加权[9-10]技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。提出采用此文本挖掘算法[11]来解决疾病症状的权重问题。

文本分类[12]时常用词频(Term Frequency,TF)和反文档频率(Inverse Document Frequency,IDF)的乘积来表示特征向量的权重,TF指的是某一个给定的词语在该文件中出现的次数,出现次数越多说明该词语越重要,反映了词语的灵敏度。IDF是一个词语普遍重要性的度量,反映了词语的特异度[13]。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,它倾向于保留文档中较为特别的词语,过滤常用词[14]。

TF-IDF数学模型:W=TF*IDF=(i/m)*log(N/n)

其中,i指某个字词在某一文件中出现的次数,m指该文件的总词数,N指语料库的文件总数,n指包含某字词的文件总数。

1.2 病例库与语料库的TF-IDF映射关系

病例库记录了疾病及其对应的症状在一段时间内的分布情况,利用TF-IDF文本挖掘算法对病例库进行挖掘,目的就是找出每一种疾病中各个症状所占的权重分布。不仅考虑症状在某种疾病的所有症状中所占的比重大小,同时还要考虑在病例库的所有疾病中这一症状对这种疾病的辨别能力。因此,将病例库中的疾病、症状与文本语料库中的文件、字词形成正确合理的映射关系则显得尤为重要。映射关系是否合理直接决定了后期的实验效果,图1、图2分别展示了改进前和改进后的病例库语料库映射图。

图1 基于原始TF-IDF模型的病例语料库映射关系

图2 基于改进的病例语料库映射关系

下面分别从IDF、TF的角度论证了改进后模型的病例语料库映射关系要优于基于原始TF-IDF模型的病例语料库映射关系。

(1)从IDF角度考虑

图1中,改进前考虑将每个症状映射为一个字词,将每条病例映射为一个文件。假如某个症状只在某个疾病中出现较频繁(n较大),说明该症状对该疾病有很高的权重。但在计算IDF时,n越大,IDF越小,说明该症状权重越小,这与实际情况不符。简单举例如下:一共有1000条病例,其中感冒有800条,在800条感冒病例中发热出现790次(也即790条病例包含发热,若某病例中出现某症状,则该病例与该症状是一对一的关系)。根据上文提出的TF-IDF数学模型计算IDF(感冒,发热)=log(1000/790)数值很小,不能很好地反应发热在感冒中应该赋予很高权重这一实际情况。

图2中,改进后将同种疾病的所有病例作为一个整体映射为一个文件,每条病例映射为一个词。根据上述例子,将800条感冒病例映射为一个文件,IDF=log(1000/1),则能很好的反应发热在区分感冒时所作的贡献。

(2)从TF角度考虑

图1中,一条病例映射为一个文件,这条病例只记录了各种症状一次,那么各症状的TF相同都为1/m,这种情况明显不能区别各症状的重要性。另外,针对同一疾病不同的病例记录,同一症状会得出不同的TF,因为同种疾病的不同病例,病人表现出来的症状个数m不同。实际上,在同一病例库中,某症状针对某疾病的TT是确定唯一的,某疾病的某症状不可能有不同的TF,这里也可以推出假设与实际是相矛盾的。

图2中,将病例库的同种疾病的所有病例映射为一个文件,则一种疾病对应一个主题文件,每个症状也就只有确定唯一的TF。另一方面,由于同种疾病的不同病例,病人表现出来的症状不完全相同,则统计每个症状出现次数i是不同的,又由于该种疾病的总病例数m是确定不变的(假设在统计期间病例库不更新)。那么症状出现次数多的,i值就越大,TF就越大,说明该症状对比其他症状在该疾病中有更高的权重。

1.3 基于改进的文本挖掘MAPTF-IDF方法的词频统计模型

根据前面的论述分析,主要进行了两方面的改进。一个是词语映射的改进,由原来的一个症状映射为一个词语,改为一条病例映射为一个词语,用表示症状出现次数。另一个是文件映射的改进,由原来的一条病例映射为一个文件,改为将同种疾病归类后映射为一个文件,用M表示每种疾病的病例数。由此提出改进的MAPTF-IDF词频统计模型:

其中M指每种疾病的病例数。It指某一症状在此种疾病中是否出现,取值为0或者1,即在具体某一条病例中,患者出现了该症状I1=1,否则统计的是在M条病例中,该症状出现的次数总和。N指病例库中疾病种数,n指出现某症状的疾病种数。由上述统计模型可知,求解某种疾病的某个症状的权重W,先统计包含该症状的病例数,再除以这种疾病的总病例数M就得到MAPTF,而IDF则由病例库总疾病种数N除以包含该症状的疾病种数n再取对数计算得出。如下实例是对该模型的进一步阐述。

例1:详细描述病例库与语料库的映射关系图

如图3,同种疾病的所有病例作为一个整体映射为一个文件,统计下图病例库含有黄疸、虚劳、水肿、中风等4种疾病,左边对应4种疾病的映射文档。每条病例映射为一个字词,对应左边文档中的一行,如右边病例库第3条水肿,它对应左边第二个文档的第一行。

分析对比原TF-IDF模型病例库,可知原模型并没有对病历记录按照疾病种类进行归类统计,而是直接在初始病例库上进行计算,原模型的病例库如图4所示。

图3 基于MAPT F-IDF的归类病例库映射图

图4 基于TF-IDF的非归类病例库图

2 算法流程

2.1 数据预处理

具体预处理过程:

第一步:规范症状表

不同的临床医生收集的病情资料表述极不一致,命名规则、术语表达的不同容易产生问题数据[15],无法进行量化分析,因此需要在实验开始阶段对疾病症状等命名进行规范[16]。疾病症状表来源于成都中医药大学附属医院的针灸循证临床诊疗决策支持系统[17-18],其中各种疾病的症状大约有1000多种。经过筛选、校对、规范得到676种症状。

第二步:规范病例表

在临床医生录入病例过程中,由于个人经验不同造成病情症状描述不统一,可能的误操作造成很多空数据等问题。另一方面,从实验科学性与准确性的角度出发[19],这里选取病例数大于10的疾病进行试验。对筛选后的2178条病例先规范描述,再根据一定的空值处理原则进行空值处理。

第三步:建立符合算法要求的疾病症状表

由于数据表是文本格式,不利于特征权重算法MAPTF-IDF统计数据。首先,根据676种症状建立疾病症状新表,该表的字段名依次为病例号、疾病名、676种症状无序排列。然后,逐条提取2178条病例的症状与新表的各个症状进行匹配,如果病例症状在新表的症状字段有出现,则将该病历号、疾病名插入到新表中,同时在对应的症状列数值处标记为1。最终形成符合算法要求的01格式的970条病例数据表。表1、表2分别是原始疾病症状表和规范疾病症状表:

图5 数据预处理流程

表1 原始疾病症状表

表2 规范疾病症状表

2.2 基于改进的MAPTF-IDF词频统计模型算法实现

算法基于改进的MAPTF-IDF词频统计算法

输入:疾病症状数k;疾病种数N

输出:疾病症状的权重W

例2:详细描述基于改进的MAPTF-IDF词频统计模型算法在表2所给数据集上的计算过程,同时给出原模型TF结果计算表。

(2)计算IDF,IDF=log(N/n)。其中N指病例库中疾病种数,n指出现某症状的疾病种数。

图6 基于改进的MAPT F-IDF算法流程图

表3 症状权重结果表

表4 原模型TF结果表

从表4看出,针对黄疸这种疾病,浮肿症状在3条病例中的TF值分别为1/3、1/2、1/3,这就出现了同种疾病同种症状有不同症状频率的矛盾,这也是对前面从TF角度考虑论证的一个举例补充说明。综合分析,使用归类的改进MAPTF-IDF词频统计模型能达到更好的实验效果。

3 实验结果及分析

实验统计分析了霍乱、厥证、痹证、淋证、哮喘、失眠、咳嗽、便秘、疟疾、痢疾、中风、中暑、水肿、黄疸、虚劳等106种疾病,与临床诊疗经验相符合的有84种,准确率达79.2%。20.8%的实验结果与实际不符,主要表现在3方面:(1)疾病症状权重分布表中某些疾病的显著特征症状被遗漏;(2)疾病症状权重表中出现某些罕见症状;(3)极少数症状权重排序与临床实践结果不符。仔细分析原始数据,数据预处理过程以及算法实现过程,发现原始数据仍存在命名不规范、病例记录不清楚、症状表述有歧义等问题,在数据预处理过程中,病例记录中的症状与规范症状匹配精度不够高。针对上述一些列问题,规范原始数据,优化数据预处理过程仍是下阶段的研究重点。

原始TF-IDF模型与改进的MAPTF-IDF统计模型试验结果对比如表5所示。

表5 试验结果对比表

实验表明:改进后的MAPTF-IDF词频统计模型要优于原始模型,利用改进后的模型对病例库进行统计分析,挖掘出的疾病症状权重具有很高的准确率。

4 结束语

评价诊断试验的科学性主要看其灵敏度和特异度[20],如果按每种疾病单独统计,没有考虑如何在疾病之间鉴别,根据这些症状权重把病人归入某种疾病。这样指定的诊断标准[21]虽有很好的敏感度,但特异度很低,因而误诊率就很高[21]。例如胡立胜用Delphi法[22]建立的抑郁症常见中医症候诊断标准中,其中“情绪抑郁”一症,多数专家认为在各疾病辨证中都很重要,按照百分权重法统计,结果情绪抑郁在各疾病的诊断中权重都很大。而实际上如果一个症状在各个疾病中都很重要,那就意味着它没有鉴别意义,特异性差,不应该有很大的权重。把各疾病中都很常见的症状赋予很大的权重,而事实上这些症状对辨别疾病并没有什么贡献。

采用MAPTF-IDF文本挖掘算法来计算疾病症状的权重[23],MAPTF代表症状在疾病中出现的频率,反映了灵敏度,IDF代表症状在各个疾病中出现的频率,反映了特异度。症状权重由两者共同决定,既能反映症状的灵敏度同时也考虑了症状的特异度,因此是一种比较科学的方法[24]。

由于不同主治医生对症状和疾病名称的描述不同,导致不规范数据产生,在一定程度上影响了症状对于疾病重要程度研究的效果[25]。另一方面,由于规范后的疾病症状表中同时处理的症状约676种,而实际疾病的常见症状远少于这个数字,导致计算效率不高。如果能在实验进行之前先对数据进行降维操作,可以极大提高运算效率,这一问题仍需要下一阶段的工作来完成。

致射:感谢成都市科技计划项目(12DXYB100JH-002);成都信息工程学院中青年学术带头人科研基金(J201208,J201101);成都信息工程学院引进人才项目KYTZ201110,KYTZ201111)对本文的资助

[1] 王天芳,李洪娟.关于改进中医诊断学“问诊”内容与方法的思考[J].中医教育,2004,(1):52-54.

[2] 魏睦新,胡平.再探中医科学性[J].当代医学,2009,(6):141-142.

[3] 李晶,杜彩凤.中医诊断学临证思维训练模式初探[J].中医教育,2011,(1):31-33.

[4] 郦永平,温淑云.中医证候量化研究的理论探讨[J].中医杂志,2008,(8):677-679.

[5] 由松.中医症状及证候的量化方法探讨[J].北京中医药大学学报,2002,(2):13-15.

[6] 郭小青,韩丽萍.中医症状诊断的意义探析[J].中医药学刊,2004,(9):1758-1759.

[7] 施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,(S1):167-170.

[8] 罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,(9):2031-2033.

[9] 张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,(2):17-20.

[10] 徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,(1):181-184.

[11] 景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TFIDF及其改进[J].广西师范大学学报(自然科学版),2003,(1):142-145.