基于学科期刊耦合强度的学科分类研究
2015-03-26刘筱敏武丽丽
■张 静 刘筱敏 武丽丽 马 娜
中国科学院文献情报中心北京北四环西路33号 100190
1 引言
如何将期刊进行学科定位,是期刊评估中至关重要的问题,目前解决这个问题的一般方法是依据一种学科分类体系,由相关专家或者工作者进行主观判断,对期刊进行学科定位。
学科分类体系是科学知识内在结构的一种外在表现,揭示了科学研究之间内在关联,具有重要的理论研究意义和现实应用价值。以《中国图书分类法》(以下简称《中图法》)、《杜威十进分类法》、《美国国会图书馆图书分类法》为代表的学科分类体系称之为专家分类体系,是目前应用较广泛的学科分类体系。专家分类体系是通过各学科领域专家对某一阶段科学发展的特点以及科学发展的历史,对学科之间的关系进行全面梳理、提炼、总结、整理,构建的表达知识之间相关关系的体系。这些专家分类体系广泛应用于期刊、论文内容揭示,信息组织等各个方面。
专家分类体系解决了建立合适的分类体系的问题,但复杂而多层级的分类体系,是否适用于期刊的分类需求?在实际应用中,除了这些专家分类体系以外,一些机构从实用的角度出发,独自构建了适用于自身需求的学科体系,例如,Web of Science的ESI数据库中使用的22个学科类目,JCR-science中使用的179个学科类目,JCR的学科类目没有层级化的结构,所有的类目之间是平行关系,这种结构更类似于主题类目。一些学者根据学科发展的特点和经验构建的分类体系,例如Glänzel等人[1]在 2003年、Boyack等人[2]在 2005年分别提出的包含15个类目的分类体系。
专家分类体系凝练了人类科学研究的成果及科学研究之间丰富的关系,但从客观性和科学发展的角度来看,专家分类体系也存在一些弊端。鉴于此,基于客观的科学计量的学科分类体系和专业领域挖掘的研究应运而生。1936年,Cason和Lubotsky[3]就运用期刊之间的互引关系分析期刊之间的相互关系以及学科领域之间的相互影响。1953年Daniel和Louttit[4]首次在心理学领域运用期刊之间的互引关系矩阵对期刊进行聚类分析。1972年,Narin等人[5]首次根据期刊之间的相互引用关系,研究了从属于不同学科分类的期刊之间的相互关系。之后,Narin[6]和 Leydesdorff[7-8]又运用了诸如PCA、FA等多元统计分析方法对期刊之间的互引关系进行了自下而上的凝聚式聚类分析,对聚合得到的学科分类体系与现存学科分类体系进行了验证性研究。2004年,Leydesdorff[9-10]又提出利用 biconnected component analysis等图论方法对来自JCR的期刊互引图模型结构进行聚类分析。Leydesdorff等[11]在2008年同样基于期刊之间的互引关系矩阵对科学结构做了可视化分析,并且在时间维度上研究了科学结构发展变化的趋势。2010年和2012年,Zhang L等人[12-13]研究了基于期刊互引关系建立的学科分类体系与Glänzel等人建立的包含15个类目的专家系统的一致性,同时对现有专家系统的调整和改善给出参考和建议。此外,Robert等人[14]选取特定期刊的文章为研究对象,通过研究期刊文章之间的相互引用关系挖掘相应学科中的研究领域。Chaomei Chen等人[15]分别基于文章之间的相互引用关系和作者之间的相互引用关系对科学结构进行了定量分析,Howard等[16]利用作者之间的互引关系,研究隐藏在作者背后的科学结构的发展变化。
前人的研究说明了在已有学科体系框架下,可以通过互引关系,观察学科结构的变化,修正已有的分类体系。其次,可以通过互引关系,采用各种聚类方法,形成新的分类体系。当然这种分类体系与专家分析体系比较更为简单化,体系结构不够丰满。但这些研究提供了一个对于期刊分类的很好思路。
本文以中国科学引文数据库(CSCD)数据为基础,借助期刊之间耦合强度的计算,在《中图法》10个自然科学一级类目框架不变的前提下,分析自然科学领域的126个二级类目之间的相关关系所体现出的新特征,通过对多种聚类分析方法进行集成学习(集成学习主要运用经典的多模型投票的策略),对现有的《中图法》的二级类目进行合并和修正,表达适用于期刊分类的二级分类体系。
2 研究方法
2.1 相关性的度量
引证关系是科学发展规律的表现,体现了科学知识的累积性、连续性和继承性,能够在一定程度上反映科学结构的发展变化。本文对于学科分类的研究以期刊之间的相互引用关系为基础,通过研究期刊之间的相似性反映学科之间的相似性,以求在已有专家分类体系的基础上,利用引文客观反映学科之间关系的特征,找到适应期刊特点的合适的分类体系。
文章耦合和同被引是互引关系的两个方面的表征,是测度互引关系网络中网络节点相关性的两种主要度量方法。耦合的概念最早提出是在1963年,美国麻省理工学院的Kessler教授首次使用“文献耦合”这一术语描述文献之间的相关关系[17]。此后,耦合强度逐渐运用在度量互引网络中期刊之间的相关关系[18-21]以及作者之间的相关关系[22-24]的研究中。同被引的概念最早于1973年由前苏联情报学家 Marshakova I[35]和美国情报学家 Henry Small[25]分别提出,用于度量互引网络中文章之间的两两相似性,文献同被引的概念还被进一步引用到度量期刊之间相关关系的期刊同被引研究[15,26]以及作者同被引研究[14]中。耦合关系和同被引关系分别从互引关系的两个方向度量了网络节点之间的相关关系。耦合关系度量了后向的引用关系,反映了一种静态稳定的相关关系;同被引关系度量了前向的引用关系,反映了一种动态变化的相关关系。从互引网络的角度,耦合与同被引均为互引网络中步长为1的相关性度量方法。
尽管侧重点不同,期刊耦合强度和期刊同被引强度的强弱均可以反映学科之间的相关关系。相比较学科之间的期刊同被引强度是通过度量相同施引期刊的数量来计算学科之间的相关关系,本文选取学科的期刊耦合强度作为衡量学科之间相关关系的度量方法,通过统计期刊两两之间同引期刊的数量度量期刊之间的相似性,从而保证参与分析的期刊所组成的样本尽可能增大,进而提高后续分析的精确度。
2.2 聚类方法的确定
基于互引行为的学科分类研究的本质在于互引网络中各个网络节点的共性与异性分析,而学科分类或者专业研究领域即为这些具有共性的节点所组成的集合的抽象概括,其中寻找共性节点集合的过程也即为聚类分析的过程。前期的研究中,聚类分析的方法可以分为三类,一类是基于多元统计思想的聚类分析方法,诸如主成分分析(因子分析)[7,16,27];一类是利用经典的聚类分析方法,层次聚类[12-14]、最小生成树[28]等;一类是基于社会网络建立图模型的聚类方法[15,21,24,26]。基于多元统计思想的聚类分析方法将具有互引关系的节点对分别作为分析特征和分析对象,借助投影的思想将具有相同特征的节点聚集成类,但是类的划分没有明确的标准,类成员的选择也没有明确的条件,无法形成具有明确层次结构的学科分类体系。基于社会网络建立图模型的聚类方法主要从图的角度出发以整个引用网络作为分析对象,网络中节点之间的相似度的度量采用超越一步相似的度量方法,可以全面的反映整个互引网络中各个节点之间的共性和差异,但是此类方法的效果与参与分析的数据质量以及样本量的大小有很大的关系。经典聚类方法的主要研究对象并非互引网络,而是互引网络中的节点所组成的集合。节点之间相似度主要是基于互引关系网络中的步长为1的相似性度量方法确定,相比较基于社会网络图模型结构的聚类方法,经典聚类方法对于原始数据存在利用不充分的问题,但是经典聚类方法不受数据质量以及样本量大小的限制。
通过研究以上聚类分析领域中的主要方法,针对《中图法》各个一级类目下的二级类目是小样本量的特点,所以考虑采用对样本量要求不严格且对原始数据分布没有预定假设条件的系统聚类方法和分割聚类方法两大分类体系中的13种方法(表1),并运用机器学习中集成学习的思想,将13种方法的结果进行综合集成,最大限度的保证聚类结果的有效性和准确度。
表1 聚类算法的选取
3 学科分类实验和结果
3.1 数据基础
笔者以中国科学引文数据库(CSCD)2009—2011年数据为基础进行计算,该数据集涵盖1286种期刊,来自93万篇文章的1250万余条参考文献数据。中国科学引文数据库(CSCD)来源期刊的数量较少,但是引证期刊的数量较大,在度量学科相似度时,相比较学科的期刊同被引强度,学科的期刊耦合强度所覆盖的期刊数量更大,为了提高研究结果的准确性,采用学科的期刊耦合强度作为度量学科分类之间相似度的方法。此外,中国科学引文数据库(CSCD)来源期刊的论文均采用《中图法》,为期刊耦合强度提供了数据基础。
3.2 期刊耦合强度的计算
(1)统计对象为CSCD 2009—2011年来源文献及其参考文献中文献类型为期刊的数据;
(2)对于中国科学引文数据库的来源文献(施引文献),将其学科分类聚类到《中图法》的二级类目下;
(3)通过施引文献与被引文献之间的相互引用关系形成二级学科类目—期刊组成的邻接矩阵,为了降低邻接矩阵的稀疏度,对于每一个学科分类,根据其引用各个期刊的引用频次截取累积百分比小于80%的期刊作为后续分析的对象;
(4)为了避免各个期刊卷期数量、发文类型、发文量等等因素对被引频次数据造成的影响,本文将(3)中得到的邻接矩阵转化为0-1型矩阵,从而消除以上因素对于期刊耦合强度计算的干扰;
(5)通过计算(4)中0-1型邻接矩阵中各个学科分类之间的Gower相关系数,将此矩阵转化为学科分类之间的相似度矩阵;
3.3 基于学科分类的期刊耦合强度的聚类分析
本文对于从属于同一个一级学科的二级学科分类之间的相似度矩阵分别运用表1中列出的各种方法进行聚类分析。
(1)聚类分析过程
聚类分析是一种无监督式分析方法,最终结果并没有明确给出类的个数,所以聚类个数的确定对最终结果具有较大的影响。为了减少聚类过程中主观因素对聚类结果的影响,文章依据 Gap statistic[34]确定最终的聚类个数。以《中图法》一级类目生物科学(Q类)所包含的17个二级学科类目的聚类过程为例,将Q生物科学所包含的17个二级类目运用DIANA进行聚类分析。聚类个数的Gap统计量的分布图(见图1)显示聚类个数为5类或6类最佳,再对比Gap统计量的取值发现,最优的聚类个数还是6类。
通过系统聚类法DIANA所得到的17个二级类目的聚类谱系图(见图2)可以发现,聚类个数为6对应的聚类结果是Q综合单独为一类;Q-(Q-0生物科学的理论和方法,Q-1生物科学现状与发展,Q-3生物科学的研究方法、技术,Q-4生物科学教育与普及,Q-9生物资源调查)与Q2细胞学,Q3遗传学,Q4生理学,Q5生物化学,Q6生物物理学,Q7分子生物学,Q81生物工程学(生物技术),Q93微生物学为一类;Q1普通生物学,Q94植物学,Q95动物学,Q96昆虫学聚集成一类;Q91古生物学单独为一类;Q98人类学单独为一类;Q89环境生物学单独为一类。
图1 Q类17个二级类目基于DIANA的Gap统计量分布图
图2 Q类17个二级类目基于DIANA的聚类谱系图
表2 生物科学(Q类)17个二级类目聚类结果
通过对生物科学(Q类)运用聚类分析发现,许多二级类目之间确实存在高度相关的现象。Q89在《中图法》中是一个交替类目,根据分类法的规则应归入X类中,由于在CSCD论文数据中存在Q89的分类,我们遵循基本数据的特征,保留了这个二级类目,通过聚类发现Q89在Q类中保持了独立性,这种独立性从另一个方面证明利用互引关系可以说明学科的特征,Q89类期刊引用行为与Q类期刊引用行为存在差异。
(2)修正的《中图法》自然学科分类体系
通过期刊耦合强度的计算,文章对《中图法》的自然科学类目体系进行了修正,期望提供一个满足学科分类发展特征的兼备定性特征和定量特点的学科分类体系。我们发现U(交通运输)、V(航空、航天)两个类目期刊数量较少,不适用二级分类体系,仅用一级类目即可。X(环境科学、安全科学)类,除X9以外,其他二级类目的期刊耦合强度极高,均可收敛到一个超级二级类目下。O(数理科学与化学)、P(天文学、地球科学)虽有一定的期刊耦合,但保持了二级类目的独立性。Q(生物科学)类和S(农业科学)类相比较中图法的分类体系来说变动比较大,这两个大类中二级学科分类之间具有较强的相关性,Q类下设15个二级类目收敛为6个二级类目(见表2)。S类下设9个二级类目收敛为5个二级类目,其中S1(农业基础科学)和S2(农业工程)聚合成一个超级二级类目;S3(农学/农艺学)、S5(农作物)、S6(园艺)和 S4(植物保护)聚合成一个超级二级类目,其他各二级类目保持不变。对Q、S类二级类目收敛的情况,我们又分析了《中图法》中各二级学科分类的定义,发现二级类目的定义具有相似性,二级类目下设立的交替类目较多,互为交替,因此定性的定义与基于互引关系测度的相关关系具有很大程度的一致性。R(医药、卫生)类和T(工程技术)类的变动幅度相对不是特别大,R类中,R4临床医学,R5临床各科两个类聚合成一个与临床实践相关的类;T类中,TF冶金工业,TG金属学与金属工艺两个二级学科分类由于都与金属具有紧密的联系所以聚集成一个超级二级学科分类;TN电子技术、通信技术,TP自动化技术、计算技术由于具有较强的交叉性也聚集到一起形成一个超级二级学科分类,其他各个二级类目保持不变。
(3)聚类结果的语义验证
对《中图法》自然学科的二级学科分类进行聚类分析的过程中,也发现了个别的与目前的经验知识存在差异的超级二级学科分类。比如,在对医药、卫生(R类)学科进行聚类分析的过程中发现,尽管R74神经病学与精神病学和R76耳鼻咽喉科学两个二级学科分类在最优聚类个数确定之后并未聚合成一个超级二级学科分类,但是在分析具体的相关矩阵过程中发现,两个二级学科分类相对于其他的二级学科分类具有较强的相关性。鉴于此,本文将上述存在认知模糊的超级二级学科分类进行文本和语义层面的分析,分析的主要对象为具有耦合关系的施引文献和被引文献,主要方法为分别提取以上超级二级学科分类中具有耦合关系的施引文献对和被引文献集合的标题和关键词等文本类数据中所包含的研究主题。基于文本挖掘中的主题分析模型(LDA),分别对具有耦合关系的施引文献序列对和被引文献集合建立主题模型,从而在语义层面分析两个二级学科分类较强期刊耦合强度的成因,为学科分类的发展研究提供参考。
通过表3可以发现,R74和R76学科具有耦合关系的施引文献对的研究主题大部分为脑中风之后的吞咽障碍以及相关的吞咽功能障碍、呼吸睡眠障碍等并发症的研究;被引文献集合的研究主题与施引文献对的研究主题基本一致,其研究主题主要集中在脑卒中之后的吞咽障碍,此外还包括耳鼻咽喉等疾病治疗过程中的所涉及的神经问题研究。
表3 R74神经病学与精神病学和R76耳鼻咽喉科学耦合研究主题列表
TD和TU两个学科的耦合研究主题,从施引文献对方面分析主要集中在建筑科学(TU)中的岩石力学在煤矿建造、煤矿开采、煤矿安全试验研究以及其他的建筑学理论在煤矿设计环节的理论研究;被引文献中所包含的研究主题与施引文献对所提取的研究主题基本吻合,更多的是相关的建筑学、力学等理论在煤矿建造和开采过程中的应用。
综合以上对两个超级二级学科分类的文本层面的研究发现,首先,基于期刊耦合强度的研究具有现实的意义,以上两个超级二级学科分类的主题分析结果都显示,这些研究主题具有一致性,包含一定的统计规律,即从知识和语义的角度分析,耦合相关性较强的学科在研究内容上具有一致性,有确定的交叉研究出现使得二者出现相关性,运用期刊耦合强度可以反映学科之间的相关关系;再者,在对超级学科分类解释的过程中,从具有耦合关系的施引文献对抽取主题与从被引文献集合抽取主题的解释能力大致一致,侧面反映出具有耦合关系的被引文献集合具有解释新生成学科分类的能力。但是相比较被引文献集合,施引文献对由于数据量更丰富且包含耦合文献之间的相关关系所以对新形成学科的解释力度更强一些;最后,各个学科分类的相关性在不断发展变化,基于定量分析得到的学科分类反映了科学结构的交叉融合,也在一定程度上反映了科学研究解决现实问题的客观现实。
表4 TD矿业工程和TU建筑科学耦合研究主题列表
4 结论
科学的迅速发展促使定量描述科学发展规律的科学结构研究不断的发展,学科分类是科学结构研究中比较重要的组成部分,基于学科之间的期刊耦合强度定量研究学科分类的发展是本文的研究目的。本文在前期研究的基础上,将定性研究与定量研究综合于学科分类体系的研究过程中,综合定量研究和定性研究的优势,以学科分类之间的期刊耦合强度作为学科之间相似度的度量,借助聚类分析的思想研究学科分类之间的关系。总结研究思路和方法,如下:
首先,明确研究方向,本文的学科分类体系研究建立在《中图法》所确定的专家学科分类体系之上,所研究的学科分类的范围为分类法所确定的所有10个自然科学的一级分类,分析的结果对于自然科学领域的学科分类具有普遍的适用性。
其次,数据分析基于大样本量研究的数据来源为中国科学引文数据库(CSCD),采用期刊的耦合强度充分的保证了足够的样本量,最大限度的扩大参与分析的数据量。
第三采用多种数据计算方法。本文对于二级学科分类之间的相关关系研究借助聚类分析的思想,聚类方案的确定充分考虑到了数据的特征、方法的特点,并且借助集成学习的思想保证聚类结果的稳定性和准确度,在分析的基础上明确的给出了一个符合前期经验认知同时融合了学科发展知识的修正的学科分类体系。
第四,数据计算与观察。对其中出现的一些具有认知模糊的超级二级学科分类结果从文本分析的层面,运用主题挖掘的方法给出解释,并发现以上认知模糊的超级二级学科确实存在一些具有统计学意义的交叉研究点,从而导致两个学科在耦合行为上具有较强的相似性。最后,在尝试对超级学科进行解释过程中,本文也发现基于施引文献和基于耦合文献的语义解释的结果具有一致性,在解释能力上,施引文献的解释能力要更强一些,对于前期研究中如何选取分析对象解释新得到学科分类的问题给出了论证。期望对后续的学科分类研究和应用提供一定的参考。
本文虽然给出了一个修正的学科分类体系,但是在学科分类的研究方面还存在一些不足之处,比如学科分类相关性的研究并未将整个引文网络综合考量;再者,分类依据来自于论文给定的中图分类号,由于《中图法》类目结构和分类方法,在使用过程中对类目的理解不同,可能会导致分析会所偏差;最后,不打破一级学科分类体系的研究对于发现新型交叉学科可能存在一些制约。本文期望进一步将互引网络与文本挖掘、NLP相结合,从引文和语义两个层面同时研究学科分类体系的发展变化,在发现更大范围的交叉学科方面进行一些研究,从而更加科学的研究科学结构的发展变化,为科学的发展规律研究提供一定的参考。
[1]GlänzelW ,Schubert A.A new classification scheme of science fields and subfields designed for scientometric evaluation purposes[J].Scientometrics,2003,56(3):357-367.
[2]Boyack KW,Klavans R,Börner K.Mapping the backbone of science[J].Scientometrics,2005,64(3):351-374.
[3]Cason H,Lubotskyl M.The influence and dependence of psychological journals on each other[J].Psychological Bulletin,1936,33(2):95-103.
[4]Daniel R S,Louititi C M.Professional Problems in Psychology[M].New York:Prentice Hall,1953.
[5]Narin F,Carpenter M,Berlt NC.Interrelationships of scientific journals[J].Journal of the American Society for Information Science,1972,23(5):323-331.
[6]Narin F.Evaluative bibliometrics:The use of publication and citation analysis in the evaluation of scientific activity[M].Washington,DC:National Science Foundation,1976.
[7]Leydesdorff L,Cozzen S E.The Delineation Of Specialties in Terms of Journals using the Dynam ic Journal Set of the SCI[J].Scientometrics,1993,26(1):135-156.
[8]Leydesdorff L.Dynam ic and evolutionary updates of classificatory schemes in scientific journal structures[J].Journal of the American Society for Information Science and Technology,2002,53(12):987-994.
[9]Leydesdorff L.Clusters and maps of science journals based on bi-connected graphs in the Journal Citation Reports[J].Journal of Documentation,2004,60(4):371-427.
[10]Leydesdorff L.Top-down decomposition of the Journal Citation Report of the Social Science Citation Index:Graph-and factoranalytical approaches[J].Scientometrics,2004,60(2):159-180.
[11]Leydesdorff L.,Rafols,I.A globalmap of science based on the ISI discipline categories[J].Journal of the American Society for Information Science and Technology,2008,60(2):348-362.
[12]Zhang L,Janssens F,Liang L,et al.Journal cross-citation analysis for validation and improvement of journal-based discipline classification in bibliometric research [J].Scientometrics,2010,82(5):687-706.
[13]张琳,梁立明,刘则渊,等.基于期刊聚类与SOOI分类体系的科学结构研究[J].科学学研究,2012,30(9):14-22.
[14]Braam RR,Moed HF.,van Raan AFJ.Mapping of Science by Combined Co-Citation and Word Analysis.I.Structural Aspects[J],Journal of the American Society for Information Science and Technology,1991,42(4):233-251.
[15]Chen CM,Ibekwe-SanJuan F,Hou JH.The Structure and Dynamicsof Cocitation Clusters:AMultiple-Perspective Cocitation Analysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.
[16]White HD,McCain KW.Visualizing a Discipline:An Author Co-Citation Analysis of Information Science,1972 - 1995[J].Journal of the American Society for Information Science,1998,49(4):327-355.
[17]Kessler MM,Bibliographic coupling between scientific Papers[J].American Documentation,1963,14(1):10-25.
[18]岳增慧,方曙.基于共链与共引关系的期刊结构特征比较研究[J].图书情报知识,2013(5):72-81.
[19]曾倩,杨思洛.国外图书情报学科知识交流的比较研究——以期刊引证分析为视觉[J].情报理论与实践,2013,36(10):114-119.
[20]Ni C,Sugimoto C R,Jiang J.Venue-author-coupling:A Measure for Identifying Disciplines Through Author Communities[J].Journal of the American Society for Information Science and Technology,2013,64(2):265-279.
[21]邱均平,刘国微.基于期刊作者耦合的学科知识聚合研究[J].情报杂志,2014,33(4):17-22.
[22]Zhao DZ,Strotmann A.Evolution of Research Activities and Intellectual in Information Science 1996-2005:Introducing Author Bibliographic-Coupling Analysis[J].Journal of the American Society for Information Science and Technology,2008,59(13):2070-2086.
[23]邱均平,董克.作者共现网络的科学研究结构揭示能力比较研究[J].中国图书馆学报,2013,39(1):15-24.
[24]马瑞敏,倪超群.作者耦合分析:一种新学科知识结构发现方法的探索性研究[J].中国图书馆学报,2012,38(2):4-11.
[25]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24(4):265-269.
[26]王贤文,刘则渊.基于共被引率分析的期刊分类研究[J].科研管理,2009,30(5):187-195.
[27]Leydesdorff L.Can Scientific Journals be Classified in term of Aggregated Journal-Journal Citation Relations using the Journal Citation Reports[J].Journal of the American Society of Information and Technology,2006,57(5):601-603.
[28]Chang YF,Chen CM.Classification and Visualization of the Social Science Network by the M inimum Span Clustering Method[J].Journal of the American Society for Information Science and Technology,201162(8):2404-2413.
[29]Hartigan JA,Wong MA.A K-means clustering algorithm[J].Applied Statistics,1979,28(1):100-108.
[30]MacQueen J.Some methods for classification and analysis of multivariate observations[C].Proceedingsof the Fifth Berkeley Symposium on Mathematical Statistics and Probability,Calif:University of California Press,Berkeley,1967:281-297.
[31]Reynolds A,Richards G,de la Iglesia B,et al.Clustering rules:A comparison of partitioning and hierarchical clustering algorithms[J].Journal of Mathematical Modelling and Algorithms,1992,5(4):475-504.
[32]Everitt B.Cluster Analysis[M].London: Heinemann Educ.1974.
[33]Kaufman L,Rousseeuw PJ.Finding Groups in Data: An Introduction to Cluster Analysis[M ].New York:W iley,1990.
[34]Tibshirani R,Walther G,Hastie T.Estimating the number of data clusters via the Gap statistic[J].Journal of the Royal Statistical Society B,2001,63(2):411-423.
[35]Marshakova Shaikevich I.System of Document Connections Based on References[J].Scientific and Technical Information Serial of VINITI,1973,6(2):3-8.