基于词频统计与语义关联的京津冀协同发展研究热点与前沿监测研究
2018-05-14陈辰王璐郝晓雪
陈辰 王璐 郝晓雪
摘要:结合词频统计与高频关键词的语义关联分析,为“京津冀协同发展”的研究热点及前沿主题的细化研究提供切入点。结合实验数据,提出关键词语义关联的三种路径:基于叙词表概念关系的关联、基于关键词语法结构的关联和基于逻辑概念分类的关联,并基于这三种路径探索了京津冀协同发展研究的热点及前沿趋势。
关键词:研究热点;语义关联;词频分析
中国分类号:G250;G353.1文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2018.0017
1引言
目前国内外有关研究热点与前沿监测研究主要涉及理论、方法和实证应用几个方面,在方法上主要是基于引用关系和基于文本内容的分析法,其中基于引用关系的科技前沿预测方法又分为直接引用、共被引和文献耦合三个方面,基于内容分析的方法分为词频分析法和共现分析法,这些方法各有其优缺点,将上述方法进行有效的结合,互相取长补短,是当前该领域的研究重点。
关于研究热点和前沿预测方法的结合研究,Braam等人利用共词分析与共被引聚类结合的方法,探测研究前沿,能获得比单纯共被引分析更加全面的景象[1]。王立学认为3种引用方法都可以探测研究前沿,但是综合使用才能取得较好效果[2]。方丽等利用双聚类算法和突发检测算法进行学科前沿与知识基础的比较研究[3]。宫雪等对直接引证、同被引和文献耦合3种方法在前沿预测的效果上进行比较分析[4]。
本文在傳统词频统计预测研究热点的基础上,结合语义关联方法进行研究热点和前沿的细化与全面分析,是对传统词频统计方法的一种优化,使其更加准确、全面、细致地反映研究热点与前沿。
词频分析,是通过统计可以表达文献核心内容的关键词或主题词的频次高低来进行某学科或研究领域的热点主题预测,频次越高说明该主题的关注度越高,是当前的热点主题。但是由于有的关键词不规范,对研究主题的预测会产生一定的偏差;而且如果只分析高频词汇,就可能忽略了有一定集合意义、代表研究热点、研究前沿的低频词汇。本文在词频统计的基础上,进行高频关键词的语义处理方法研究,以期解决上述问题。
2数据分析样本
本文以“京津冀协同发展”研究主题为实例,选择CNKI期刊全文数据库为数据源,共检索出论文2 532篇。将题录信息导入EXCEL中进行统计,共得到关键词11 727个,经初步统计,将没有实际研究意义的高频词去掉,得到前50位高频关键词如下表。表1的高频关键词为基础数据分析来源,通过实验总结关键词的关联路径。
3关键词语义关联方法探析
关键词语义关联方法,即高频关键词与其他关键词(包括高频词与低频词)建立某种连接时所依据的归并、拆分和组配方法。关键词语义关联在分析挖掘关键词隐含的各种语义信息及其层次关系的基础上,参照一定的语义环境确定高频关键词和其他关键词间关系。通过总结,本文将关键词语义关联方法分为三类:
3.1基于叙词表概念关系的语义关联
《ISO25964—1文献和信息-检索用叙词表》[4],指出概念间的关系有等同关系、等级关系(上、下位)、相关关系和定制关系等。关键词间的关联可参考上述语义关系,进行等同、等级和相关关系的归并处理,实现同一概念不同关键词表达形式之间的对等关联,以及包含与被包含关系及相关关系的关联,以全面构建研究主题的概念语义关系。
(1)等同关系的关联。等同关系关联是指将概念语义完全相同的,即在不同的应用场合基本可以互相取代的两个关键词进行归并处理。等同关系的关联又分为两种情况:①词形规范:对字面形式(词序、简繁体等)、含有标点符号、字母符号和数字等方面的关键词进行规范,达成两个词间的等同映射关联。如含有标点符号(引号)的“京津冀一体化”、“京津冀”一体化与京津冀一体化的等同关联。②词义规范:对同义词、准同义词间的关联,具体包括单关联和组配关联,前者是一对一关联,后者是通过关键词间的组配达成一对多的关联。示例1(单关联):“地区经济”和“区域经济”、“地缘经济”含义相同,可合并为一词。示例2(组配关联):“承接产业转移”可由“产业承接”与“产业转移”进行组配,组配关联需要注意组配的语义对等。
(2)等级关系关联。等级关系关联又称为上、下位关联,通过分析在语义上具有包含与被包含关系的关键词,建立属种关系、整体和部分关系、实例关系关联。上位关联可以反映该关键词的上位类,说明较为宏观的研究主题,下位关联可以反映该关键词的下位类,更全面、细致深入地反映研究主题。
(3)相关关系关联。相关关系关联是指将语义上具有重合或者交叉关系的关键词建立联系。一般有相同的父类关系的关键词具有相关关系,但并不是所有具有同一父类的子类就具有相关关系。关键词相关关联可以扩大相关主题的范围,为该主题的进一步深入研究提供思路与切入点。示例:“京津冀协同发展战略”与“一带一路战略”和“长江经济带”属于相关关系关联类型,它们具有相同的上位类——“国家战略”。“京津冀”和“长三角”与“珠三角”也属于相关关联,相同的上位类为“区域经济”。
3.2基于关键词语法结构的关联
朱德熙[6]将词语的语法结构分为联合、偏正、主谓、述宾和述补等五类,另外还有重叠、附加、前缀和后缀四类。抓住了词语词素间的结构关系,就抓住了语义关系[6]。据于此,本部分通过分析关键词的语法结构,来理清词语间的语义层次关系,进而根据语义关系进行关键词间的关联。
(1)联合关系短语。联合关系又称并列关系,并列关系短语中的两个词语是同类短语,词性相同,可以互换位置,中间可用“和”、“与”等连词相连。如“体制机制”、“互利共赢”、“互联互通”“、联防联控”“节能减排”等都属于并列关系词语。
(2)偏正关系短语。偏正关系短语,是由修饰语和中心语组成,结构成分是修饰和被修饰的关系。偏正结构的关键词,可对其中心词进行关联主题分析,扩大分析范围。如“世界级城市群”的中心词为“城市群”,“环京津贫困带”的中心词为“贫困带”。
(3)主谓关系短语。主谓关系的短语,由主题和陈述主题的谓语两部分构成。此类关键词关联可以根据主题上位类目进行聚类,分析出主题陈述的宏观研究方向,即研究热点的大致分类情况。
(4)述宾关系短语。述宾关系又称动宾关系,是由动词和受动词支配的实施对象两部分组成。如“生态环境保护”(保护生态环境)、“大气污染防治”(防治大气污染)、“大气污染治理”、“资源综合利用”、“生态补偿”等。此类词语的关联主题重点应在实施对象上。
(5)述补关系短语。述补短语是由述语和对述语的补充说明成分组成,中间一般可以加“得”字连接。如“优化开发”、“跨越式发展”、“和谐发展”、“低碳发展”和“协调发展”等。此类词语的关联主题重点应在述语上。
3.3基于逻辑概念分类的关联
关键词可以借鉴逻辑概念分类方法进行分类,以明确关键词的内涵和外延,从而进行概念层次的关联。苏天辅[8]将概念分为专指概念和普通概念、集合概念和非集合概念等。
(1)专指概念和普通概念。从概念的外延上划分,可以分为专指概念和普通概念。专指概念是外延只有一个对象的、反映某一特定事物的概念,如“长江经济带”、“京津冀区域”、“河北省”和“保定市”等属于此类概念。普通概念是外延有两个或两个以上的、反映一类事物的概念,包括许多对象的组合,如“基础设施”、“世界城市”等。
(2)集合概念和非集合概念。集合概念是反映具有某种联系的许多同类对象所构成整体的概念,非集合概念是不反映集合体的概念。如“城市群”、“贫困带”、“核心区”、“首都圈”等为集合概念。
(3)单一概念和复合概念。除了上述分类标准,根据概念的结构还可分为单一概念和复合概念。单一概念在结构上不可再分,复合概念是指在结构上可以分解为两个以上的分概念。复合概念由多个词组成,有的可进行直接拆分,有的不能根据字面含义直接进行拆分,需要对原有的组成术语进行修改才能进行拆分组配。所以在进行复合关键词关联时,要注意复合概念的拆分语义。示例:“城市功能定位”可拆分为“城市功能”和“功能定位”,或“功能区定位”;“市场经济体制”拆分为“市场经济”和“经济体制”;“区域经济合作”拆分为“区域经济”和“经济合作”。而“金融生态环境”不能拆分为“金融”和“生态环境”,这明显具有语义上的错误,因为“生态环境”在京津冀协同发展研究中更多的是指自然生态环境,而不是金融生态环境中根据仿生学原理构建的金融体系环境。
4基于词频统计与语义关联的“京津冀一体化”研究热点与前沿实例分析
本部分基于上述关键词语义关联方法,结合京津冀协同发展研究关键词,进行研究热点及前沿问题的探索分析。
4.1京津冀一体化研究
“京津冀一体化”是京津冀协同发展要实现的整体目标,那么其包含的具体路径和问题可以从其下位类中反映。反映“京津冀一体化”下位关联情况的词汇详见表2:
通过分析京津冀一体化的下位关联类目及出现频次,可以看出“交通一体化”是实现京津冀一体化的主要路径之一,其次还有经济一体化、产业一体化和物流一体化等;说明京津冀一体化是近两年的研究热点,而作为下位类的交通一体化、经济一体化和产业一体化可能会是未来几年继续研究的前沿问题。
在问题研究方面,“一体化改革”受关注度较高,说明目前京津冀协同发展面临很多障碍,全面深化改革的措施、项目等是研究的热点及未来研究前沿。此外, “全面深化改革”为述补关系短语,出现频次为44,其意为“改革得全面深化”,中心含义为“改革”,與之相关的关联为“一体化改革”“国企改革”“改革创新”“体制机制改革”等,共计126个频次,说明这是当前改革方面的研究热点及未来趋势。
4.2京津冀协同发展体制机制问题研究
具有联合并列关系的关键词词语可进行多层关联,首先分别将两个词语进行拆分关联,找出各自的主题重点,然后根据需要再进行并列短语的整体关联。关于“体制机制”多层关联关系详见表3,关键词后括号内数字为出现频次。
通过上述关联关系分析,在“体制”方面,对于市场经济体制方面的研究最多,尤其是为京津冀协同发展创造良好的“财税、财政体制”是研究的热点主题,也有可能成为未来的研究前沿主题。其次还有“政府、金融、文化、医疗”等方面的体制改革也是关注的热点。在“机制”方面,遵循市场机制,构建区域协调机制、生态补偿机制、利益协调机制、补偿机制是研究的热点问题。京津冀协同发展研究中,“体制机制障碍”研究最多,说明京津冀协同发展中要进行体制机制方面的创新,进行全面深入的改革,是未来研究关注的焦点问题。
4.3京津冀协同发展战略问题
具有偏正关系结构的短语,可对其中心词进行关联主题分析,扩大研究分析范围,细化研究主题。如“国家战略”可以基于叙词表概念体系进行多层关联分析,如它的等同关联类目为国家重大战略、三大国家战略;等级关联类目有发展战略、战略定位和战略部署等;相关关联类目为京津冀协同发展战略、“一带一路”战略和长江经济带战略。
通过关联分析,可以构建较为完整的“国家战略”知识概念体系,为进一步进行国家战略主题的深入研究提供新的切入点。通过分析可知,作为国家重大的战略,相关学者进行战略分析、战略定位及部署方面的研究,另外结合其他两个国家战略进行相关问题的研究,是目前国家战略层面的研究热点。
4.4京津冀城市群相关概念研究
集合概念是一种构成整体的概念,它由具有某种联系的许多同类对象所构成。“城市群”是目前出现频次较高的集合概念,通过细化“城市群”概念的元素对象,可以看出研究的关注热点,通过统计分析,它的同类集合对象及其频次情况如下,北京(7)、天津(7)、河北省内城市主要为廊坊(20)、保定(10)、石家庄(8)、张家口(7)、秦皇岛(6)、唐山(3)、承德(4)、沧州(2)。
在京津冀“城市群”研究中,河北廊坊的頻次最高,说明受学者关注的程度最高,其次为河北保定、石家庄等。有关天津的研究,除了“天津”自身出现的频次外,“北方经济中心”也是天津的等同类目,频次为27次,所以天津作为北方经济中心的功能定位研究也是热点。
4.5京津冀协同发展的经济、产业与区域问题研究
具有主谓关系的词语,可以根据主题上位类目进行聚类,分析出主题陈述的宏观研究方向,确定当前的研究热点及未来的研究趋势。表4为具有主谓关系短语的关联示例。
通过主谓关系的关键词关联,具有相同主题的类目可以聚类为宏观研究类,如上示例中大的类目为“经济”、“区域”和“产业”,说明京津冀协同发展研究的热点问题大致集中在“经济发展”、“区域治理”和“产业协同”等几个宏观角度。在具有相同结构的类目中,可以根据词频高低,进一步判断该宏观类目下的热点研究分主题,如“产业”研究中,“产业分工”出现频次最高,可以看作是未来的研究前沿。
5总结与展望
本文基于京津冀协同发展研究主题论文的关键词,进行研究热点与前沿的实证分析,提出在基于词频统计的基础上,进一步利用基于叙词表概念关系、基于关键词语法结构和基于逻辑概念分类三种方法进行关键词的语义关联,为相应热点主题的深入、细化研究提供切入点,探测与高频词具有语义关联的低频词汇,预测未来该研究领域的研究趋势。关键词的一些细化关联类目可能会是该领域研究前沿领域,未来进一步加强研究前沿预测和关键词语义关联这方面综合研究,以期取得较好的研究结果。
参考文献
[1]Braam R,Web H,Van R.Mapping of science by combined co-citation and word analysis Ⅱ: dynamical aspects[J].Journal of the American Society for Information Science,1991,42( 4) : 252-264.
[2]王立学,冷伏海.简论研究前沿及其文献计量识别方法[J].情报理论与实践,2010,(3):55-58.
[3]方丽,崔雷.利用双聚类和突发检测算法探测学科前沿及知识基础的比较分析[J].情报杂志,2015,(2):79-88.
[4]宫雪,崔雷.利用不同类型引文探测研究前沿及比较研究[J].中华医学图书情报杂志,2010,(4):8-10,31.
[5]ISO 25964-1:2011(E),Information and documentation——Thesauri and interoperability with other vocabularies——Part 1: Thesauri for information retrieval[S]. Geneva: International Standardization Organization(ISO),2011.
[6]朱德熙.语法讲义[M].北京:商务印书馆,1982:32.
[7]王汉卫.华语测试的阅读研究[M].北京:北京大学出版社,2012:98.
[8]苏天辅.形式逻辑学[M].成都:四川人民出版社,1981:23.
作者简介:陈辰(1986-),女,硕士,河北金融学院图书馆馆员,研究方向:知识组织。
王璐(1988-),女,硕士,河北金融学院国际金融服务外包学院助教,研究方向:信息计量。
郝晓雪(1988-),女,硕士,河北金融学院图书馆馆员,研究方向:信息计量。
(收稿日期:20170609责任编辑:张静茹)
Abstract: The semantic relevance analysis combing word frequency statistics and high frequency keywords, provide an entry point for the detailed research on the research hotspot and frontier topic of “the Coordinated Development of Beijing, Tianjin and Hebei Province”. Based on the experimental data, three paths of keywords semantic relevance are presented: relevance based on the conceptual relation of descriptors, relevance based on keywords grammatical structure and relevance based on logical concept classification. On the basis of these three paths, the paper explores the research hotspot and front trend of “the Coordinated Development of Beijing, Tianjin and Hebei Province”.
Key words: Research Hotspot; Semantic Relevance; Word Frequency Analysis