基于新闻信息抽取的人文社科非正式科学交流研究
2018-09-20王晓笛李广建
王晓笛 李广建
摘 要:科学交流研究,是情报学长期关注的研究主题,其中非正式科学交流尤其是线下的交流活动作为一种重要的信息交流方式,但长期以来由于受到数据的限制一直不能进行大规模的研究。文章通过探索学术新闻中对于非正式科学交流活动的记录,将活动拆解为参与者、时间、地点、事件类型、报告题目、观点等元素,并对这些元素在新闻中的文本特征做了分析。研究证明利用信息新闻抽取,可以实现对非正式科学交流事件的了解,并可以以此为基础研究线下非正式科学交流的某些特征和规律。
关键词:非正式科学交流;信息抽取;人文社科
中图分类号:G250.2 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2018024
Research on the Informal Scientific Communication of the Humanities and Social Sciences Based on the Extraction of News Information
Abstract Scientific communication is a hot research topic in information science. Informal communication, especially those happened in real life is an important type of communication. However, there is no large scale study on this topic due to a lack of data. In this study we explore how these activities has been described in academic news and split a piece of news into participants, time, place, event, report title and opinion. We studied the patterns of how these elements are phrased. Based on these knowledge we use a program to implement a process which enables us to extract 160,312 communication activities from news crawled using Bing API and an expert list. Then we carried out a general analysis and a case study.
Key words informal scientific communication; information extraction; humanities and social sciences
1 引言
科學自诞生以来就伴随着科学知识的传播,从古希腊时期的口口相传,到近代以牛顿等科学家为代表的欧洲科学研究开始出现了相对正式的文字科学交流。进入20世纪后,随着《科学革命的结构》《无形学院——知识在科学共同体的扩散》等专著的出版,科学共同体的互动以及知识的交流作为一种特殊的交流形式开始得到研究者的关注,该研究在情报学领域被称为科学交流研究,是情报学长期关注的研究主题。前苏联著名情报学家米哈依诺夫将科学信息交流分为“正式交流过程”和“非正式交流过程”。正式交流过程指发生在科学信息生产者和科学信息消费者借助于科技文献进行科学信息交流的过程;非正式交流过程指的是信息生产者与利用者之间直接进行交流的过程,这种交流通常是口头进行的,一般的交流场景包括面对面交谈、电话会议、邀请或访问型现场讲座等。来自拉夫堡大学的Brittain[1]对非正式科学交流的比例做了研究,估计在整个研究和学术环境中,非正式科学交流所占比重在50%到80%之间,而在社会科学的实际应用、管理以及教学领域,非正式交流的比重甚至更高;Kraut等[2]的研究指出,非正式交流在组织交流形式中占有支配性地位。然而,从总体上看,当前对于非正式交流的研究依然较少,且数据规模都较小[3]。一个重要原因是难以获得相关数据,因此无法开展大规模研究[3]。Brittain[1]的研究表明,较小的研究规模对于从整体上理解非正式科学交流活动能起到的作用很小。
近年来,大数据、多源数据融合以及人工智能等技术经历了快速发展,研究者提出了学术大数据的概念[4],这为情报学研究者利用学术大数据对非正式科学交流进行研究提供了数据基础和技术条件。当前已有学者开始探索利用各种互联网数据进行非正式科学交流的研究。如张立伟等[5]利用科学网中的博客数据对网络空间中科学家的非正式科学交流研究,识别了交流的主要推动力、交流的时间特征和主要内容等;邹儒楠和于建荣[6]利用小木虫论坛数据,从社会网络分析的角度研究了非正式科学交流中知识转移的问题;刘乙蓉[7]使用微博数据,对图书情报领域相关专家的交流网络以及交流内容做了研究。此外,还有研究者[8]利用诸如Github等平台的数据对虚拟社区创新知识传播进行研究。然而,从科学交流所发生的空间来看,上述研究均关注的是网络空间中的科学交流,正如方卿[9]所指出的,网络中的科学交流定位于“点对点”的个人交流。然而,在非网络环境下,即线下非正式科学交流依然存在,典型的活动包括邀请访问、学术会议、专家报告等。尽管并非所有的科学交流活动都留有记录,然而,依然有部分非正式科学交流以文字等形式被记录下来。这其中,各种与学术相关的机构的网站作为机构的宣传组织以新闻的形式就记录了大量的科学交流信息。本文旨在通过探索这些与科学交流相关的新闻(以下称为学术新闻),并以人文社科类学术新闻为主要对象,抽取其中的非正式科学交流相关信息并做分析。
2 新闻中的非正式科学交流信息
本文关注的新闻是学术新闻,具体指的是新闻中包含有科学交流活动的新闻。这些新闻通常存在于带有学术背景的机构网站,如中国社会科学网,或者存在于与学术专家相关联的机构网站,如北京大学官网。大量的记录科学交流相关信息的新闻被发表在专家所在的机构以及专家学术交流实际发生的机构。专家所在的机构通常是高等院校或研究所,学术交流实际发生的机构指的是专家访问、交流、报告、授课的机构,如高等院校、研究所以及各级政府和企事业单位等。
2.1 学术新闻的基本要素
新闻指的是对于有记录价值的事件的记载。根据著名的新闻写作“5W+1H”模式,一般可以将新闻所记录的信息分解为事件(What)、事件的参与者或关联者(Who)、事件的相关时间(When)、事件的相关地点(Where)、事件的起因(Why)以及事件的经过(How)。从新闻的写作风格上看,可以将新闻分为概括新闻和叙述新闻[10]。概括新闻追求简洁的写作风格,力求交代清楚时间、地点、人物、事件,与之相比,叙述新闻对事件的起因、经过和发展记录更为详细。
学术新闻作为新闻的一种,同样具备新闻的上述元素。通过对各机构所刊载的学术新闻进行调研,本文认为学术新闻属于概括新闻。学术新闻通常以极为简洁的风格记录与学术相关的学者(Who)、时间(When)、地点(Where)等信息,如某专家(Who)在某年某月(When)来到某机构(Where)做了报告(What)。除此以外,许多新闻中会简要的记录事件发生的经过(How),如专家在讲座这个事件中会先辨析概念,然后分析现状,最后给出自己的判断等。此外,部分新闻也会交代发生的原因(Why),如某专家是受某机构邀请才安排了某次讲座。
2.2 科学交流新闻中的非正式科学交流活动
为了从学术新闻中进行信息抽取,本文首先对非正式科学交流加以界定。根据米哈伊洛夫对于正式交流过程和非正式交流过程的区分,本文所指的非正式交流是由有学科或学术背景的信息生产者或消费者参与的,除正式出版物交流以外的所有科学交流。而根据交流是否依赖互联网可以将非正式交流进一步分为线上的非正式交流和线下的非正式交流。这里主要关注线下非正式交流。从交流的形式上看,线下非正式科学交流既包括知识型交流和非知识型交流。知识型交流包括讲座、授课、研讨、答辩等学术知识交流形式,也包括致辞、致谢等非学术型知识交流形式。非知识型交流则包括了接待、颁奖、授牌、主持等由学者参与的与科学研究相关的其他活动。
在非正式科学交流的研究中,学者会关注非正式科学交流是以什么形式进行的[1-2,11,15],交流的主要内容是什么[6-7],交流是在什么地点和环境下进行的[2,12-13],交流的频率如何以及持续的时间[2-3],还有非正式交流的参与者有哪些特征以及参与者之间的关系等[2,14,16]。由此可以发现,非正式科学交流研究所关注的信息涵盖了非正式科学交流活动的各个方面,而科学新闻中记载了大量关于非正式科学交流活动的信息。具体地说,从学术新闻元素的角度看,时间元素可以用来研究科学交流的频率等,地点元素可以用来研究科学交流是在什么样的地点进行以及这些交流各自有什么特点,人物元素则可以用来研究科学交流的参与者,包括参与者的机构、称谓等特征,事件元素作为一个整体性描述可以用来研究科学交流的形式,而具体的原因和经过则可以用来研究科学交流的内容和其他细节。
本文以一则中国社会科学院学部委员长黄长著教授在上海大学图情档系作学术报告的新闻[17]为例(见图1)。该新闻记载的是2015年10月发生在上海大学的学术报告形式的一次非正式科学交流活动,该活动的参与者(Who)主要包括黄长著、金波等。新闻不但记录了报告的题目和交流的具体内容。同时也记录了整个交流活动中每个人物的具体参与情况,如黄长著是受邀的报告者,而金波是活动主持人,此外还有其他未具名的参与者包括图情档系老师、全体研究生等。
通过对大量学术新闻进行分析,结合现有非正式科学交流的研究关注点,本文对学术新闻中的与非正式科学交流相关的基本元素进行了界定(见图 2)。“事件”,即具体的交流活动,由于学术新闻通常都是围绕一次事件展开的,因此本文假設一篇新闻只记录一次非正式科学交流事件。交流活动中的其他所有元素都是对事件的描述,是构成事件的一部分。“参与者”指的是参与非正式交流事件的所有人物,参与者除了“姓名”以外,也包括人物的“机构”和“称谓”等修饰元素。“时间”和“地点”具体指新闻中或元数据中记录的事件发生或记录的时间和地点。“经过”元素是活动的具体体现,具体包括每个“参与者”所具体参与的“事件类型”以及每个参与者的“交流内容”,而“交流内容”在具体表现形式上包括报告或讲座的“报告题目”和交流的主要“观点”。
3 非正式科学交流信息抽取规则
为了对学术新闻中的非正式科学交流元素信息进行抽取,本文根据对新闻数据的研究和分析,制定了相应的抽取规则。
3.1 参与者:姓名、机构、称谓
在学术新闻中,从参与者是否以姓名的形式出现可以将其中的人分为主要参与者和其他参与者,主要参与者包括非正式科学交流的学者、官员等,而其他参与者包括院系的教学人员、学生以及各种群体。
本文关注主要参与者,即以姓名的形式出现在新闻中的人。通过分析常见的新闻,可以发现绝大多数的参与者在新闻文本中遵循几种常见模式(见表 1)。本文设计如下抽取规则对参与者进行识别和抽取,该规则的主要功能是识别参与者的姓名、称谓和机构。
规则1: 姓名的出现代表一个参与者,姓名代表参与者的文本范围。
规则2: 当姓名的后一个词或前一个词为称谓,称谓是姓名所代表参与者的修饰语,将称谓加入参与者的文本范围。
规则3: 当参与者的文本范围前一个词为机构或称谓时,将称谓或机构加入到参与者的文本范围,重复该规则,直到不再出现机构或称谓。
在上述规则的实现上,姓名和机构使用命名实体识别的方法进行识别,称谓的识别需要借助人工构建的称谓表。
3.2 时间
时间一般出现在两个位置,分别是新闻的正文以及新闻网页的元数据。在时间的表示上,少部分新闻正文中会使用XXXX年XX月XX日这样非常明确的表示方法。但绝大多数新闻则使用XX月XX日这种无法确定明确年份的表示方法。此外,大多数新闻也会使用近日、近期、本月、上月等与新闻发表时间与上下文信息极为相关的表示方法。对于绝大多数新闻网页,一般都包含新闻的发布日期,这个发布日期通常会滞后于科学交流活动实际发生的日期,鉴于正文中日期的缺失现象,因此本文使用新闻的发布日期作为实际科学交流日期的一种替代。时间的抽取规则如下:
规则1: 年份的识别。当出现2或4个数字型字符,且数字范围在00-99或1900-2099之间,且随后出现破折号“-”、斜杠“/”、“年”字时,继续规则2。
规则2: 月份的识别。当出现1或2个数字型字符,且数字分为在1-9之间或1-12之间,且随后出现破折号“-”、斜杠“/”、“月”字时,继续规则3。
规则3: 日的识别。当出现1或2个数字型字符,且数字分为在1-9之间或1-12之间,且随后可能出现“日”时,判定为时间。
3.3 地点
只有少数新闻会明确提到实际发生的地点,绝大多数新闻正文对于发生地点的描述非常模糊。而对于地点,由于高校和政府媒体的特殊性,一般可以通过网页的标题、版权信息和网址等元数据进行确定。本研究中具体的地点主要包括高等院校和政府机构,两种机构类型需要使用不同的规则进行抽取。
高等院校由于受到教育部的统一管理,因此可以通过教育部网站获取几乎全部的高等院校名单,基于该名单可以直接对网页的标题、版权信息等位置进行匹配,从而识别高等院校名称。
政府机构采用层级管理,目前没有公开渠道可以获取全国所有的政府机构名单。通过分析中央和各级政府的机构编制网,本文制定如下政府机构抽取规则:
规则1: 前缀为以中华人民共和国、国家(国家级机构、部委)和地区名(地方政府机关)。
规则2: 中间关键词为相应的管理范围或职能范围关键词,例如司法、公安、民政、文化等。
规则3: 以部、厅、局、所、处、人民政府、委员会、办公室作为后缀。
3.4 事件类型
事件是一个相对复杂的元素,如果需要对事件做完整的描述,那么通常需要使用复杂的句子甚至是段落。根据金宏奎[18]对国内某高校门户网站一年内刊发的校内自采新闻的研究,新闻中包括的活动类型主要是出访来访、会议、庆典仪式、荣誉通报、演出比赛、讲座以及其他类型。参考该研究的观点,本研究使用事件类型来表示事件。
事件指的是发生的具体事情,从新闻文本的角度看,其中最重要的文本元素是动词,本文采集大量的新闻文本进行统计分析,通过将所有参与者姓名以及紧随姓名后的动词进行统计分析,每个动词抽取10个例句,然后进行人工判别。通过研究采样的数据,参考金宏奎的研究结果,本文将事件类型做进一步细分,列出全部事件类型和所有对应动词,并得到3大类11个小类(见表 2)。在所列出的11个小类中,绝大多数可以通过动词判断其含义,本文仅就内容交流相关大类下的发言、交流、报告做简要说明。“内容交流”大类指的是发生了实质的信息交流。其中“报告”指的是学术型讲座和报告,即新闻中明确提到有题目的讲座报告,如“专家做了题为X的报告”;“发言”指的是除报告以外的显式的信息交流,如“专家在会上致辞,欢迎大家的到来”;“交流”主要指的新闻中的私下交流,即由提及但是没有进一步记录的交流,如“专家们在会后做了交流”。事件类型的识别相对简单,只需要进行动词的匹配即可。
3.5 观点
在不同的科学交流中,专家往往会表达观点和意见,而新闻通常会有选择性的报道那些相对重要的观点和意见,这些信息可能出现在不同的科学交流事件类型中。如当专家在“报告”这种事件类型中,可能会提出针对某学术问题的观点或看法;专家在致辞或致谢这种发言式的事件类型中,可能提出针对某一群体或事件的期望;此外,专家在主持会议的时候,可能对主讲专家进行接收或者对讲座进行点评,本研究将上述类型的信息统称为观点。通过对新闻文本进行分析,本研究认为,在新闻文本中,绝大多数观点都伴随着一個与观点相关的动词,这些动词是可以通过统计分析穷举的,且都遵循两种模式(见表 3)。
根据交流内容的文本模式,本文制定如下规则对观点进行抽取:
规则1: 当出现参与者且后跟观点对应的动词关键词时,则该动词其后的全部内容为该参与者的观点。
规则2: 当出现参与者且后跟观点对应的动词关键词和句号时,则该句的前一句为该参与者的观点。
3.6 报告题目
报告题目一般带有明确的学术主题相关的信息,因此本文将其独立出来形成单独的元素。通过分析例句,本研究总结出报告题目的句子具有一些典型的特征(见表 4)。
从交流题目的文本模式可以看出,报告题目通常与固定的动词进行搭配且以固定模式的名词结尾,通过穷举所有的动词和名词结尾,本研究制定如下规则对题目的抽取:
规则1: 当出现参与者且后跟报告题目对应的动词关键词时,则句子的剩余部分为报告题目。
规则2: 当句子的结尾出现报告题目所对应的名词时,需要过滤这些名词。
4 实验和结果分析
基于以上研究,本文对人文社科领域相关专家的新闻进行非正式科学交流活动信息抽取实验并对结果进行分析。
4.1 流程和工具
为了实现非正式科学交流信息抽取,本研究设计了信息获取和抽取流程,包括获取新闻网页、抽取网页正文和元数据、进行自然语言处理、实现基于规则的信息抽取(见图 3)。本研究使用Python 3.6作为信息抽取的主语言。其中正文抽取部分采用Christian Kohlschütter等[19]提出的基于浅层本文特征的自动抽取算法。自然语言处理的相关技术采用pyltp 1.9.1,其后台实现版本为LTP 3.3.1。
4.2 数据获取
实验所使用的数据分为专家列表和新闻数据。本文从国家社科基金项目数据库中选择立项时间自2008-2017十年间承担过重大项目的1537位项目负责人作为专家。根据专家名单,采用必应自定义搜索(Bing Custom Search)API进行新闻获取。在获取时,将搜索限定在edu.cn和gov.cn域名下。然后为每个专家構建一个“姓名 所属机构”检索式。对符合条件的网页进行抓取,并得出专家的人均网页数量(见表 5)。
4.3 总体分析
通过正文抽取,得到574,040条正文信息。利用本文所提出的方法对全部新闻进行信息抽取,共计得到与专家相关的160,312条非正式科学交流活动事件。
4.3.1 事件类型
统计各种类型非正式科学交流事件的所占比例(见图 4)可以发现,会议是主要的交流事件,紧随其后的是报告以及访问。接待、荣誉等事件类型较少,这从整体上说明,绝大多数科学交流事件带有显著的信息交流,而对于工作、接待、荣誉类等更偏重形式的交流相对数量较少。这也反映了学术交流的客观情况。
4.3.2 人均活动情况
本研究根据专家所属的学科,对每个学科做了人均非正式科学交流事件的统计,并按照人均事件数量进行排序(见图 5)发现,从非正式科学交流的人均次数上看,总体上各学科的科学交流数量基本相似,其中法学、图书情报档案、教育学等学科的交流明显多于其他学科。从中也可以看出,与实践结合较为紧密的且偏向社科类的学科,其交流更加频繁。
4.3.3 跨校交流
根据科学交流活动实际发生的地点以及科学交流专家所属机构,利用有向网络对交流最频繁的100所高校进行跨高校交流分析(见图 6)可以看出,无论是交流活动的频繁程度还是从与之交流的高校数量上看,985类高校在交流中占据了绝对优势。其中,人文社科相对较强的北京大学、人民大学、武汉大学、北京师范大学等在科学交流中占据主要地位,清华大学、复旦大学、浙江大学、南京大学等综合型名校也占据了交流的主要位置,而兰州大学、西安交通大学、厦门大学、北京理工大学等在985高校中相对交流较弱。此外,交流呈现出明显的地域倾向和学科背景倾向。从地域上看,河南大学和郑州大学、西藏大学和西藏民族大学、广西师范大学和广西民族大学、西南大学和西南交通大学等高校尽管与其他高校的交流较少,但是彼此之间有着紧密的交流关系。从学科背景上看,位于网络上方的师范类院校、网络中部的政法类院校以及位于网络下方的财经类院校在各自的交流圈内交流也相对频繁。
4.3.4 跨地区交流
通过科学交流事件实际发生的机构可以判断交流活动所在省份,利用有向网络对跨省级行政单位交流进行分析(见图 7)可以发现,首先,从交流数量上看,北京作为全国的教育中心在整个交流中居于最重要位置,广东、上海、江苏、浙江、山东等省份尽管交流活动的相对数量也较多,但远不如北京,总体来看,从中国东部到西部,交流的频繁程度逐渐减弱;其次,从交流的输入和输出上看,北京学者前往其他省份交流远多于其他省份学者来北京交流,这说明北京本地不但能够吸引大量的非正式科学交流,同时由于聚集了大量有影响力的学者,北京在非正式科学交流中具有强大的输出能力。具有类似特点的还包括上海、江苏、浙江等省份。上述结论也反映了我国教育发展相对不均的现状。
4.3.5 跨机构类型交流
对各学科领域的非正式科学交流活动网页机构根据类型分布(见图 8)分析可以看出,考古学、体育科学、宗教学、法学等更偏向社会科学的学科与政府机关的交流更加频繁,相反的,文学、历史、哲学等偏人文科学的学科绝大多数交流都发生在高等院校。如与考古学、体育科学、法学和宗教学交流最多的政府机关中,有大量的政府机关带有相关学科的背景,如考古学与文物局、旅游局等的交流、体育科学与体育局的交流、法学与司法相关部门的交流,以及宗教学与统一战线、民宗委等相关机构的交流。这说明这些学科专家的观点可以从一定程度上影响和指导政府机关职能部门的管理和政策制定等。
4.4 个例分析
为了展示信息的抽取效果,本研究以河南大学文学院王立群教授为例做案例分析。王立群教授曾做客央视《百家讲坛》栏目讲解史记,此外还承担一些社科重大项目,从多样性的角度来说有一定代表性。由于数据量较大,本研究仅提取王立群教授的报告活动进行展示(见表6)。从抽取的题目信息中可以看出,在称谓上,王立群教授在不同的活动中被称为教授、主讲人、著名学者、导师等,而在交流的机构上,主要包括河南大学、中央电视台等,其交流的机构中有6个高等院校,剩余22个全部为政府机构。由此可以,王立群教授的影响力较为广泛,其研究不但受到高等院校的关注,同时还受到各级政府的欢迎。
再进一步对王立群教授非正式科学交流的具体内容进行分析。分析的信息来源包括王立群教授的报告题目和观点。为了能够清晰地展示王立群教授的交流内容,本研究首先利用社科领域的关键词词表对上述内容进行抽取,然后基于关键词的语义特征构建向量,再基于特征向量利用余弦相似度方法计算关键词的相似度,最后利用关键词的相似度构建关键词相似网络用于内容分析(见图 9)。从相似网络图可以看出,王立群教授的交流内容以人文历史为主,具体包括宋史(宋太祖、宋太宗)、秦汉史(汉武帝、秦始皇)、中华诗词(诗人创作、中国诗词)、历史文化(中原文化、中国历史、中华文明)等。此外,图中较大的节点包括百家讲坛、汉武帝、司马迁等,这说明王立群教授作为一个公众人物被大家所熟知的重要原因是其作为百家讲坛的主讲人讲解史记、宋史等内容。
最后,本研究对王立群教授的交流区域进行分析(见图10)可以发现,王立群教授的绝大多数报告在河南,而其交流较多的省份包括陕西、四川、浙江等,这些省份距离河南相对较近,这从侧面印证了地理位置对于非正式科学交流的重要性;其次,北京作为全国的文化教育中心,是王立群教授除本省之外交流最频繁的地区;最后,除了西藏、黑龙江等少数几个省级行政区,王立群教授的交流活动遍布全国各地,这与王立群教授同时作为重大项目首席专家和百家讲坛知名主讲人的身份是匹配的,充分印证了王立群教授在各界的影响力。
5 结论
在科学交流的研究中,非正式科学交流受到数据收集的限制一直无法开展大规模的研究。为
了解决非正式科学交流数据获取的问题,本研究在非正式科学交流的信息抽取方面做了探索,基于网络上异质化的新闻数据,对于学术新闻中的非正式科学交流活动做了分析,对参与者、时间、地点、事件类型、报告题目、觀点等元素在新闻中的模式做了分析。由此可以看出,利用信息新闻抽取,可以实现对非正式科学交流事件的了解,并可以此为基础研究线下非正式科学交流的某些特征和规律,这将为我们探索非正式科学交流提供新的思路和途径。
参考文献:
[1] Brittain J M.Pitfalls of user research,and some neglected areas[J].Social science information studies,1982,2(3):139-148.
[2] Kraut R E,Fish R S,Root R W,et al.Informal communication in organizations:Form,function,and technology[C].Human reactions to technology:Claremont symposium on applied social psychology,1990:145-199.
[3] Lacy W B,Busch L.Informal scientific communication in the agricultural sciences[J].Information processing & management,1983,19(4):193-202.
[4] Giles C L.Scholarly big data:information extraction and data mining[C].Proceedings of the 22nd ACM international conference on Information & Knowledge Management.ACM,2013:1-2.
[5] 张立伟,陈悦,王智琦,等.互联网平台下科学家非正式学术交流的探究——基于科学网博文数据的计量分析[J].情报学报,2015,34(7):754-764.
[6] 邹儒楠,于建荣.数字时代非正式学术交流特点的社会网络分析——以小木虫生命科学论坛为例[J].情报科学,2015,33(7):81-86.
[7] 刘乙蓉.图情领域学者的社会网络关系与学术关注点[D].武汉:武汉大学,2017.
[8] 叶腾,韩丽川,邢春晓,等.基于复杂网络的虚拟社区创新知识传播机制研究[J].现代图书情报技术,2016(Z1):70-77.[9] 方卿.论网络环境下非正式交流的复兴[J].情报理论与实践,2002(4):258-261.
[10] 沈广彩.新闻写作“5W+1H”模式意义的生成与再造——从概括新闻到叙述新闻[J].科技信息,2010(22):759-760.
[11] Mahmood I,Hartley R,Rowley J.Scientific communication in Libya in the digital age[J].Journal of Information Science,2011,37(4):379-390.
[12] 夏能能.Web2.0环境下图书情报学领域的非正式交流——基于博客好友链接的实证研究[J].情报杂志,2011,30(12):32-35.
[13] Hinds P,Kiesler S.What Do We Know about Proximity and Distance in Work Groups?A Legacy of Research[C].MIT Press,2002:57-81.
[14] 顾立平,张晓林.创建与使用型人——对非正式信息交流行为的实证研究与服务建议[J].中国图书馆学报,2010,36(2):31-37.
[15] 叶凤云,孙建军,汪传雷.网络学术信息行为理论框架构建与行为过程分析[J].图书情报知识,2011(5):82-88.
[16] 李贵成.基于Web2.0的非正式信息交流行为研究[J].情报探索,2014(6):28-31.
[17] 中国社会科学院学部委员黄长著教授莅临图情档系作学术报告——上海大学 [EB/OL].[2018-02-06].http://www.shu.edu.cn/info/1056/4923.htm.
[18] 金宏奎,庄严.高校门户网站新闻对外发布状况研究——基于实证的视角[J].当代教育理论与实践,2014,6(5):52-54.
[19] Kohlschütter C,Fankhauser P,Nejdl W.Boilerplate detection using shallow text features[C].Proceedings of the third ACM international conference on Web search and data mining.ACM,2010:441-450.
作者简介:王晓笛,男,北京大学信息管理系情报学在读博士生;李广建,男,北京大学信息管理系教授,博士生导师。