网络灰色文献信息源及其挖掘与利用
2010-03-23彭海涛
彭海涛
(广东技术师范学院图书馆,广东 广州 510665)
1 灰色文献的概念
灰色文献的概念产生于20世纪70年代,是从英文“Grey Literature”翻译而来。灰色文献是相对于白色文献和黑色文献而言的,白色文献是指正式出版并在社会成员中公开流通的文献,包括图书、报纸、期刊等;黑色文献是指非公开出版发行、或者发行范围狭窄、内容保密的文献,如军事情报资料、技术机密资料、个人隐私材料等。灰色文献介于两者之间,一般指非公开出版或已出版但不公开发行,通过正常发售渠道难以获取的非秘密文献,是一种新型信息源。
自从灰色文献提出以来,国内外对其定义还有许多争论。目前被广泛接受的定义大多数取自1997年在卢森堡举行的“第三次国际灰色文献会议”所提出的:灰色文献系指不经商业出版者控制,而由各级政府部门、学术机构、工商业界所生产的各类印刷与电子形式的文献资料。主要包括预印本、政府报告与文件、技术档案(技术规范、标准和工具手册等)、学位论文、科技报告、调查报告、会议论文、内部刊物等。近年来,专门从事灰色文献研究与开发的机构纷纷成立,尤其是欧盟、美国、日本等发达国家已建立了各种类型的灰色文献数据。
2 网络灰色文献及其信息源
随着网络的普及以及传统出版费用的增加,通过网络出版、传播和获取灰色文献成为重要的手段。网络灰色文献是指以互联网为载体,不经盈利部门控制、发行,并且允许用户免费检索、获取、整理与利用的灰色文献资源。主要包括两部分:一是传统灰色文献经数字化后上传到互联网各节点上的数据资源;二是网络电子期刊、动态报道、索引数据库、个人网页、即时通讯记录等。互联网上网络灰色文献数量巨大、增长迅速、更新速度快、时效性强,其信息来源主要由Web站点、数字图书馆、博客、新闻组信息、网络灰色电子期刊、索引数据库等几个部分组成。
2.1 Web站点
笔者通过访问Netcraft公司网站,了解到2009年10月全球共有230443449个站点,相比上个月增加了4343608个站点。这些网站隶属于不同的单位、机构和个人,可简单分为政府网站、门户网站(综合网站)、行业网站、娱乐网站、个人网站等。这些网站提供的信息资源丰富,且各有所偏重,是网络灰色文献的主要来源。如政府网站一般提供政策法规、政府机构概况、政府各部门的文件、最新政务动态、热点新闻、政府公告公示、发展规划、政府工作报告、重点项目建设信息等资料;门户网站主要提供新闻、搜索引擎、网络接入、聊天室、电子公告牌、免费邮箱、影音资讯、电子商务、网络社区、网络游戏、免费网页空间等;行业网站提供行业内最新资讯、研究成果、科研报告、调查报告、政策调研资料等;个人网站可提供某种专业技术资讯、某种服务或自己的作品等。
目前,社交网站是人们相互交流的常用工具,备受用户青睐。据ComScore公司公布的数据显示,在美国,截止2008年6月,MySpace的用户数量为7280万人,Facebook网站用户数达到3740万人。在社交网站里,用户是网站内容的提供者。社交网站帮助用户创建、消费、共享和讨论各种形式的媒体,提供博客、即时通讯、邮件、音乐、图书、电影、视频、相册、论坛、分类、交友、聊天室、招聘等服务。通过社交网站,用户可以掌握个人信息、站内邮件和聊天记录等信息,也可以获得各注册用户提供的图片、视频、评论等信息。如在以照片和视频共享为主的Photobucket网站上,每天都有大量由用户自己拍摄的照片和视频上传,首页上显示的照片和视频数量每一瞬间都在以十位数、百位数递增。据统计,用户每天上传到Photobucket的视频片断多达4.5万个。
2.2 数字图书馆
数字图书馆存储的信息资源十分丰富,集中了许多学术价值高的灰色文献信息资源。数字图书馆的建立使人们在任何时间和任何地点通过网络获取所需的信息变为现实,大大促进了资源的共享与利用。如由联合国教科文组织及32个合作的公共团体共同成立,由美国国会图书馆主导开发的世界数字图书馆,为全球读者免费提供图书、地图、手抄本、影片与照片等服务。读者可利用阿拉伯语、汉语、英语、法语、葡萄牙语、俄语、西班牙语七种语言搜寻信息。随着数字信息的发展,数字图书馆已成为网络灰色文献的主要来源。
2.3 博客
博客最初的名称是Weblog,意思是指网络日记。博客内容丰富,涉及日记、照片、诗歌、散文、科技动态、各领域最新研究成果等,是网络灰色文献的主要信息源。用户通过博客可快速传递信息。2009年6月,中国互联网络信息中心(CNNIC)发布的 《2008-2009博客市场及博客行为研究报告》显示,截至2009年6月底,拥有个人博客或个人空间的用户规模已经达到1.81亿人。
2.4 新闻组信息
NewsGroup即新闻组,它是互联网提供的重要服务内容之一,同时也是互联网上使用最广泛的信息交流手段之一,具有海量信息、直接交互、全球互联、主题鲜明等优点。它通过互联网的电子邮件发表个人关于某个问题的观点和看法,也可能是对某人的观点和看法的回复。其讨论的话题五花八门、包罗万象,涉及电脑科技、社会生活的方方面面。这些信息都是以电子邮件的方式发送到某个新闻组服务器(News Server),并以不同的新闻组名组织起来。然后由这个服务器通过互联网向世界各地的新闻组服务器传送。
2.5 网络灰色电子期刊
网络灰色电子期刊主要是一些大学、科研单位、企业编印的内部流通的电子期刊(没有ISSN),主要包括:(1)高等院校出版的内部交流刊物、论文集。高等院校既是教学机构也是研究机构,常出版一些供内部教学研究交流用的刊物,具有针对性强、目录项较全等特点;(2)论坛刊物和企业期刊。网络论坛是一个和网络技术有关的网上交流场所。有些专业论坛专注于某主题,涉及音乐、短片、图片、解决方案、行业动态等内容。拥有共同兴趣的网络用户在论坛上交流心得,或提出对某一问题的解决方案及新方法、新思想,管理人员定期或不定期将论坛内发布的参考价值高的资料进行整理,制作成电子期刊,提供给论坛内用户或网络用户使用。如PHPChina论坛制作的《PHPer》等。企业期刊是企业向顾客和消费者发行的一种期刊,其内容一般包括企业最新研究成果、产品介绍或研究开发项目等,一般发布在企业网站上,供用户下载阅览。
2.6 索引数据库
索引数据库是网络灰色文献重要的信息源,通过它可以加快数据的检索速度,提高原始文献的检索效率。很多网站在网上发布产品信息索引、公司索引、机构索引数据库、文献索引信息库及分类索引信息库等,用户可依据索引找到相关资源。
3 网络灰色文献资源的挖掘与利用
3.1 链接提供网络灰色文献的资源网站和灰色文献数据库
互联网上一些大型研究性网站,集中了许多学术价值高的灰色文献信息资源,值得挖掘和利用。
一是国外大型灰色文献数据库:(1)欧洲灰色文献信息系统(System for Information on Grey Literature in Europe,简称 SIGLE)。SIGLE 创建于 1980年,是一个多学科数据库,包括基础科学、应用科学、技术科学、人文社会科学。它搜集与整理欧共体所属成员生产的灰色文献,并通过在线数据库的形式发布,提供涵盖各种学科的报告、学位论文及其他形式的英文灰色文献信息800000多条;(2)灰色文献网(GreyNet)。GreyNet创建于1992年,以推动灰色文献领域的个人和组织之间的对话交流为己任,不断探索网络环境下灰色文献的鉴别和传播方面的问题。从1993年到2009年,GreyNet组织召开了10次国际灰色文献会议;(3)大英图书馆灰色文献供应中心(BLDSC)。BLDSC采用集中式的开发利用模式,从事灰色文献的收集并提供查询与利用服务,主要负责英国国内灰色文献的收集并提供相应服务。BLDSC馆藏包括报告、博士论文和硕士论文、翻译作品、非营利性会议论文集、官方文件等。
二是其他提供相关信息资源的网站。其他提供网络灰色文献的网站包括政府网站、科研机构和社会团体门户网站等,如中华人民共和国中央人民政府门户网站、中国科学院网站等。这些网站提供了大量各类有价值的灰色文献,包括法律、法规、部门规章、规范性政府文件及其准确的解读和分析、科研报告和调查报告等。
3.2 利用搜索引擎,挖掘网络灰色文献
搜索引擎作为互联网海量信息的主要检索工具,成为人们获取信息的重要途径和入口。据ComScore公司公布的统计数据显示,2009年7月全球用户搜索数已达1137亿次。搜索引擎以一定的检索策略在互联网上搜集、发现信息,对信息进行提取、组织和处理,并为用户提供检索服务。常用的搜索引擎有中文搜索引擎、英文搜索引擎、FTP搜索引擎、垂直搜索引擎等。
以Google和百度为代表的新一代搜索引擎拥有内容丰富、数量庞大的网页信息库和索引数据库,能快速搜索出包含关键词的信息,对网页关键词的接近度进行分析,并且能按照关键词的接近度确定搜索结果的先后次序,优先显示与关键词较为接近的结果。利用各种各样的搜索引擎对网络灰色文献进行搜集,可以快速、高效及准确地搜索到接近度较高的灰色信息资源。
3.3 购买商业灰色文献数据库
网络灰色文献由于数量庞大、学科种类多样和质量参差不齐,需要投入大量资金进行收集、加工和整理。国内外一些数据服务提供商已开发出较为成熟的大型商业灰色文献数据库系统,这些数据库系统具有文献资料齐全、质量高、持续更新等特点,是利用网络灰色文献资源的主要信息源。我国已建立的学位论文数据库、会议论文数据库等,能为用户提供网络灰色文献服务。例如:(1)中国学位论文全文数据库。该库由中国科技信息研究所提供,并委托万方数据公司加工建库,收录了自1977年以来我国各学科领域的博士、硕士研究生论文,涵盖自然科学、数理化、天文、地球、生物、医药、卫生、工业技术、航空、环境、社会科学、人文地理等各学科领域;(2)中国优秀硕士学位论文全文数据库。该库收录了1999年以来全国460家硕士培养单位的优秀硕士学位论文;(3)中国学术会议论文全文数据库。该库是我国最具权威性的学术会议论文全文数据库,收录了1998-2004年国家一级学会在国内组织召开的全国性学术会议近7000余次会议,45万余篇会议论文全文;(4)CNKI的中国重要会议论文全文库。该数据库收录我国2000年以来国家二级以上学会、协会、高等院校、科研院所、学术机构等单位的论文集,年更新约10万篇论文。
3.4 利用数据挖掘软件及竞争情报系统开发网络灰色文献
网络信息挖掘是根据一定的限定条件在网络中有目的地进行信息提取。目前,国内外已开发出很多基于特定算法、适用特定数据类型的数据挖掘软件。竞争情报系统是基于信息采集、全文检索、文本挖掘等核心技术,对网络灰色信息进行收集、存储、处理、分析的应用管理系统,用户可利用其获取网上潜藏的灰色信息资源。近年来,我国的软件企业也推出了简单易用的信息系统软件产品,如天下互联中国网络情报中心开发的企业情报门户系统软件(CIPS)、谷尼国际软件公司开发的Goonie企业竞争情报系统(Goonie Competitive Intelligence System)等。用户利用这些软件可对网络灰色文献资源进行挖掘与收集、自动批量采集与加工处理、分析,实现网络灰色信息的整合。
3.5 分布模式开发网络灰色文献
目前,网络灰色文献开发利用模式主要有集中模式、分散模式、分布模式和集成模式四种。由于网络灰色文献数据量大、分布广泛、学科结构复杂、格式多样且数量快速增长,单独一个部门难以承担开发任务。根据目前的实际,笔者认为可采用具有集中管理、分散开发和分散服务特点的分布模式开发网络灰色文献。各地方图书馆收集、整理本地区内灰色文献,建立地区性网络灰色文献数据库;各高校图书馆负责本校或校内各学科的网络灰色文献数据库;各专业研究机构或组织收集、建设本学科内或本机构内的网络灰色文献数据库,然后通过互联网把分布在各地区、各部门的网络灰色文献数据库联结起来,实现联合检索。采用此方式可避免重复建设、加快网络灰色文献数据库的建设与开发进程。由于采用统一的建库标准,各种灰色文献数据库质量较高。
4 结束语
随着网络技术、通讯技术、存储技术等技术的进步,互联网上的灰色文献资源必将在网络信息中占有越来越大的比重。用户利用灰色文献意识的提高,促进了网络灰色文献的开发利用。网络灰色文献开发的核心是灰色文献数据库的建设。加强网络灰色文献源研究,加快已有灰色文献全文数字化、网络化及网络灰色文献的标准化、规范化研究工作,是满足用户网络灰色文献需求的必由之路。高质量的网络灰色文献在科技创新和社会发展中起着基础作用,是国内外图书情报界公认的重要情报源,其独特的情报价值、特殊的参考价值和社会功能也必将越来越受到重视。
[1] October 2009 Web Server Survey[EB/OL].[2010-07-30].http://news.netcraft.com/archives/2010/07/16/july-2010-web-server-survey-16.html.
[2] 徐刘靖,刘细文.国外网络灰色文献开发利用模式及服务方式研究[J].图书情报知识,2006(1):78-80.
[3] 孟齐霞.有效利用网络灰色信息[J].现代情报,2004(6):69-70.
[4] 卢培煌,杨新涯,彭晓东.数字图书馆灰色文献资源的建设与利用[J].西南农业大学学报(社会科学版),2008(3):220-224.
[5] 刘海航,黄碧云,张畅.网络环境下灰色文献的白色化及获取[J].新世纪图书馆,2003(5):34-36.
[6] 王新.因特网上灰色文献的开发与利用[J].信息系统,2003(5):209-212.
[7] 栾秀梅.网上灰色文献资源建设初探[J].山东图书馆季刊,2003(2):79-80.
[8] 《2008-2009博客市场及博客行为研究报告》简介[EB/OL].[2010-07-30].http://cnmedia.org/blog/?p=21.
[9] 程慧荣,钟惠燕.挖掘网上灰色文献 提升图书馆信息服务能力[J].现代情报,2006(4):159-161.