信息科学研究前沿与热点
——2019年ASIS&T年会综述
2021-04-09李新来蔡逸蓓李丹阳
李新来,蔡逸蓓,李丹阳
0 引言
美国信息科学与技术学会(Association for Information Science and Technology,ASIS&T)是图书情报学(Library and Information Science,LIS)领域最具影响力的国际组织之一,其年会是世界信息科学领域最知名的学术会议之一,成为展示信息科学、信息技术等领域最新研究成果的重要场所,年会报告论文均能传递出丰富的学科发展动态信息。研究者们[1-8]用不同方法从不同角度对不同年度的ASIS&T 年会会议论文进行综述,帮助国内学者了解年会盛况、学科发展动向和趋势。本文借鉴以往综述思路,分析2019年年会论文,探究信息科学发展态势。
1 收录论文概况
2019年10月19-23日,第82届ASIS&T年会在澳大利亚墨尔本举办。年会以主题报告、分会场报告、海报展示、图版展示、专家研讨等形式 围 绕“information… anyone,anywhere,any time,any way”展开交流讨论,共收录74篇会议论文(分为long paper、short paper)。本文基于74篇会议论文,结合词频分析及文献阅读,考查年会反映的信息科学现状与趋势[7]。
从论文高频关键词词云图(图1)看出,除information 是 最 大 节 点 外,data、learning、knowledge、citation、digital、online、behavior、social、seeking、sharing 等成为本届年会最显著的关键词。由此可见数据作为信息载体的重要性,只有对数据进行有效分析才能获得有价值的信息,提供更好的信息服务。本次会议体现了情报科学广泛的数据集,包括网络数据集、实验数据集、真实用户数据集、问卷调查等方法获得的数据集。对信息行为研究是会议论文最重要的研究内容,包括学习行为、分享行为、搜索行为等。
图1 高频关键词词云图
借鉴会议论文分类主题标准,对74篇会议论文进行梳理与归类,从信息行为、信息组织与管理、信息技术与计量、信息服务4大主题进行综述,将每个主题细分为若干研究方面。这一分类主要依靠论文内容层面的细化和人工判读,并非严格按照分类标准进行主题划分,有些研究横跨不同主题,主要根据研究目的和对象加以类分。
2 主题分析
2.1 信息行为
信息行为作为情报学的核心领域与传统领域,在本次年会上体现了重要地位,年会中信息行为研究的论文所占比例最高。除继续对健康信息行为及信息搜寻行为进行研究外,对青少年学习行为、社交网络信息分享行为的研究在年会论文中也占据较大比例。
2.1.1 学习行为
随着信息技术发展,接触信息技术的用户越来越低龄化,网络成为他们获取信息的重要渠道,数字信息在学习中的重要程度越来越高,因此青少年用户一直是年会关注的重点。本次会议从中学生、小学生、中小学教师、学术研究人员等多角度对青少年学生的合作学习、信息获取、阅读等学习行为进行研究。
一方面,信息技术发展扩展了学习方式,有助于中小学生的高效学习。Mak等[9]探讨了游戏化如何影响学生的沉浸体验,发现游戏化学习平台,如“阅读之战”(Reading Battle)的重度使用者变得喜欢阅读并享受沉浸体验。另一方面,信息技术发展也拓展研究学习行为的方法。Ng等[10]利用基于维基的学习分析工具Wikiglass来研究协作学习中的参与度、公平与表现之间的关系,发现基于wiki的分析增加了工作分配和同辈工作进度与贡献的可见性。Kimm等[11]研究青少年如何利用媒体获取信息,以维持和重新建立他们的人际关系,发现青少年使用社交媒体有自己的方式,而且经常根据需要改变这些做法。Magee等[12]确定了成功的研究经验中常见的3个因素:在研究生涯中尽早接触到关键事件从而获得研究机会,主动与前辈联系从而获得指导,追求自己的兴趣从而激发好奇心。但是,巨大的信息量使学生在搜索需要的信息过程中遇到更大的挑战。Vanderschantz等[13]研究了儿童在信息检索过程遇到的查询结构、信息分类等困难,提出即使在技术上有了显著进步,教师和儿童仍然需要进一步的帮助,以便在探究实践中取得成功。
2.1.2 信息分享行为
社交平台与在线平台提供了方便的信息分享平台,用户可以根据自己的兴趣和意愿分享信息。从本次会议看,对在线平台信息分享行为的多角度研究成为新热点,如社交问答平台用户的转换行为、公民的信息分享动机、企业员工的信息共享、网络用户的照片分享行为、国际留学生的信息共享行为。
Zhao 等[14]基于PPM(pushpull-mooring)模型,利用关键事件法(critical incident technique),探讨用户从免费问答平台到付费问答平台这一转换行为的影响因素,心理特征、认知需求和经济激励对转换行为有很大影响。Lee等[15]通过对Einstein@Home 和Cosmology@Home 两 个项目的志愿者进行调查和访问,发现项目团队基于先前对志愿者的研究所采取的措施可能在保留和激励这些非典型志愿者方面是无效的。Klanwaree 等[16]研究了在信息技术咨询组织中采用目标与关键成果法(Objectives and Key Results,OKRs)进行主动知识共享的可行性,发现自愿开发团队OKRs的参与者通常对有用性、易用性、信任和使用意图有积极的看法,也会考虑与员工的兼容性。Cho等[17]分析了4,555张在线分享照片,确定20个分享照片动机,包括分享记忆、传播信息、娱乐、炫耀、欣赏等。Worrall等[18]研究国际学生在通信技术使用和信息共享方面与其他学生和移民的异同。
2.1.3 健康信息行为
社交问答平台为疾病患者的信息需求提供了新方式,而健康信息需求相比一般信息需求有特殊性,因此,对社交平台的健康信息需求进行分析成为本次会议的关注点,对阿尔茨海默症、自闭症和慢性病的研究较多,多从护理人员、患者家属、患者等多种研究对象的角度进行分析。
Erdelez 等[19]调查克罗地亚阿尔茨海默症(AD)患者护理人员(CGs)的信息需求,其中对疾病信息、药物/治疗、应对疾病、医生、现有服务、AD患者一般护理、法律、财务和信仰的需求较多。An等[20]通过观察和访谈研究中国自闭症儿童父母如何寻求信息,发现父母的信息需求围绕提高孩子生活技能而演变,社会关系是重要的信息来源。Zhao等[21]以Quora为例,研究哪些健康话题是自闭症患者感兴趣的,发现涉及诊断治疗,社会挑战、养育子女、教育等广泛的问题,但最近出现关于自闭症相关疾病的新担忧,如注意力缺陷多动障碍(ADHD)和强迫症(OCD)。Costello[22]通过对慢性病平台的评论进行归纳分析,评估评论中的建议与医学文献中证据的一致性,发现33.9%的建议没有证据支持,但33%的建议在文献中至少得到较低支持,7.8%的建议有害。Dalmer等[23]对照顾患有慢性疾病家庭成员的信息工作的分析表明,日常生活中的信息实践超越国内和组织环境,慢性病的不可预测性导致护理人员在日常和每晚的生活中同时进行大量工作,包括信息、文档、情感等工作。Lee等[24]实证研究乳腺癌临床试验方案,从覆盖范围、连通性、标准相似性和排名等维度评估医学学科分类(MeSH)和国家癌症研究所分类(NCIt)根据。
2.1.4 信息搜索行为
信息搜索作为获取信息的基本手段,一直是信息科学核心研究领域,具有跨学科特征。不同于计算机科学领域,信息科学领域更重视用户体验与服务中的信息检索问题。如何完善信息检索系统,帮助用户更快捷、准确地获取有用信息是所有学者共同关注的问题。本次年会体现了这一特点,也呈现出新特点,如对协同信息检索、信息搜寻过程中情感变化的关注。
Irvine-Smith[25]从协同信息搜寻(CIS)和专业知识搜寻两个方面分析地方政府决策者的信息搜寻研究项目,发现参与者确实会在信息搜寻方面进行合作,且对个人信息来源有明显的偏好。Huang等[26]从情感负荷理论出发,探讨协同搜索中用户情感负荷的特点。Liu等[27]通过对用户知识特性和知识变更过程的研究,发现任务类型、信息整合难度和思维导图绘制难度对用户的知识改变方式有显著影响。McKenzie等[28]借鉴情境学习理论,探讨社会交互对信息实践的重要性。Rieh等[29]采用角色扮演法对信息素养教育的有效性进行调查,发现角色扮演法在开发学生对搜索行为的元认知方面具有潜在的有效性。Liu等[30]发现,在不同类型的任务中利用过去的搜索行为数据的分析算法,比基线模型有更好的性能,用户搜索意图知识有助于提高预测模型的性能。Jamali 等[31]基于日常生活信息搜寻(ELIS)框架,通过半结构化访谈,研究伊朗牧民获取信息的主要来源和内容、信息教育及选择等特点。
综上可发现,信息行为作为信息社会实践的中介,依然是当前信息科学领域的核心研究内容。本届年会的信息行为研究主要分为学习行为、信息分享行为、信息搜索行为3个类型,但内容涉及阅读、研究、游戏、健康、检索等方面,且表现出更贴近日常生活学习中的信息行为及各种情景下的用户感知与信息行为之间的关联,在信息用户、行为特点、信息需求等问题的研究上体现了与当前环境和技术发展紧密结合的新思考。
2.2 信息组织与管理
在信息科学领域,对信息的组织与管理是基础,也是研究人员的关注重点。当前信息组织与管理的研究主要集聚在数字化环境中的数据存储与利用,以数据复用、数据治理为热点。
2.2.1 信息组织
信息组织使信息能够更方便地被利用,从而提高信息服务水平,这一直是信息科学的基础理念,因此对信息组织的研究是学者们关注的重点。随着数字技术发展,信息组织更加注重底层数据的组织。Yun[32]研究一种自动转换韩国国家图书馆(NLK)数据到书目记录功能需求(FRBR)结构的方法,在不使用主输入字段或权威数据的情况下,最大限度地提高有两个以上贡献者作品的准确性。Burke等[33]分析语言档案网站的内容,重点研究信息组织,包括元数据标准文档、单个元数据记录的显示和元数据集的获取、发现功能和导航选项。Tsai 等[34]对信息世界地图(Information World Mapping,IWM)框架进行研究,提供一个框架来描述广泛的信息活动,以及涉及个人视角方面的项目、地点和关系。
随着网络基础设施发展,社会科学中的数据共享和重用实践在过去几十年发生变化。在研究底层数据组织外,也对数据重用、信息和用户之间的相互作用进行研究。Forero[35]基于行动者网络理论(Actor-Network Theory,ANT),通过微生物实验分析科学家在实验室研究过程中为产生信息和获取知识而使用的技术。Lee等[36]通过美国高校政治与社会研究联盟的分析,揭示形成和表现社会科学数据共享和重用的数据特征,如归档数据的主题和时间分布,发现在ICPSR上存档的研究数量及其被引用次数呈上升趋势。Bishop等[37]通过对地球科学22位研究人员的信息搜寻行为进行访谈,包括发现、访问、实现互操作和重用数据,对如何发现和评估数据以供重用提供了新的见解。
2.2.2 信息管理
近年知识产生、传播与利用方式发生新的变化,学界对个人信息管理和政府信息管理展开了新的研究。
在个人信息管理方面,Dinneen等[38]对个人收藏夹的内容、重复情况以及用于个人事务的收藏与用于学习和工作的收藏的区别进行研究,发现收藏重复与收藏结构相关,与年龄无关。Vianna等[39]提出一个数据模型来聚合、组织和查找用户数字化轨迹集合中的个人信息。Bergman等[40]研究年龄对个人搜索使用习惯的影响,发现年龄和搜索率之间存在正相关关系。
在政府信息管理方面,Tang等[41]调查美国开放政府数据站点,对高频率使用功能进行分析,提出需要更好地了解用户群体、用户数据需求以及用户信息素养水平。Stodden等[42]描述数据管理计划的新愿景,开发ezDMP工具,支持以组织和系统方式将有关数字化信息集成到数据管理环境。Stagg等[43]调查一个机构资助项目,该项目建立在一个便利的社区学习方法的基础上,让教职员寻求采用开放教科书或将开放教科书改编成课程。
上述内容表明,目前信息组织与管理的内容以用户为中心,朝网络化、内容化、移动化、时态化、多媒体化方向发展。无论是个人信息管理研究,还是机构信息管理研究,均是以用户为核心,面向学习、科研、生活、技术等实践应用的数据组织与知识管理。
2.3 信息技术与计量
信息科学发展离不开信息技术的支撑,体现了信息科学发展过程中的既有技术逻辑。这些技术应用在信息组织、信息检索、信息分析与数据挖掘等各个方面。在本届会议论文中,信息技术体现在多个方面,单纯从技术角度来研究的主要有文本分析技术;而对信息计量的研究除文献计量与科学评价,还有对审稿与撤稿的研究。
2.3.1 文本分析技术
随着深度学习、机器学习等技术发展,在信息科学领域,研究者不限于对书目信息的分析,越来越重视深入文本内部的细粒度研究。本届会议也体现了文本分析技术的应用与发展,包括文献、数据库实体,以及微博等社交文本。
Ma等[44]提出的BiLSTM+CRF技术结合基于特征的命名实体知识库,可以对文本进行地理知识发现,在基于文本挖掘的智能分析中具有良好的应用前景。Fan等[45]提出了一种新的深度神经网络(DNNs)模型,通过分析文本和附加图像的情感来识别网络用户的情感。Wang等[46]提出一种新的重新链接评论技术,首先通过显式术语匹配检索,然后使用从大量帖子和评论的主题模型中获得的隐式主题匹配证据。Odoni等[47]介绍可扩展评估框架orbis,它能够可视化地深入分析单个实体,通过注释服务计算。Kim 等[48]评估PubChem和tmChem两种策略在5万多种化学产品中的准确性和覆盖率,tmChem有更好的覆盖范围,两种策略都需要提供准确的、个性化的、累积的化学揭示。基于反馈干预理论,Tang等[49]提出一个研究模型来描述反馈类型(描述性、评价性)和反馈价值(积极性、消极性)对自我效能和享受的影响,进而对贡献的数量和质量的影响。
2.3.2 文献计量
本次会议对信息计量的研究集中在两个方面。第一,通过文献计量指标对期刊、学科、专利等进行评价。Zhao等[50]以国际LIS期刊为例,将8个传统引文指标和10个altmetrics指标相结合,采用多指标融合方法,构建基于传统引文指标和altmetrics指标的期刊影响评价模型,论证基于社会影响力指标的期刊评价对基于引文的学术影响评价具有有益的补充作用。Yang等[51]分别从引用与altmetric 指标对社会科学和人文学科(SSH)性能进行比较分析,尝试从指标和学科两方面对结果进行解释。Hsiao等[52]发现被引用的专利通常比被引用的论文要老得多,学科、类型、自引也影响被引论文和专利的年龄。第二,引文分析研究。Cai等[53]基于2015年Chemistry期刊论文,调查中美出版物的引用对国内外学术界的影响,以及这种影响在多大程度上与国际合作和政府资助有关。Shu等[54]通过分析中国古代文献交流中的引用功能,发现大多数古代中国作者引用这些文献来说服读者。He等[55]考察应用科学制图工具(SMTs)的论文,发现科学图谱这一深嵌于图情领域(LIS)的主题,过去几年越来越受到非LIS领域的关注。Hsiao等[56]提出一种新方法来测量学科之间的关系,可以识别不同主题的核心作品,帮助判断不同主题之间的相似程度。
2.3.3 审稿与撤稿
同行评审在学术出版中起着至关重要的作用。Xu等[57]分析Publons上的同行评议记录,发现作为科学通用语的英语水平对评论的长度有显著影响,一个国家的经济发展水平对综述长度有显著影响,不同性别、学科、经济和文化背景的评审员在撰写长度上也存在显著差异。Lu等[58]探讨在科研合作中不同类型的合作者的属名顺序及影响因素,通过分析PLoS大量有关作者贡献陈述数据,发现不同学科呈现3种模式,生物学研究中,书名顺序明显不同于其他学科。
随着论文数字化程度提高,开放获取日趋简单,论文监督力度增强。学术造假、学术不端的发现导致大量撤稿事件时常发生,很多研究通过系统分析被撤回文章的特点及其引文来研究撤回现象。Cheng等[59]开发名为ReTracker(https://github.com/nikolausn/ReTrackers)的工具,可以自动检查用户Zotero库中是否有已撤文章,并在库中直接添加新的“撤稿状态”元数据字段。Dinh等[60]研究引用撤回文章的特点,以及撤回前后的引文动态变化,发现撤回后的引用明显减少,且这些引用大部分来自与被撤回文章不同的国家。Craig等[61]引入一组基于比率的指标来对稿件评估剽窃的可能性,提醒审稿人对得分较低的稿件进行更仔细的审查。
文本分析技术、信息计量、审稿与撤稿的信息分析技术及方法的应用实践可以提供诸多启示。信息技术研究不仅关注技术和方法创新,也更加关注方向和定位的创新,尤其注重以用户为中心的人机交互设计、社区服务等。信息分析对象深入到文本内部的元数据、实体单元。信息计量依然关注文献计量与引文分析,更加关注跨学科等知识集成环境、Almetrics、审稿与撤稿等。
2.4 信息服务
信息科学研究的最终目的是提供更好的信息服务。本次会议体现了对信息道德与伦理研究的重视,尤其以图书馆服务、网络用户服务及数字人文为关注热点。
2.4.1 信息道德与伦理
信息道德与伦理研究一直是学界的热议问题,本届年会主要从FAIR原则、知识产权、隐私保护等方面对信息道德与伦理进行研究。FAIR(可发现、可获取、可交互和可重用)数据管理原则自2014 年提出后引起广泛关注,然而,无论对原则的理解还是实践方案的选择,都存在诸多困惑和挑战。Rosenbaum等[62]对算法责任(algorithmic accountability)概念进行分析,认为算法责任分为两种类型:技术责任与社会责任。Das等[63]研究用于训练视觉问题回答(VQA)算法的数据集中的偏差问题,证明机器学习算法可以被训练来识别每个数据集的偏差,从而确定一个新的视觉问题的来源,且鼓励开发更具包容性的VQA系统。Subramaniam等[64]应用知识基金概念来了解家庭如何围绕使用技术和保护个人信息来发展知识和技能。Jin等[65]建立一个理论模型来解释不同国家对知识产权侵权的不同认识。Zhu等[66]调查中美大学生对数字媒体内容所有权及其重要性的看法,发现中国参与者对大多数数字版权的重视程度更高,可变性更小,对所有权的概念比美国人更狭隘、更不确定。
2.4.2 图书馆服务
运用关联数据技术建设数字图书馆,可提高信息服务、参考咨询服务、隐形残疾人等特殊人群服务的效能,使图书馆更具有包容性与公平性。Floegel[67]提出创客空间需要更广泛地融入图书馆的项目和服务,使图书馆环境更具包容性。Weigl等[68]证明以合并或联合方法,可从根本上改变跨语料库工作集构建的数据集配置过程,助力开发分布式关联数据数字图书馆。Chen等[69]通过LDA主题建模,从大型大学图书馆5年内生成的聊天记录中自动提取主题,发现最突出的聊天主题是关于如何访问图书馆资源。Muir等[70]分析23个半结构化访谈的数据,以探讨隐性残疾人作为当前或潜在图书馆用户的体验。Aslam等[71]研究巴基斯坦拉合尔高校图书馆馆员的知识水平和数字信息安全管理现状,强调OPACs、官方档案和数字资源是高校图书馆资源的重要组成部分。
2.4.3 网络用户服务
庞大的网络用户群体成为信息科学研究对象,对社交网络信息的深度挖掘成为本次年会的关注点,会议论文依托Instagram、YouTube等社交网络平台进行深入分析。Afnan等[72]以社交网络平台Instagram上#metoo及其相关3个话题标签的使用为例,研究商品化、社会运动和社交媒体之间的交集,在样本中发现,每5篇文章中就有1篇具有商业性质,研究还揭示了用户采用的商品化策略。Yang 等[73]调查中国众筹平台(CFP)2000个项目,发现除为公众提供渠道外,平台还在一定程度上促进了政府控制下的网络募捐管理和监督,不同类别和地理位置的项目之间存在很大差异。Fu等[74]通过实证研究,发现社区建设和用户驱动与健康问答网站的早期阶段有关,指出在启动阶段寻求社区最终目标和目标用户群体共识的重要性,这有助于解决范围定义问题。Jansen等[75]基于YouTube每月的内容消费和人口统计数据,发现在线受众的兴趣是可变的,潜在受众数据的变化可以在相对较短的时间内发生,因此需要使用数据驱动的方法不断更新角色。Yang[76]从参与指标、语言特征和网络结构等方面,以计算方式研究权力滥用者对社区动态的影响。
2.4.4 数字人文
无形文化遗产包含丰富的知识,进行组织和管理是保护和传承的基础。语义Web技术的发展改变了知识表示和表达方式,为非物质文化遗产(Intangible Cultural Heritage,ICH)知识的组织和共享提供了新的思路和方法。Buchanan等[77]研究了艺术史和考古学领域的学者的研究行为,提出了改进的信息偶遇模型,揭示在不同的时间跨度内信息偶遇、重新发现和协作之间错综复杂的联系。Hou等[78]研究一个通过关联数据对非物质文化遗产知识进行建模和管理的项目,以湖北省非物质文化遗产为例,建立以开放关联数据形式发布的RDF数据集,开发了基于关联数据的知识服务平台。Hu等[79]通过调查学生以文化遗产为特点创作的虚拟现实内容,发现这些经历能够帮助来自不同学术背景的学习者获得一些至关重要的技术技能,虚拟现实的创作经历也让学生更加积极地获取文化遗产中的知识。
信息领域的所有研究都是以信息服务为目的,除对图书馆全纳支持与服务研究,对非物质文化遗产的数字化也体现出信息服务的范围更加广泛,对社会文化及人类文明的保存与传承有巨大作用。面向特殊人群的图书馆全纳支持服务,面向数字人文的信息系统开发与数据组织,面向社交网络的数据分析与信息服务,反应的不仅是当前信息服务的热点,更是走向。
3 总结
作为信息科学领域最重要的学术会议,第82届ASIS&T年会论文涉及的主题涵盖当前信息科学领域理论研究与应用实践的最新成果,能够代表国际上该领域的研究前沿。本文通过分主题归纳分析,从研究方法、研究主题与趋势两个方面对会议论文进行概要总结。
在研究方法方面,如图2所示,运用最多的是通过访谈获取用户数据,包括结构化和半结构化访谈;其次是定量分析,通过问卷调查、直接观察、模拟、使用数据库数据集、网站数据爬取等方法获取研究数据,验证研究假设或得出结论。对获取的数据集较多采用统计回归、文本分析、机器学习、LDA主题模型、结构方程模型等定量统计方法。少数论文针对用户需求开发工具、软件、网站等应用,针对用户需求进行理论模型论证与构建等。总体而言,结合多种研究方法围绕用户需求和以用户数据为对象的混合研究是发展趋势。
图2 研究方法统计图
研究主题与趋势方面,此次会议强调“以正确的方式在正确的时间将正确的信息传递给正确的人(Information is delivered to the right group,at the right place,at the right time,and in the right way)”理念,围绕信息行为、信息组织与管理、信息技术与计量、信息服务4个主题进行研究。当前信息科学研究呈现出以下特点及趋势:信息行为研究内容涉及阅读、研究、游戏、健康、检索等多个方面,更贴近日常生活学习中的信息行为及各种情景下用户感知与信息行为之间的关联;信息组织与管理更关注元数据、实体之间的数据关联、数据复用与数据治理,无论是个人信息管理还是机构信息管理都更注重用户体验、用户情感因素;信息技术更关注文本分析技术,信息分析对象深入到文本内部知识单元,信息计量依然关心引文分析,更关注跨学科知识结构,为审稿与撤稿研究提供了新的视角;在强调信息道德与数据伦理的基础上,信息服务聚焦于面向特殊人群的图书馆全纳支持服务、面向数字人文的信息系统开发与数据组织、面向社交网络的数据分析与社区服务。
支撑数据
本文支撑数据由作者自存储,包括两个文件:2019 AM19-Papers.pdf/2019年ASIS&T会议论文集、2019年ASIS&T论文数据统计表.xlsx。获取渠道:lixinlai_whu@163.com。