数据学术与情报分析新领域:“人-数交互”研究*
2022-12-29王正兴
王 奕 张 静 王正兴
(1.南京特殊教育师范学院图书馆 南京 210038;2.中国药科大学图书馆 南京 210009;3.江苏海洋大学图书馆 连云港 222005)
0 引 言
当今信息时代,世界在追踪多样化的人类信息活动。人们的行为和偏好被用许多方式获取,并以数据的方式记录。在给定的数据运用赋权范围内,对大量数据的理解和分析,可以影响到个人和社会生活的所有领域决策,特别是在知识创新、科学创造的数据学术和情报分析活动中发挥着重要的作用。
人类信息活动过程中产生的数据理解和分析,尤其是通过数据间的交互、融合而产生新的知识信息是数据科学的前沿领域,其中最大的挑战是因生态系统的复杂性带来的数据产生、收集、编辑和使用[1]问题。这是因为生态系统中的数据收集、编辑和用户需要存在多人甚至群体参与的复杂场景,其“场景制作”要求与单一个人的数据制作的情况是不同的,它的复杂性引发了如何促进对大量数据的操作、分析,理解的问题。如果不能解决对数据的理解,人们就无法与数据交互,必然影响到个人和组织充分利用这些数据,更谈不上数据价值的挖掘和增值。知识信息创新、数据情报分析、科学信息利用、复用、再生使用,呼吁在海量数据分析的基础上研究人们如何与数据交互,由此,在人-机交互(HCI)基础上的一个新的研究领域“人-数交互”(human-data interaction HDI)研究正在兴起( HDI目前尚无公认的中文译名,本文仅根据其含义译作“人-数交互”)。
1 “HDI”的基本概念定义与特定观点
第一篇使用到术语“人-数交互”(HDI)的文章发表在2006年,这是一篇题为《一种用于基因组数据中的集群建模、可视化和发现的可视化统计数据分析器(VISDA)工具》的文章[2],2008年,Simoff等人在介绍可视化数据挖掘的书籍中提及术语HDI[3],2010年,Cafaro 等人在《RFID本地化有形和健全的多用户交互与博物馆展品》中将“人与数据的交互”作为关键词列出,但它没有明确地在正文中使用。较早定义HDI一词和相关概念,并在接下来的几年中经常被引用的出版物主要是Elmqvist[4]和Cafaro[5]的成果。
1.1概念与定义HDI字面意义明确了两个关键性概念:一是侧重对“数据”的定义,即:“人类信息活动过程中产生的数据”的交互,二是侧重对“数据交互”操作者的定义,即:是“人类通过某种方法主动干预或促成”数据交互。由于产生、收集和使用数据的环境不同,以及人们对于数据交互的理解与使用的交互方法不同,一些关于HDI的相关研究试图解释阐明该领域的目标、边界和前沿,Elmqvist, N.;Cafaro,; Mortier、Hornung等人介绍了问题,讨论了概念。这就产生了HDI的几种概念[6]。
Elmqvist(2011)认为HDI指的是“对大型、非结构化和复杂数据集的人为操作、分析和感测”。他提出了一种通过创建物理推理环境来支持人类数据交互的方法[4]。类似的,Cafaro (2012)使用HDI一词来表示“大型数据集中提供个性化、上下文感知和可理解的数据”的问题。他解释HDI涉及的是“使用体现交互来促进用户探索丰富数据集的技术”[5]。Mortier等人(2013)定义HDI通常涉及人类、数据集和分析之间的相互作用……,无论是作为在线系统的用户还是作为数据收集的对象,HDI都是对我们(个人或集体)决策以及采取的行动的分析。他们强调,这个术语意味着个人和他们发出的信号之间的明确联系。根据作者的说法,HDI涉及数据和用于分析数据的算法,以及数据的使用方式和使用者[7]。他们主张HDI侧重于个人数据和开放数据。并提出了与数据进行有意义的交互的三个关键方面:a.易读性:涉及使数据分析算法对人透明和可理解,涉及数据和处理;b.代理:与处理数据的能力相关,与处理数据的系统相关,使人们有能力控制、通知和纠正数据和推论;c.可协商性:关注在数据方面出现的动态关系,以及个人理解和态度如何随时间变化[8]。
1.2特定观点Hornung等人使用了以人为中心的视角[1]。认为HDI除了可能适用于数据的法律和监管框架外,还涉及社会规范的形成。提出HDI的主要目标之一应该是设计交互,使利益相关者能够促进期望的、并避免不期望的数据使用后果。他们认为,有必要考虑复杂的背景因素,包括信仰体系,参与方的价值观和规范。“为了能够理解结果,甚至设计出促进或抑制某些结果的‘数据交互’”。参与方不仅限于直接访问和使用数据的人员,还包括影响和受其使用结果影响的人员。
Hornung等人还从数据生命周期的角度阐明HDI应是完整的数据生命周期:数据源、选择、清理、映射和显示。并可根据符号学方法[9]提供一些符号学框架,以推动理解数据意义的系统过程,包括物理层、经验层、句法层、语义层、语用层和社会层。他们提出,HDI的设计问题必须考虑到符号框架中的一个层、数据生命周期中的一个阶段和一个涉众的组合。
Locoro丰富了HDI概念,提出了一种区分不同数据状态的方法,将其分为三类:a.原始数据,深深植根于工作实践的信息。这些数据与衍生数据不同,从原始数据中产生,目的不同于那些与原始数据生产和使用实践相关的数据。b.衍生数据分为二级数据(通过转换和研究生成,使其更适合其特定的专业解释)。c.三级数据(从二级数据转换而成,使其易于使用和有价值)。后者可用于不可预测和非结构化的任务,并在信息服务方面传达给更广泛的消费者群体[10]。
此外,Crabtree提出了一个愿景,强调“通过设计实施隐私保护措施”,要使个人或群体的数据社会价值得到保护、经济价值得到回报,就没必要实现数据监管的社会学功能,也就没有什么可监管的了[11]。
2020年Eliane Zambon Victorelli等人综述了上述基本概念与特定观点[6],并分析认为:大多数时候,HDI这个术语是用人类操纵的办法来处理大型和复杂的数据集中的数据交互问题的。该定义涉及个性化、语境的上下文识别和理解,并需采用具体的交互方法。这个术语的定义带来了实际的好处是它鼓励数据重用、组合和不同人群、不同目标共用数据协调在相关领域的实践,实现“人-数交互”的目标。他们还满怀信心地相信:定义HDI术语另一个好处是强调了研究人员和实践者从各个相关领域为HDI设计建立一个更好的基础框架,服务于HDI理论研究和实际应用的理解沟通。
根据上述研究者对的HDI的概念描述和观点表达,按照定义是“对于一种事物的本质特征或一个概念的内涵和外延所作的简要说明”(参见百度百科“定义”)。本文将HDI定义为:人类通过创建物理推理环境,在给定的数据运用赋权范围内,对人类信息活动过程中产生的大型、非结构化和复杂数据集中不易理解、不具备自行交互能力的数据的主动干预。以人对数据的操作、分析和感测,实现提供个性化、上下文感知和可理解的数据的交互过程。按照“术语是与某一知识活动或领域中的概念相联系的词与词组。”(参见俄罗斯学者格里尼奥夫著《术语学》,商务印书馆,2011,P25)将HDI定义与术语“人-机交互”(HCI)定义:人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程”(参见百度百科“人机交互”)对应,用中文表述HDI为“人-数交互”。
2 “HDI”研究进展
Eliane Zambon Victorelli等人采取文献检索方法,在Web of Science、Scopus、IEEEXplore,ACM数字图书馆,爱思唯尔科学指导和施普林格链接等数据库中对HDI研究相关论文与作者进行文献调研,他们以“人—数据交互”作为搜索词,以2017年5月30日前出版,用英语写作为条件。通过读取数据库文章的标题,摘要,关键词,结论和章节(必要时全文)。筛选具有HDI研究信息背景的相关论文和作者,并提取相关论文的出版年份、出版物来源和类型(会议或期刊文章)、作者、研究名称、论文影响力(谷歌学者引文)、研究贡献类型、研究方法、研究背景、应用领域、分析问题的类型、对个人数据的看法、数据生命周期的各个阶段、研究的结果类型等10多种文献形式和内容特征,用文献综述和可视化分析的方法从研究领域与主题等方面概述了HDI研究进展[6],初步勾勒出了“HDI”研究的现状和趋势概貌。
2.1研究领域从文献发表的期刊看,涉及的主要期刊有《颗粒计算》《BMC 生物信息学》《计算机和地球科学 》《人类行为中的计算机》《国际生产经济学杂志》《口译》《人工智能》《多媒体工具和应用 》《个人和无处不在的计算》等等。
从文献发表的所在会议看:有“计算系统中的人为因素会议(2017) ”“ 欧洲计算机支持合作工作会议(2015) ”“脑信息学与健康国际会议(2014 年)”“ 国际计算机信息系统和工业管理会议(2015)”“人机交互国际会议设计和评估、用户和上下文(2015) ”“走向有意义的互联网系统国际会议(2014)”“社会意识组织和技术的影响和挑战会议(16) ”“语义网会议(2017) “等等。
从文献题名看:有概论性的《人-数据交互的挑战与机遇》《人与数据交互的体现》《交互用户研究的价值和质量 》《探索开放数据的交互性—一种基于实证的方法》等。有人文社会科学领域的《视觉参数交互(V2PI) 》《从内部解读数据:通过透视法支持博物馆展品中的人与数据交互 》《了解、发现、获取—在国内环境中处理和组织音乐》等、经济与管理领域的《扶持新的经济参与者:个人数据监管和数字经济》《物联网中的人类数据交互:所有权方面 》,也有自然科学领域的《通过人类与数据的相互作用分析,确定磁性数据的有效解释方法》、还有与医疗健康相关的《关于生物医学信息学中交互式知识发现和数据挖掘的热点思想高级教程 》《通过饮食配方交互追踪健康》等等,可见HDI 研究涉及学科领域非常广泛。
另外,从涉及的研究层次看,基础性研究普遍受到关注,如与数据交互利益相关者的个人资料研究[7-8, 12]等,数据所有权和同意研究,具体交互研究,数据可视化、挖掘和分析。其次是各领域应用研究,如:健康信息学、城市化与智慧城市、地质和石油[13]、博物馆等,最后是相关研究,包括学习和教育[14]、图像处理等[15]。
再从研究的类型看,47种研究成果中,28项为实证研究, 14项成果为理论研究,15项研究成果是实证研究与“应对挑战”的对策研究(研究类型有交叉)[6]。
2.2研究主题
2.2.1 基础性研究主题 a.个人数据研究。总的来说,术语“个人数据”是指其他人创建的关于我们的数据或我们创建的数据[8]。已经发表的论文中,首先,有7篇是关注这类数据产生和收集、以及使用所带来的隐私和道德相关问题。强调要以一种合乎道德和可操作的方式鼓励个人公开自己的数据和吸引用户,从有关各方之间的对话开始,围绕易读性、代理性和可协商性推进个人数据的HDI[8]。作者们还提请注意:一是要保护高度敏感的个人数据不受未经授权的访问和损害。特别是个人信息在与健康相关的数据集中,数据隐私和安全保护尤其重要[16-17]。二是需要开发社会模型和数据共享机制,使用户能够在这一过程中发挥积极作用[18]。其次,许多文章对个人数据及其与数字技术设计的关系提出了建设性意见[7]。第三,是围绕个人数据的发布,跟踪和研究用户在网络中的交互[19]。另外,还有4篇文章涉及包括音乐[20]食物和饮食习惯[21]以及健康相关的特定类型的个人数据[16-17]。
b.数据所有权和许可研究。有9篇文章涉及到关于数据所有权的讨论。一些作者指出:需要设计专门的传感器,以跟踪、监测人类日常活动产生的数据在网络上与用户的交互情况,以解决特定领域数据的所有权问题。例如卫生领域[16]学习分析[14]或跨部门行为[22]。还有一些作者对属于团体的数据进行了所有权讨论。包括合作工作产生的数据来源分组、管理、谈判、授权和透明度/意识机制[18],以及数据的权利管理[14]。Chowdhury 和 Dhawan还提出了一些特定情况下的数据所有权模型,比如不同维度的智慧城市下的数据所有权模型[23]、与互联网相关的设备物联网数据所有权模型[24]。此外,还有文章针对有明确的个人知道或许可的数据收集活动,对改进数据收集许可提出了有价值建议[25]。
c.体验式交互研究。数据交互的常见主题是沉浸式物理体验交互设计。Cafaro等人的研究考虑了一种系统直接由人控制的用户交互的方法。根据这种方法,人们成为自己交互的对象, 这一主题推动了人类数据交互及其定义的进一步研究。在体验交互理念的驱动下,HDI被定义为探索体验交互,以方便用户探索丰富数据集的技术[5]。值得注意的是,其他HDI定义并没有完全明确这种类型的交互,这个定义不仅涉及内置交互,而且还涉及与数据的不同交互形式。一些学者,研究了体验式交互的不同方面,例如使用被动标签(RFID)技术[26]或增强现实设备[27];此外,还研究了辅助交互的相关设备,例如有形透镜或几何体[5],甚至包括地毯的质地和颜色[28]。还有研究者以寓言或手势隐喻为例,分析从多维度、多视角促进交互,以便更容易地学习交互方法和提升交互效果[6]。目前这些交互研究的动机和实验环境大多发生在博物馆。它们的结果是体验式交互的设计指南。
d.数据可视化、挖掘和分析。有12项研究涉及数据可视化交互实现问题。一些研究者提出了支持可视化交互的框架,以促进领域专家知识的整合。其思想是结合人类智能,帮助实现精确和有意义的数据可视化及建模。这类研究的例子有Zhu等人构建的基因组数据可视化工具和理解研究[2, 29];Prado等人开发的科研究数据发布、共享、发现和重用的工具[30]。此外,Holzinger提出了在复杂的高维数据集(如生物医学数据)中发现知识的有用工具[31]。Freitas和Curry以提高数据质量为重点,提出了博物馆策展人与数据交互的方法,以提高策展效率,减少领域专家在策展数据时的障碍[32]。 Hall等人研究设计了一些方法来解决缺乏关注重要数据的能力的问题。例如,将信息可视化技术与数据转换和分析技术相结合,帮助因紧急请求而不知所措的风险分析人员发现相关数据[33]。一些作者研究了适合“外行人”日常活动感官化的数据可视化制作。 Pacheco 等人创建了一个基于位置的增强现实系统,以增强在户外环境中具有文化遗产内容的HDI[27, 34]。另一方面,Locoro描述了第三方用户在零星和短期交互中视觉化的适用性需求,并探讨如何使可视化能够适应这种需求[10]。还有一些作者讨论了用于数据可视化的交互式工具的可用性评估。他们强调信息质量及其对洞察力的价值。Cabitza等人进行了一项用户研究,以评估图表形式呈现的常见开放式医学专家数据集其感知效用是否会增加[35]。Locoro等人提出了一个模型来评估信息复杂性和美学之间的权衡,他们的工作衡量了信息图形的质量对信息感知和用户交互的影响程度[36]。 此外,Leman等人为HDI创建了一种方法,根据该方法,用户被嵌入到生成可视化效果的环境中,对设计支持数据生命周期的交互式数据可视化工具和应用程序作出了贡献[37]。而Hornung等人 通过调查与HCI相关的数据生成、收集、编辑和使用问题,提出了符号学视角的数字可视化框架[1]。
2.2.2 应用性研究主题 a.健康信息学。卫生部门需要似乎是HDI研究的重要动力之一。交互式数据可视化工具被认为是医疗领域大数据分析不可或缺的工具,人们可以通过这些工具,理解复杂的人类生态特征、医药、健康数据[35]。
b.城市化与智慧城市。HDI的第一篇论文,就是以几何体和桌面显示的交互,模拟城市教育规划应用的实例。今后,智能城市建设和服务仍然是HDI研究的激励因素和热门话题,并且研究通常会与物联网应用、公共空间中的传感器运用相关。当人们在公共空间活动时,他们必须感到自己的隐私不会受到侵犯,也就是说,不能以牺牲个人隐私为代价实现智慧城市的预期目标。Chowdhury和Dhawan和Mashhadi还提出了称为“设计隐私”的关于空间设备和所有权模型的建议[24,38]。Cavoukian和CibBA,建议在协同城市规划中使用粒度计算来提高数据的易读性和增强智慧城市设施智能。Wilke和Portmann,的关于智慧城市环境研究的论文,展示了一个运用自动化数据处理迭代程序,通过用户数据输入和交互实现支持集体决策的案例[39]。
c.博物馆。这一领域的研究包括博物馆中的人类数据交互,侧重于体现人的交互。这个话题在文章《从内部解读数据:支持博物馆展品的人—数据交互》[28]中有详细报道和讨论。
由于HDI研究正处于早期研究阶段,在基础、应用和相关三个层次,基础性研究主题是当前研究热点,应用研究尚显稚嫩,相关研究亟待展开(本文不作研究主题介绍)。
3 “HDI”的开放性研究挑战
Eliane Zambon Victorelli等人根据文献综述,结合可视化分析和对HDI领域的理解,认为,目前与HDI研究仍然处于初级阶段,在基础性研究、过程性研究、影响因素研究和应用领域拓展上呈现出复杂的研究挑战,他们整合了一系列开放性的研究挑战方向[6]。
3.1基础性研究挑战
3.1.1 个人数据的易读性和代理性 个人资料的概念及其含义已被广泛讨论,但仍有许多问题有待研究。个人数据的HDI提出了研究如何使人们理解数据及其含义的必要性。一个复杂的挑战是,如何利用以人为中心的数据驱动世界观,满足人们了解数据本身及其影响的需求[8]。一个人在某一特定时间的有效观点可能不具有另一个人或另一时间的相同解释。为了实现感知目标,重要的是如何根据所考虑的视角变化去以有效视图的方法理解数据。同时,它还与提供的HDI机制相关,这些机制应该允许用户通过反馈(交互),影响和修正相关数据的意义演变。未来的挑战包括设计支持数据编辑和数据呈现的机制,以使用户能够在获得推论的基础上纠正和改进数据[8]。Crabtree和Mortier进一步的研究建议是:允许以用户为中心的机制支持个人通过积极参与维护自己的数据来自主行动。个人数据易读性的挑战包括可视化处理器将从数据源中获取什么?必须找到测量或模拟个人数据收集效果的方法,并且必须考虑到此收集的效果可能跨越多个实体和多个时间段。从其他角度看,应该对个人数据发现进行研究,包括元数据发布、消费者分析、可发现性政策、身份机制和个人数据跟踪,也包括数据共享过程的实时连接[18]。
3.1.2 数据所有权模型与价值 人们通过各种方式收集的数据具有经济价值,必须由法律和监管框架加以考虑。研究界需要通过促进相关行业和用户之间的交流来解决数据所有权的微妙问题。 在大数据世界里,多样性和速度,再加上公共空间被人操纵监控器,需要讨论什么是个人数据及其经济价值。用户必须能够扮演重要角色。他们应该能够协商收集到的信息使用权,以推动重要决策[24]。同时,考虑到有意或无意共享的数据,有必要继续讨论个人数据的概念[40]。需要考虑如何授权用户从共享数据中获取价值的模型。应该评估如何让人们意识到他们正在保护哪些数据,他们同意使用哪些数据,以及可以从他们的数据中得出哪些推论。挑战在于提高用户的这种意识,同时尊重分析算法生产者的商业和经济利益。需要在不破坏新商业模式的情况下重新平衡个人权利,但要避免经济力量过度集中在数据聚合商手中[7]。 增加和更新的数据收集可以改变已经做出数据许可和所有权决定的环境,这需要重新审视和重新整理上下文[8]。重要的是研究如何支持人们在环境变化时重新评估他们的决定。需要进一步研究支持个人数据所有权和控制的机制,包括数据源的组织管理、协商、授权、透明度/意识机制和权限管理[18]。尽管政府和学术界都对这一问题进行了广泛的讨论,但由于技术的不断进步,这可能还是一个持续的挑战。随着新技术的出现,将不得不重新考虑商业模式,以期既能符合道德规范,又允许经济价值的开发。
3.1.3 数据的语义理解 尽管大量数据的易读性相关研究取得了有希望的实际成果,但还需要进一步研究,以减少数据挖掘的困难和对信息的充分了解,以普及使用和分析数据的能力。 为此,需要提高解释数据含义的能力。两个或多个数据之间的关系可能呈现相似或相反的特征,并根据上下文对相同信息进行多种解释。有必要进一步研究,数据的丰富语义内涵是如何影响数据交互和人们的感知的。
3.2过程性研究挑战
3.2.1 用户参与交互设计过程的参与度 除了允许用户理解、更正和改进数据的发布接受机制之外,有作者还研究了在设计数据消费环境的过程中,通过创建可视化或通过动态创建、配置个性化基于数据的产品和服务,以实现最终用户参与。挑战在于确保最终用户(无论是外行还是专家)有能力使数据消费空间适合他们,从而满足他们的需求并提供见解。这就需要以更有价值的方式提供数据,并提高最终用户在数据使用周期(就更好的解释而言)和生产(就质量改进而言)中的参与度[10]。进一步的研究将转向HDI如何支持用户服务的协同创建。在此背景下,HDI应提供捕捉用户对服务的实际需求、更好地理解服务上下文(自动)和直接参与服务设计(直接反馈)的方法[41]。考虑到利益相关者的参与是所有设计阶段的基础,有必要研究有利于人们参与设计的设计方法,也有利于人们参与设计的构思和施工步骤,这样用户就是数据消费空间设计的合作者。
3.2.2 在数据分析中超越人和机器的限制 理解如何设计可视化是很重要的,它允许人们(包括那些没有受过统计培训的人)提取各种各样的信息,并让用户远离潜在的误导性解释。为了使可视化设计成功,设计者需要知道用户如何理解可视化信息,以创建数据的统计视图。研究的目的是了解和寻找弥补人类在视觉数据分析方面的局限性的方法。Correll, M.和Newman, G.E根据视觉系统提取信息(如平均值、变化和趋势)能力的知识,对可视化设计进行了探索[42-43]。今后需要在克服统计数量的统计视觉估计偏差的技术方面深入研究,同时,数据分析应该进行实验评估,要评估哪些类型的数据交互有助于超越人类在数据分析方面的局限性,并使用户能够为自己构建大量数据的统计视图,这是一项开放性的挑战。通常的数据分析,预测函数的选择是由自动算法执行的,这些算法很少能够很好地捕捉数据集的特征。通过计算机产生计算和图表。 这两种类型的结果都有其类型的局限性,应加以分析和研究。在某些情况下,观察数据比摘要统计量更能显示数据集的结构和更清晰的图像。需要通过创建可用于预测和促进决策的可视化观测数据模型来进一步理解信息或数据,这也从一个侧面说明了可视化在数据分析中的重要性,在HDI研究中,可以通过将这两种分析结合、交互的途径,以协作的方式为取得最终解决方案作出贡献。
3.2.3 体验式交互 虚拟现实(Virtual Reality,VR)支持的三维信息的可视化和复杂数据导航能力在一些科学应用中起到了促进作用。虚拟现实技术在科学数据可视化方面的一个优点是赋予用户直观探索和与环境交互的自由。尽管如此,在虚拟现实中,仍有一些与HDI相关的挑战需要面对,包括如何与数据进行恰当的交互。VR中的数据处理和数值模拟,特别是那些与数据、人类认知和自动化算法的混合相互作用,必须由多学科人员组成的研究团体协同解决[44]。Shin等人指出的另一个重要的研究空白是通过采用可穿戴活动跟踪器(WAT)来理解丰富的人类信息交互。有必要确定认知、社会和生态维度,并解释用户、WAT和WAT中包含的信息工具之间的动态关系[45]。目前对社会活动系统进行的研究已经涉及这类问题。 2019年Caceffo等人从技术对人的代理的影响、人类经验对技术的影响和群体社会互动对环境的影响角度研究了社会活动系统与技术递进的交互过程问题[46],今后这一领域的研究将向制度设计和评估方向推进。
3.2.4 完整数据生命周期的系统视图 一些学者从消费的角度广泛讨论HDI,认为需要找到一种概念框架,允许各种利益相关者系统地查看数据生命周期内数据状态和变化,从句法、语义甚至是上下文中确定数据的作用,得以从社会层面判断数据使用的意图和影响。 因此,必须对数据的生产、收集、处理和使用进行系统的调查,重点是它们所引起的社会影响[1]。另外,数据的生成、收集、编辑和使用过程,场景可以有很大的不同,在设计用于数据操作的工具时必须考虑它们。必须找到设计一种方法,以便更好地了解谁是与数据交互的人员,谁是这次交互中的其他利益相关者,以及哪些任务与数据交互的完整场景中涉及的每个角色相关。在人机交互和数据可视化领域,有关于设计指南或启发式的研究都需从生产到使用的数据生命周期的完整视图。同时还应考虑到数据生命周期的各个阶段不是独立的,需要了解它们是如何相互影响的。例如,如果数据收集阶段持续了很长一段时间,对已经创建并提供给用户的数据可视化产生了什么影响?
3.3影响因素研究挑战
3.3.1 社会和文化因素影响考量 HDI的一个重要因素是判断模糊性和跨社会和文化边界交叉引用术语的人为因素[12]。重要的是让用户能够理解和参与数据的基础设施和接口,要从人们认识数据方式的角度推理并去创建和使用类比类型,并以此为据,决定如何在不同社区和文化中使用、发布和分发个人数据[4]。
3.3.2 决策过程中的数据影响 目前,关于如何评估使用可视化支持决策的有效性的研究很少。一个关键的挑战是寻找方法来评估所使用的技术如何影响所做决策的质量。决策往往涉及个人偏好,而这些偏好本身确实难以捕捉,这使得决策的质量难以衡量[47]。在识别决策质量的客观和主观指标方面需要深入研究。以进一步确定评估数据的各个维度如何、在多大程度上影响决策过程的方法,以及它们所传递的信息的附加值。
3.4应用领域相关研究挑战HDI的一个重要挑战是研究支持与特定领域的数据互动,重点是这些领域活动所需的背景和任务,例如:a.自然语言接口或模式无关的查询公式,以支持医疗保健专业人员对数据过程性质量评估,因为它们促进了交互的易用性,这些交互完全集成在特定的工作流中[16];b.HDI对于图形数据库查询和结果分析至关重要,特别是对于大规模图形数据的可视化[48]。 c.HDI如何提高大数据质量,充分支持领域专家和临时用户进行数据管理。 比如医疗领域治疗活动在很大程度上取决于大数据背景下突出显示的规模和多样性[22]。
4 对我国图书情报界参与HDI研究的建议
我国图书情报界围绕云计算和物联网技术、大数据技术、图书馆下的大数据以及大数据应用等五个方面推进信息组织研究的数据化变革[49]。不同学科领域的数据组织必须根据其特点采取特定组织方式,才能使数据形成用户需要的情报和知识,服务于数据运用。目前,国内外数据加工和情报组织主要沿着完整的数据链流程,在不同的环节采取相应的方式处理数据关系。如在数据搜集到数据整合阶段,采取海量文献信息分析整合技术、面向学科信息集成的领域分析数据集构建方法[50];在数据分析阶段,采取建模、知识图谱构建和可视化数据挖掘方法[51];在知识组织阶段,采取本体组织法、集成构建法、概念网络组织法,知识信息与基础语义信息融合法[52]。这些方法在不同程度上把数据转换为知识,以利情报服务机构提供更加有效的数据运用服务。但是还面临着“许多数据本身不易理解、数据之间不具备自行交互能力,人们无法充分利用这些数据”的问题[6]。图情学科应该关注这一社会需求,坚守人文传统,重视交叉融合。发挥人文优势、加强理论创新,积极在以下几个方面参与HDI研究。
4.1基础性概念定义HDI是数据在人与机器的协同干预或者参与下的相互作用。要站在图书情报学科立场上,借鉴符号学、社会认知学和认识论等去理解分析信息和数据[53]。从人与人、人与数据、数据与数据之间的交互,实现数据复用、再生增殖、知识创造角度拓展研究HDI基本问题,丰富现有基本理论成果:a.HDI概念(定义);b.HDI原理,针对不同层级领域数据、不同生命周期状态数据探寻其交互原理;c.HDI要素:数据交互环境(复杂的背景因素包括信仰体系、参与方的价值观和规范)、数据交互施动者(数据生产者、使用者)、参与交互的数据(采集、表示、存储和数据处理逻辑);d.HDI与相关概念:HDI与知识组织、HDI与数据关联、HDI与HCI(人机交互)、HDI与模型-数据交互(MDI)等等。
4.2个人(团体)数据的“资源化”对个人数据的研究是 HDI走向人的“支持”和“参与”交互的根本。数据生产者的支持是开放科学政策许可、环境优化的首要环节,从事知识创新、科学创造的专家及其群体用户的参与,是实现人类与数据互动,使利益相关者能够促进期望的、并避免不期望的数据使用后果[1]的“科学施动”保障。所以需要将个人数据作为 HDI的资源来研究[1]。早在2013年国家社会科学基金项目“大数据时代图书馆用户信息的资源化研究”已经涉及[54],需要进一步拓展研究:a.个人(团体)基本数据研究。对数据的产生、收集、处理和使用过程中的个人和团体进行数据调查,包括各利益相关者身份特征、发现政策、信息消费分析等,以便更好地了解谁是与数据交互的人员,谁是此交互中的其他涉众,以及数据交互的完整场景中涉及的每个角色。b.个人(团体)动态数据研究。用户动态数据的收集和科学处理直接决定HDI可能行、可行性和可达性。在数据共享过程中,用户可能跨越多个实体和多个时间段形成实时连接的行为数据[15],需要跟踪这些数据,确定有可能经过人工数据交互产生新知识的那些数据的生产者、使用者和再生增殖的施动者,重用、复用者。以便发现和支持用户发起和参与HDI。
4.3数据语义理解的“人文化”与技术HDI的核心问题是通过“人文化”的方式,对那些不易理解和相互之间不具备自行交互能力的数据及其数据集的“人工干预”,消弥两者间交互的“人文”障碍,打通两者技术方法的“语义理解”沟通路径。其研究包括:a.数据调查。搜索、调查内容在语义含混不清的原始数据和包含丰富语义的异构和非结构化数据格式文本或图像,并分类分析,使得这类数据可访问和处理。 b.数据的语义理解的“人文化”研究,选择不同学科领域样本数据,从多维度、多视角研究,如,两个或多个数据之间的关系可能呈现相似或相反的特征,要根据上下文对相同信息进行多种解释。以探索数据的语义丰富性机理,并从影响数据交互和感知的角度去演绎、推理。探索语义丰富的潜力,提高数据的易读性和集成度,以加强和实现人类数据交互。c.数据语义理解技术研究。尝试采用单词计算方法、感知模型形式推理方法或者粒度分析方法,探讨通过语义标签对数据进行丰富化的预处理,从原始数据中提取相关信息并使其语义明确[55]。数据的语义理解涉及到结构性、半结构性及非结构性数据,人类认知和自动化算法的混合相互作用非常复杂,需要资深领域数据专家引领并确认,图书情报界作为知识信息数据的组织者、整合者应该在这方面主动配合,成为数据学术的参与者、合作者。
4.4数据的“多维度”关联路径与策略在近年来的数据科学研究中,数据的语义层研究发生了很大变化,如资源层的URI,元数据记录层的RDA、DCMI抽象模型、DACS、CCO,词表层级的RDF词汇表、简单知识组织系统SKOS、OWL语言等等[56]。语义网的表现形式关联数据的发布标准也从四星模型升级到七星模型[57];这些都为数据的“多维度”关联改善了路径提供了优化策略。参考国外相关研究进展,今后我国图情界应该在以下方面扎实推进HDI路径与策略研究:a.按照符号学框架方法下的数据层级交互原理分别从物理层、经验层、句法层、语义层、语用层和社会层,设计问题并形成推动理解各层意义的过程路径。b.按照不同数据生命周期状态(阶段),分别从原始数据、二级数据、三级数据角度讨论策略体系构成。c.涉众的组合。遵循社会学的人与人之间的价值观趋同为交互条件,计算机科学的人与机器之间、人与数据之间、数据与数据之间有相互依赖的必要性和可行性为交互条件,并依据信息科学的拟人律、辅人律和共生律构建策略体系。
4.5数据的“可视化”分析与“体验式交互”实践“数据可视化”分析和“体验式交互”是综合提高HDI能力的有效工具和方法。本世纪以来,我国图情界在利用可视化工具方面,通过把数据转化为可以交互的图形图像,利用自动计算与紧密耦合可视化交互界面,理解、分析复杂的数据对象,降低了对复杂数据的认知壁垒,提高洞察数据内在规律的能力,在知识挖掘、知识发现方面有了长足进展,积累了比较丰富的经验。今后在HDI研究上应更加重视可视化工具运用。a.数据分析可视化。借助功能强大的可视化数据分析平台,将比较分散、数据结构有可能不统一的、不易理解的数据辅以人工操作,将数据进行关联分析,做出完整的分析图表,展示数据分析的过程和数据链走向,尽量满足数据在信息系统中有良好的交互性特征,为HDI奠定运作基础。b.可视化数据“人文化”分析。了解和寻找弥补人类在视觉数据分析方面的局限性的方法,以克服概念模型和可视化图表统计数量的统计视觉估计偏差。在体验式交互实践方面,我国图情界还未涉及,需要寻求多种技术方法推动数据交互场景构建,关注运用虚拟(增强)现实技术的在体验式互动中运用的进展及其对HDI的作用,创造条件投入HDI增强现实体验。
4.6HDI影响因素数据多样性源于跨领域研究对应的研究方法的广泛性,更因为数据来源的多样性,因此,研究环境的很多因素都会影响到数据来源、记录和表现形式[54]影响事物何时以及如何转换为数据的因素包括两大类,其中,第一类因素是学者与数据起源的距离,包括数据源source和数据资源resource,元数据以及数据溯源provenance,第二类因素是影响事物转换为数据的外部影响因素,包括经济学与数据价值、数据产权以及伦理观、互动理论与方法。因此,a.需要研究数据从起源到使用之间的距离,即从时间、地点、背景、方法、理论、语言和专业知识维度去“度量”这个“信息距离”[58](当然还包括合作者之间的地理距离),并从元数据、数据溯源和分类机制等角度研究数据内部的HDI。b.外部影响因素研究,一是数据的价值研究,包括数据如何、 为何具有社会价值,数据如何、为何以及能否成为经济商品。二是数据产权与伦理与情景之间的关系,三是研究跨社会、学科和文化边界交叉引用数据的人为判断模糊性[18]因素,探索新的思考和理解数据的方式,使用户能够理解和参与HDI。
4.7多领域探索的应用性研究在国外,HDI研究正不断拓展学科领域和应用范围。目前看在医药、健康、智慧城市、智慧公共设施(博物馆、展览馆)、化工、地质地理众多领域都有应用尝试,我国图情界可以借鉴国外研究:a.选择一些代表性领域(如中医、中药、中西医结合。化学化工,有机与无机互补),一方面通过数据检索搜索和析出样本领域数据库中HDI若干实例(尽管以往学界主观上没有提出HDI,而在用户的知识生产和科技创新实践中客观上已经有HDI成果存在)。另一方面通过田野调查、走访请教专家,搜集HDI成功案例,探索其基本规律。b.在现有领域数据库中按照数据组织规则,提取一批本身不易理解、不具备自行交互能力的数据样本,在HDI路径和策略引导下,依靠领域专家及其科研团队有意识地对样本数据通过数据可视化赋予用户直观探索和与环境交互展开HDI实验,实证。
5 结 语
HDI研究刚刚在起步阶段,目前仅在国外刊物上有相关概念讨论和观点综述的报导。只要我国图书情报界以大数据时代为背景,以领域数据库为支撑,坚持新文科建设背景下的HDI理论创新、图书情报学科立场上的HDI研究方向、数据学术视角下的HDI应用目标、人文数字理念下的HDI实践探索,兼顾技术理性与人文价值,兼顾时代气息与传统特色,兼顾本土情境和全球视野[59],就能做到打破数据封闭和数据局限的传统模式,全面正确地利用自身产生的数据,充分合理地利用外界所有的大量相关数据,科学有效地交互各种不易理解的数据、服务于科研和产业创新,逐步形成“数据情报交互”服务模式,丰富图书情报学情报分析和知识服务理论和方法体系。提升新一代图书情报机构信息技术新能力和繁荣知识服务新业态。