数据可视化信息误导现状及发展趋势研究*

2024-03-01郝珊

情报杂志 2024年2期

郝珊

(上海大学上海美术学院上海 200444)

科技的进步让人类步入数字化时代,每日都产生大量的数据,为了更好的展现和理解数据,数据可视化愈加流行和重要,被新闻媒体、政府报告、数据情报分析等多个领域频繁的使用。可视化能够简洁地表示复杂的低层数据,从数据中提取有用信息,掌握其含义并直观表示结果[1]。良好的数据可视化是真、善、美的均衡,即正确的反映出数据的本质,有效的帮助公众理解并实现数据及制作机构的透明度,同时兼具艺术之美[2]。其中真是真实性,是数据可视化的基石。然而众所周知,可视化如同所有交流形式,可能会存在误导和扭曲。相较于文本,带有误导信息的数据可视化错误更为隐蔽,以难以察觉的方式操纵人们的观点,引导性更强却难以治理,因此数据可视化信息误导相关研究开始受到研究者们的关注。

数据可视化的制作与阅读涉及到公众的“数字素养”和“数据可视化素养”,而数据可视化信息误导则涉及到“可视化批判性素养[3](Critical Thinking Assessment for Literacy In visualization)”,该概念2023年被研究者所提出,其扩展了对可视化读写能力的定义,并将可视化批判性素养定义为阅读、理解和推理错误或潜在可视化误导的能力。但数据可视化信息误导的研究是其基础,而当前我国针对数据可视化信息误导的研究有限,更遑论可视化批判性素养。西方研究历史较长,其多元的研究值得参考借鉴。因此本文尝试梳理数据可视化信息误导发展脉络,探究具体研究方向并展望未来方向,为我国数据可视化信息误导研究和可视化批判性素养的构建提供参考。

1 研究设计

1.1 研究概述

当前国内对于数据可视化信息误导的研究大多局限于新闻传播领域,由于以可视化为主的数据新闻在该领域广泛使用,引发学界业界和读者对数据可视化误导的关注。早期相关研究多存在于数据新闻相关书籍中,研究观点较为分散,如方洁[4]给出数据新闻可视化错误案例,从数据分析错误、编码元素如颜色、轴错误等方面进行可视化误导分析;张超[5]从新闻伦理角度出发,更为系统的从数据采集到数据可视化进行可视化误导方式阐述,并提出客观性等设计原则。近期相关研究增加,毛良斌等[6]对数据新闻可视化信息误导提出了一个分析框架,从概念误导和解码误导两个方面进行解析。申琦等[7]区分行动者与生产流程,从数据源到受众解读不同阶段分析可视化问题核查框架。而伴随着数据可视化使用的不断增长,业界关注同样增多,如澎湃新闻[8]开始针对数据可视化误导持续关注报道。虽然对数据可视化信息误导的研究有一定进展,并开始呈现结构化发展,但相关概念并未统一,同时可视化误导方式解读各异,实证研究空缺[6]。从整体出发我国针对数据可视化信息误导研究有限,因此需要进一步了解与探索。

西方对数据可视化信息误导研究时间较长,由于数据可视化涉及统计学、设计学等多个学科,早期分析来自统计学科,20世纪50年代有统计背景的Huff[9]便收集报纸和杂志中的可视化误导撰写书籍,从数据角度出发分析导致可视化错误的原因。其后相关研究逐渐增多,从数据分析、不同编码元素如颜色、长度以及不同可视化类型如树图、地图等多个角度探索可视化误导所在。2015年专门面向信息可视化的会议IEEE Information Visualization开始特别关注可视化误导,在会议中专门设立小组讨论,并创建可视化陷阱画廊(Vis Lies Gallery)[10]网页以展示可视化中严重的感知、认知和概念错误案例,该网站每年都进行相关案例更新。同年研究者展开实证研究[11],对用户如何阅读理解可视化并发现误导进行测验。时至2020年相关研究人员从视觉分析流程出发,系统化探索可视化误导所在,对数据可视化误导的研究起到了极大的推动作用。虽然西方相关研究较为多元,针对单一图表形式、可视化误导具体方式和用户认知都有所涉猎,但其对于可视化信息误导概念同样并未统一,误导方式用词不同,针对认知方向研究分散在不同会议之中,造成这些研究缺乏对现有研究的深度梳理,需要对当前研究进展和方向进行相关文献的统计分析和深入阐释。

1.2 研究方法

本文通过文献分析方式展开对数据可视信息误导方向的研究。大数据时代的文献分析应以问题为导向,标准化地筛选高质量文献以进行精准的分析研究[12]。本研究的文献检索范围分为中西方两部分。国内研究首先通过知网CNKI搜索关键词“数据可视化”、“误导”查找,发现文章1篇。其后更改关键词为“伦理”,增加CSSCI文章2篇。3篇文章均发表于2022年,且与数据新闻关联。因此对数据新闻相关书籍进行阅读梳理,增加相关书籍4本。同时由于国内数据新闻业界关注该问题关注,补充业界相关报道5篇。

西方该方向的研究以设计学、数据可视化和人机交互领域为主。首先以可视化误导的参考文献作为起点,通过回顾被引和引用的出版物来扩展范围。搜索驱动主要选择了可视化领域高影响力的国际会议(ACM CHI、IEEE InfoVis、IEEE PacificVis、IV、IEEE EuroVis、IEEE ICCV)以及期刊(IEEE TVCG、IEEE CGA、ACM Transactions on Graphics、Computer Graphics Forum)收集了论文,时间截止到2023年,审核了摘要和全文后确定了76篇论文,其后根据参考文献及其内容增加了4本设计学书籍、3本统计学书籍和22篇新闻学、心理学、教育学、经济学领域的相关文章。

2 数据可视化信息误导的概念

当前我国对于数据可视化信息误导并未有完整的概念,毛良斌等人[6]用词为“可视化信息误导”,申琦等人[7]用词“视觉效果偏倚”,但未直接解释概念。其他研究者多直接使用可视化错误、可视化问题、可视化陷阱等词语进行描述。

针对可视化信息误导的概念,西方用词也并不统一。实证研究的初始者Pandey等人[11]运用词汇“欺骗信息”并将其定义为:它是对信息图形的描述,在设计时有意或者无意欺骗,可能会使人对信息和(或)其组成部分产生一种与实际信息不同的看法。Kong等人[13]借鉴新闻学中的misinformation并从读者角度出发进行改动,将可视化“误导性信息”定义为:导致人对事实产生误解的信息。其他研究者则使用了不同词汇,Mcnutt等人[14]将失败的可视化归结并定义为“可视化迷雾”(visualization Mirages):任何一种可视化,粗略地阅读可视化似乎支持来自数据的特定信息,但更加仔细地检查可视化、其支撑的数据或分析过程会使支持过程无效,或产生重大怀疑。其在定义中注重了可视化的生产与消费过程。Lee等人[15]将有问题的可视化信息总结为“反可视化”(Counter-visualizations):用非正统的方式使用可视化。Lo等人[16]使用数据可视化“误导信息”(misinformative information),并提出当数据不支持预期的意图,则很容易扭曲可视化使它看起来具有支持性,这会导致误导。

综合上述对于可视化误导的概念,同时参考国内新闻传播领域给出的相关翻译,本文使用“数据可视化信息误导”,并提出其概念定义:数据可视化信息误导是可视化在设计过程中,存在有意或者无意的误导或欺骗性,或者不支持预期的设计意图,导致可视化结果偏离数据本身应揭示的规律和特征。用户在阅读可视化后,对其中的信息产生与实际信息/数据不同的看法,产生认知偏差。如果对可视化的生产与消费环节进行细致的检测与验证,就会发现其中的疑点,并对该可视化产生质疑。

从可视化信息误导的概念可以发现,在设计阶段,数据可视化误导可能是人为故意设置的,也可能是由于个人素养有限或技术水平受限等原因而无意识触发的,甚至无法有效传递主旨信息也被视为误导[17]。而在消费阶段,除了错误的视觉指引,读者自身的可视化素养同样可能引发认知错误。而无论是何种误导方式,最终结果是导致可视化结果偏离数据事实并产生认知错误。

3 数据可视化信息误导的发展脉络

3.1 数据可视化信息误导在国内的发展

对于数据可视化带来的信息误导,我国集中在新闻传播领域,其重要原因是数据新闻及其对可视化的运用以及其在社交媒体平台传播热度与广度带来的推动。根据12篇国内相关文献可以发现,随着数据新闻在我国的应用和教学开展,最初部分学者如方洁[4]、吴小坤[18]等在数据新闻相关教材中引用错误案例,为设计教学提供辅助。在此基础之上,研究者们进一步将数据可视化误导与新闻伦理关联,如张超[5]从新闻生产的客观性、透明度等伦理出发,通过数据采集、分析和可视化三个角度进行可视化错误整理。申琦等[7]将新闻可视化产生的问题称为“视觉效果偏倚”,从数据源、视觉生产和受众解读三个角度进行分析。王礼耀[19]探究数据新闻可视化视觉框架,从数据声明、映射构型及审美惯例三个维度分析信息图生产的真实性。从近期的研究可以看出,当前研究部分的分析已经呈现一定结构性,其分析方向开始趋向于从生产消费角度出发,分阶段探讨。同时业界如澎湃新闻、财新可视化实验室[20]以及搜狐等均对数据新闻中的可视化错误案例进行梳理与分析。同时期研究者尝试提出治理方式,如针对数据新闻可视化,申琦等[7]提出从双向素养、数据行动与可视化基准三个维度寻求可视化误导治理方法。然而受制于相关理论研究有限,研究多提出于近期,难以看到在实践中的解决效果,但从covid疫情期间的部分可视化误导来看,对于数据可视化误导的研究仍需要进一步分析并增加不同角度、不同使用领域的深入探讨,为实践提供理论指导。

3.2 数据可视化信息误导在西方的发展

在收集的105篇西方文献基础上,本文根据研究使用方法和研究内容深度的差异,将西方相关研究分为3个发展阶段。

第一阶段:数据可视化具体误导方式的发现阶段。1954年Huff[9]在其著作《统计学会撒谎》中开始分析误导性可视化。该书出版后畅销美国并引发了人们对“虚假信息”的普遍关注。随后1985年Tufte[21〗在《定量信息的视觉显示》中引入术语“图形完整性(graphical integrity)”和“谎言因子(lie factors)”以阐述可视化扭曲信息的微妙方式。随着可视化技术的提升和在报纸、广告中的广泛使用,针对具体图表和编码方式带来的误导如颜色[22]、面积[23]等开始被研究人员广泛探索。该阶段研究主要针对单一可视化图表,发现与解释相关欺骗模式并提供规避误导的指南。

第二阶段:数据可视化误导信息的实证阶段。2015年起Pandey等人[11]开始尝试对欺骗性的图表下定义与分类,并实证部分图形失真技术与认知偏差。针对数据可视化误导的实证研究自此开始,从此可视化信息误导相关研究开始不断增加。第二阶段不单针对图表,将文本与可视化结合从整体出发的研究开始出现[24],但重点依然是部分可视化图表类型如地图[25]等。

第三阶段:数据可视化信息误导系统性框架分析阶段。2019年Cairo[26]在其书籍《数据可视化陷阱(How chart lie)》中探究从看不见的数据到看得见的具体可视化设计中带来的错误,为后续分析打下基础。2020年Mcnutt等人[14]提出了结构性的可视化误导信息分析方式,即通过视觉分析过程从生产过程的数据清理选择到消费过程的阅读5个不同阶段分析误导所在,自此对于数据可视化误导的分析有了系统的框架结构。其后的研究人员在其基础上对数据可视化误导方式进行了细致的挖掘,针对可视化信息误导改进的研究也不断增加。该阶段不同领域的研究人员均开始注意到了数据可视化误导可能带来的问题,如水文研究[27]、科学信息[28]等,研究范围扩大。同时将批判性思维与数据素养相关联,整体呈现多元的发展方向。

4 数据可视化信息误导研究方向

Correll等人[29]将数据可视化信息误导研究分为3类,一是罗列可视化误导具体方式;二是探究用户的阅读体验,了解可视化误导带来的影响以及相关证据;三是寻找对于误导性可视化设计行为的检测和防御。笔者在分析相关文献后对于该分类方式较为认同,在这里将每个研究方向目前进展进行梳理总结。

4.1 数据可视化信息误导设计方式总结

该研究方向重点探究数据可视化中的误导技巧,分析错误案例及设计中错误介入方式,作为未来检测和预防工作的基础。近年来研究者已经给出了系统性的分析方法,2020年Mcnutt等人[14]将视觉分析过程分为数据选择、准备、设计驱动、呈现以及阅读这5个阶段,并认为欺骗与误导是出现在单独阶段或不同阶段叠加的过程之中。在其基础之上,2022年Lo等人[16]对大量的可视化误导案例进行开放编码,总结出74种具体数据可视化错误类型(见表1)。Zheng等人[30]在图表基础之上更进一步,从叙事可视化的概念出发,推导出数据故事可视化生产消费的步骤并分析每个阶段诱发错误信息的具体原因。同时将误导分为作者诱导的读者-不可检测的错误信息、作者诱导的读者-可检测的错误信息和读者诱导的错误信息。与之略微不同的是Lisnic等人[31]以Twitter上的covid案例集为基础,进行可视化误导信息的分析,寻找给定主题下误导的来源,并提出了逻辑错误和结构设计错误两个框架,认为日常可视化信息中逻辑错误多于结构设计错误。当前对于数据可视化中的误导方式分析较为细致,但由于不同研究者出发点不同,如专门针对可视化图表分析或从数据故事文章整体分析,因此研究仍然需要一个整理与汇总。同时由于可视化在日常生活中的广泛使用,必然有一部分未曾发现的错误在等待研究者的发掘。

表1 案例可视化误导方式分类表

4.2 用户阅读体验与可视化批判性素养

第二个研究方向是探究用户对于数据可视化信息误导的解读方式,了解认知偏差和可视化素养如何甄别欺骗与误导。如图理解理论中所言:用户需要执行的阅读任务一部分是问题之间的转译,以及文本概念和图形表示之间的映射,因此用户的阅读体验是研究者们关注的一个重点。Pandey等人[11]分析用户教育水平、图表熟悉度、视觉能力和认知需求,探讨这些因素如何影响可视化误导信息阅读中的认知偏差。但研究没有说明个体差异因素之间的相关性,无法提供有力的结论。Geidner等人[32]发现对于欺骗性文字和图片,用户对图表更有记忆度,但相同情况下图表获得的质疑度更高。Laure等人[33]探究学习了可视化技能的用户是否能察觉欺骗策略,结果显示由于可视化相关课程讲述了可视化的客观性,导致学习者的过度信赖,最终发现学习和未学习数据可视化者都难以察觉欺骗。由此可见,针对可视化信息误导需要进行单独的学习与指导。Zheng等人[30]在用户实验中发现读者认为被误导的一个可能方向是阅读可视化时的重点不同,即用户只在图片中寻找其兴趣点,未能从整体角度完成对图片和文字的阅读。Holder等人[34]发现媒体使用隐藏可变性的条形图可能导致“赤字框架效应”,即认为结果差异是由于群体缺陷造成,而非外部因素。这可能导致刻板印象和社会不公。

还有一部分研究者开始将批判性思维与可视化素养相结合,探究如何发现与解决数据可视化信息误导。如Chevalier等人[35]将批判性思维与可视化素养相结合,探究在早期教育中如何发现数据可视化误导。Rodrigues等人[36]通过问卷探究人们尝试理解可视化时常犯的错误,并将其与可视化素养结合,探讨是否可以用于数据可视化教学。Lily等人[3]提出了可视化批判性素养,并制定相关评估量表。但该方向与数据可视化信息误导方式紧密关联,误导方式是可视化批判素养的基础,当前误导方式分析不足导致该方向仍有极大发展空间。

4.3 研发防御可视化误导信息的技术应用

第三个研究方向是进行“防御”式设计,寻找对抗误导信息的方式,分析如何修复图表错误。一部分研究侧重通过算法对数据可视化信息误导进行预防与提示。为了避免可视化误导的产生,创作者可以通过在创作过程中仔细选择默认值[37]或通过可视化软件的推荐系统如Tableau的Show me[38]进行自动图表生成。其中部分研究从设计者角度出发尝试降低可视化出错率,如Lee等人[39]针对多维数据设计了一个可视化数据探索工具,帮助设计者避免下钻谬误(错误因果关系)。Wall等人[40]开发自动增强可视化分析的系统以减轻认知偏差。

还有一部分通过算法研发自动检测及消除数据可视化信息误导的方法,如McNutt等人[14]在视觉分析过程中提出了一种针对静态图表表面“可视化迷雾”的变形测试方法。Correll等人[41]设计了Visualint技术,通过在可视化图表中标注错误映射和表达的方式帮助读者发现问题。Chen等人[42]开发了Vislinter,该系统可以自动检测可视化缺陷并给出修改建议。但是当前检测方法的通用性和普及性有待考证,且随着技术手段的提升,数据可视化不一定单独出现,如很多新闻媒体会给可视化增加交互操作,或运用视频等更加难以检测的视觉形式。针对多变的现实情况,自动检测以改进数据可视化信息误导的系统仍然有待研究人员的开发。

5 数据可视化信息误导未来展望

5.1 数据可视化概念整理及细分化研究

数据可视化信息误导概念和具体方式涉及到了数据安全与伦理,图情界需要对该方向进行关注。其概念由于不同学科领域用词不同难以统一,同时数据可视化信息误导涉及到数据采集清理、制作者设计选择、阅读平台展现以及用户个人体验多个不同流程和要素,虽然本文汇总提出了其概念,但仍然需要细究这些元素带来的影响和理念变动。其次,数据可视化信息误导细分化研究是一个叠加式的积累过程,有3个具体方向。1)数据可视化信息误导受到使用可视化的学科领域影响,如地理水文图表误导方式和社交媒体平台可视化误导方式有一定差异,不同领域用户阅读方式也各有差异,需要区分研究。2)数据可视化生产消费流程同样受到不同学科影响,如数据科学对数据清理分析部分产生的误导有更加深入的了解,那么可视化是否还有更多的统计错误/谬误,哪些谬误是难以察觉与检测的,这些问题需要专业的数据知识进行解答。3)数据可视化素养不同,带来的解码结果不同,如针对疫情期间数据新闻报道Covid-19病例增长情况图表,在疫情爆发初期,人们发现对数刻度具有误导性,使曲线变得平滑,然而对于掌握相关知识的人,使用其他方式如指数刻度反而具有误导性。数据可视化素养的培养和规范化如何影响数据可视化信息误导的认知和理论,需要进行进一步探究与修订。对该领域细分化的研究能够产生更加细致的结论,为研究提供更广阔的空间,也为数据可视化安全或者说数据安全提供基础。

5.2 用户认知研究和可视化批判性素养发展

对于用户如何解读数据可视化信息误导、何种程度能够发现可视化信息误导仍需测试。因此在实证方面有3个发展方向。1)检测影响用户体验的具体因素,虽然当前已证明注意力、信仰等对数据可视化误读有极大的影响,但仅靠这部分因素进行评判测验并不充足,还需要探究有哪些其他因素同样影响到用户阅读体验,比如使用平台、先验知识等,这些不同因素影响力如何需要实证检验。2)西方的研究已经证明对于误导性可视化是需要习得的,而由于误导方式的完整度有限,相关理论并未构建完善,如何进行教育、学习效果几何并未有定论。相关理论能否帮助用户甚至是制作者以及如何有效帮助需要进一步实验,这又和下一个研究方向互通。3)数据素养在塑造用户阅读可视化方面起着至关重要的作用,当前西方的研究表明普通人的数据可视化素养水平有限,在解读数据可视化方面存在局限性[43]。我国数据可视化素养的研究正在起步前行阶段,对于新兴的可视化批判性素养解读暂时空缺,需要加快研究步伐,根植于本土发展,开发适合我国国情和民情的数据可视化批判性素养量表进行补充。

5.3 防御可视化误导程序研发与应用

当前的研究者虽然设计出一部分算法以针对数据可视化误导信息,但大部分针对其中的某一个独立问题,如针对静态图表的变形或错误的可视化标注。由于相关理论并未构建完善,防御系统的开发程度自然有限。大部分研究开发的程序并未应用到相关实践之中,且其检测方式的通用性和普及性依然有待考证。而从covid-19全球公共卫生事件中数据可视化误导频发可以察觉,制作者的数据可视化素养有限,需要技术上的辅助。而随着可视化技术的更新和进步,静态图表的主流地位被广受大众喜爱的交互、游戏和视频所威胁,如何检测这部分视觉形式所产生的误导,该方向仍然处于待开发的状态。交互等技术对当前数字社会重要性不言而喻,给出正向而良好的交互方式是数字社会的基础要求。如何防御数据可视化交互和视频中的错误需要深入探究。

6 结语

随着数据可视化在公共话语与视觉平台中占有一席之地,确保可视化正确性与真实性,向大众传播准确的视觉信息是制作者的职责所在,我国图情界需要涉足该领域。同时,数据可视化批判性素养是可视化素养的一个分支,同样是大数据情境下素养教育和研究的新方向,急需重视。我国需要增加对数据可视化信息误导的讨论,强化数据可视化安全、伦理等根基意识,研究可视化批判性素养如何应用到教育、科研等不同领域。在当前的大数据环境下,将设计学、数据科学、数字人文等领域进一步融合交叉,以构建该领域我国学术话语体系。