交汇、挑战与应对:大数据技术对人类学民族志的影响
2024-10-12胡亮周鹏
[摘要]
大数据技术的快速发展为研究者提供了更广泛、更丰富的数据资源,其规模性、实时性、多样性和高度可追溯性也为人类学研究带来了全新的视角和方法。本文探讨了大数据对人类学民族志方法的影响,即大数据技术与民族志在本体论、认识论和方法论上均有交汇,使民族志兼具定性与定量的双重特质,大数据技术促进了增强型民族志、网络民族志和线下民族志的发展与创新,拓宽了人类学民族志方法运用的空间。大数据也给传统民族志方法带来挑战,使传统民族志面临技术依赖和数据过载的困扰,过度依赖大数据容易导致对数据背后的人文因素的忽视,大数据“关键问题”策略挑战民族志的客观性与准确性,且大数据难以将人类经验与主观感受完全转换成数据。此外,民族志对大数据技术的运用还面临伦理和隐私保护的问题,如何避免被研究者信息泄露并保护其知情权也是民族志方法中的重点问题。针对这些问题,笔者认为在民族志中需要关注“厚数据”和“小数据”,注重对数据背后的社会和象征意义的深度解释,并严肃对待伦理问题。
[关键词]
大数据;大数据技术;人类学民族志;网络民族志;“厚数据”;“小数据”
中图分类号:C912.4 文献标识码:A
文章编号:1674-9391(2024)03-0104-11
基金项目:
国家社科基金项目“农村地区自然资源产权建构与环境治理研究”(17BSH042)、河海大学中央业务费项目“山水林田湖草沙”的生态治理研究(230207032)阶段性成果。
作者简介:胡亮,
河海大学公共管理学院、河海大学环境与社会研究中心副教授,研究方向:生态人类学、农村发展;周鹏,河海大学公共管理学院社会学系研究生,研究方向:城乡社会学。
随着大数据技术的迅猛发展,人类社会正在迎来一场前所未有的数字革命,这不仅对社会结构和个体行为产生深刻影响,也对人类学方法提出了新的挑战。传统的人类学民族志方法注重深度参与和长期田野调查,而大数据时代的数字化信息具有规模性、实时性、多样性和高度可追溯性,如何更好地结合传统方法与数字化工具,更全面地把握当代社会的文化现象,成为人类学乃至社会科学研究亟待解决的问题。[1]有学者指出,人类学民族志方法已经进入到数字时代,大数据技术提供了更好地理解数字时代下人类行为和文化演变的工具。[2]1-4尽管如此,传统人类学方法面对大规模数据时显得力不从心,如何在信息过载的时代仍然保持人类学方法对文化的深刻理解,需要从方法论和工具上进行创新。[3][4][5]大数据技术也给人类学民族志方法创新带来诸如数据过载、技术依赖、个人隐私保护、“数字鸿沟”等问题,同样也需要人类学家进行反思。[6][7]同时,面对数据捕获、数据存储和数据分析、数据搜索、数据共享以及信息安全等诸多新的技术领域,人类学家亟待充实其方法和工具箱。[8]大数据相关的民族志定性研究方法也产生了许多伦理挑战。例如,社交媒体数据使用的知情权难以保障,数据集汇总时难以避免侵犯隐私等。[9]此外,大数据环境下人类学民族志的认识论转变也引发了学者的讨论。[10]如博依德和克劳福德认为,“大数据在认识论和伦理学的层面上提供了一个深刻的变化。大数据重新定义了关于知识的构成、研究的过程、我们应该如何与信息接触,以及现实的性质和分类的关键问题。”[5]由于人类学家倾向于将定量数据和方法简化为纯粹的批判对象,在大数据环境下人类学家要重新思考大数据对人类学知识的重要意义。[11]国内学者虽然对网络环境下民族志方法与伦理有所讨论,但缺乏与大数据的相关分析,[12][13]因此,本研究将探讨大数据及其技术发展对人类学民族志的影响,分析民族志与大数据的融合交汇以及如何应对挑战,为我国人类学民族志和社会科学方法的发展提供有益启示。
一、大数据与人类学者立场
(一)什么是大数据
大数据是通过计算系统可索引和搜索的大量电子数据,被理解为“4V”特征:体积(volume):数据的规模和量级庞大;速度(velocity):数据可能以极快的速度生成和传播;多样性(variety):包含各类结构化数据(例如数据库中的表格),还包括半结构化和非结构化数据(例如文本、图像、音频等);准确性(veracity):大数据来源众多,确保数据的准确性和可靠性,才能在分析中实现价值。[14]《牛津英语词典》对大数据给予了一个涵盖性较广的定义:“可以通过计算分析来揭示模式、趋势和关联的极其庞大的数据集,尤其是与人类行为和互动有关的数据集。”[15]如今,我们能想到的在线行为都会产生数据,几乎每一个数据点都可以被捕获、存储和追溯。
作为了解社会的一种手段,大数据也给社会科学研究方法带来了许多挑战。由于传统的数据处理应用软件已经难以应对大数据环境,如何分析和处理虚拟网络、数据捕获、数据存储、数据分析、信息搜索、信息共享、数据传输、数据可视化、数据查询、数据更新以及信息隐私等信息环境,需要更多的方法创新。[16]因为总是有新的大数据技术出现,各种新类型数据集层出不穷,旧有的方法也应接不暇。[14]这给社会科学研究方法带来了机遇也提出了更高的要求。
(二)人类学家对大数据的复杂立场
人类学家对待大数据的态度模糊,有的人类学家认为传统民族志田野调查仍旧在人类学方法中占据主导地位,将大规模数据收集和分析看作是这种定性研究的必要补充,但是也有相反的观点,认为传统田野调查应该服务于新的数据获得方式。[17]7-11这也导致了民族志与大数据衍生方法的相互关系的问题,如博尔斯托夫(Tom Boellstorff)认为民族志是大数据的他者,大数据在人类学方法中应该有其与民族志的平等地位。[18]大部分人类学家采取综合起来的立场。例如,科技人类学家王圣捷(Tricia Wang)认为,在人类学调查中,“大数据需要丰富的民族志数据”,因此民族志的操作中应该支持混合方法研究的论点。[7]
从人类学家的立场来看,大数据是人类的数据,它是由人类产生的,而且可以被重构,以识别最初产生数据的人。人类学家认为大数据算法有其局限性和特殊性,认为它是“在特定的专业文化中”使用的专有术语。[19]人类学家也尝试将“亲属关系”或“礼物交换”等经典概念引入大数据的研究,并提问这些数据背后蕴含何种关系,数据是在何种环境下产生,对相关议题有何种意义等问题。[20]67-86这些学者认为数据有着深刻的社会文化根源,其形成、倾向受到社会文化脉络的限制,并且可以追溯到数据的产生。
人类学家也同样认为大数据及其算法也会塑造文化。抖音、快手、微信、Facebook和谷歌(Google)等在线平台根据搜索查询对文化群体进行分类,类似的偏好会产生类似的推荐,并导致“算法文化”(Algorithm culture)。在这种文化中,个人根据相似性进行分类,决策机器根据个人所选择的关键事实,形成算法规则。[21]实际的算法系统具有特殊性、不稳定性和延展性,因此,大数据的分析中同样需要调查技术团队的社会构成,通过他们定义和发现问题,并确定文化背景下的技术解释过程。而人类学民族志作为理解人类文化现象的重要方法,一方面受到大数据的影响,另一方面又要尝试对于算法文化现象进行理解,如何厘清大数据与人类学民族志方法的关系,对于推动人类学方法的创新具有重要意义。
二、大数据与人类学民族志的交汇
大数据是对传统人类学民族志方法的有益补充。人类学民族志(Ethnography)旨在通过深入的田野调查来理解和描述特定人群或文化的生活方式、行为和社会关系。其核心特征在于研究者通常需要在所研究的地点生活较长时间,进行面对面的观察和交流,以了解局内人的观点、感受和解释,获取丰富的第一手定性数据,并通过撰写民族志报告展现被研究文化的整体图景。[22]41-43从这个意义上而言,通过大数据技术从各种网络信息平台所获得的多样化、高密度和高反馈性数据集,是对人类学民族志第一手资料的重要补充,弥补了民族志过于强调自然情境与内生视角的缺憾。大数据技术的发展也给民族志方法注入新的活力。很多人类学家认为大数据科学家和人类学家有很多共同点,他们的技能是互补的,民族志观察可以将大型数据集的计算分析背景化,而计算分析可以用于验证和推广民族志的发现。[23]总体上,大数据对民族志的影响或者说两者的交汇表现在本体论、认识论和方法论上的融合与拓展。
(一)本体论一致:反映“现实”
传统人类学民族志在本体论上强调反映“现实”,当代民族志之父马林诺夫斯基拒绝了通过二手数据创造意义的“扶手椅”方法,从本体论的意义上而言,这些研究对象都是可以观察到,并在此基础上理解和阐释社会文化的象征意义。虽然上世纪八九十年代克利福德与马尔库斯等人在一定程度上批评传统民族志注重客观性和中立性,强调民族志文本的建构性和文学性,但仍旧没有放弃民族志所研究对象的实在性和本体论立场,对“现实”及其背后的深层意义仍旧是人类学家希望加以解释的,也是知识的来源。[22]19-22在大数据时代,人类学家关于个人及其信仰和行为的数据已经超出面对面互动所获的范围,从信用卡记录、互联网使用、网络社区、电话记录,甚至云健身习惯都转换成大数据,成为现实的一部分。面对这些新的现实,人类学家也在努力扩展其本体论认知。[24]9-11
大数据分析包括对过去事件进行持续迭代探索和调查的技能和技术,以洞察已经发生的事情和预测未来可能发生的事情。[25]从这个意义上说,数据科学家开发和使用模型是现实的简化版本,建立模型的目的是代表现实、预测将来。因此,从本体论意义上而言,大数据科学家与人类学家对于认识“现实”的目标具有一致性。
(二)认识论上的一致:改变知识定义
认识论关注对现实的感知方式以及对知识的建构过程,传统人类学民族志的知识生产主要来源于参与式的田野观察,并主张文化和发展模型需要建立在第一手收集的数据之上,通过具体证据的统计文献,在田野中观察和记录社会行为,收集当地人陈述,获得现实社会的数据,并建构文化现象背后深层的意义的知识。[26]11-14[27]3-37在大数据时代,面对面的交流已经不是知识获取的唯一来源。数字档案的开放性和可访问性使研究者能够更方便地获取和利用大量的信息,社交媒体和在线平台的宏大数据流已经成为研究人员获取知识的新途径。[28]1-19物联网技术的发展使得研究者能够收集大量的实时数据。例如生态环境数据、人类行为数据等,这些数据改变了知识只来源于研究主体在场直接观察的观念。
大数据技术也重新定义了知识的本质和获取方式。知识不再局限于有限的经验和理论,而是通过海量数据的分析和共享而获得新的维度。从海量的数字片段中,我们能够提取出前所未有的模式、趋势和关联。[17]9-15这种数据驱动的方式,使个性化的信息获取也成为大数据时代知识的一大特征,推动了知识的个性化和多样化。大数据在如何定义知识方面重新构建了关于现实的本质和分类的问题。[5][29]在数字社会背景下,手机、虚拟社区、APP等行动者轨迹形成大量的知识,同样具有格尔茨意义上“深层”的意义集的特征,从而导致新的假设或对现有知识理解的更新与修正。
(三)方法论上的融合:相互的增强
在方法论上,传统民族志方法论注重深入的田野调查,采取整体主义立场和比较研究方法,来揭示人类社会的普遍性和特殊性,因而具有强烈的人文主义特征。大数据分析掺入了量化实证主义的特征,提供了更广泛、更多样的数据来源,使研究者能够获取更全面的信息。两者在方法上的融合与促进,使民族志兼具质性与定量的双重特征,并在多个方面拓展民族志方法的功能:
1.促进增强型民族志的发展
通过大数据技术和计算机科学的应用,对传统的民族志方法进行增强或改进,大数据技术使民族志方法在各个方面的创新和功能增强,也给予民族志的新的潜力,促进了所谓的增强型民族志的发展。[30]正如许文迪(Wendy Hsu)所指出的,当代民族志很难找到各个阶段没有使用某种形式的数字技术:从研究计划的制定,田野地点的选择,到招募参与者,进行数据收集,再到数据分析,乃至于写作和出版都离不开大数据技术与方法。[31]大数据环境下的各种数据、视频、图像、短视频等蕴含丰富数据的载体也便利了民族志的调查。[32]短视频APP平台已经成为获取信息的流行手段,从城市边缘群体,扩展到民族国家实践,都以多样化的、巨量的数据呈现,推动了民族志在工具上的发展。[33][34][35]
当前,包括数字记录和存储、虚拟田野调查、计算机辅助分析、数字地理信息系统、交互式媒体和数字叙事、社交媒体、软件分析和编辑包等大数据技术已经扩展到传统的民族志工具包,“数字挖掘”或者“网络爬虫”技术也被广泛使用,定量技术与传统的定性方法得以综合起来,以产生日常实践的整体描述。[36]29-32新技术也给予民族志方法更多可能,正如怀特海德所指出的那样,民族志既不是定性的,也不是定量的,而是一种鼓励更多可能的方法,这些方法可以用来产生对文化过程和实践的整体理解。[37]
在两者结合的研究中,布杰里-尼尔森(Bjerre-Nielsen A)对470名大学生的智能手机使用情况进行了2年的持续监测,以评估课堂上智能手机使用与学习成绩之间的关系,大数据监测结合2年的在场观察,扩展了民族志维度和深度。[38]此外,民族志研究者可以提供这种特定任务的数据,从而增强预测的目的。[5]
2.促进在线民族志的发展
Boellstorff(2015)指出Internet的出现,产生了在线虚拟社区,并成为现代人的“第二自我”。[39]31-32网络和虚拟社区自出现以来就吸引了较多人类学家和社会学家的关注。“在线民族志”(Online Ethnography)“虚拟民族志”(Virtual Ethnography)“互联网民族志”(Internet Ethnography)“数字民族志”(Digital Ethnography)都成为了该领域相关的重叠术语。[40][41]大数据在推动“在线民族志”研究方面发挥了关键作用,大数据技术使研究者能够广泛而深入地收集在线社交媒体、网络平台和数字化社群中的数据,包括用户生成的内容、交互模式、信息传播路径等;同时,大数据在社会网络分析中发挥了重要作用,帮助研究者揭示在线社群成员之间的关系、影响力和网络结构;大数据还可以支持对在线内容进行语言和情感分析,从而深入挖掘参与者的态度、情感和观点。[16][42]此外,大数据使得在线民族志的研究可以更容易地进行跨文化比较,揭示文化之间的异同。尤其突出的是,大数据技术提供了强大的数据可视化工具,帮助研究者以直观的方式呈现复杂的在线社群结构、趋势和关系。[38][43]
在线民族志的研究中,人类学家博尔斯托夫有关“第二自我”(Second Self)的研究在理论和方法上均有突破,他在网络社区运用民族志的方法,进行长时间观察并与虚拟角色成员互动,发展了一种他称之为“虚拟世界”的社会理论。虚拟世界不仅仅是一个游戏平台,更是一个充满社会、文化和经济活动的数字社交空间,他的研究涉及了虚拟婚礼、社交互动、经济交易等多个方面。通过对网络社会中居民的行为、语言、社群组织等方面的深入观察,他提出了“第二自我”这一概念。他发现民族志方法结合数据分析,能够描绘出第二自我在虚拟社区中展开的各种社会实践的整体描述。[39]海因也结合大数据的量化技术和参与观察来对在线市场的留言板和社区论坛进行研究,[28]89-124以分析这些空间如何与经常交换商品的离线网站互动。这表明网络民族志实践在方法上呈现出混合形式。[44]
3.推动“线下”生活的民族志研究
这种类型的民族志关注被研究对象的“线下”生活如何受到大数据的影响,“线上”“线下”生活之间具有较强的模糊性,但是又与完全在线虚拟社区为中心的“线上”生活有较大的差异,比如平台劳动经济,日常身体监测、智能手机、云健身、网络摄像头与生活轨迹研究等等。这种研究更强调普通生活与数字技术的相互影响。这种形式的民族志既可能与屏幕上的生活接触,也可能与屏幕外的生活接触,它试图探索这些模糊界线的社会生活。[29][45]这项研究主要是由人类学家和社会学家共同发展起来的,并被数字人类学和数字社会学界所认可。[46]65-69这一分支感兴趣的是日常生活如何在数字时代被生产、表现,以及实现对生活的整体理解。[47]
相关的研究中人类学家瑞特尔(Christian S.Ritter)对一家挪威软件公司的平台劳动经济民族志研究较有代表性,通过人类学家在办公空间的参与式观察的基础上,采用了数字化的方法和计算网络分析,对软件人员如何受数字平台的影响进行分析,展示民族志在研究数字经济专业群体方面的巨大潜力。我国类似的研究中,陈龙对平台外卖骑手的研究也具有突破意义。[48][49]网络摄像头是大数据的重要来源,米勒等人通过参与观察和对伦敦网络摄像头用户进行采访,对伦敦使用网络摄像头技术进行研究,认为网络摄像头在这些地方的使用是由文化背景决定的,而不仅仅是由网络摄像头作为一种技术的能力决定的。[46]65-69总的来说,这些研究更强调线下生活如何受到数字技术的影响,并呈现出日常生活的新样态,而民族志与大数据技术的结合,无疑对于探讨生活的变革具有极强的生命力和创造性。[48]
除了上述三种大数据与民族志方法相互交叉融合外,大数据的时空分析(Spatial-temporal analysis)能力为人类学家提供了更精细的时空视角。通过地理信息系统(GIS)等工具,民族志已经突破了“在地化”“参与式观察”的传统方式,在空间上也拓展了马尔库斯等人所强调的“多地点”(Multi-sites)民族志。[22]209-237
三、大数据对人类学民族志的挑战
大数据的崛起为民族志方法带来了深刻的变革,然而,大数据分析中的技术优势也易导致民族志研究中的技术依赖和技术崇拜,并忽略数据背后的社会与文化脉络,[50]产生了伦理和保护隐私的困境。[51]123-126
(一)大数据技术依赖的困境
面临过度依赖与数据过载困境。在大数据环境下,人类学家身处数字饱和环境,容易造成研究中对技术的过度依赖和过分信任,忽视数据背后的人文因素,使得研究变得冷漠和机械。[52]7-11过度关注数据的多样性和庞大性,也容易产生对数据质量和真实性审查的缺失;追求大样本而忽略了数据的精细分析,同样容易导致结果的偏差和失真。[51]127
大数据技术在民族志研究中产生了数据过载与选择的困难。随着大数据的涌入,研究者往往面临着前所未有的数据过载,大量的数据集和信息可能让研究者无所适从,导致选择困难。[53]95-111海量信息(比如智能手机的信息)使研究者难以确定研究的焦点和范围。[54]在数据过载的情况下,研究者需要更为精准地选择数据集和恰当的分析方法,也提高了学者运用民族志进行研究的能力要求。
面临大数据“关键问题”策略挑战民族志的客观性与准确性困境。“关键问题”算法策略作为一种广泛应用于数据科学领域的方法,旨在通过识别和解决数据集中的核心问题,提高分析的准确性和实用性,以便于从复杂的行为中捕捉突发现象。[55]203-219然而,这一策略对人类学民族志研究所追求的客观性和准确性构成了严峻的考验。“关键问题”策略在寻找数据的关键问题时,由于数据的采集受到算法的影响,在确定关键问题时偏重一些关键词、句,这种偏倚可能导致对特定群体的忽视,从而影响民族志研究的客观性。
此外,大数据“关键问题”偏向容易产生对情境的忽视,其策略注重数据的数量和统计规律,而忽视了情境对数据解释的影响。在民族志研究中,社会情境是理解社会现象和个体行为的关键因素之一。[56]然而,算法很难捕捉到人与人互动的所有细微差异,从而降低了对民族志研究对象的准确理解。
面临大数据难以将不能被量化的人类经验、主观感受完全转换成数据困境。尽管数据在我们的生活中扮演着越来越重要的角色,但仍然存在一些人类经验无法被量化和完全转换成数据,在捕捉人类经验方面存在着较大的局限性。[57]人类经验往往涉及到丰富的非结构化元素,如情感、感知和主观体验。这种非结构化的经验难以被数字化和量化,例如,一首音乐、一种氛围、一种旅游的体验往往包含着超越数字的情感和体验,很难被数据手段捕捉。[58]
很多主观感受不能完全量化。对美的感知、对爱的体验或对人生意义的追求等主观层面的经验很难通过数据进行准确地度量。[59]大数据在统计和分析客观行为时表现出色,但对于主观感受仍需借助其他研究方法。另外,情境与背景的复杂性也难以完全量化。传统民族志的参与观察,使人类学家通过主位(Emic)的研究立场,可以细致入微地感知情境与生活脉络,使人类学经验可以得到同情的理解。而在大数据环境下,这些人类经验与社会因素的复杂性常常难以被简化为可量化的数据。
(二)伦理与隐私问题
在大数据时代,人类学民族志方法面临着严峻的伦理困境。随着大数据的广泛应用,如何保护个体隐私成为利用大数据不可避开的伦理问题,尤其个人数据的泄露难以杜绝。[60]个人信息的搜集、存储和共享变得更加便利,而这往往是在被研究者毫不知情的情况下进行的。这不仅侵犯了个体的隐私,也可能导致个体在社会中的形象和声誉受损。[61]
另外,大数据的运用涉及到数据的所有权和控制权的问题。在数字时代,数据变得愈发成为权力的象征,而这种权力并不总是在被研究者手中。大规模数据的收集和管理往往由政府机构、平台公司、跨国组织等大型组织掌控,这引发了关于数据所有权和数据使用权的争议。[62]被研究者可能失去对自身数据的掌控权(比如银行数据、健康数据),而研究者在使用这些数据时也面临如何合理、公正地运用的问题。
伦理困境还涉及到数据的安全性和滥用的问题。随着大数据的积累,数据泄露、滥用和黑客攻击的风险也相应增加。这不仅对被研究者个体造成直接的伤害,也可能对整个社会体系产生负面影响。研究者需要在确保数据安全的前提下进行研究,同时要防范数据被不当利用的可能性。[61]
伦理困境还涉及到数据的公正性和偏见。由于大数据的采集往往基于先前的行为和观察数据,这可能导致对某些群体或个体的过度关注,而对其他群体的忽视。这样的数据偏见可能会在研究结论中现出来,从而影响对社会现象的客观理解。[62][63]
除了上述挑战外,大数据也可能忽视了一些少数群体的声音。[61]其中,“数字鸿沟”成为一个值得关注的问题,即信息技术的不平等分布可能导致某些社会群体被忽略,比如,难以使用电子产品的老人往往处于信息控制的弱势地位。[64]另外,大数据研究往往需要跨学科的合作,涉及计算机科学、统计学等领域的知识,研究者不仅需要具备人类学的知识,还需理解数据科学的基本原理,这也给人类学者提出了更高的挑战。
四、人类学民族志如何迎接挑战
(一)关注“厚数据”,重视“小数据”
人类学民族志如何应对大数据时代的技术依赖和严重的伦理问题?作为人类学家而言,格尔茨所提出的“深描”(Deep Description)概念仍旧有其现实意义。[27]3-37这一理论的核心思想在于人类学家应该对人类行为背后的深层次、复杂性和文化象征意义进行解读,通过详细、深刻的描述来捕捉社会行为的各个方面,以更全面地理解人们的真实经验和情感。在此基础上,王圣捷提出了“厚数据”(Thick Data)这一概念,她强调在研究中不仅需要大规模的数量化数据(“薄数据”),还需要深入、丰富、质性的数据来获得更为全面的理解。厚数据不仅包括传统的数字数据,还包括更具深度和情境感的质性数据,如个人生命历程、社会互动的细节等。这种方法能够揭示人们背后的动机、文化背景和情感,为研究提供更为丰富的视角。[7]
“深描”和“厚数据”概念提醒我们在抽象的数字世界使用民族志方法时,不能仅仅沉迷于抽象的数字和统计数据,而是需要注入更多人性化的故事,认识到大数据只是认识人类社会的一种方式,还存在着其他更多的方式去认识人类的各种面向。在数字世界中,人们的行为、选择和互动被转化为数据,通过注入人性的故事,可以捕捉到数据无法完全展示的丰富信息。“厚数据”引起情感共鸣有助于打破研究者与被研究者之间的距离,促使更深入、真实的研究成果。当然,在数字化的世界中,文化差异常常被数字化的统计结果所掩盖,通过讲述个体的故事,我们也能够更好地理解不同文化背景下的行为和观念,促进不同文化之间的相互理解。
除了关注“厚数据”外,大数据环境下的民族志仍旧需要从较小的“小数据”(Small Data)中学习,小数据针对的往往是个体、一个群体、一个微观社区产出的数据流,比如传统社区研究。[65]199-214通过小数据的深入分析和感知主观的体验、难以化约成数据的文化面向,可以真正实现对文化符码的洞察。更大的数据并不总是更好的数据,大数据源于多个来源,难以保证所有数据都是正确而没有错误的,比如网络社会中大量的虚假信息,当结合多个数据集时,这类问题往往被放大,导致研究的失真。[5]从这个意义上说,小数据更适合进行密集、深入地检查,以识别模式和现象,这是也是传统人类学民族志仍旧可以占据主导地位的领域。此外,数据科学家一直改进方法来分析大型数据集以建立识别模式,但如果研究尚未开始,或在数据集中没有相关信息或者信息不显著时,如何建立认识模式尤其困难。因此,大数据分析和民族志可以从更小的数据集中学习。[66]3-16
(二)严肃对待伦理问题
在处理伦理问题和隐私安全时,首要考虑的是确保参与者的知情同意和隐私保护。研究者应该向参与者详细解释研究的目的、使用的数据类型和采集方法,并征得他们的明确同意。这涉及到透明沟通,让参与者了解他们的个人信息将如何被使用,以及采用何种隐私保护措施。一方面,为了确保数据安全,研究者也要采用先进的技术手段和数据管理实践,使用加密技术对敏感信息进行保护,确保数据存储和传输的安全性。同时也要建立安全的存储系统,并限制数据访问权限,只允许授权人员进行数据处理和分析,定期进行安全审计和监控,及时应对潜在的数据泄漏风险。[60][61]
另一方面,重视研究伦理的教育和培训也是解决伦理问题的关键。研究团队成员应该接受专业的伦理培训,了解数据收集和处理过程中可能涉及的伦理挑战,学会妥善处理这些问题。要加强团队成员的伦理意识,使其能够在研究过程中持续关注和应对伦理问题,确保研究过程的公正和透明。同时,还需要建立独立的伦理审查机构,对研究计划和数据采集过程进行审查,确保其符合伦理标准和法规。这有助于提供第三方的监督和评IZUjmhd1O1WlVEUDCVIfMQ==估,确保研究在伦理上的合法性和合规性。与此同时,及时回应参与者的反馈和顾虑,建立开放的沟通渠道,为他们提供保护和支持。通过以上综合手段,我们可以更全面地解决数据民族志的伦理问题和隐私安全,保障参与者的权益和研究的合法性。
五、结论
大数据扩展了人类学民族志研究的本体论、认识论和方法论,并且增强了民族志的技术工具和研究范围,同时在线上、线下民族志的研究中,综合了大数据技术和定性研究方法的优势。在过去的几年里,数字民族志、虚拟民族志和网络志、线下民族志在大数据技术的推动下,有了长足的发展。这表明,大数据环境下的民族志研究可以扎根于任何一个学科,被用来回答与他们的学科密切相关的特定问题,而不仅仅限制在人类学的范围内使用,这也给予民族志方法更大的潜力。
技术革命使得数据能够以更快的速度、更大规模地被收集。数据化不仅仅提供了新的文化空间,而且深刻地塑造了人类的行为,进一步推动了民族志和大数据之间的交汇。这一发展趋势要求人类学家在方法论上更具灵活性。因此,人类学民族志在大数据时代的实践应当注重与技术的互动,与其他学科的合作,以创新性地适应和利用新兴的数字研究工具,把握社会文化现象的多样性和变化。此外,大数据时代对我国人类学民族志研究方法同样既是一场变革,也是一次机遇。面对中国现实,我们应该整合定性和定量方法,学习使用数字化工具和技术,同时,将传统的人类学研究方法与大数据分析相结合,通过混合方法研究,充分利用两种方法的优势,提供更丰富、全面的研究结果。另外,我们也要谨慎对待技术依赖、数据过载,关注“厚数据”和“小数据”,更好地适应大数据时代的研究需求。
总体而言,人类学民族志方法在大数据时代需要灵活应对,整合传统方法和现代技术,以更全面、深入地理解和解释社会文化现象。
参考文献:
[1]Seaver N. What should an anthropology of algorithms do?[J]. Cultural anthropology, 2018,33(3):375-385.
[2]Horst,Heather A., and Daniel Miller,eds.Digital anthropology.Routledge,2020.
[3]Hart T.Online ethnography[J].The international encyclopedia of communication research methods,2017:1-8.
[4]Curran J.Big data or “big ethnographic data”? Positioning big data within the ethnographic space[C]//Ethnographic praxis in industry conference proceedings,2013(1):62-73.
[5]Boyd D,Crawford K.Critical questions for big data:Provocations for a cultural, technological, and scholarly phenomenon[J]. Information, communication & society,2012,15(5):662-679.
[6]Boellstorff T.Making big data, in theory[J].First Monday,2013,18(10).
[7]Wang T.Big data needs thick data[J].Ethnography matters,2013(13):1-5.
[8]Charles V,Tavana M,Gherman T.The right to be forgotten-is privacy sold out in the big data age?[J].International Journal of Society Systems Science,2015,7(4):283-298.
[9]Metcalf J,Crawford K. Where are human subjects in big data research? The emerging ethics divide[J]. Big Data & Society,2016,3(1):1-14.
[10]Paoli A D,D’Auria V. Digital ethnography: a systematic literature review[J]. Italian Sociological Review,2021,11(4S):243-243.
[11]Paff S.Anthropology by data science[J].Annals of Anthropological Practice.2022,46(1):7-18.
[12]卜玉梅.虚拟民族志:田野,方法与伦理[J].社会学研究,2012(06):217-246.
[13]卜玉梅.网络民族志的田野工作析论及反思[J].民族研究,2020(02):69-85.
[14]Markus M L.New games, new rules, new scoreboards: the potential consequences of big data[J].Journal of Information Technology, 2015,30:58-59.
[15]O.E.Dictionary Editorial Board.“Big data”[EB/OL].(2015-03-11)[2023-10-30].The Oxford English Dictionary . https://www.oed.com/dictionary/big-data_n/.
[16]Charles V,Gherman T.Achieving competitive advantage through big data.Strategic implications[J].Middle-East Journal of Scientific Research, 2013,16(8):1069-1074.
[17]Knox,H,and Dawn Nafus,eds Ethnography for a data-saturated world[M]. Manchester University Press,2018.
[18]Boellstorff T.The ability of place: Digital topographies of the virtual human on Ethnographia Island[J].Current Anthropology,2020,61(S21):S109-S122.
[19]Dourish P.Algorithms and their others: Algorithmic culture in context[J]. Big Data & Society,2016,3(2).
[20]Maurer W M.Principles of descent and alliance for big data[M].2015.
[21]Striphas T.Algorithmic culture[J].European journal of cultural studies,2015,18(4-5):395-412.
[22][美]詹姆斯·克利福德,乔治·E.马库斯.写文化:民族志的诗学与政治学[M].高丙中等,译.北京:商务印书馆,2006.
[23]Laaksonen S M,Nelimarkka M,Tuokko M,et al.Big data augmented ethnography:using computational methods and ethnography to explore online interaction during electoral campaigning[J].Journal of Information Technology & Politics,2017(14):2,110-131.
[24]Rudder C.Dataclysm: Love, sex, race, and identity——What our online lives tell us about our offline selves[M].Crown,2014.
[25]Mustafi J.Natural Language Processing and Machine Learning for Big Data[J].Techniques and Environments for Big Data Analysis: Parallel, Cloud, and Grid Computing, 2016:53-74.
[26]Kuper A.Anthropology and anthropologists: the modern British school[M].Routledge,2014.
[27][美]克利福德·格尔茨.文化的解释[M].纳日碧力戈,等译.上海:上海人民出版社,1999.
[28]Hine C.Ethnography for the internet:Embedded,embodied and everyday[M].Routledge,2020.
[29]Lazer D,Pentland A,Adamic L,et al.Computational social science[J].Science,2009,323(5915):721-723.
[30]Duggan M.Questioning “digital ethnography” in an era of ubiquitous computing[J]. Geography Compass,2017,11(5):e12313,1-12.
[31]Hsu,W.F.Digital ethnography toward augmented empiricism:A new methodological framework[J].Journal of Digital Humanities,2014,3(1): 3-1.
[32]Shoumy N J,Ang L M,Seng K P,et al.Multimodal big data affective analytics:A comprehensive survey using text,audio,visual and physiological signals[J].Journal of Network and Computer Applications,2020,149:102447.
[33]武晓伟,张橦.新媒体对社会边缘群体的组织化与赋权研究——以“女友组”为例[J].中国青年研究,2014(03):21-25.
[34]Laurier E,Brown B,McGregor M.Mediated pedestrian mobility:Walking and the map app[J].Mobilities,2016(11):117-1 34.
[35]Spinney,J.Close encounters?Mobile methods,(post)phenomenology and affect[J].Cultural Geographies,2015(22),231-246.
[36]McCrea T P.Sensing the Cloud:A Materialist Spatial Analysis of Data Centers and Critical Conceptualization[M].University of Washington,2021.
[37]Whitehead T L.What is ethnography?Methodological,ontological,and epistemological attributes[EB/OL].[2004-05-27].Ethnographically Informed Community and Cultural Assessment Research Systems(EICCARS)Working paper Series.http://www.cusag.umd.edu/documents/workingpapers/epiontattrib.
[38]Bjerre-Nielsen A,Andersen A,Minor K,et al.The negative effect of smartphone use on academic performance may be overestimated:Evidence from a 2-year panel study[J].Psychological Science,2020,31(11):1351-1362.
[39]Boellstorff T.Coming of age in Second Life: An anthropologist explores the virtually human[M].Princeton University Press,2015.
[40]Domínguez D,Beaulieu A, Estalella A,et al.Virtual ethnography[C]//Forum Qualitative Sozialforschung/Forum:Qualitative Social Research,2007,8(3):3-07.
[41]Haverinen A.Internet ethnography:the past,the present and the future[J].Ethnologia Fennica,2015,42:79-90.
[42]Lohmeier C.The researcher and the never-ending field: Reconsidering big data and digital ethnography[M]//Big data?Qualitative approaches to digital research.Emerald Group Publishing Limited,2014:75-89.
[43]Slingerland E,Atkinson Q D,Ember C R,et al.Coding culture:Challenges and recommendations for comparative cultural databases[J].Evolutionary Human Sciences,2020,2:e29.
[44]Kusuma A,Purbantina A P,Nahdiyah V,et al.A virtual ethnography study:Fandom and social impact in digital era[J].Etnosia:Jurnal Etnografi Indonesia,2020,5(2):238-251.
[45]Barendregt B.Digital ethnography,or “deep hanging out” in the age of big data[J].Audiovisual and Digital Ethnography,2021:168-190.
[46]Geismar H,Knox H,Digital anthropology[M].London:Routledge,2021.
[47]Pink,Sarah,Horst H,Lewis T,Hjorth L,et al.Digital ethnography:Principles and practice[J].Digital Ethnography,2015:1-21.
[48]Ritter C S.Digital ethnography:Understanding platform labour from within[M]//Methodological Approaches for Workplace Research and Management. Routledge,2023:54-69.
[49]陈龙.“数字控制”下的劳动秩序——外卖骑手的劳动控制研究[J].社会学研究,2020,35(06):113-135+244.
[50]Beuving J J.Ethnography’s future in the big data era[J]. Information,Communication & Society,2020,23(11):1625-1639.
[51]Jemielniak D.Thick big data:Doing digital social sciences[M].Oxford University Press,2020.
[52]Markham A.Doing ethnographic research in the digital age[M].Oxford University Press,anticipated 2020.
[53]Antoniou J,Tringides O.Big Data,Analytics,Transparency and Quality of Experience[M]//Effects of Data Overload on User Quality of Experience.Cham:Springer International Publishing,2022.
[54]Bawden D,Robinson L.Information Overload:An Overview[EB/OL].[2020-6-30].City Research Online.https://doi.org/10.1093/acrefore/9780190228637.013.1360.
[55]Kordon A K.Applying Data Science[M].Cham: Springer International Publishing,2020.
[56]Ananny M,Toward an ethics of algorithms:convening, observation,probability, and timeliness[J].Sci Technol Human Values,2016,41(1):93-117.
[57]Briard T,Jean C,Aoussat A,et al.Challenges for data-driven design in early physical product design:A scientific and industrial perspective[J].Computers in Industry,2023,145:103814.
[58]Weaver A.Tourism,big data,and a crisis of analysis[J].Annals of Tourism Research,2021,88:103158.
[59]Gardhouse K,Anderson A K.Objective and Subjective Measurements[J].The Cambridge handbook of human affective neuroscience,2013:57.
[60]Mittelstadt B D,Floridi L.The ethics of big data:current and foreseeable issues in biomedical contexts[J].The ethics of biomedical big data,2016:445-480.
[61]Herschel R,Miori V M.Ethics & big data[J].Technology in Society,2017,49:31-36.
[62]Wigan M R.Big Data-Can Virtue Ethics Play a Role?[EB/OL].[2015-12-08].Bepress. https://works.bepress.com/mwigan/29/.
[63]Streule M.Doing mobile ethnography:Grounded,situated and comparative[J].Urban Studies,2020,57(2):421-438.
[64]Naudé W,Vinuesa R.Data deprivations,data gaps and digital divides: Lessons from the COVID-19 pandemic[J].Big Data & Society,2021,8(2).
[65]Latzko-Toth G, Bonneau C, Millette M. Small data, thick data: Thickening strategies for trace-based social media research[M]. The SAGE handbook of social media research methods, 2017.
[66]Bollier D, Firestone C M. The promise and peril of big data[M]. Washington, DC: Aspen Institute, Communications and Society Program, 2010.
收稿日期:2023-12-17 责任编辑:王美英