数据报告:一种信息史学新实践
2021-03-16许立阳
许立阳
(安徽先兆电气安全监测与预警工程技术中心,安徽 合肥230088)
2010年《历史和理论》杂志上刊登了扬·普兰普尔对情感史研究专家的专访,对于当下的历史研究是否已经出现了一个“情感转向”,三位学者都给予了肯定回答。如果说“当下的史学界关注情感的作用和表现代表了史学发展的一个全新方向”,那么当下的社会实践领域关注数据的作用和表现也代表了当今时代发展的一个全新方向——数据化、信息化的方向。正如弗洛里迪2010年在《计算与信息哲学导论》中所总结的:科研实践中正在发生一种“信息转向”,由信息和计算机科学和数字科学与通信技术将带来实践与概念的全面转换。
当我们站在5G与物联网时代门口展望未来:2020年仅中国就将新增100亿个以上的物联网连接,2026年全球边缘计算市场规模预计为205亿美元,新生成的数据量大到难以估量。那时,我们肯定会会想起1966年G.R.埃尔顿在《历史学的实践》中对史学实践的界定:历史研究的对象包括人类所说、所思、所做、所经历的一切事物,它所处理的是过去的事件而非状态,专注于理解事件的变化和在某种类型中的特殊性;埃尔顿事实上与其主要针对和批判的对手——那个时代畅销书《历史是什么》的作者E.H·卡尔——一样,将“理解变化和特殊性”或者说“历史解释”纳入了历史实践的范围。按照这种界定,数据报告——特别是通过软件技术大批量自动处理数据的数据挖掘(data mining)方法所生成的数据报告——已经成为人类记录和描述过去的重要方式。当下,为数据编制报告业已成为人类最高频的社会实践之一,而数据分析和史学研究之间,始终存在着一种难以否认的结构性相似:只要将每一个数据的生成都视为对一个历史采样事件的记述,将数据处理和对比分析的过程视为一个历史解释或历史理解的过程,数据报告的编制就完全符合史学实践的定义——只不过在这种史学实践中,对史学对象的整体把握被称为“建模”,史料的搜集与处理被称为“数据结构化”,分析过程被称为“检索”,成果的发表被称为“推送反馈”。虽然尼采、福柯、亚历山大·格朗达齐(Alexandre Grandazzi)等学者一度强烈反对,但史学界延续至今的普遍认知仍然是,只有“以人为中心的过去”才是史学应该关注的对象,“以物为中心的过去”不是史学对象——至少不是主流的史学对象。今天随着5G通信、互联网、物联网技术的不断发展,我们可以预期,这种认知在并不遥远的将来会逐渐被抛弃。
即使我们将技术进步的时代背景先放在一边,纯粹对照埃尔顿的定义来审视雷达信号的数据处理过程是不是一种史学实践:飞行物是与人相关的客观实在,其位置和运动数据连续变化的过程记录了一个与人相关的真实物理事件,对这一事件连续监测所得信号进行处理从而解释和理解了一小部分特殊的过去,按照埃尔顿的定义这是再标准不过的史学实践,我们甚至可以进一步明确:这是一种类似考古学研究的史学实践。撰写舆情监测数据报告算不算史学实践?它本质上是在记录和解释一组与人相关的抽象概念如何在网络空间被传播、被理解、被认识,甚至可以说每一份舆情监测数据报告都是一部微观思想史作品,说它是一种史学实践毫无问题。哪怕是一份最简单最基本的监测数据报告,只要记录了一系列与人相关的采样事件的结果,也是一种类似编年史的史学实践。正如福柯在《知识考古学》中所倡导的,单纯依赖文献的做法过时了,史料的范围必须扩大,建筑、机构、规则、技术、物品、习俗,一切能承载记忆的东西都应包含在内——数据当然也应该在其中。
那么,如果从现在开始广泛将所有数据报告的编制视为一种史学实践,将来这种史学实践会产生怎样的理论自觉性?生发出怎样的问题和思考?
一、信息史学的定义商榷
虽然早在2012年陈启能先生主持的“当代国际史学研究及其发展趋势”项目中就已经专设了信息史学作为六个子项目之一,2015年的第22届国际历史科学大会更将“历史学的数字化转向”列为四大主题之一,但直到2020年,中国史学理论界关于“信息史学”的专项研究几近于无。《史学月刊》2017年第5期集中刊载了6篇南开大学主办“新史学青年论坛:大数据时代的史料与史学”会议论文,可算是中国史学理论界近年来最集中的一次见诸公众的关于“大数据”与史学关系的讨论,这6篇论文虽旨趣各异,但都在理论上将“大数据”视为史学的思想资源和工具。一言以蔽之,当前史学理论界讨论的“大数据”其实只是“史学相关大数据”,其所谓“数据”其实只是“史学相关数据”。正如“当代国际史学研究及其发展趋势”项目中信息史学子项目的负责人王旭东在《信息史学建构的跨学科探索》中对信息史学的总结:史学的本原是信息,历史研究是历史主客体之间的信息流动,历史研究过程是信息处理过程,信息史学的目的在于将历史和历史认知及其阐释,抽象或解构到信息层面,从而系统地综合运用信息、信息理论、信息科学,以及信息化应用的相关理念、方法和技术支持及实现手段,来探讨并深入研究史学领域的诸种问题。
而如果从现在起,广泛将数据报告的编制视为一种信息史学实践,我们将很容易看到一种反转:未来更多的情况不是数据和信息协助解决传统史学领域的诸种问题,而是传统史学领域的诸种成果成为思考信息史学问题的思想资源。在不远的未来,传统史学领域的诸种实践将被视为一种对信息史学领域表达方式的先锋探索——类似《再思历史(Rethinking History)》两位创刊主编蒙斯洛与罗伯特·罗森斯通在2004年主编的《历史学再思考实验(Experiments in Rethinking History)》中所做的探索之于传统史学的意义。此外,信息史学将有能力对张耕华2004年主编的教材《历史哲学引论》中,用以开篇的史学实用性之问作出新的解答:信息史学的实用性就在于,能更高效的为大数据时代的核心社会实践“数据处理”提供指导和启发。在这个意义上,未来“历史学者们利用大数据写出了更好作品”的内涵应该是:未来“具备数据工程师能力的信息史学研究者们”在“信息史学理论”的指导下,生成了更好的“信息史学范式的数据处理成果”。
二、信息史学的理论自觉
很容易预见到,上述信息史学定义将引发一种与20世纪50年代批判计量史学类似的质疑——历史研究如果只剩冰冷的数字处理还有什么意义?历史学家还有什么职业性可言?但事实上,近年来史学理论界已经开始出现对历史叙事中人类中心主义的观念的质疑,史学史研究中也开始关注口述史学、大众历史书写等“非职业化”的历史书写。我们完全可以预期,未来只要是保存记忆和经验的载体,都可能被视为史料;只要是对史料进行的分析、处理,都可能被视为历史书写。今天我们所熟悉的所谓“职业化史学”的种种规范,其实都只是一种德国出现的以客观记录过去为基础的传统,谁能肯定它就是“唯一可能的史学模式”呢?事实上,所谓“冰冷的数字处理”完全可以被视为某种高度具象化的理论分析,而所谓的“非职业化”的历史书写完全可以被视为某种原职业化(proto-professionalization)史学潜藏的形式。正如当年遭到质疑的计量史学今天正在蓬勃发展,今天我们完全有理由对信息史学的前景保持乐观。
事实上,当我们从上述信息史学的定义出发审视各种常见的数据处理方法、数据报告格式时,将很容易发现过去常用的数据处理方法、数据报告格式其实都已经自知或不自知、或多或少汲取了传统史学理论领域的思想养分:证券交易价格K线图一直以来普遍分为1分钟、5分钟、30分钟、1小时、1天、1周、1月等不同的级别供人分析,任何有20世纪西方史学理论基本知识的人都难以否认,布罗代尔的时段理论是这种数据展示模式可能的思想来源;又比如近年来新出现的数据监测技术改进,为了解决漏电报警监测技术误报率高的问题同时进行负载电流监测,即通过考察分析漏电那一瞬间的负载情况防止错误理解漏电情况的严重程度,这个改进背后的理念倾向与克罗齐的复活(re-live)、科林伍德的重演(re-enact)、威廉·德雷的合理行动(rational action)、斯金纳的语境主义(contextualism)、葛兆光“关注思想史上的空白”等理念背后的情境化的历史解释理论一脉相通;甚至数据报告作为一种历史实践这一问题本身,其旨在“突破人类中心主义”的理论取向也与人类世、大历史、动物史等传统史学界的流派或理念相近。
按照马克·布洛赫的倡导,对于一眼就能看见其间相似之处的现象,应该描绘这些现象的发展,揭示它们之间的相似与不同,并在可能的范围内对其进行解释。其实,这个“解释”也许并不困难,诚如安克斯密特所说:“史学理论大多数时候往往不过是将其他领域——比如科学哲学、文学、美学等等——内的发展转换到史学理论领域。”在通信、互联网、物联网技术高速发展的未来面前,大数据技术和理论的最新成果融入史学理论领域在当下可以说是顺理成章,甚至在不远的将来,所有数据处理方法和结果表现方法都会具有史学理论层面的蕴涵——只要将编制数据报告视为一种信息史学实践,数据处理就是史料加工,数据解读就是历史理解,数据报告就是史学作品。一切常用的数据处理方法,比如数据建模,将可以视为海登·怀特所谓“历史学家将概念性模式施加于史料之前对史学对象的诗性预构”;数据可视化,将可以视为安克斯密特所谓“非语言、前语言或超语言的,使人经验到历史真实的历史表现(historical representation)方法”;机器学习(machine learning)技术,无非在训练历史编纂主体的直觉;自然语言理解(natural language processing)技术,则是语境语义自动分析。显然,传统史学领域的理论成果和思想资源都可以被应用于数据分析和数据报告编制的过程,起到启发、指导、评价的作用。反之,传统史学领域的理论焦点也可以从数据处理技术领域获得灵感与启发。
三、信息史学的启发意义
(一)概念具像化——以“历史分期”与“STL分解”为例
决定着我们大部分哲学信念的是图画而非命题,是隐喻而非陈述,是直观而非概念,概念是这个世界最多变的东西;然而,语言存在之处无经验,经验存在之处无语言。如何“描述直观”对传统史学理论一直是一个难题。
西方史学界如马克思的历史阶段论、雅斯贝斯的“轴心时代”都已蕴含了历史分期的意味,汤因比的文明“起源、成长、衰落、解体”四阶段论在“9·11事件”后广为人知。国内史学界如李四光的“中国历史800周期说”认为中国的和平与动乱循环以800年为周期;赵林的“杂交-嬗变”理论将世界历史划分为神话时代、英雄时代、宗教时代、工业时代四大历史形态,用与蛮族的文化杂交来解释历史形态演进的动力;葛兆光的“叠加与凝固”理论认为汉、宋、清三代是中国文化的“凝固期”,其间则是中国以外文化不断融入的“叠加期”。甚至在“史学理论史”层面,总结20世纪至今的史学理论发展时的主流也是彭刚的“重构、建构、解构”三阶段理论。之所以“阶段”“年代”“周期”“转向”“转型”等概念充斥于中外史学界论著之中,是因为历史研究者在“文字化”即书写之前必然先将研究对象“直观化”为一种叙事结构,历史叙事的真实性就由这个叙事结构所受的限制决定,用数据处理领域的话说,这就是“建模”——“为历史分期”其实是将史学对象直观化为一个连续过程。如伽达默尔所说,现在与过去之间的时间间隔不是一条虚无的鸿沟,而是被习俗和传统填满的连续过程,正是因为这一连续过程的存在,一切历史才得以流传下来向我们呈现。即使不使用“直观化”这个后现代的概念,我们也可以将这个过程称为一种“语境化”,“将事物放在其所处的语境中去考察”是史学区别于其他学科的显著特征,而语境化的本质就是从大量看上去毫无关系的史料中挑选出某些意义超越自身的范围的事实并与其他事件联结为一个连续过程。
当下的数据处理技术对连续过程常用的处理方法是STL分解,即将一个连续过程通过两次不同级别的平滑化处理分解为三个部分,分别体现该过程的周期性、趋势性,以及按该周期性和趋势性解释原过程时无法解释的残差,如图1示意:
图1 STL分解示意图
用STL分解的具像化视角看待“历史阶段论”“轴心时代”“叠加与凝固”“重构建构解构”等概念肯定谈不上准确,但正如安克斯密特所说,我们敬仰兰克、托克维尔、布克哈特、赫伊津哈、梅尼克或者布罗代尔这样的史学家,不是因为它们对历史描摹准确,而是因为它们对历史提出了全景式的解释。这种具像化的视角至少有四重提示意义:
第一、提示这些概念之中具有“周期性”“趋势性”两重蕴涵需要加以辨析;第二、提示这些概念的辨析过程中内蕴了一重评价标准,即该概念内蕴的“周期性”和“周期性”所无法解释的残差应当最小化;第三、提示这些概念的本质都是某种从不同的角度和维度进行的“两次不同级别的平滑化处理”,漂亮的周期性曲线和简洁的趋势性曲线背后,“两次平滑化处理”的具体方法和参数很容易被忽视;第四、提示这些概念既有体现在平滑处理的具体方法和参数存在可评判的最优解(残差最小)的客观性,也有体现在从不同角度取不同参数得到多种最优解可能的主观性,以直观的方式体现出史学认识论研究的“主客观统一”。
传统史学对历史周期性的解释往往聚焦于寻找因果性,顾炎武所谓:“三百篇之不能不降而楚辞,楚辞之不能不降而汉魏,汉魏之不能不降而六朝,六朝之不能不降而唐也,势也。用一代之体,则必似一代之文,而后为合格。诗文之所以代变,有不得不变者。一代之文沿袭已久,不容人人皆道此语。”这种对历史周期性的解释只是在说:自古以来,某个历史主体以充满灵感的自由实践突破某种传统范式,又以高明的洞察和归纳将“突破范式的成功实践”塑造成新的范式——在信息史学的视角看来这种解释非常表面化,应当至少深入到使历史对象表现出某种“周期性”的“平滑化处理”其具体方法机理如何,为何这种周期性是“最优化的”这样的层面。
(二)经验理论化——以“滑窗分析”与“历史时间”为例
琼·斯科特认为经验不能被简单等同于事实,这样做忽略了经验的背景和语境,如何尽可能“单纯”的提取“经验”来精确表现过去,一直是传统史学的一大课题。如果说历史表现主义者将历史文本视为表现过去、使过去再度呈现的一种方式,那么最新的数据处理和展现技术显然足堪称之为另一种更精确的方式。
数据处理技术领域最基础的历时性分析方法是滑动窗口(moving window,简称滑窗)法,窗口指某一时刻时从对象时间序列中提取出来做分析的那一部分,方法如下图:
一个基于现代计算机系统的最基础滑窗分析包含以下三个时间参数:
第一、窗口宽度:指分析时刻之前指定被分析的时间段,即图2中的a、d;第二、滑动刻度:指相邻分析时刻之间的时间段,即图2中的b、c;第三、代表跨度:指每个滑窗分析结果所解释的时间段,即图2中的a-c或b-d。
图2 滑动窗口法示意图
目前社会实践中使用最广泛的滑窗法数据处理案例当属模数转换,现实世界的物理量变化通过监测设备被转化为电压模拟信号后,模数转换模块中的采样与保持电路以滑窗法处理信号,每一个滑窗内的模拟信号被处理为数字信号从而得到我们日常所谓的“数据”。在模数转换的基础上可以进一步使用滑窗法进行有效值(Root Mean Square)计算,在滑窗有效值计算的基础上可进行阈值判定生成事件,对事件进行滑窗计数可以对原过程进一步进行分析和预测。可以看出,在数据处理领域,滑动窗口法不但是历时性分析的基础,多级滑窗分析复合使用还是构成数据处理方法的常用方式。
从信息史学的角度审视滑动窗口法,对处于第一时刻的史学主体而言,可以说a是记忆、b是预期,当它向第二时刻运动时,会自然形成一个过去c和一个未来d;在由第一时刻向第二时刻运动的过程中,史学主体自然面对一个问题,即待运动到第二时刻时“对d做数据处理的方式”相对于“对a做数据处理的方式”应当如何优化?这很类似夏春涛在《2019年历史理论研究综述》中专门指出的一个当前西方史学理论界的热点问题——历史时间(Historical Time)。传统史学理论层面,“历史时间”是指从布罗代尔、科塞勒克到阿尔托格所阐发的从“前现代以过去为导向”“现代以未来为导向”到“后现代以现在为导向”历史时间观变化的认识过程,而从经验理论化的角度看,“以对a或c的数据处理结果”做算法调整即“以过去为导向”——函数拟合算法即属此类,“以对b或d的数据处理结果”做算法调整即“以未来为导向”——时序预测算法即属此类,“以对‘a-c’或‘b-d’的数据处理结果”做算法调整即“以现在为导向”——最优估计算法即属此类。函数拟合关注的是如何用某种形式的函数代表原数据集,时序预测关注的是如何用原数据集预测未来新数据,最优估计算法关注的是如何精准确定当下的状态,三种算法都是撰写相关数据报告时的可选思路,对于具体情况下何者更适用,现在我们可以运用史学理论界关于“历史时间”问题的思想资源来指导和评价。
当然,历史理解最典型的特点是:在全时空的视角中将某些史实视为一体(see together)从而理解一个复杂的历史过程,这种创造性的思想不能被任何分析方法所取代。我们可以应用传统史学理论的思想资源来指导或评价某种报告撰写思路,使数据报告的撰写更加合理、全面,但无论数据处理分析的角度、方法如何汲取史学理论的思想养分,影响最重的因素仍然是统领全篇的史学思想。
四、信息史学的定位
回顾传统历史理论领域20世纪以来发展过程的叙事,何兆武承继沃尔什的观点,认为20世纪之初到四五十年代西方史学理论经历了由思辨的历史哲学转向分析批判的历史哲学;彭刚继承何兆武的观点将20世纪七八十年代西方史学理论界的动向归纳为“叙事转向”,并将这一转向归因于“范式的枯竭”,通过赋予凯斯·詹金斯和艾伦·穆斯洛同名理论新的内涵建构了“重构、建构、解构”的新叙事架构;20世纪末至今,全球史学理论界出现了“文化的转向”“实用的转向”“情感的转向”等多种探索,陈启能描述为“尽力扩大史学家领地的史学革命”,信息史学无疑是这场革命中的一个新主张。
如果单独看20世纪70年代以来的情况,一条主线是史学理论领域艺术的理论取向:海登·怀特的“预构、转义、截取和强调部分史实”将写历史比喻成写小说,安克斯密特的“叙述实体、历史表现”将写历史比喻成绘画,安克斯密特的后继者中,赫尔曼·保罗的“学者角色(scholarly persona)”将写历史比喻成表演,约尼-马蒂·库卡能的“后叙述主义”将写历史比喻成辩论——也可以视为一种表演;另一条主线则是史学史领域科学的理论取向:书信、日记、教科书、图像、传单先后被纳入史料范畴,情感史、身体史、环境史、大历史等融合现代科学知识的新兴史学门类快速发展;再加上一条专注于发掘女性、族裔、被殖民、下层、边缘群体的观点及立场,偏爱全球化和以小见大方法,且对口述史学、公众历史书写持开放态度的文化理论取向主线;可以说历史理论最近半个世纪以来,发展得愈发丰富开放而难以概括,王晴佳所谓“以色列没有国王”,或者用庄子的话说“道术将为天下裂”。在这样的时代,唯一可以通行的衡量标准也许只有“实用”:一个历史叙述是实用的,当且仅当它从有利的角度创造了某种内在一致性。信息史学无疑是“实用”的,它显然在数据科学与史学之间建立了一种有价值的内在一致性。
当今时代已经是信息与数据的时代,如凯斯·詹金斯所说,后现代不是我们可以选择赞同或反对的立场,它是对我们所处时代的概括,是我们当前正在经历的命运。信息史学也一样,它是传统史学理论领域尝试引入大数据技术及信息学科发展最新成果的探索,也是通信、大数据和物联网信息技术高速发展在史学理论界造成的必然影响;它至少可以从理论融合的视角提出两个系列的核心问题:一是数据概念的史学理论蕴涵,二是史学概念的数据形态具象;它还可以为传统史学理论界的论题提供大量的新视角、新维度。如王旭东在《信息史学建构的跨学科探索》文末所说:“未来,当我们的思维与表达在信息史学的架构中实现了跨学科突破之后,新的灵感自然会不断涌现”。
注 释:
①参见中国边缘计算产业联盟:《自动化博览》2018年边缘计算专刊, http://www.ecconsortium.org/Uploads/file/20181220/《自动化博览》边缘计算2018专辑.pdf。
②格朗达齐认为应该研究“物的历史”,参见Alexandre Grandazzi,“The Future of the Past: From the History of Historiography to Historiology”, Diogenes, 38: 151(Sep. 1990), p. 57.