中文古籍数字化与知识遮蔽

2015-03-31陈瑜

大学图书情报学刊 2015年1期

陈瑜

（河南中医学院，郑州450008）

以人工智能为支撑的数字信息技术给文献学和古籍整理带来了划时代的影响，中文古籍数字化历经30余年的发展，已完成由单一书目数据向图文数据、由检索工具向知识工具的转变。在古籍数据量、数字化技术和理论研究方面均取得一定成绩，为传统古籍整理拓展了新的领域。随着研究进程的深入，其负面影响也日益凸显:技术引领学术是古籍数字化时代学术研究的最大弊端[1]、知识遮蔽即为其一。数字化使文献信息利用者面对海量文献信息茫然无措，甚至“丧失自己的自主性，丧失反思和批判的能力成为信息爆炸的奴隶，被信息洪流所异化”[2]。

1 知识遮蔽的内涵与实质

当代学者吕乃基借用海德格尔技术哲学中关于“遮蔽”与“去蔽”的重要概念，提出知识因未被选择而遮蔽，也因被选择而遮蔽。相对而言，后者尤为复杂。“技术在对一部分知识进行筛选和固化时，使另一部分知识淡化、边缘化，或者说被遮蔽”，“在一部分知识被选择、集成之时，另一部分知识即被舍弃，乃至被遗忘。”[3]知识遮蔽是古籍文献数字化利用过程中的共有现象，涉及数字化过程中技术和应用、理论和实践等多领域，具有跨学科性质，其实质是技术和学术的关系:“坐拥书城”导致思维惰性和视野狭窄，面对海量信息无所适从，不能执简驭繁。古籍数字化要从海量的古籍中选择处理对象，在这个过程中，一部分古籍被数字化，另一部分则因未被选择而被舍弃。其结果就是那些未被收入数据库的古籍成为被遗忘的文献，永远无法被检索，影响数据收集的完整，进而影响研究结论的准确性。

2 知识遮蔽的成因

中文古籍数字化已取得了许多实质性的进展，主要表现在以下方面:古籍数字化概念已经形成;标准程式和体系结构的确立;数据库检索系统、辅助性研究支持系统的完善;书目数据库的标准和规范已基本确定;技术研究更多地转向古籍数字化的高级功能，如数据挖掘、知识发现等。我国古籍数字化工程虽然起步比欧美国家晚，但是发展至今，无论在规模和水平上都已远远超过海外。但知识遮蔽的现象从肇始阶段即已存在，究其成因，主要有以下几方面:

2.1 知识信息因未被选择而被遮蔽

研究手段的更新与新资料的出现往往是学术研究有较大突破的重要条件，正如陈寅恪先生所说:“一时代之学术，必有其新材料与新问题。”（《陈垣〈敦煌劫余录〉序》）古籍数字资源的深度开发是古籍数字化工作走向深入和取得实质性进展的具体表征，如果我们能将人工智能的检索手段与人脑的长处和优势结合起来，将会给古籍整理和古典文献学的研究注入新的血液，但是，尽管中文古籍数字化工程浩瀚宏大，相对整个古籍资源而言，却永远做不到不遗不漏。真正具有学术价值、文物价值和艺术价值的古籍不能得以展现，数字化古籍只能以易于获得的版本为底本，而不能根据版本的优劣作选择，而那些并未纳入数字化范围的典籍，包括孤本、抄本、珍本往往更具有学术价值，这在很大程度上影响学术研究的质量。如果只将视线局限于数字化产品，则势必造成相关知识的人为遮蔽。

2.2 检索功能局限导致知识遮蔽

目前古籍信息都是文本型数据，具有模糊性、不确定性和非线性等特征，数据库关键词检索主要还是词形匹配而非词义匹配，满足的是在一个海量信息集合中快速定位信息的需求，但精准度不高;同时，在汉字关联技术上存在技术疏误，容易引起大量不准确匹配，产生误检。

最常见的情况是建库时导入数据错误，以《全唐文》《国学宝典》《汉籍全文检索系统》和迪志版《四库全书》为例，均不同程度存在数据错误问题，阅读时会引起歧义，给研究者带来误导。在检索功能方面，由于设计者在古文字或古文献知识方面存在的局限，数据库采用的汉字关联技术，即异体字、繁简字的匹配等，在数据库设计中就出现错误。许多数据库采用单字关联技术，即某一字与另一字相匹配的方法来进行关联，以便检索。产生这种关联技术大概基于以下考虑，在古代文献中确实存在异体字现象，即字型不同，但含义、读音则完全相同。然而，在古代文献中仅仅采用单字关联是十分危险的，因为在某些典籍中可以单字关联匹配的字，在另一些典籍中就完全不可以。迪志版《四库》将“喜”与“僖”、“非”与“诽”、“藏”与“臧”、“绍”与“侣”、“余”与“邪”等相关联，显然有值得商榷之处，许多是不准确的关联。

过分依赖数字资源的检索功能，古籍阅读能力弱化，断章取义，不参考各类笺注和语境，导致知识点的提取及学术结论出现偏差;数字化古籍通过预设条件只能检索到与关键词匹配的相关资料，而不能检索到与主题相关的隐性信息。如果在资料采集、推理求证以及检索观念和方法的演进方面存在缺失，则知识遮蔽在所难免，从而影响学科整体发展水平。

2.3 忽视原典

人文学科是富含文化底蕴的学科，需要长期的学术积淀，任何时候数字化古籍均不能代替古籍本身。纸质古籍无论是装帧形式还是具体内容，其直观性都和数字化图书不同，古籍原典的字里行间以及笺注体味着古人的微言大义，创建古籍数据库时，如果数据导入错误，则常引起歧义，给研究者带来误导，只有求诸原典才能解决问题[4]。古籍更蕴含着丰富的人文知识和文化信息，关于版本信息、成书、内容层次、结构划分、传布等书籍特征也往往不被数据库显示和表达。同时，典籍中蕴含的大量以前未知的、潜在的内隐知识，这个过程也应该建立在通读原典而不应仅仅依靠数据库的标引功能。这是因为学术研究中问题意识非常重要[5]。而自觉的问题意识表现在“善于从大量原始文献中发现问题和解决问题，尤能从无疑处质疑，廓清许多积非成‘是’之点。”[6]

与传统治学相比较，数字化时代学者的思维方式和研究方法都发生了很大的变化。传统时代，学术问题大都从阅读中得来，解决问题还要回到阅读中去。数字化时代则往往主题先行，即先有题目再去论证。这种本末倒置的做法所产生的不良后果使伪命题及伪学术层出不穷。“过于依赖检索系统会逐渐滋长我们的惰性。科学本身就是一把双刃剑，人体感官在享受数字化优裕的同时也逐渐退化，数字检索在方便之余也逐渐吞噬我们的思维。”[7]

2.4 思维惰性

现代化科技手段的介入，给传统的治学方法带来了深刻的影响，极大地提高了古籍整理研究的效率，但信息的检索无法取代人的主观能动性，数字化产品充斥社会，习惯与数字化产品打交道，使得研究者过于依赖信息工具，过于依赖检索系统会逐渐滋长我们的惰性，数字检索在方便之余也逐渐僵化我们的思维。这种思维惰性不仅屏蔽了具体知识，更屏蔽了获取知识的认知途径。计算机虽然在一定程度上能够模拟人的思考，甚至在某些方面更具优势，但它不具备人类最本质的创造性思维。廓清是非、置疑解惑决非依赖电脑检索系统所能解决。以文字校勘为例，除了比较异同之外，判断是非更为重要，这种决断能力依靠深厚的学术涵养和积累，绝非计算机设计程序所具备。

3 知识遮蔽的表现

海量的数字化文献为穷尽式的研究提供了基本条件，但另一方面又导致学术异化和知识遮蔽，阻碍了学术前进，具体表现在:其一，研究周期缩短。古典文献学是需要长期积淀的学科，古籍数字化使各种资料的占有变得便捷易得，研究成本降低，周期缩短，抄袭和拼凑现象加剧，助长了社会浮躁和学术不端之风，学术成果在呈快餐式膨胀，学术水准却鲜有提升，研究者被海量信息淹没，进退无据，无所适从。长期使用网络和各种古籍库的研究方式，使研究者逐渐养成依赖，离开网络就无法工作。同时，海量信息让人无所适从。若能执简驭繁，恰当地处理信息，则利大于弊;若不能排除无用信息的干扰，如同“一部十七史，从何说起”（薛应旃《宋元资治通鉴》），则弊大于利。其二，学术成果经不起检验。当学术被技术主宰时，技术伪装学问就在所难免，过于依靠数据库检索功能，通过预设条件只能检索到与关键词匹配的相关资料，而不能检索到与主题相关的隐性信息，加之部分劣质的数字化产品在一定程度上误导着研究者，特别是无价值的垃圾信息的泛滥，导致人们陷入信息过度、信息麻痹的困境。同时，很多有价值的信息可能被忽略。思维定势和材料堆砌、著作的个性缺失和思想贫乏以及种种相关现象充斥学界。

4 对策

4.1 去除心智之隔

中文古籍数字化对现代知识体系的形成及人文科学的深入发展具有深远的影响。然而在利用数字化古籍时，至少经过了双重过滤:第一，数字化工程无法将所有的古籍全部数字化，更遑论珍本、散落民间之抄本等。换言之，很多有价值的文献资料内容因未被选择数字化而被遮蔽。其次，检索过程是第二次过滤，因为点对点的检索无法完成多元或关联检索。对于这些经过电脑整理的文献资料，甚至是电脑分析后得出的结论，选择什么，不选择什么，对哪些更要进行质疑辨伪等，这里面起决定作用的还是研究者个性化、人文化的东西。

典籍文本深蕴历史信息，而历史信息是多维度的:即它的原初形态，它作为公共审视和评价对象的原初形态，它因为岁月历程中不断增减信息而形成的历史性形态以及它因为审视者无穷的个性化、心智性因素加入审视过程而出现的复杂“偏光”[8]。这其实体现的是人工智能与人脑心智的辨证关系问题。“隔”，是指因隔膜、隔阂形成差距，“不隔”，即融通无碍。只有有效去除心智之隔，方可使个体在利用数字化过程中避免出现思维迷失和惰性现象，提高学科发展水平，做到技术与学术互补。

4.2 权界问题的再思考

数据化文献时代主要以数据化文献作为传播手段，研究者摆脱原始研究方式，自觉利用数据化文献，将计算机作为重要工具来使用，依靠强大的计算机功能来进行学术研究，包括保存、表现文献手段的数据化，传播文献途径的间接化，达到一定程度的文献数据量等。当前，计算机处理信息的最大便利之一，就是能够对巨量信息进行穷尽式分析。数字化文献资源这个公共学术平台已经初步形成，在此种趋势之下，是否意味人文科学的各个研究层次均会被计算机所取代?人的心智做为研究工作的灵魂何以安身立命?既能够掌握古往今来大量史料，又能体现研究者深切人文理念，从中爬梳剔抉、披沙拣金，电脑在古籍数字化应用方面的前景几乎是无可限量的，人机之间的“权界”划分在何处?电脑作为研究手段，其效能到底有没有边界[9]?只有正视以上命题的存在，方可避免在古籍数字化文献的应用中陷入迷茫之境。

5 知识遮蔽现象对学术的影响

古籍数字化究竟对学术研究有何推动作用?这种作用是仅仅停留在工具层面还是能够渗透到文献学和历史学研究内部?它是在较浅层面上促使学科发生某些表层性变化，还是在较深层面上对传统学科予以根本性的改造?这是当代每一名文史研究工作者不能回避的问题[10]。在低价值密度数据充斥信息系统的情况下，大多数研究者仍然能够从“噪音”中发现新的价值，随着古典文献全面数字化的到来，利用文本挖掘发现相关数据库新的价值也成为可能。

数字化技术推动了学术进程，但有可能成为异化人和束缚人的工具，面对不完整的、负价值的信息，往往导致人们丧失反思和批判的能力，回避或漠视古籍数字化对文史研究的深刻影响，将不可避免地导致研究水准的落后，这种落后不仅源于研究手段的不能与时俱进，更因为古籍数字化对文史研究这一传统学科的深层介入，使得学科的发展呈现出此前不具有的若干新特点，不能适应这种变化的学术研究必然落后于时代的要求。这一命题既是理论问题，也是应用问题;既是技术问题，也是哲学问题，有着深邃的理论况味。

[1]吴夏平.谁在左右学术——论古籍数字化与现代学术进程[J].山西师大学报（社会科学版），2010，（3）:100-103.

[2]孙伟平.论信息时代人的新异化[J].哲学研究，2010，（7）:113-119.

[3]吕乃基.技术“遮蔽”了什么?[J].哲学研究，2010，（7）:89-94.

[4]吴夏平.唐代中央文馆制度与文学研究[M].济南:齐鲁书社，2007.16.

[5]方敏.数字化古籍利用策略研究[J].高校图书情报论坛，2012，（2）:1-3.

[6]李浩.唐代三大地域文学士族研究[M].北京:中华书局，2002.3.

[7]吴夏平.唐代制度与文学研究述论稿[M].济南:齐鲁书社，2008.196.

[8][9]李铎，王毅.关于古代文献信息化工程与古典文学研究之间互动关系的对话[J].文学遗产，2005，（1）:126-137.

[10]郑永晓.古籍数字化对学术的影响及其发展方向[J].社会科学管理与评论，2006.81-88.