大数据时代与孙子文献研究
2016-02-02FuChao
付 朝/Fu Chao
大数据时代与孙子文献研究
付 朝/Fu Chao
大数据(Big data )是近几年出现的新概念。但其发展势头正旺,影响深远。不仅在各相关领域得到大量应用,还促成了科学思想和思维方式的深刻变革。可以预见,一个数据为王的新时代已经来临。为迎接挑战,我国政府已决定大力发展数据产业,以尽快建成数据强国。那么,大数据对孙子文献研究有何影响?本文对此略加分析,并提出一些粗浅建议。
一、关于大数据的思想探索和理论预研
大数据概念一经出现便对传统学术思想提出挑战。舍恩伯格说:“就像望远镜让我们能够感受宇宙,显微镜让我们能够观察微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。”①这就深刻说明了大数据的价值意义和社会影响。可见大数据是一个颠覆性的概念,其最重要的影响就是正在改变人们观察和认识事物的方式,即所谓科学思想的三大改变:一是重全体而非抽样,研究不再是选取数据样本,而是收集全部数据;二是重发现,不要求精确性,而是混杂性;三是重预测而非了解,不再局限于因果关系,而是相关关系。这就对传统思想方法提出了挑战。所谓全数据模式,即样本=总体。认为“追求精确性是信息匮乏时代和模拟时代的产物,因实际只有5%的数据是结构化且能适应传统数据库技术。如果不接受混乱的数据,那剩下的95%的非结构化数据就无法利用,形成残缺。所以只有接受不精确性才能全面深刻地认识世界。”②因此大数据允许不精确。认为全数据模式的简单算法很可能比小数据的复杂算法更有效。甚至认为纷纭复杂的数据越多越好,并将其变成一种标准途径。特别是不再汲汲于追求因果关系,而是认为“知道是什么就够了,没必要知道为什么。不必非得知道现象背后的原因,而是让数据自己发声,因预测的关联物才是预测的关键。这就改变了人类探索世界的方法。”③显然,这些不同以往的大数据思想必将引发人类思维方式的深刻变革,并形成重大的时代转型。
目前,大数据技术发展很快。其发展趋势是,先从各领域的应用开始做起,如在商业、制造业、医学、社会、情报等领域都出现大量成功案例。然后再总结其相关技术,将其上升为通用程序。④据2015年9月检索,百度搜索的相关内容已达一亿多条。正所谓如火如荼,方兴未艾。大数据概念已被引入文化、教育、学术、传播等领域,均发挥巨大威力。如在文化教育领域,有关专家正研究一种利用大数据技术提供学校教育与互联网教育共存的新模式。甚至预言大数据将开创一个科学教育的新时代。⑤
那么,大数据对文献研究有何影响呢?首先,文献的本质就是一种信息存储方式,信息采集处理技术的变化不可能不影响其研究活动。舍恩伯格说:“世界的本质就是数据,大数据将开启一次重大的时代转型;大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。”⑥可见文献信息从最早的手抄口传到雕版印刷、活字印刷,人类就开始了文献信息处理,从此进入文明发展的新时期;又从纸质文献到数字文献(文本、超文本、音频、视频等),其内容和形式都发生了重大改变;再从单机版的辅助研究到互联网的互动互联和大规模开放式传播等。每次信息技术的重大进步都深刻影响到文献研究。特别是文献信息经过数据化转换后不再局限于文字介质的简单形式。从其产生、搜集、整理、保存、研究和利用的角度看早已发生了深刻变化,所以从文献研究的本质看,大数据必然产生重大影响。其次,大数据造成的社会变化也不能不辐射到文献研究。当整个社会都为大数据的变化而欣喜,文献研究当然不能置之度外,至少应对其影响加以观察和思考,在一些可能的问题上采用大数据技术。第三,运用大数据思想在各相关领域的选题也能给我们提供宝贵参照。如美国六部委的大数据课题,重点就是围绕相关领域的数据获取、统计分析和处理技术;基础数据库研发;人工智能及自主教育研究等。这就提示我们也可适当借鉴其选题思路。最后,大数据在其他领域的研究成果也可为文献研究提供支持。如基于语料库技术对孙子文献的语言分析就可对中英文翻译提供参照。⑦可见大数据发展与文献研究具有密切联系。
具体到文献研究则还在起步阶段,重点是思想探索和理论预研。如大数据在文献研究领域的应用前景,怎样通过数据挖掘和数据分析了解形势和需求,以及如何把握研究方向、确定研究课题等。
二、关于孙子文献的数据转换
文献研究的数据转换是孙子文献研究的重要内容,也是从根本上改进孙子文献研究的基础性工作。其作用是:有利于原始文献的长期存储,有利于扩展其研究范围和实际内容,有利于充分利用现代化的技术手段,也有利于研究信息的广泛传播和探索交流。文献资料从最早简帛文献的手抄口传到纸质印刷的广泛传播,无疑是巨大的历史性进步。但无论是简帛文书还是纸质印刷品都有一个共同的问题,就是不利于长期保存和变换整理。直至采用现代信息技术才使其大规模数据化存储成为可能。所以,相对于传统印刷术,研究文献的数据化转换更具划时代意义。随着数据化手段的大量应用,图像、音频、视频等文献也都可以妥善存储,并使其内容得到方便快捷的展示。这就大大拓展了研究范围,也增加了海量文献无损存储的安全。通过检索、比对、统计、分析,使海量信息的整理编目成为可能,也使语言、社会、文化等相关信息的分析提取成为简单操作。这就把学者从手工搜罗剔抉材料的繁琐劳动中解放出来,可以集中时间精力考虑重大理论问题。同时,数据化信息也便于通过各网站得以大规模传播,及时进行有效的交流,从而实现资源共享,营造出民主平等的学术环境。所以,孙子文献的数据化转换已成为一个重要课题。
孙子文献的数据化研究具有深厚的社会背景。从国际范围看,20世纪中后期以来国际上就开始大型语料库建设,大量西方传世经典都已转换成电子文献。我国电子文献和语料库研制虽然起步较晚,但也取得了重要成绩。目前,以国家图书馆为中心已建成中国年鉴数据库、方志数据库、学位论文数据库等多种大型数据库。一些重要的古典文献,如《四库全书》《古今图书集成》《全唐诗》《全宋词》《全唐五代文》《说文解字》等,也都已成功转换成电子文献。在港台方面,古籍整理的计算机处理也开展很早,已完成《二十五史》《十三经注疏》《楚辞》《甲骨文合集》《华夏文库》的电子版研制。⑧对孙子文献的的电脑研究也进行了积极尝试并取得重要成果,曾处于领先地位。如20世纪90年代初杨少俊主持研制《孙子兵法》微机检索专家系统(STAWRES——91)。研发建立了《孙子兵法》全方位数据库,设置了100多个项目,可用于相关信息的检索服务。还率先运用计量语言学和计量史学等方法统计分析,取得一些重要成果。其后,解放军出版社出版了该系统的文字简编本。⑨但限于当时条件基本采用手编程序,通用性不强;由于开发较早又未能进行有效升级,限制了该系统的实际应用;其相关信息的采集范围也明显不足。但作为《孙子兵法》文献研究现代转换的积极探索,仍不失为重要成果。所以,这些长期深入的研究成果为数据化转换奠定了坚实基础。
孙子文献的数据化转换宜统一规划、分工协作。其中心任务是对研究文献进行全面的数据化处理,建立大型数据库,从而实现《孙子兵法》研究的跨越式发展。其具体内容应包括基础文献、核心研究、重点课题和外围资料等。其文献形式除文本外,还应包括图录、音频和视频等各种形式。这应该是一个开放的系统,能为各方面专家和广大群众提供全面、准确、系统、权威的研究信息。为保证质量,应重点做好顶层设计,然后层层分解,具体执行。在数据转换、保存格式、储存管理、检索调用和数据安全方面都要保证其先进性、针对性、全局性、时效性和前瞻性,从而形成一个开放共享的专家系统。文献库建设包括大量前期工作,应调动各方面专家学者协同进行,确保不出现缺失和误读。尽量避免数据整理及存储传输时的分散损耗和低水平重复,也要适当注意兼容互动及优化架构的合理性和集成度,实现标准信息、通用基准的完全共享,保证资源的通用化、集成化和标准化。
孙子文献数据化转换的关键是领导认识。这是一个大项目,功在当代,利在千秋。相关领导应充分认识其价值和意义。力争将该课题纳入国家古籍整理轨道,以取得资金支持。在统一规划下充分发挥各方面积极性,使一些科研院所、教学单位和民间机构均可发挥自身优势参与其中。目前,滨州学院也正在建设《孙子兵法大型数据库》,建议以该学院为中心,联合国内外相关部门尽快完成该项工作。⑩
三、关于文献网建设和网络传播
网络传播是数据化研究的的重要内容,也是大数据获取的重要途径。随着互联网技术和移动通讯的迅猛发展,文献研究进入网络时代。其主要标志就是涌现出一大批以研究介绍《孙子兵法》为主要内容的网站:如中国孙子兵法研究会的“中国孙子兵法网”、山东孙子研究会的“山东孙子研究会网”、西华学院的“孙子兵法与谋略学网站”、苏州“孙子兵法网”、广饶县“中国孙武网”、临沂市“孙子兵法网”等。这些专业网站的建立为孙子文献研究提供了方便,也在一定程度上促进了学术发展。
目前的问题是,本来开展较早并处于领先地位的孙子文献研究网站却都存在一些或多或少的问题,不能尽如人意。主要是缺乏统一规划,无法避免低水平重复;核心内容缺乏权威性,适时性内容又严重滞后,甚至阙如;一些网站建设停滞不前,甚至出现倒退和关闭;许多网站完全没有实质性内容,基本是为领导装潢门面。要真正查询一些重要内容和相关信息还不如上一些综合性学术网站,如百度文库、学术期刊网等。显然,孙子文献网与其他网站发展已形成巨大的数据鸿沟。
为此,应大力加强各级各类网站建设。要充实实际内容,突出各自特色,扩大交流范围,不仅提供科学可靠的文献资源,还可通过各级各类论坛、博客、微博、脸书等形式实现即时交流。同时为广大群众提供喜闻乐见的研究信息 。随着孙子自主教学系统的研发,一些重要网站还将担负在线学习的功能,均需加以前瞻性部署。
四、关于孙子自主教学系统研发
大数据在教育领域的应用主要是数据挖掘、教学分析和在线学习。其作用是为预测分析、行为分析和学业分析等应用研究提供帮助,使各级领导、管理人员、教师和研究人员可据此制定科学合理的教学策略。其终极目的就是建立一套个性化的自主学习系统和自适应教学系统。其核心内容是通过数据分析构建一系列教学模型,以搭建全新的教学平台,从而引导学员进行自主学习,更好的达成教育目的。所以,《孙子兵法》自主和自适应教学系统的建立,应该是《孙子兵法》研究的重要内容。
这一系统应由一系列学习模型组成。重要的有:学习者经验模型、学习者行为模型、学习者知识模型、领域知识模型,以及学习者档案、教学策略分析、教学趋势分析等。学习者经验模型是通过分析各类存留数据,如问卷、量表、课堂表现、学习考核、师生反映等数据分析,全面把握其思想、行为、心理特点、学习表现,对其课程、效果进行评估,并据此指导学习活动,如线上选课和自主性课程设计。这就改变了一般性的教学程序,可显著提高教学效果。学习者行为模型是分析学习行为的变化、课业进度及完成情况、网上学习时间及考试成绩,以便及时发现潜在问题、调整教学策略。据报道,外国某大学此类软件的预测准确率已达到75%以上。学习者知识模型,通过收集在线学习的交互数据分析其请求帮助的数量和性质、在线回答所需时间、正误答案的重复率等,这就深入到学习的单元层面、课程层面和知识点层面。通过人机互动控制其选择方式,从而对学习时间、学习内容、反馈方式等提供最佳方案。领域知识模型是通过数据分析对现有的领域知识进行重建,深入研究其配置关系,详细分解知识点、学习单元、课程内容。再通过分类聚合的方式描绘学习曲线,以便深入把握知识内涵。而这正是《孙子兵法》文献研究的强项。构建学习者档案是收集其基本的学习信息,根据特征进行分组类聚,建立档案。以便根据其学习特点和交互类型提供量身订做的个性化学习环境,激发其学习积极性和主动性。通过这些教学模型帮助制定适合的教学策略,从而大范围提高教学效果。对此,国外已有成功先例,如由Ritter等人开发的智能导学系统就已达到了15年的细密度。利用该系统及时进行趋势分析,动态评估学习情况,预测变化趋势,探索学前行为和未来结果之间的关系,以便及时调整学习行为。美国加州高等教育协会还创建了一套在线分析工具,为用户提供服务。总之,通过对《孙子兵法》教学的建模分析即可令学习者了解学习过程的发生机制,并以此来优化学习程序,真正形成自我导向的适应性学习。
这应该是一个大工程,所以在组织立项方面可考虑:采用分散集成的方式:把整体作为一个长期目标,然后分解成一个个分系统来完成,最后再加以集成;多学科参与方式:需要数据处理专家、统计学家、教育学专家、心理学家和孙子研究专家共同参与; 多层面、多角度申报等。
当前大数据发展方兴未艾,如何将其运用于文献研究还有待观察。但孙子文献研究理应把握先机,迎接这一科学发展的大潮。本文不揣冒昧提出一些探索性建议,错误与不当之处在所难免,望不吝赐教。
注释
①维克托·迈尔-舍恩伯格,肯尼斯·库克耶著:《大数据时代》,盛杨燕、周涛译,杭州,浙江人民出版社,2013年1月,第001页。
②维克托·迈尔-舍恩伯格,肯尼斯·库克耶著:《大数据时代》,第002页。
③同上。
④参见李国杰著:《大数据的科学价值》,计算机学会通讯(北京),2012年第9期。
⑤参见杨满福、焦建利著:《大教学、大数据、大变革——首门课程研究报告的分析与启示》,电化教育研究(北京),2014年第3期。
⑥维克托·迈尔-舍恩伯格,肯尼斯·库克耶著:《大数据时代》,第097页。
⑦参见申蕾、李晓霞、赵丽:《基于语料库研究方法对〈孙子兵法〉中两个英译本的分析》,长春,长春师范学院学报,2013年第5 期。
⑧参见蒋宗福著:《中国传统文献与研究的现代转换》,四川大学学报(成都),2001年第2期。
⑨参见杨少俊等著:《孙子兵法的电脑研究》,北京,解放军出版社,1992年3月。
⑩滨州学院为山东省命名的“孙子兵法文化产业开发研发基地”,该基地以孙子的基本理论及其在政治、经济、军事诸领域的应用为主要研究方向,取得了大量成果。该校正在建立孙子兵学研究数据库和文献资料室,力争建成国际孙子研究文献资料中心。
(责任编辑:刘庆俊)
摘 要:大数据正在改变着我们的生活以及理解世界的方式,成为新发明和新服务的源泉。为促进大数据时代孙子兵学文献研究的健康发展,笔者对其思想探索和理论预研、原有文献的数据化转换、网络信息的采集和传播、孙子自主教学系统的研发,以及如何以大数据思想对某些课题进行深入探讨等问题提出建议。以期尽快建成一个开放共享的兵学文献系统,使孙子兵学文献研究紧跟时代步伐,占领学术制高点。
Research on the Documents Concerning Sun Zi in the Massive Data Era
Abstract:The massive data are changing our life and our way of understanding the world and becoming the source of new invention and new service.With a view to promoting the healthy development of the studies on the documents concerning Sun Zi’s art of war in the massive data era, the author of this article reviews the issues concerning Sun Zi’s thinking and theories, the digital transformation of the previous documents, the collection and spread of network information, the R & D of Sun Zi’s self teaching system and how to launch exploration in some subjects with the massive data thinking, which aims to set up an open sharing documental system for the study of Sun Zi’s military science as soon as possible so as to make the study on the documents concerning Sun Zi’s art of war follow the pace of the times and seize the academic commanding height.
关键词:大数据孙子文献研究
Key Words:Massive Data; Sun Zi; Document; Study
作者简介:付朝,渤海大学中文系教授。
收稿日期:2015-10-30
中图分类号:E892.25
文献标识码:A
文章编号:2095-9176(2016)01-0075-05