信息技术在人文研究中的应用
——以人文语料的数字化为例
2022-02-07罗婷
罗 婷
信息技术的发展为人文科学研究带来新机遇、新挑战。由信息技术创新带来的学习成本的降低,以及越来越多的人文研究辅助工具被推出,一方面,不断吸引新研究者将信息技术融合进人文科学的研究中,另一方面,也不断促进着人文学科与信息技术领域乃至学科的不断交叉与融合①黄水清,刘浏,王东波.计算人文的发展及展望[J].科技情报研究,2021(4):1-12。。因此,人文科学研究的视野得以拓展,人文科学的转型得以发展,信息技术起着至关重要的作用。本文以人文语料的数字化研究为例,从人文语料的数字化处理、数字化分析及挖掘两个层面整理了信息技术与人文科学研究结合的整体共性理论方法与实现途径,以梳理数字化人文研究中技术层面的发展现状与研究态势,并为缺少技术背景的人文科学研究人员提供理论与技术建议。
一、人文语料的数字化研究范式
数字人文(Digital Humanities,DH)的概念是信息化的产物②SCHREIBMAN S,SIEMENSR,UNSWORTH J.A Companion to Digital Humanities[M].New Jersey:Blackwell Press,2004:1-3.,是为了区分信息技术应用于人文学科的研究与人文语料的信息化存储③叶颖.频度演化视角下国内外数字人文研究可视化分析[J].图书馆研究与工作,2021(2):55-59。,换句话说,就是以数字化的方式和手段来研究人文问题。数字人文研究的发展正随着信息技术的更新而不断变化,从人文计算④KIRSCHENBAUM M G.What is digital humanities and what’s it doing in English departments?[J].ADE bulletin,2010(120):55-61.以计算机技术对人文语料进行数字化处理,到人文学科研究对象的数字化存储、整合、索引、分析以及语料库的构建,再到信息技术驱动下的人文学术研究的实践转向、新合作模式。信息技术作为人文学科的研究工具已然成为数字人文的中心被应用到现代与古典语言、语言学、文学、历史学等人文领域的分析、研究和教学之中。数字人文中信息技术的运用,使得人文学科的研究正由定性分析转向定量分析。相较于传统的采用自然语言论证的定性分析,定量分析强调基于客观真实的数据所作出的事实判断,依靠数学模型、计算机模型描述、分析人文学科研究对象之间的关系⑤陈伟.定量分析:大数据背景下语言哲学研究方法论[J].浙江社会科学,2021(6):110-116+160。。因此,定量分析法所取得的研究结果所受争议更小,也更具可靠性。
如图1所示,数字化的人文研究范式从传统人文研究演化而来,将人文学科的方法论与信息技术工具相结合。以基于语料的数字化人文研究为例,对于特定问题的研究一般依靠相关语料材料,通过一定技术方法、过程从而得出结论,可以概括为问题定义、语料收集及处理、技术实现、问题求解和结果评价及呈现五个阶段⑥黄水清.人文计算与数字人文:概念、问题、范式及关键环节[J].图书馆建设,2019(5):68-78。。在这五个阶段中,信息技术被广泛应用于语料的收集及处理、分析及挖掘并对问题求解、结果最终展示的过程中,人文与信息技术结合的数字化研究过程实际上就是将人文研究所需的素材由数字化存储之后,以数据来驱动研究,最终以数字化的形式展现研究结论。
图1 数字人文研究的流程与技术
从数字化处理的角度来说,以光学字符识别、网络爬虫为主的语料收集技术整合与人文研究主题相关的素材,并存储为可由计算机处理的数字文本等,从而提高人文语料收集、存储的效率。以文本分词、自然语言处理为主的语料转换技术通过将人文科学研究中非结构化的数字文本语料数据转化为结构化的特征向量、模型,实现以定量分析的视角来观察、处理和解决人文科学研究中的问题。数字化处理所涉及的技术可以独立出来,通用于不同人文领域的研究,这是数字化人文研究的数据资源建设阶段,也可看成是数字化人文研究中的基础设施建设阶段。
从数字化分析及挖掘的角度来说,以自然语言处理、数据可视化、语料库为主的语料分析技术与人文研究紧密结合,穿插进研究的不同阶段之中。人文语料的数字化分析与挖掘研究,围绕不同人文领域则各有侧重。如文学或语言学偏重于利用文本处理技术,常使用自然语言处理中的主题识别、情感分析等模型对文本进行分析,或结合语料库工具开展研究;历史学则关注实体对象的时空及相互关系的呈现,往往基于社会网络、空间地理可视化等技术构建新型人文可视化数据库①刘圣婴,王丽华,刘炜,等.数字人文的研究范式与平台建设[J].图书情报知识,2022(1):6-29。。
二、人文语料的数字化处理
语料的数字化处理分为两个阶段:首先,将非数字化的文本以数字化形式存储,如纸质档案数字化录入;其次,非结构化的文本数据转化为能够直接被计算机统计、运算的结构化数学模型。
(一)数字化存储
1.档案文字识别
将图书馆、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行数字化存储,与人工录入相比,采用光学字符识别(OCR,Optical Character Recognition)技术录入可以提高文字录入效率。OCR技术对图像中的文字进行检测并识别出文字内容,是人工智能和计算机视觉领域的研究热点之一②李阳娟.汉字识别技术的研究进展分析[J].科技和产业,2022(4):180-187。。目前,基于深度学习的OCR技术已成为文字识别领域的主流,如图2所示,识别流程包含图像预处理、文字检测、识别和后处理三个步骤,其中,卷积神经网络(CNN)用于提取图像特征,循环神经网络(RNN)将CNN输出的特征序列转换为输出,序列识别(CTC)整合最终识别结果。
图2 基于深度学习的OCR技术流程
OCR技术的实现有OCR接口和OCR软件。OCR接口需在代码中调用运行,OCRSpace(https://ocr.space/)、百度的通用文字识别API(https://ai.baidu.com/tech/ocr/general/)和PaddleOCR(https://github.com/PaddlePaddle/PaddleOCR/)都是常用的OCR接口,对于以图片或PDF格式保存的语料,提供了区域检测、竖排识别、公式及表格识别等专业功能,且支持包括英、中、法、德在内的多种语言的文字识别。OCR软件面向没有编程基础的研究人员,国产的OCR软件如PandaOCR(https://github.com/miaomiaosoft/PandaOCR/)和天若OCR(https://ocr.tianruo.net/),在底层也是借用上述的OCR接口,将接口的调用封装进图形界面中,同时提供可插拔的接口选取方式,对没有技术背景的使用者更为友好,也更适用于不同业务场景。
2.网络语料获取
网络爬虫是一种网页数据的自动化获取技术,近年来,有越来越多的人文研究基于网络语料展开③贺文照,李德凤,何元建.“中国梦”英译的历时演变与共时差异——基于网络语料的考察[J].外国语文,2017(1):110-118。④焦新平,敖锋.基于语料库的军事微博话语研究——以@军报记者为例[J].外语研究,2018(1):8-12+74。⑤沈淑花.顺应理论视域下社会化媒体的语言选择——基于微博的语料分析[J].出版广角,2018(3):71-73。,网络爬虫已然成为人文研究中不可或缺的网络语料收集方式。网络爬虫本质上是一个自动化的脚本程序,从给定的网络地址上下载整个网页的源代码文件,再依据某种策略从该网页文件中提取指定的数据。网络语料爬虫可使用Python语言编程实现,通过Python中的requests(https://requests.readthedocs.io/)、selenium库(http://www.selenium.org.cn/)请求并下载网页文件,紧接着使用pyquery(https://pythonhosted.org/pyquery/)、beautifulsoup库(https://www.crummy.com/software/BeautifulSoup/)解析源码文件并提取指定的语料,最后将语料保存至文档或数据库中。随着网络爬虫技术在非计算机领域的使用需求增高,八爪鱼(https://www.bazhuayu.com/)、Spiderflow(https://www.spiderflow.org/)、后羿采集器(https://www.houyicaiji.com/)等爬虫集成工具逐渐被推出,它们支持以图形化方式定义爬虫流程,无需代码即可使用爬虫。
(二)数字化转换
使用数学模型、计算机模型的语料分析与挖掘,数字化转换是必不可少的语料预处理步骤。根据研究目的的不同,在对语料进行分词和清洗的基础上,还可以语料转化为特征向量供进一步分析处理。
1.文本分词
在英文中,计算机能够利用词语之间的空格来辨别每一个单词,但是在中文,或者如泰语等某些小语种中,词与词之间没有任何标识来进行划分,因此在处理这类语言的语料之前,需要利用分词工具对语料进行词划分。
文本分词需借助编程实现,表2比较了的三类应用较为广泛、针对不同语种的分词工具。文本分词中,将没有被收录在分词词典中但必须切分出来的词称为未登录词。Jieba①Github.“Jieba”(Chinese for“to stutter”)Chinese text segmentation[EB/OL].(2020-02-15)[2022-09-01].https://github.com/fxsjy/jieba/.采用基于汉字成词能力的隐马尔可夫模型(Hidden Markov Model,HMM)②Hao-Zheng Li,Zhi-Qiang Liu,Xiang-Hua Zhu.Hidden Markov models with factored Gaussian mixtures densities[J].Pattern Recognition,2005(11).处理未登录词,且支持自定义分词词典。pkuseg(https://github.com/lancopku/pkuseg-python/)提供了面向新闻、网络、医药、旅游领域的分词模型,并且支持用户自主训练领域分词模型。CoreNLP(https://github.com/stanfordnlp/CoreNLP/)支持多语言名词,适合用作平行语料对比。
表2中,词性标注即为分词结果中的每个单词标注名词、动词或形容词。去停用词指的是从语料中去除人类语言中包含的没有什么实际含义的功能词,如 英 文 的'the'、'is'、'at'、'which'、'on',中 文 的“且”“与”“乃”等,以节省存储空间和提高语料处理效率。
表2 基于Python的分词工具比较
尽管分词算法已日趋成熟,但当分词被实际应用于人文研究时,一些特定领域的未收录词往往不会被切分出来。在国内,学者们通过构建领域词库或训练模型的方式来解决这类问题,如胡昊天等③胡昊天,邓三鸿,张逸勤,等.数字人文视角下的非物质文化遗产文本自动分词及应用研究[J].图书馆杂志,2022(8):76-83。构建非遗文本领域词表和全文分词语料库,对非遗文本词汇分布情况进行了分析挖掘;张琪等④张琪,江川,纪有书,等.面向多领域先秦典籍的分词词性一体化自动标注模型构建[J].数据分析与知识发现,2021(3):2-11。基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。
在分词的同时还需对语料进行清洗,语料清洗解决的是语料中存在中文简体繁体混用、标点符号全半角混用或重复使用、包含特殊表情符号等问题。使用Microsoft Word、文本整理器等文本编辑工具提供的替换功能,或Notepad++、EmEditor等提供的正则表达式来匹配替换方式,就可以快速地完成语料清洗。若还要将语料进行进一步标准化处理,则需对语料进行去停用词、去除标点等深度清洗。
3.语料的标准化特征提取
在人文研究结合信息技术的文本语料分析中,往往离不开自然语言处理(Natural Language Processing,NLP)技术的运用。NLP技术通过模型接收自然语言即语料,并转译和分析语料。经过标准化特征提取后的语料,才能符合模型的接收要求,词袋模型、TF-IDF和word2vec模型被用于对语料作特征提取及标准化处理。
词袋模型(Bag-of-words)统计语料中单词出现的次数,设存在语料集合D,包含M个文档,单词总数为N,为每个单词设唯一索引,可构成一个包含N个单词的词典。每个文档使用一个长度为N的向量表示,若某个单词出现在该文档中,向量中对应的位置用1表示该单词出现,否则为0,M个文档就可构建M个长度为N的向量。在词袋模型中,只要是词典中出现的词,无论出现多少次,在向量中都只算成1次,提取出的信息有限,因此还会使用TF-IDF(term frequency-inverse document frequency)提取出单词的词频。词频(term frequency,TF)指的是某个单词在该文档中出现频率的归一化处理,公式如下:
逆文本频率(inverse document frequency,IDF)反映了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低,公式如下:
TF-IDF倾向于过滤掉常见的单词,保留重要的单词,TF-IDF值越大说明这个词越重要,也可以说这个词是关键词。Python中scikit-learn库(https://scikit-learn.org/)的CountVectorizer类和TfidfTransformer类可实现对已分词的语料进行词袋化和TFIDF计算,生成语料的词特征向量,并由此对语料作进一步的分类或聚类分析。
上述两种特征提取只关心文本中单词出现的情况,提取出的词特征向量中每个元素顺序与原来文本中单词出现的顺序没有关系。但在遣词造句时,句子中相近词之间是有联系的,因此Google团队提出word2vec算法,其设计思想是用词来预测词①Mikolov T,Sutskever I,Chen K,Corrado G,Dean J.Dis-tributed Representations of Words and Phrases and their Compositionality[J].Advances in Neural Information Pro-cessing Systems,2013(26):3111-3119.。word2vec的工作目标如图3所示,w(t)为目标词,其上下文词汇为w(t-r)、…、w(t-1)、w(t+1)、…、w(t+r)。在word2vec模型中,使用子模型Skip-gram预测w(t)周围上下文,而如果是利用w(t)的上下文来预测w(t)本身,则使用CBOW模型②熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015(1):43-48。。word2vec相较IF-IDF,实现方式更为复杂,暂无封装好的软件库,需手动编程实现,但经过实验,word2vec在文本分类中取得了较好的分类效果③Francis N.Problemsofassembling and computerizing large corpora[C].Computer Corporain English Language Research.Bergen:Norwegian Computing Centreforthe Humanities,1982:7-24。,许多数字化人文研究中都有word2vec模型的运用。
图3 Skip-gram模型和CBOW模型
三、人文语料的数字化分析及挖掘
近年来,国内外学者已将大量的数字化、社会网络相关概念和计算方法融合进人文学科的相关研究中,如计量分析、机器学习、空间地理可视化等。
(一)基于NLP技术的语料信息自动抽取及分析
1.语料信息自动抽取
语料信息自动抽取指从大量的语料中快速提取特征信息和主题,基于NLP技术的语料信息抽取可加快人工检查文本内容的效率。上节介绍的特征词组提取模型word2vec和TF-IDF,可以实现词粒度的语料特征提取。TextRank④Mihalcea R,Tarau P.TextRank:Bringing order into texts[C].Association for Computational Linguistics,2004.是实现句粒度的语料自动摘要算法,它将语料拆分成句子,利用句子中单词的共现关系构建语料网络图,单词即网络图的节点,由一定算法对节点作权值排序,将权值高的节点与相邻词组组合成关键句子。Python中的textrank4zh库(https://github.com/letiantian/TextRank4ZH/)封装了TextRank算法,提供文档关键词提取、关键短语提取以及摘要生成的功能。主题抽取常用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,它是D.M.Blei于2003年提出的文档主题生成模型,通过无监督的方式抽取语料库中隐含的主题信息⑤Latent Dirichlet Allocation[J].DAVID M.B,ANDREWY.N,MICHAEL I.J.Journal of machine learning re-search,2003(4/5):993-1022.。
研究人员从语料中自动化地浓缩文档关键信息,基于文档关键词、主题开展人文分析已是近年来的研究趋势。如谭富强等⑥谭富强,凌珊.优秀传统文化教育对学生知识生产影响实证研究——基于自然语言处理的分析[J].江西理工大学学报,2020(4):104-112。使用TextRank与word2Vec从课程教学感受中抽取关键词、关键短语,分析中国优秀传统文化教育对学生知识生产的影响;张辰麟(2022)①张辰麟.基于自然语言处理技术的专门用途汉语教材快速编写模式研究[J].大理大学学报,2022(7):96-103。任常青.数字人文视角下县志作物类物产实体识别研究——以雄安县志为例[J].信息与电脑(理论版),2022(1):74-76。基于信息自动抽取技术,提出“话语—词汇”的专门用途汉语教材快速编写模式;研究者还将信息自动抽取技术运用于历史古籍语料的研究中,利用所抽取的关键信息对古籍的纪事主题作挖掘与分析②秦贺然,王东波.数字人文下的先秦古汉语关键词抽取应用——以《春秋经传》为例[J].图书馆杂志,2020(11):97-105。③朱琳,冯慧敏,刘铭,等.数字人文视域下秦汉简牍文本挖掘研究——以里耶秦简牍(一、二卷)为例[J].渭南师范学院学报,2022(6):86-93。。
2.情感分析
NLP技术还被用于分析语料的情感信息,将语料的情感态度划分为积极、消极以及中性三种。情感分析中的预训练模型是指用数据集已经训练好的模型,通过对预训练模型的微调,可以实现较好的情感分类结果④王婷,杨文忠.文本情感分析方法研究综述[J].计算机工程与应用,2021(12):11-24。,其中经典的BERT模型⑤Devlin J,Chang M W,Lee K,et al.Bert:Pre training of deep bidirectional transformers for language understanding[DB/OL].(2018-10-11)[2022-04-29].https://arxiv.org/abs/1810.04805.在人文研究中被频繁的使用。黄紫荆等(2022)⑥黄紫荆,邱玉倩,沈彤,等.数字人文视角下的《拉贝日记》情感识别与分析[J].图书馆论坛,2022(5):1-10。基于BERT分析《贝拉日记》的情感分布特征、变化趋势和对不同人物的情感倾向;姜育彦等(2020)⑦姜育彦,李雅茹.基于数字人文视角的“情感——时空”模型探析[J].农业图书情报学报,2020(6):23-33。将唐朝诗词名家的情感变迁与时空链接,构建“情感—时空”模型;张卫等⑧张卫,王昊,邓三鸿,等.面向数字人文的古诗文本情感术语抽取与应用研究[J].中国图书馆学报,2021(4):113-131。通过对古诗文本作情感分析及情感术语抽取,扩展寄托情感的新意象。
在python中BERT的运行需基于tensorflow环境(https://pypi.org/project/tensorflow/),BERT官网(https://github.com/google-research/bert/)中有专门支持中文的BERT预训练模型。BERT的使用包含两个阶段:预训练和Fine-tuning,预训练阶段与Word2Vec类似,Fine-tuning指后续迁移到其他任务中需要进行的微调。情感分析也可借助集成工具来完成,如基于预训练模型SKEP(https://arxiv.org/abs/2005.05635)的情感分析工具Senta(https://gitee.com/baidu/Senta/)、统计中文实体描述的实体情感知识库SentiBridge(https://github.com/rainarch/Senti-Bridge/)。
情感分析属于NLP中的分类任务,以召回率(REC)、准确率(PRE)和F1指数来作为评价指标。REC值描述系统正确抽取的结果占所有可能正确结果的比例;PRE值描述系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能,通常还计算召回率和准确率的加权几何平均值,即F1值,计算公式如下⑨孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47。:
(二)新型人文可视化数据库
新型人文可视化数据库可将与某一事件、典籍等相关的语料数据与检索字符一一对应,对人文数据进行模块化、结构化的划分及存储。人文可视化数据库的构建分为两个方面,第一是对语料的处理,包括人工结合着分词、NLP技术对语料中句子、词语切分等基础性加工,以及实体标注等进一步处理;第二是数据库平台的设计和实现,包括系统架构、检索框架的设计,数据库请求和响应的实现,人文数据可视化等。
1.实体识别与标注
实体识别的目的是自动化抽取语料中明确的实体对象,实体类型包括人名、地名、机构名以及其他可定义的实体类型,这是人文数据库构建的重要环节。在实体定义的过程中,可以为实体指定唯一的编号,并由此补充别名、GIS地点等信息。郑童哲恒等(2022)⑩郑童哲恒,李斌,冯敏萱,等.历史典籍的结构化探索——《史记·列传》数字人文知识库的构建与可视化研究[J/OL].大数据2022:1-20。将《史记·列传》构建成数字人文知识可视化库中就将人名、地名定义为实体,设置唯一的ID标识实体,每个实体生成对应的人名表或地名表。也可借助NLP技术,从大规模文本中识别自动并标注实体。NLP中的实体识别包括两个任务:实体的边界识别和确定实体的类型,边界识别可采用BMEO标注法或BIO标注法,自动识别模型有CRF和Bi-LSTM-CRF等。任常青(2022)⑪在基于Bi-LSTMCRF模型对雄安地方志中作物物产名称和信息的实体标注中,PRE、REC、F1值均能达到85%左右。被定义好的实体还可以拿来作统计分析、关系网络分析或空间分析,将分析结果由可视化展示。关系网络有密度和广度,密度指联系越紧密的实体同现次数越多,广度指实体拥有的同现对数量。
2.数据库平台构建及可视化展现
完整的数据库平台包交互层、逻辑处理层和存储层。交互层面向平台用户,提供以检索为核心功能的平台看板,并辅以可视化技术展现数据库信息,展现形式有统计图表、VR、AR和GIS;逻辑处理层衔接交互层和存储层,响应并处理用户由交互层发来的请求。存储层利用关系型数据库,将检索关键词与数据库资源、实体对应,实现文本字符匹配检索、实体检索、实体关联原文定位、关联实体检索等检索功能。数据库平台的构建需使用网页开发技术如HTML、JavaScript以及数据库技术如MySql、SQL Server来完成。
(三)基于语料库技术的语料分析
语料库概念由Francis提出,他认为语料库是一个用于语言分析的文本集合,对某一种语言、方言或语言的某一方面具有代表性①黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021(3):4-17+87。。语料库技术与人文研究紧密结合,种类由单一的语料库逐渐发展到多语种的平行语料库、小语种语料库和民族语言语料库。
语料库工具分为语料索引和语料对齐两类。语料索引指对语料中的词、句或结构进行检索,可以获得词频、词表、关键词等统计信息,以展开对语料的分析②王菲,王天竹.语料库检索软件的功能与特点对比研究——以WordSmith Tools 6.0与AntConc3.2.4为例[J].信息与电脑(理论版),2021(17):10-12。。AntCont(http://www.laurenceanthony.net/software/antconc/)、ParaConc(https://paraconc.com/)等常用的语料索引工具一般都提供词语检索、关键词表生成、统计词频和关键词等功能。AntCont支持正则表达式,可以实现定制化检索。ParaConc具有语料对齐、平行文本预览功能,更适用于对比分析、语言学习和研究。语料对齐将双语或多语文本的平行对齐,一般以“一对一”对齐为主,也存在“一对二”或“一对多”平行文本的对齐。对齐分有段落对齐、句句对齐,对齐好的语料转为翻译记忆交换(TMX)格式的语料,在浏览器上运行的Tmxmall(https://www.tmxmall.com/)、借助计算机辅助翻译(Computer aided translation,CAT)技 术 的Transmate(https://www.jeemaa.com/home/)都提供了较好的图形操作方式,能够便捷的完成语料对齐。
将人文与语料库技术结合的研究路线可以在构建双语、多语语料库基础上,开展进一步的研究。在国内,许多汉语与其他语言的双语语料集被构建③博恩(SISOUMANGBOUANGEUN).老—汉双语语料库系统构建研究[D].昆明:昆明理工大学,2018。④巴桑卓玛.藏汉双语平行语料库构建方法及关键技术研究[D].拉萨:西藏大学,2018。,其中不乏针对某些特定领域的双语语料库⑤蔡强,张建平.学术期刊论文摘要汉英双语语料库的建设与应用[J].前沿,2014(Z1):200-201。⑥于淑芳.皖西红色文化双语语料库的构建及应用[J].皖西学院学报,2022(1):10-14。,这些语料库的是指导翻译教学、分析翻译特征以及分析文化的海内外影响力的基础。
建立领域词表和词典编纂也是人文结合语料库的研究热点之一,领域语料库可为领域词典选词立目提供客观依据,提高词典释义的完备性和准确度,并且提供真实而具有代表性的例证⑦王均松,田建国.词典编纂的语料库方法[J].郑州航空工业管理学院学报(社会科学版),2013(1):71-73。。有学者提出了面向语料库机助辞书编纂系统⑧张永伟,顾曰国,胡钦谙,等.面向语料库机助辞书编纂系统的设计与实现[J].辞书研究,2021(4):32-44+126。,也有许多面向汉语辞书编纂的大型通用语料库被构建⑨唐萌.面向汉语辞书编纂的大型通用语料库构建研究[D].烟台:鲁东大学,2015。,应用语料库是词典编纂的发展趋势。