用户视域下外向型在线汉语学习词典评价指标体系构建

2025-02-13陈贤德杨玉玲

华文教学与研究 2025年1期

［关键词］汉语学习词典；用户视域；评价体系；内容分析法；德尔菲法；层次分析法

［摘要］外向型汉语学习词典目前存在较严重的质量问题，词典评价研究虽对提高词典质量具有重要意义，但过往研究却存在评价主体单一、评价方法主观、评价内容失衡等诸多问题。为突破词典评价研究瓶颈，提高词典编纂质量，本研究拟构建用户视域下的外向型在线汉语学习词典评价指标体系，构建流程为：首先，从用户需求研究文献、APP Store留言板块、深度访谈等数据源中爬取用户评价语料以构建用户评价语料库，借助内容分析法对语料分析后构建初始评价指标体系。其次，采用德尔菲法对指标体系进行优化。最后，利用层次分析法计算出指标权重。最终确立的评价指标体系包含3个一级指标、19个二级指标及56个三级指标。

［中图分类号］ H195.3；H164 " ［文献标识码］ A " ［文章编号］ 1674-8174（2025）01-0092-13

1. 问题的提出

外向型学习词典在助推语言对外传播过程中发挥着巨大作用，以Longman Dictionary of Contemporary English、Collins COBUILD English Language Dictionary、Cambridge International Dictionary of English等为代表的外向型英语学习词典成功地将英语语言背后的文化、习俗、价值观等传播至世界的各个角落，但既有外向型汉语学习词典（以下简称“外汉词典”）质量还不足以承担此重任。纸质词典方面，近20年我国已编纂了百余种外汉纸质词典，其中不乏有为学界所广泛称誉的“精品词典”如《商务馆学汉语词典》（2007）、《汉语教与学词典》（2011）等，但仍有部分词典存在抄袭、变相抄袭、学习性和外向型特征不突出等各类质量问题（宋立文，2021）。在线词典如Pleco、TrainChinese、HanpingLite等则更是良莠不齐、整体质量也不尽如人意（李睿、王衍军，2022）。张志毅（2012）曾说：“我们离辞书强国确还有50年的距离”，目前看来，外汉词典的距离尤甚，如何提升外汉词典质量成为亟待解决的问题。

词典评价在此可发挥重要作用。邹酆（2004：334）指出：“辞书评论能给辞书编纂提供改进意见，并指导适用；能给辞书管理部门提供宏观调控、统一规划管理的依据；能向辞书理论与历史的研究提供业经初步整理的辞书讯息资料”。可见，词典评价可从编纂实践、监管、理论等方面促进词典质量的提升。词典评价研究领域，词典评价标准研究是该领域的研究重心，可划分为整体评价标准研究和局部评价标准研究两类。整体评价标准立足于词典文本的整体结构信息，具有宏观性、系统性的特点。外汉词典方面，目前仅蔡永强（2016：165-168）从理论基础、外部结构、宏观结构、微观结构等维度构建了系统的词典评价体系。局部评价标准主要针对词典某一微观结构信息，如释义上，鲁健骥、吕文华（2006）认为外汉词典的释义应具备“可读性”“熟知性”“区别性”“提示性”；例句上，崔乐（2012）认为外汉词典例句应具备“信息的全面性”“语言的简易性”“篇幅的简短性”等。

过往的外汉词典评价标准研究对引导词典编纂具有一定积极意义，但仍存在以下不足：（1）评价主体单一：我国汉语学习词典遭遇窘况的主要原因是缺乏用户意识（杨玉玲、李宇明，2023），目前词典标准的构建也仅是从专家视角入手，缺乏对用户标准的研究，致使标准缺少应用价值。武继红（2005：90-96）指出：“如果仅仅把词典批评视为学术行为、词典学家的评估或者编者的自我描述，缺乏对词典使用以及使用者的应有关注，就会影响其理论意义和应用价值”；（2）评价方法主观：多依靠内省的定性方法提取编纂经验后面所隐藏的规律，致使结论常欠缺普遍性、科学性；（3）评价内容失衡：多聚焦于释义、例证等微观结构信息，对于词典中的辨析、标记等方面涉及较少，致使评价内容失衡，系统性不足。（4）评价客体未彰显时代特征：缺少对在线词典、融媒词典等新兴词典标准的研究，与时代特征、用户需求悖离。

综上所述，为促进外汉词典评价研究发展，提升外汉词典质量，我们有必要借助科学手段构建出用户视域下的具有系统性的在线外汉词典的评价体系。

2. 基于内容分析法构建初始评价指标体系

内容分析法（Content Analysis）是一种对研究对象的内容进行深入分析，透过现象看本质的科学方法，是一种客观地、系统地、定量地描述交流内容的研究方法。由于内容分析法可以有效地识别个人、团体的喜好偏向、关注焦点和交流趋势等，可用于构建评价体系（向婧怡等，2018；侯平平等，2022）。

2.1 用户评价语料库建立

“合适”的语料库需要具备两个特质：一是与研究目的相适应，能够回答研究问题；二是具有代表性，能够代表研究对象（宫雪、梁宁，2023）。本研究语料库的语料来源共三处，如图1所示：（1）从过往用户需求调查文献中提取评价性语料（左侧语料），文献共计53篇，被调查者约5100余人来自50余个国家和地区，涉及Pleco、Naver、Hanping Lite等各类在线外汉词典。（2）从Pleco、Train Chinese、Hanping Lite等在线外汉词典的APP Store留言板块及用户社区中筛选出用户评价语料（中间语料），由于网络空间具有虚拟性、宽松性、平等性等特点，用户能够比较真实地将其对产品的需求表达出来，可成为研究用户偏好的重要资料（张文、顿雪霏，2010）。（3）对25位汉语学习者（中、高级别，使用在线外汉词典时长3年及以上）有关在线外汉词典的使用需求进行了深度访谈，并从中提取评价性语料（右侧语料）。为保障数据质量，我们对所收集的数据进行了预处理：首先，去除了重复评论、噪音数据、无效符号、表情等不能反映实际语义信息的评论文本。而后，对过滤后的评论文本进行规范化处理，例如进行同义词替换如将“例证”“例句”“例子”统一为“例句”。最后，根据词典特征设置停用词，对数据进行去停用词处理。语料库最终共收集有效评价语料2，6000余条。

2.2 词频分析

词频分析过程为：将语料库中的评价语料储存为txt文本格式，而后利用ROST CM6 对评价文本进行分词，分词完成后，再对其进行词频统计。图2为根据高频词导出的词云图，表1为排名前50的高频词及词频。

通过词频统计可以看出：首先，用户评价的重点为词典的结构信息如例句、释义、收词、检索、标注等。其次，用户关注的内容是广泛的，除词典结构信息外，还对词典的系统功能、练习设置等提出了具体的要求。最后，从高频形容词“方便”“准确”“实用”“易懂”等形容词可推知，用户更为重视词典“实用性”“准确性”等。

2.3 高频词社会网络分析

词频分析能通过提取的评价文本中的高频词反映研究对象的主要特征，但无法反映词组在特定意义上的联系以及文本深层次的结构关系，而社会语义网络分析则能通过构建概念和语义关系的网络图来直观展现高频词之间的关系，有助于了解用户的具体使用偏好，如图3中“难懂”指向“例句”，表明“例句难懂”作为共现词，在总文本中出现频率较高，具有普遍性。社会语义网络分析的过程为，首先对评价文本进行分词处理，提取高频词并过滤掉无意义词汇后，对文本进行特征分析，并形成VNA文件，启动NETDRAW，绘制完成社会语义网络图，如图3所示。

2.4 提取分析单元

结合高频词表、社会语义网络可以确定与核心高频名词相关的分析单元，共提取有效分析单元110个，如表2所示。

对于描述模糊的分析单元，可以分析单元为关键词搜索具体评价语料以明确分析单元所指，如表3所示，分析单元“例句数量”主要指“例句数量太少”或“例句数量太多”。

2.5 编码方案设计

确定分析单元之后，需将单元进行编码归类。编码归类方案通常有3个来源，分别是数据、已有的相关研究、已有的理论（韦艳丽等，2022）。评价指标体系的构建应以明确评价对象本质、属性等为前提，构建结果也应体现评价对象的属性特征（梁宇，2023）。由在线外汉词典所属范畴类型（见图4），首先，在线外汉词典具有与一般词典所共有“典范性”“知识性”“稳定性”等属性，而上述属性特征主要通过词典结构信息考察，同时根据高频词“例句”“释义”等，可设立一级编码指标“结构信息”，下设二级编码指标如“释义”“例证”“义项”“收词”等，将分析单元归入所属二级指标，依据其语义内涵构建三级编码指标，如“例句-丰富性”“例句-实用性”等。归类时需注意，归类必须完全、彻底，能适用于所有分析材料，使所有分析单位都可归入相应的类别，不能出现无处可归的现象，且每一分析单位只能归入一个类别。其次，与外向型学习词典所共有的“学习性”属性，结合高频词“练习”“听力”等，依此设立“练习设计”一级编码指标，下设二级编码指标“练习内容”“练习反馈”，编码归类后可设立“练习内容-多样性”“练习内容-有效性”等三级编码指标。最后，与在线词典所共用的“技术性”属性，结合高频词“系统”“功能”“界面”等，依此设立“技术性能”一级编码指标，其包括“界面设计”“系统运行”“系统功能”等二级编码指标，编码归类后可设立“功能操作-多样性”“功能操作-简易性”等三级编码指标。将最终归类结果视为初拟评价指标体系，归类结果如表4所示。

2.6 信度检验

内容分析中的信度可以定义为不同编码员对内容归类的一致性，为检验分类的信度，选择了A、B、C三位研究生作为编码人员，3位编码人员皆有词典编纂和研究经历。对编码人员进行编码培训后，3位编码员独立完成归类任务。归类完成后，采用Holstis信度计算内容分析中编码员归类的一致性，其中：

[相互同意度=2MN1+N2]

Holstis信度 = [n×相互同意度均值1+[（n-1）×相互同意度均值]]

M为两位编码人员编码一致数量，N1和N2分别为编码单位数，n为编码人员数量。据表5数据显示，Holstis信度达到0.983，满足理论要求（夏长杰、刘奕，2017：28）。

3. 基于德尔菲法评价指标体系优化

德尔菲法，是指反复运用分发专家咨询表的形式，采用背靠背的方法，征询专家小组成员的意见，将专家的意见经过“集中、返回、再集中”的几轮征询，最后使专家小组的意见趋于一致，得出咨询结论的研究方法，本研究借助该方法对初拟评价指标体系进行优化。

3.1 专家基本情况

本研究目的为构建用户视域下的词典评价指标体系，因此本研究所选专家应属“专家型用户”，其遴选标准为：汉语学习年限5年及以上，为国际中文教育或语言学及应用语言学研究生学历，均通过HSK6级考试，为高级汉语学习者；使用在线外汉词典时间5年及以上，为资深在线词典用户。最终遴选16位专家，基本信息如表6所示。

3.2 统计分析

运用德尔菲专家咨询法，对专家开展两轮咨询，通过电子邮件或者微信将问卷发放给专家，对初拟指标进行修改、增删等，并依据Likert7级评分法对指标“重要性”进行评分，评分越高说明该指标对应的程度越高。利用SPSS22.0软件对数据进行整理和分析，计算各指标的平均值、标准差、变异系数、专家意见协调系数、专家积极程度、权威程度等。其中，专家积极程度用积极系数表示，专家积极系数 = 有效问卷回收数/问卷发放数 × 100%，大于 60%为较好。专家权威程度系数（Cr）根据判断依据（Ca）和熟悉程度（Cs）计算，Cr=（Ca + Cs）/2，Cr gt; 0.70即表示专家权威程度较高咨询结果可靠。判断依据包括理论分析、实践经验、参考国内外资料、直觉四个部分组成，其赋值标准如表7所示，“熟悉程度”按照很熟悉、熟悉、比较熟悉、一般熟悉和不熟悉的层次分别赋值1.0，0.8，0.6，0.4和0.2。专家意见协调系数可通过肯德尔和谐系数Kendalls W和变异系数Vj进行考察，Kendalls W越高（数值在0～1之间）、Vj 越小，说明专家对研究内容的评价结果波动越小、离散程度越低、意见越集中。

3.3 统计结果

3.3.1 专家积极程度

第1轮和第2轮咨询各发放函询问卷16份，收回有效问卷16分，专家积极系数为100.0%，表明专家对本研究给予的重视程度较高。

3.3.2 专家权威程度

据专家对判断依据和熟悉程度赋值结果显示，第1轮、第2轮专家咨询的Cs分别为0.821，0.862，Ca分别为0.871，0.914，计算得到2轮咨询的Cr值分别为0.846，0.888，均大于0.70，表明专家权威程度较高且专家对指标评分时有较高的熟悉程度和较充分的判断依据。

3.3.3 专家意见协调程度

两轮专家函询各级指标Vj数值范围分别为0.076～0.228 ，0.089～0.104，可见第二轮专家函询对各级指标评价的波动程度更小，意见更为集中。表8所示，两轮专家函询的Kendalls W分别为0.465和0.642，差异具有统计学意义（Plt;0.001），第2轮专家意见协调系数比第1轮有较大提高，表明专家意见趋于一致，各级指标重要性可接受。

3.4 专家咨询结果及指标调整

根据各专家重要性评分结果，计算每项指标的均值和变异系数Vj ，根据其界值进行指标筛选，界值标准为：重要性得分均数gt;3.5分且Vj均值lt;0.25。第1轮咨询结果显示，所有指标均值gt;3.5，Vj均值lt;0.25，指标均可保留。根据专家提出的修改建议，经课题组讨论，将原属一级指标“结构信息”中的“检索”“超链接”“发音”3个二级指标移入一级指标“技术性能”中；将三级指标“义项-划分精细性””改为“义项-划分针对性”；将三级指标“系统运行-及时性”改为“系统运行-时效性”。将三级指标“例句-丰富性”改为“例句-数量适宜性”，并将指标说明修改为“每个义项都需有一定数量的例句，2-5例为宜”，“例句-长度适宜性”指标说明修改为“例句长度适中，不宜过长、过短”，将“义项-划分针对性”指标说明修改为“义项划分要针对汉语学习需求，划分不宜过粗、过细”。

第2轮咨询结果显示，所有指标均值 gt; 3.5，Vj均值 lt; 0.25，指标均可保留。根据专家修改建议，经课题组讨论，将二级指标“问题回馈”改为“客服反馈”。二级指标“辨析”改为“易混淆词”，并将其所对应的3个三级指标改为“选取针对性”“辨析准确性”“辨析易懂性”。三级指标“例句-典型性”指标说明修改为“例句能反应被释词典型语境、用法等”。

4. 基于层次分析法的指标权重计算

本研究借助层次分析法（Analytic Hierarchy Process）计算指标权重，该方法是20世纪70年代初由美国匹兹堡大学萨蒂教授提出的将定性分析与定量分析综合集成的系统工程方法，其将人的主观判断为主的定性分析进行定量化，将各种判断要素之间的差异数值化，以帮助人们保持思维过程的一致性，是目前一种被广泛应用的确定权重的方法（梁冬莹等，2013）。

4.1 构建判断矩阵

经过两轮德尔菲专家咨询后，最终确立一级指标3个、二级指标19个及三级指标56个，依据指标关联隶属关系建立递阶层次结构模型。如图5所示，将“外向型在线汉语学习词典用户评价指标体系”作为目标层，规定结构信息、练习设计、技术性能三个一级指标为目标层的分指标A。将二级指标作为准则层B，三级指标作为子准则层C。依据指标体系模型构建判断矩阵，判断矩阵表示同一层次的相关元素相较于上一层次元素的重要性，如表9所示一级指标判断矩阵，共构造出判断矩阵21个。

参考托马斯萨提提出的“1-9”重要等级标度法对指标重要性进行评判（邓雪等，2012）。但层次分析法在处理评价指标时具有一定的主观性和不确定性（杨俞玲等，2022），为提高权重赋值的科学性，我们基于黄朋月、袁勤俭（2023）的方法，参考前文的词频表，统计出各指标的词频总数和该指标在同一准则指标中的占比，再结合各指标的词频占比对每一层次各指标的相互重要性给出判断，词频占比及对应重要性标度如表10所示。如表11所示，三级指标“标记-丰富性”及“标记-准确性”（i∶j）的词频占比之比为“18.6∶1”，根据表10重要性标度换算，在判断矩阵中“标记-丰富性：标记-准确性”为“9∶1”。

4.2 指标权重计算

权重的计算过程为：首先，计算判断矩阵中每一行的乘积，公式为：[Mi=j=1naij（i=1.2...，n）]。其次，计算指标初始权重系数，公式为：[Wi=Min（i=1，2，...，n）]。最后，对[Wi]进行归一化处理，其公式为：[Wi=Wi-i=1nWi-（i=1.2，...n）]。如表12所示，“标记”下属三级指标“丰富性”“准确性”“易懂性”的权重值分别为0.7927、0.0760、0.1312。

4.3 一致性检验

指标权重值计算完成后，应进行一致性检验，以证明其可靠性。一致性检验计算过程为：首先，计算最大特征值，其公式为： [λmax=i=1n（AW）inWi（i=1，2，...n）。]其次，计算一致性指标CI值，其公式为：[CI=λmax-nn-1]。最后，根据矩阵阶数查询随机一致性指标RI（表13所示）并计算一致性比率CR，其公式为：[CR=CIRI]。

当CRlt;0.1时，表示判断矩阵通过一致性检验。相反，当CRgt;0.1时，提示需要对判断矩阵做出必要的调整。如表12所示“标记”下属三级指标矩阵CR值为0.02lt;0.1，通过一致性检验。经计算，本研究其他判断矩阵的CR值均小于0.1通过一致性检验。

4.4 计算全局权重

全局权重反映了在整体目标下各指标的相对贡献程度，将局部权重（即4.2节Wi值）与其对应的上一准则层的权重相乘，可获得全局权重值（胡泳等，2024），最终结果如表14所示。

5. 总结与讨论

本研究利用内容分析法、德尔菲法、层次分析法成功构建了用户视域下的在线外汉词典评价指标体系，共包含3个一级指标、19个二级指标及56个三级指标。魏向清（2001）曾指出“缺乏理论依据”是双语词典评价研究中最重要的问题之一。同样，既有外汉词典的评价研究中极为欠缺对词典评价理论的探讨。“发展辞书原理是辞书评价的天职”（邹酆，2004：334），用户评价指标体系的建构过程及结论对引导汉外词典评价理论的革新具有重要意义，具体表现在：

5.1 评价主体：由“一元”到“多元”

目前外汉词典评价多停留于专家层面的“一元主体”评价，忽视了评价主体的多样性。本研究虽建构了用户评价指标体系，丰富了评价主体，但用户评价仍具有一定局限性。首先，用户多只关注其常用的结构信息，对于不常用的信息却予以了忽视，在评价体系中也未能反映，如对释义括注、释义指示语等的评价。雍和明（2003）此前的调查也发现，有些词典用户甚至没意识到英汉词典中包括有词源信息。其次，受词典典范性特质的影响，用户会默认某些结构信息是严谨、正确的而不予评价或鲜少评价，陆福庆（1994）即指出“他们（指用户）是把词典奉为“典”而予以充分信任的”，权重值也显示“标记”“语法信息”“易混淆词”等准确性权重值较小。此皆表明欲构建系统的词典评价体系，仅从某一主体视角出发还远不够。古贝、林肯（2008）等提出的第四代评价理论强调价值的多元性，主张评价对象及其他利益相关者应全面参与评价过程。事实上，学习词典的利益相关者是多样的，据Hartmann（2001：24）的研究应至少包括：用户、词典学研究者、词典编者、语言教师等。系统评价体系的构建应注重发挥各利益相关者的评价优势，如武继红（2005）即指出教师比编者更接近词典使用的真实情况，其评价更加客观，也更加直接，未来应加以利用。同时还应充分回应各方利益诉求，协调各方评价矛盾，尤其注重解决“研究者评价追求理论适配性和编者追求可操作性间的矛盾”“内向型词典评价追求严谨性和外向型词典追求实用性间的矛盾”“编者、研究者评价聚焦性和用户评价多样性间的矛盾”以及“出版者追求经济效益和用户追求性价比间的矛盾”等。

5.2 评价方法：由“定性研究”到“性、量”并举

一套总体得到认可的评价方法对提高词典评价质量十分重要（Swanepoel，2008），但既有外汉词典评价标准的构建主要依靠定性方法去捕捉、概括描述编纂经验后所隐藏的规律。张宏（2009）在研究配例标准即指出，定性研究是依据典型的或少量个案的资料得出的结论，这种结论不一定具有普遍性，如有研究者指出外汉词典的例证应具有“趣味性”（崔乐，2012），但由于语体、语义等的限制，并非所有词目的例证都应具有趣味，如部分庄雅体词目。为提高评价标准构建的科学性、实用性，除定性手段外，还应注重介入量化手段，注重通过数值高低选取评价标准，客观反映评价主体对于评价标准的重视程度，做到“性、量”并举，本研究所用层次分析法、内容分析法等即注重发挥两种方法的优势。此外，“定性”与“定量”相结合的方法还应贯彻于评价标准的运用中，应注意，定性评价与定量评价实则是评价事物的两个方面，二者互为表里和统一，定性评价必然导致定量评价，定量评价的目的在于更精确地定性评价（林原等，2021）。词典编纂、内容的复杂性特征也决定其应采用多元评价方法，注意性、量并举，协调配合以促进评价的科学性。

5.3 评价目的：由“批评”到“指导”

以往外汉词典评价标准构建目的多在于攻讦、批评词典内容质量，忽视将构建结果转化为指导词典理论、编纂提升的动力。罗思明（2008：26）即指出，词典评价的作用不应是作“无病呻吟”或“鸡蛋里挑骨头”，应成为促使词典学理论与实践进步的外部动力和制约力量。在理论层面，首先，用户评价体系可明晰未来词典理论研究重点，如在评价体系中释义、例证的可理解性权重值较大，未来应继续加强释义元语言研究。其次，验证理论的实用价值，如章宜华（2010）基于二语习得理论提出学习词典的“多维释义理论”强调释义内容应注重解释词语各个层面的意义，评价体系中“释义-全面性”这一指标对此进行证实。但为多数专家所认同的“同场同模释义原则”却未见用户提出，原因可能在于该标准是基于专家对同场词语系统查询对比后而提出，但用户查阅的一次性、随机性和短暂注视等特点使其较难发现同场词语间的释义差异，该标准实用价值还有待研究。在编纂实践上，首先，用户评价体系有助引导编者正视用户作用。Lew等（2017）曾表示：“一般用户无法胜任评价词典资源的任务”。但事实上，用户不仅知晓词典结构信息的构成特点，具备判断词典质量的能力，其所构建的评价体系也比Pearsons（2013）、Lew（2017）等人的要全面，故我们应摒弃过往“幼化”或“脱离”用户的错误做法，应将用户评价建议置于重要位置。其次，评价体系可引导编者对词典进行针对性提升，如就收词而言，以往专家就收词标准论述不一，但用户认为应注重收录新词、成语、短语等，其中新词需求最大。功能设计上用户也提出了离线查词、模糊查询、收藏功能、笔记功能等具体功能需求。总之，我们应充分发挥词典评价体系“以评促编”“以评促研”的功能，促进外汉词典学良性发展。

［参考文献］

埃贡·G·古贝，伊冯娜·S·林肯 2008 第四代评估［M］秦霖等（译）. 北京：中国人民大学出版社.

蔡永强 2016 对外汉语学习词典学［M］.上海：学林出版社.

崔乐 2012 《外国人汉语新词语学习词典》配例研究［J］.云南师范大学学报（对外汉语教学与研究版）（3）.

戴佳慧 2020 英国巴基斯坦留学生常用汉语学习软件调查研究［D］. "天津师范大学硕士学士论文.

邓雪，李家铭等 2012 层次分析法权重计算方法分析及其应用研究［J］. 数学的实践与认识（7）.

宫雪，梁宇 2023 基于描述语库的国际中文教材评价指标基础框架构建［J］.民族教育研究（3）.

黄朋月，袁勤俭 2019 用户视阈下图书类APP的评价指标体系研究［J］.图书馆（12）.

侯平平，姚延波，张丹丹 2022 在线旅行服务企业战略绩效评价体系研究［J］. 企业经济（2）.

胡泳，徐伟等 2024 基于多元化评价体系理论的我国研究生教育管理评价体系构建［J］. 武汉理工大学学报（社会科学版）（3）.

李睿，王衍军 2022 基于卢与沙鲁斯卡（2017）评估框架的外向型在线汉语学习词典App评估研究［J］.华文教学与研究（3）.

梁宇 2023 国际中文教材动态评价模型构建研究［J］.四川师范大学学报（社会科学版）（5）.

梁冬莹，周庆梅，王克奇 2013 基于层次分析法的数字资源服务绩效评价体系构建［J］.情报科学（1）.

林原，王凯巧，丁堃等 2021 学术论文的定性评价定量化研究［J］.情报理论与实践（8）.

鲁健骥，吕文华 2006 编写对外汉语单语学习词典的尝试与思考——《商务馆学汉语词典》编后［J］.世界汉语教学（1）.

陆福庆 1994 《新现代汉语词典》释义的严重错误［J］.辞书研究（3）.

罗思明 2008 词典学新论［M］，合肥：安徽教育出版社.

宋立文 2021 外向型汉语学习词典的出版概况、编写问题与未来之路［J］. 北华大学学报（社会科学版）（5）.

王晓涵 2021 外国学生使用外向型汉语词典APP学习汉语现状调查与分析［D］. 辽宁师范大学硕士学位论文.

魏向清 2001关于构建双语词典批评理论体系的思考［J］. 外语与外语教学（1）.

韦艳丽，蒋小庆等 2022 基于内容分析法的阅读类APP用户使用偏好研究［J］. 包装工程（8）.

——— 2005 论学习词典批评与读者意识［J］. 辞书研究（2）：90-96.

武继红 2005 论学习词典批评与读者意识［J］. 辞书研究（2）.

向婧怡，张红举，陈力等 2018 基于内容分析法的水生态文明概念及评价指标探讨［J］.中国人口·资源与环境（S1）.

夏杰长，刘奕 2017 中国服务业发展报告（2016-2017）：迈向服务业强国：约束条件、时序选择与实现路径［M］. 北京：经济管理出版社.

杨玉玲，李宇明 2023 外向型汉语学习词典的供需错位和出路［J］. 辞书研究（6）.

杨俞玲，张丙辰，李寻等 2022 基于AHP-熵权法的ASD儿童干预APP导航界面设计评价［J］.包装工程（12）.

雍和明 2003 英汉双语词典与英语单语词典用户语言需求与信息检索的比较［J］.辞书研究（6）.

邹酆 2004 辞书学丛稿［M］. 武汉：崇文书局.

张宏 2009 外向型学习词典配例研究［D］.广东外语外贸大学硕士学位论文.

张文，顿雪霏 2010 探讨大陆游客对台湾旅游目的地形象的感知——基于网上游记的内容分析［J］. 北京第二外国语学院学报（11）.

章宜华 2010 新一代英语学习词典的理论构想——基于二语习得理论的研究［J］. 现代外语（3）.

张志毅 2012 辞书强国——辞书人任重道远的追求［J］. 辞书研究（1）.

Hartmann， R. R. K．2001 Teaching and Researching Lexicography［M］. London： Person Education Limited.

Lew， R. amp; A. Szarowska 2017 Evaluating online bilingual dictionaries： The case of popular free English-Polish dictionaries［J］. Recall 29（2）.

Pearsons， E. amp;W. Nichols 2013 Toward a framework for reviewing online english dictionaries［J］. Dictionaries Journal of the Dictionary Society of North America（34）.

Swanepoel， P. 2008 Towards a framework for the description and evaluation of dictionary evaluation criteria［J］. Lexikos （18）.

On construction of evaluation index system for L2 learners dictionaries of Chinese

from the users perspective

CHEN Xiande， YANG Yuling

Key words： Chinese learners dictionary; user perspective； evaluation system； content analysis method； Delphi method； Analytic Hierarchy Process

Abstract： There are currently serious quality issues with L2 learners dictionary of Chinese. Although dictionary evaluation research is of great significance in improving dictionary quality， previous studies have had many problems such as a single evaluation subject， subjective evaluation methods， and imbalanced evaluation content. In order to break through the bottleneck of dictionary evaluation research and improve the quality of dictionary compilation， this study intends to construct an evaluation index system for online L2 learners dictionary of Chinese from the users perspective. The construction process is as follows： firstly， user evaluation data is collected by data crawling from sources such as user demand research literature， APP Store comment sections， and in-depth interviews to construct a user evaluation corpus. After using content analysis method to analyze the corpus， an initial evaluation index system is formed. Secondly， the Delphi method is used to optimize the indicator system. Finally， the Analytic Hierarchy Process was used to calculate the weights of the indicators and the established evaluation index system includes 3 primary indicators， 19 secondary indicators， and 56 tertiary indicators.

【责任编辑师玉梅】

［收稿日期］ 2024-01-05

［作者简介］陈贤德，男，北京语言大学教师教育学院，主要研究方向为词典学，2848051775@qq.com；杨玉玲，北京语言大学教师教育学院，女，主要研究方向为汉语语法、汉语学习词典学，yangyuling705@126.com。本文通讯作者：杨玉玲。

［基金项目］国家社科基金一般项目“外向型汉语学习融媒词典的研发与创新研究”（22BYY159）；北京语言大学优秀博士学位论文培育计划资助项目“外向型电子汉语学习词典评价指标体系的构建及应用研究”（2024）