基于语料库的朝鲜语命名实体结构特征研究
2025-01-26黄政豪金光洙
提 要:本文统计Klue-ner和Kochet-ner两个命名实体语料库中的新闻、评论和文化遗产文本数据包含的不同类别朝鲜语命名实体。根据统计结果分析朝鲜语命名实体的音节长度特征分布和格词尾结合率。分析结果表明,音节长度和格词尾的使用在命名实体分类中具有一定的规律可循。本文的研究成果可用于命名实体分类工作,同时也可以为朝鲜语命名实体语料库构建提供分布结构建议。
关键词:朝鲜语;格词尾;命名实体识别;特征提取;名词分类
中图分类号:H08 """"文献标识码:A """"文章编号:1000-0100(2025)01-0009-10
DOI编码:10.16263/j.cnki.23-1071/h.2025.01.002
A Corpus-based Study on the Structural Features of" Named Entities in Korean
Huang Zheng-hao Jin Guang-zhu
(Engineering" College, Yanbian University, Yanji" 133002, China;
School of" Foreign Languages, Yanbian University, Yanji 133002, China)
This paper counts the different categories of" Korean named entities contained in the news, comments, and cultural heritage text data in the Klue-ner and Kochet-ner named entity corpora. According to the statistical results, the syllable length feature distribution and case particle combination rate of Korean named entities are analyzed. The results show that the use of syllable length and case particles has certain regularity in named entity classification, which can be used for named entity classification work and can also provide distribution structure suggestions for the construction of Korean named entity corpora.
Key words:Korean; case particle; named entity recognition; feature extraction; noun classification
1 引言
随着信息化技术的加速发展,以数字化为媒介的语言数据成为各国之间交流的主要方式。因此,在这些海量语言数据中以自动化的形式抽取关键信息成为目前研究的热点。其中,命名实体识别(Named Entity Recognition,简称NER)技术作为信息抽取工作的重要方法,广泛应用于文本理解、信息检索、自动摘要、问答系统、机器翻译等自然语言处理的各项子任务中(Li et al. 2020:50)。
命名实体(Named Entity,简称NE)一般是指文本内容中指代性较强且具有特定意义的名词和数词。它们通常包括人名、地名、机构名、日期、时间等多种不同的分类(刘浏等 2018:329)。因此,命名实体自动识别任务可以理解为针对文章中所包含的名词和数词的细分类任务。命名实体识别是自然语言处理领域中的一个重要研究方向。它可以帮助我们更好地从文本内容中提取出核心实体,帮助读者短时间内在海量信息流中快速地定位高价值信息。例如,在新闻、金融、医疗等不同领域数据中我们可以通过命名实体识别技术快速地提取出这些数据中包含的人物、地点、事件、日期、时间等关键信息。
由于延边朝鲜族自治州的特殊地理位置,朝鲜语在这里成为与朝鲜、韩国进行学术文化交流的主要语言(崔仙 2022:33)。作为黏着语的朝鲜语具有语言的普遍特征,也有其独有的语言学特点。从语言类型的角度来看,汉语和英语属于主谓宾(SVO)型语言,而朝鲜语属于主宾谓(SOV)型语言。这意味着朝鲜语的根节点位置出现的词类是相对固定的,而位于句子的末尾的多数是朝鲜语中的谓词(华英楠" 毕玉德 2022:55)。朝鲜语在构词方法上,实词通常与虚词进行拼接,形成一个语节;这些语节再次通过隔写(空格)形式按照规则顺序连接在一起,形成一个具有完整语义的句子(卢星华 金静 2022:79)。实词是指能够独立表达意义的词,如名词、动词、形容词等,通常在句子中充当主语、谓语和宾语成分。虚词则是指不能独立表达意义,需要依附于实词的词,如助词、介词、连词等(宋官怀" 2022:27)。特别是在朝鲜语中,实词和虚词之间的拼接关系非常重要,它决定句子的句法结构和语义。
本文通过朝鲜语的这些语言学特点,结合命名实体语料库内容进行研究,有助于抽取朝鲜语命名实体在文章中的结构特点,能够更加明确命名实体和其他句子成分之间的上下文依赖关系,从而保证在命名实体自动抽取任务中的识别性能,让识别结果更接近人工标注的结果。这一成果能加强作为资源稀缺语言的朝鲜语语料的规模和质量,也能够推进朝鲜语信息化在国内的研究进程。
2 相关研究
命名实体识别任务最早提出于1995年举办的第六届MUC-6会议(Sundheim 1995:319)。目前,命名实体识别技术已经取得一定的发展。研究人员采用各种不同的方法来解决命名实体识别问题,包括基于规则的方法、基于统计学习的方法和基于深度学习的方法等。其中基于深度学习的方法是目前研究的热点方法。
深度学习是一种人工智能技术,它能够通过大量数据训练来自动学习数据中隐藏的规律和关系。在命名实体识别领域中,深度学习能够有效地提取文本中的特征,并通过多层神经网络来进行分类。但深度学习建模过程中对所需要的语料库质量和规模都具有较高的要求。因此,作为低资源语言的朝鲜语,如果直接使用现有的命名实体识别常用方法,则无法达到预期效果。针对这种语料资源不足的问题,通常使用的方法是利用已标注的较大规模的相关领域语料库,通过迁移方式来解决语料资源不足的问题(吴炳潮等 2022:3776)。同时,为了提高命名实体识别效果在一般使用的词向量特征外,通常结合字符级别的特征、形态学特征、位置特征和词典等语言学特征作为识别系统输入的额外信息来提高识别效果(邓依依等 2021:30)。特别是在低资源语言类研究中从语言学角度研究能够用于学习的结构特征来增强语料库,以解决训练语料不足的问题。刘嘉锡(2021:8)使用基于自举的规则方法获得基本词典,再结合依存句法进行数据分析获得能够输入至深度学习模型的标注数据,最终完成使用少量人工标注数据的深度学习方法,用于案件要素提取模型。Oh等(2017:317)分析韩国语命名实体语料库中组成实体的音节特征,构建了基于音节单位的命名实体词典用于命名实体识别任务。Park等(2021:556)为了解决更新较为频繁的命名实体未登录词问题,使用韩国语词汇语义网工具UWordMap从词汇角度分析命名实体的上下文结构特点,为后续的命名实体抽取任务奠定了基础。
3 研究方法
目前在自然语言处理领域所使用的语料库多为开源语料库。开源语料库是一种面向公众和语言研究人员的可以免费访问和使用的语料库,包含大量结构化的可用于研究的不同领域或不同语种语言数据,可用于语言学研究和自然语言处理建模研究。在基于语料库的语言研究中通常使用字符数、音节长度等数据分析不同语言单位的分布特点。毕玉德等(2019:42),通过统计韩国语新闻语料库中汉字词的词类符数和音节长度等数据考察了汉字词的总体分布特点。本文使用公开的Klue-ner①和Kochet-ner(Kim et al. 2022:3496)两个命名实体语料库,统计组成命名实体的音节长度和助词数据,从总体分布和不同类别分布两个角度进行分布特征研究。Klue(Korean Language Understanding Evaluation)组织发布的语料库包含针对不同任务的8个语料库,其中Klue-ner是命名实体语料库,包含人名、地名、机构名、日期、时间、数字等共6个分类的命名实体。Kochet-ner是2022年发布的韩国文化遗产相关文本语料的命名实体标注语料库,主要有历史、文物、文化等内容相关的文本数据,包含文物、人名、术语、日期、文化、材料、动物、植物、事件、地名等共10个分类的命名实体。这两个语料库都是开源语料库,是由相关领域专家根据数据构建指南建议进行构建的。其中因命名实体分类数量没有明确的定义,所以本文使用的两个语料库分类也有所不同。
这两个语料库也在多个自然语言处理研究中获得较好的效果(例如,Nam et al. 2017:147;Yu et al. 2017:306;Jin et al. 2021:101)。因此,本文使用这两个语料库作为主要研究对象,对朝鲜语命名实体的音节长度、助词等两个方面进行统计,分析作为命名实体语料库的实体特征。同时,也为创建朝鲜语命名实体语料库建设提出结构化建议。
例①是一个标准的主宾谓(SOV)格式句型,其中‘/哲洙’与主格词尾‘[ka]’相连构成句子的主语,‘[pab]/饭’与宾格词尾‘[l]’相连构成句子的宾语,‘/吃’是谓词。例②中把主格词尾‘[ka]’替换为同格词尾‘[wa]’,语义上产生变化。与此同时,从语义角度分析时,不同类别的名词对助词的使用是有所限制的。例如,与格词尾‘[ege]’主要连接在人名之后,位格词尾‘[esh]’多数使用在地名之后等。因此,本节主要统计Klue和Kochet两个语料库中的不同类别命名实体与助词的结合频率,尝试分析命名实体与助词的结合关系。本文分析所使用的格词尾分类和对应发音如表4所示②。
表4中主格词尾‘’和‘’,宾格词尾‘’,同格词尾‘’是同一种助词的两种形态,使用方式仅与前一个音节发音形态有关。与开音节连接时使用‘’‘’‘’‘’,而与闭音节连接时使用‘’‘’‘’‘’。因此,本文在统计时将这类结果合并在一起进行分析。统计结果使用带有后缀的同一类别命名实体中格词尾的占比来表示。如公式(1)所示。
格词尾占比(%)=单一类格词尾数单一实体类别连接的格词尾总数 ""(1)
4.3.1 语料统计结果
统计所使用语料库还是Klue和Kochet两个命名实体语料库。Klue语料库由新闻和评论数据组成,其命名实体分类包含人名、地名、机构名等共计6个命名实体分类。Kochet语料库由文化遗产文本数据组成,其命名实体分类包含人名、地名、术语等10个类别。而两个语料库中同时出现的命名实体分类为人名、地名和日期3个分类。使用公式(1)统计的两个语料库中,3个领域数据的统计结果如表5、表6、表7所示。
从上述3个表的统计结果可以看出,不同领域中的不同类别命名实体与格词尾的结合规则也有着一定的规律。主格词尾中‘’在3个领域语料库中与人名的结合频率是最高的,分别是32.6%、37.1%和29.81%。‘’在Kochet语料库中仅在人名和文物实体之后少量出现,在Klue语料库中也是仅与人名一起出现。而‘’在3个语料库中均未出现。宾格词尾‘’在Kochet语料库中事件实体中的占比和材料实体中的占比最高,分别为42.3%和39.6%。在Klue语料库中,日期实体和数字实体与宾格词尾结合的频率较好,分别是25.3%和29%,而在Kochet语料库中,日期实体与宾格词尾结合频率较少,只占2.7%。属格词尾‘’主要用于表示上下文对象的所属关系。根据统计结果可以看出,属格词尾在所观察的语料库中与人名、术语、地名、机构名都有较高的结合频率,均超过20%,其中Klue-nsmc评论语料库中与人名和地名结合频率超过40%。与格词尾‘’在Kochet语料库中的日期实体结合的概率达到73.15%,说明与日期的关联度较高,与地名和事件实体也有20%以上的结合率。在Klue语料库中也与日期、时间、地名实体有着较高的结合率。因此在区分这类命名实体时具有一定的作用。与‘’结合的命名实体主要集中在人名和文化实体,其他实体大多数都没有出现。其中‘’较为特殊,在新闻语料库中有少量与日期和时间实体结合的案例。‘’‘’只有在Klue-nsmc评论语料库的人名和机构名中少量出现。位格词尾在3个领域语料库中的结合相对比较集中。其中‘’在Kochet语料和Klue-wikitree新闻语料中主要与地名实体具有较高的结合率。除此之外,Klue-nsmc评论语料库中与机构名结合率达到40.9%。而在统计结果中‘’则只与少量人名有结合情况。用格词尾‘’和同格词尾‘’在全部实体分类中都有结合,但占比都较低。用格词尾‘’和同格词尾‘’的统计数据也较低,只有在人名、文物、术语实体之后有少量结合情况。比较格词尾统计结果也较少,与Klue语料库中的日期实体有一定的结合率。
5 结束语
命名实体通常在文章中充当主语、谓语、宾语或状语,是文章中主要语义表达单位。在自然语言处理过程中命名实体自动识别和自动分类工作是自然语言理解的基础工作。这一工作流程中需要构建大规模高质量的命名实体语料库。因此,本文以Klue-ner和Kochet-ner两个命名实体语料库作为研究对象,统计和分析了两个语料库中的新闻、评论和文化遗产等3个领域文本数据的不同类别朝鲜语命名实体的音节长度特征和格词尾结合率特征。
文章首先从音节长度分析了Klue-ner和Kochet-ner两个命名实体语料库。统计结果表明,总体音节长度在两个语料库中的分布相近,主要分布在1~6音节区间,其中分布最多的是双音节词。而对于每个命名实体类别都有着较为独特的音节分布特点。人名主要分布在三音节词这一特征可以作为朝鲜语命名实体语料库构建时的实体分布结构参考。
其次从命名实体与格词尾结合率的角度分析两个命名实体语料库。统计结果显示,不同类别的命名实体和格词尾都具有不同的结合频率。在主格词尾、宾格词尾、与格词尾等区分度较高,而且在与格词尾、位格词尾、用格词尾、同格词尾和比较格词尾等类型词尾中的一部分只在特定的命名实体类别之后出现,具有一定的区分度。这些实体和格词尾的结合方式可以作为命名实体分类时的一种依据。
总之,命名实体识别是自然语言处理领域中的一个重要研究方向。它可以帮助我们更好地理解文本内容,提取出有用的信息。因此,建设更准确的语料库和提取更多的特征是提高命名实体识别精度的最佳途径。这些特征可以加快自动化标记命名实体的准确率和效率,从而解决朝鲜语命名实体语料库规模的不足问题。
注释
①Park. S.等人发表在arXiv上的开源语料库KLUE:Korean Language Understanding Evaluation(https://Klue-benchmark.com)
②格词尾分类和命名参考了金永寿的《中国朝鲜语规范原则与规范细则研究》(166页)。
参考文献
毕玉德 赵 岩 安帅飞. 基于新闻语料库的韩国语汉字词分布特点研究[J]. 民族语文, 2019(4).‖Bi, Y.-D.," Zhao, Y.," An, S.-F." Distributional Characteristics of" Sino-Korean Words in Korean: A News Corpus-based Study[J]. Minority Language of China, 2019(4).
崔 仙. 多元通和:延边地区法治文化建设研究[D]. 延边大学博士学位论文, 2022.‖Cui, X. Harmonious Pluralism: Research on Yanbian District Legislative Culture Development[D]. Yanbian University, 2022.
邓依依 邬昌兴 魏永丰等. 基于深度学习的命名实体识别综述[J]. 中文信息学报, 2021(9).‖Deng, Y.-Y. Wu, C.-X.," Wei, Y.-F.," et al. A Survey on Named Entity Recognition Based on Deep Learning[J]. Journal of Chinese Information Processing, 2021(9).
华英楠 毕玉德. 基于依存树库的朝鲜语依存距离研究[J]. 外语学刊, 2022(6).‖Hua, Y.-N.," Bi, Y.-D." Research on Dependency Distance of Korean Based on Dependency Tree Bank[J]. Foreign Language Research, 2022(06).
刘 浏 王东波. 命名实体识别研究综述[J]. 情报学报, 2018(3).‖Liu, L., Wang, D.-B. A Review on Named Entity Recognition[J]. Journal of the China Society for Scientific and Technical Information, 2018(3).
刘嘉锡. 基于小规模标注的案件要素提取模型[D]. 哈尔滨工业大学硕士学位论文, 2021.‖Liu, J.-X. Case Element Extraction Model Based on Small-scale Annotation[D]. Harbin Institute of Technology, 2021.
卢星华 金 静." 朝鲜语口语与书面语实词间相关关系的一元线性回归分析[J]. 民族语文, 2022(5).‖Lu," X.-H.," Jin, "J. Correlation Between Content Words in Spoken and Written Korean: A Univariate Linear Regression Analysis[J]. Minority Languages of China, 2022(5).
宋官怀. 基于“三一语法”教学体系的对外汉语综合课词汇教学行动研究[D]. 浙江科技大学硕士学位论文, 2022.‖Song, G.-H. A Study on Vocabulary Teaching in Integrated Chinese as a Foreign Language Based on “Trinity Grammar” Teaching System[D]. Zhejiang University of" Science amp; Technology, 2022.
吴炳潮 邓成龙 关贝等. 动态迁移实体块信息的跨领域中文实体识别模型[J]. 软件学报, 2022(10).‖Wu, B.-C.," Deng, C.-L.," Guan, B.," et al. Dynamically Transfer Entity Span Information for Cross-domain Chinese Named Entity Recognition[J]. Journal of" Software, 2022(10).
Jin, G.," Yu, Z. A Korean Named Entity Recognition Method Using Bi-LSTM-CRF and Masked Self-attention[J]. Computer Speech amp; Language, 2021(65).
Kim, G., Kim, J., Son, J., et al. KOCHET: A Korean Cultural Heritage Corpus for Entity-related Tasks[A]. Proceedings of the 29th International Conference on Computational Linguistics[C]. Gyeongju: International Committee on Computational Linguistics, 2022.
Li, J., Sun, A., Han, J.," et al. A Survey on Deep Learning for Named Entity" Recognition[J].IEEE Transactions on Knowledge and Data Engineering, 2020(1).
Nam, S., Hahm, Y., Choi, K.S. Application of" Word Vector with Korean Specific Feature to Bi-LSTM Model for Named Entity Recognition[A]. Proceedings of the 29th Annual Conference on Human and Language Technology[C]. Daegu: Human and Language Technology, 2017.
Oh, S.," Lim, C.," Ahn, K.," et al. Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM[J]. Korean Language Information Science Society, 2017.
Park, S.," Ock, C. CRF Based Named Entity Recognition Using a Korean Lexical Semantic Network[J]. Journal of KIISE, 2021(5).
Park, S.," Moon J.," Kim, S.," et al. Klue: Korean Language Understanding Evaluation[J]. arXiv Preprint arXiv: 2105.09680, 2021.
Sundheim, B. Named Entity Task Definition[A]. MUC-6: Proceedings of" 6th Message Understanding Conference[C]. New York: Message Understanding Conference, 1995.
Yu, H., Ko, Y." Expansion of" Word Representation for Named Entity Recognition Based on Bidire Ctional lstm Crfs[J]. Journal of" KIISE, 2017(3).
定稿日期:2024-12-10【责任编辑 孙 颖】