基于Python的日语农业科技术语构词特征研究
2024-09-15李东坡米洁孙雯莉
摘要:准确把握日语农业科技术语的构词特征有利于吸收日本先进成果,增强中国农业科技进步贡献率。利用Python编程语言构建了包括7404词的语料库并设定判断函数划分不同构词类别,引入pandas库的卡方检验考察术语构词类型与其领域间交叉分布的显著性,调用matplotlib库直观反映新术语构词特点,并利用停用词、日语分词库、自然语言处理库分析了语素的分布频数。研究表明,日语农业科技术语中汉语比重下降、构词更加多样化,利用Python构建和开发高质量语料库具有广阔前景。
关键词:农业;科技术语;语料库;构词;Python
中图分类号:TP274;H083 文献标识码:A
文章编号:1009-3044(2024)24-0135-04
开放科学(资源服务)标识码(OSID)
0 引言
党的二十大报告强调加快建设农业科技强国,到2035年基本实现农业现代化,迫切需要翻译引进国外农业科技经验。日本长期大力支持引进欧美和研发应用先进农业科技,在农业机械、农作物培育、智慧农业等领域位居世界前列。全面准确把握这些领域动态,能够为中国推动农业现代化提供重要支持。随着技术进步,日语农业科技术语数量巨大、种类繁多,出现的新词体现农业技术前沿动态,需要多学科背景才能准确理解其内涵。这些新词很多尚未收录到工具书中,影响了国际学术交流特别是文献汉译及借鉴推广。日语农业科技用语结合使用汉字、假名、英文字母、罗马字等多种文字,存在多词同义、同词异形、部分汉字与中文语义差异较大等现象。例如,“蛋白质”在日语中有「蛋白質」「蛋白」「タンパク」「たんぱく質」「たん白質」「ポロテイン」等词形。为统一农业术语以便于农业信息系统之间的沟通交流,日本借助互联网已发布多个电子版语料库。2006年,农研机构(NARO)编集发行《农业技术事典》,合并同义异形词后共收录作物栽培、土壤肥料、信息及经营、环境及农业发展等10个专业领域的9 587个核心词汇[1];2014年,内阁府和IT综合战略本部资助设立通用农业词库(CAVOC),已收录567个基础术语[2]。
日本学界探索了构筑农业科技术语库的途径或工具,包括开发专业平台将术语统一格式,便于识别与关联或合并异形词、同义词,并通过网络应用程序接口(WebAPI)提供便捷的在线检索服务[3];构建农业生产作业和作物的知识图谱及领域知识图,讨论构造过程中的关键技术[4]。多位学者关注日语农业科技术语语料库存在的问题及对策,有的学者研究了日文版维基百科中农业农村信息化术语集的贡献和特点,提出了增强其安全性和便捷性的建议[5];有的课题组从数据共享和国际交流角度,论述了完善农业作业和农作物标准化术语体系的意义及途径[6]。中国学者从翻译学角度研究分析了适应日语农业科技术语语素、词汇系统的构成特点,对等化汉译的途径及价值[7-8]。对日语农业科技术语构词特点的研究较少,造成农业科技新术语的构词特征未被准确把握,影响及时推介到中国科研和生产中。作为一种跨平台、开源、语法简洁、功能强大的高级编程语言,Python在语料库开发、分词、停用词设定和词频统计等方面处理自然语言的功能与价值正得到学界认可[9-10]。
综合当前文献,日本学者的研究偏向于借助信息技术推进日语农业科技术语的便捷规范应用,涉及构词特征的文献较少。中国学者对日语农业科技术语库构词的理论和实践研究较为匮乏,未能从术语构词特征出发进行深入拓展。为弥补这些缺憾,本文参考日本农研机构《农业技术事典》等术语库及专业文献,借助Python语言创建日语农业科技语料库,结合作者在日本开展智慧农业等系列课题积累的研究经验,总结科技术语构词规则及趋势,助力准确把握日本农业科技动向、增强中国农业科技保障能力。
1 语料库创建及主要构成类型
1.1 日语农业科技术语语料库的创建
进入信息技术高度发达时代,建立语料库及检索系统、加快数字化已经成为各类语言研究的普遍选择。当前语言学文献一般将语料库定义为大规模电子文本数据库,主要特征包括构建大样本、引入数理统计及计算机手段量化充分描述共通性的语用趋势,即所谓“量、器、聚、用”[11],保障语料的代表性、权威性和系统性[9]。根据这些基本原则,本文将在线检索电子资源与手工收集纸质文献相结合,构筑了包括7404词的日语农业科技术语语料库。首先通过在线检索从《农业技术事典》收集6 833词、从日本通用农业词库收集400词,从多部日语农学专著[12-15]中收集171词。采用语料库处理较为通行的做法,术语首先录入和保存为xlsx格式文件,由Python读取并分析词形后将结果回传保存,实现了提取术语文件形式的最佳选择[9]。
1.2 日语农业科技术语构词类型划分
发挥Python面向对象编程的优势,封装划分术语构词类型的判断函数。遍历单个术语中各个字符,根据其Unicode编码所属范围用“a”“b”或“c”分别表示“字母”“假名”和“汉字”,然后放入设立的集合中去除重复代码。遍历单个术语后将类型代码排序并依次还原其含义,形成“假名+汉字”等整个术语的构词类型,作为函数的返回值输出。运行主程序时,首先导入处理和分析数据的pandas库,从xlsx格式文件导入语料库数据。通过运行代码遍历单个日语术语,调用判断函数确定构词类型存入相应列表。取完语料库中所有术语后,借助pandas库的数据框功能将列表转化为语料库的一列,从而实现对库内所有日语术语的词形分类(图1)。
词形分类确定后,本文语料库收录的日语农业科技术语包括表1所示的7种构词类型。表中基于pandas库的列联分析显示汉字共3 978字,占库内术语总量的53.7%,其他类型按照词数从多到少依次是假名、假名+汉字、字母、字母+汉字、字母+假名、字母+假名+汉字。在专业领域方面,参照《农业技术事典》的分类标准将术语划分为10个专业领域并对库内术语逐个归类,个别存在领域交叉的术语按照就近原则确定领域归属。各个领域中作物栽培术语最多,以2 902词占库内术语总量的39.2%;其次是畜产,以1 612词占库内术语总量的21.8%。其他领域词数从多到少依次是土壤肥料、病害杂草、信息及经营、气象、设备及作业、育种及生物技术、食品;环境及农业发展领域术语最少,以45词仅占库内术语总量的0.6%。可见,语料库内术语在构词和专业性上都具有较为广泛的代表性。按照汉字、假名、英文字母三种文字形式的组合形式,可在上述7类日语农业科技术语基础上进一步细分其构词特征。
1)汉字词汇。具体又分为两大类。一是与中文繁体、简体或异体汉字的词形词义基本相同。例如「有機農業」(有机农业)中使用了3个繁体汉字,「高圧殺菌」、「牛海綿状脳症」中出现了异体字「圧」、「脳」和繁体字「殺」、「綿」,「口蹄疫」则与中文简体汉字完全相同。另一种情况是日语与中文词汇的字序颠倒,例如「交雑」与“杂交”、「花成」与“成花”。有的词汇存在同义简略形式。例如「色彩選別機」也作「色選機」,表示利用可见光、近红外光反射光及透射光的差异识别不良谷物颗粒及异物的机器。二是与中文汉字词形或词义差异较大。例如,「生育診断」指对作物生长情况的诊断,其中「生育」与中文侧重于“孕育并分娩胎儿或繁殖后代”的词义相去甚远;「苗代」(苗床)、「篩部」(韧皮部)等与现代汉语对应用字差异很大,普通中国读者难以直接理解其含义。本文语料库中,字形或词义与中文存在较大差异的汉字词汇占7.7%。
2)假名词汇。首先是从英文转换过来的词汇,例如「アミロース」(直链淀粉)、「クローン」(克隆)、「コンバイン」(联合收购机)分别来自英文词汇“amylose”“clone”“combine”。存在同一假名词汇对应不同英文单词和含义的情况。例如,畜产领域「ルーメン」的英文是“rumen”,意为反刍动物的第一个胃(瘤胃),在表示光流量单位“流明”时则对应“lumen”。其次,有些词汇起源于欧美其他语言,例如「ゲノム」(基因组)源于德语“genom”。有些农作物新品种则使用表示日语汉字读音的“振假名”命名,例如「コシヒカリ」是日本播种面积最大的水稻品种“越光”。
3)假名+汉字词汇。有些词的顺序就是“先汉字后假名”,例如「光センサー」(光学遥感器)就是由汉字「光」和假名「センサー」(sensor)组合而成。有些词汇的构词顺序则是“先假名后汉字”,例如「セルトレイは種」(穴盘育苗)是英文“cell tray”和汉字「播種」的结合,其中「播」字使用了假名「は」。有些词汇使用了提示辨别汉字读音的“送假名”,例如「枝変わり」(枝变异,即植物体部分枝条表现出异常遗传性状)。此类词汇中还包括在汉字和假名基础上构建的简略词,例如「搾ロボ」是「搾乳ロボット」(挤奶机器人)的略称。有些词汇也有变形为其他类型的写法,例如「浮き皮」(果肉与果皮之间出现空隙的现象)也可以去掉中间的假名写成全汉字的「浮皮」,「無人ヘリコプタ」(无人直升机)可略写为「無人ヘリ」,「ロボット技術」(机器人技术)也写成平假名「ロボティクス」或英文缩写「RT」。
4)字母词汇。多以缩写表示农业信息、新型生产养殖技术。例如,「IPM」的全拼是“Integrated pest management”(有害生物综合治理);「TMR」是“Total mixed ration”(全混合日粮)的缩写,指一种混合矿物质、维生素等提供均衡营养的饲料。有些字母缩写可以根据其读音写成假名,如「FOAES」(地下水位控制系统)也作「フォアス」。
5)字母+汉字词汇。多是“先字母后汉字”,如「MA貯蔵」(自发气调储藏)中使用了“Modified atmosphere”的缩写,「F1品種」表示不同亲本生物杂交产生的第1个子代。少量词汇是“先汉字后字母”(如「内生GA」,内源性赤霉素)或字母嵌在汉字中间(如「不耕起V溝直播機」,免耕V沟直播机)。有些字母表示汉字的罗马字读音。例如,「WAGRI」是农林水产省牵头建造、2019年投入运行的农业数据协作平台,其中「WA」是「和」「輪」或「環」对应假名「わ」的读音,「AGRI」是“agriculture”的略写,寓意该平台闭环连接各类数据和服务、是驱动推动农业和谐发展的车轮。
6)字母+假名词汇。主要以“先字母后假名”的形式表示畜产、信息及经营等领域技术,例如「DNAマーカー」(DNA标记)、「ICチップ」(集成电路)、「Webマーケティング」(网络营销)。也有个别词汇是“先假名后字母”,如「イネWCS」(稻谷发酵粗饲料)。
7)字母+假名+汉字词汇。本文语料库中此类术语最少,主要涉及畜产、育种及生物技术、农业经营管理等领域,例如「BSEサーベイランス事業」(疯牛病筛查工程)、「キラーT細胞」(杀伤T细胞)、「e-むらづくり計画」(e-乡村计划)等。
2 日语农业科技术语的构词特点及动向
2.1 日语农业科技术语构词的主要特点
1)不同领域与构词类型间术语交叉分布的显著性检验。从Scipy库中调用chi2_contingency函数,结果显示P值小于0.01说明应当舍弃原假设,即表1中专业领域与类型间术语的交叉分布具有统计学上的显著意义。利用pandas库的列联分析模块,从纵横两个维度分别考查各类型术语在专业领域间的分布、各专业领域内部不同构词类型的构成。整体来看,技术内生性强、具有地域特色的领域较多使用汉字和假名,而新型技术密集的领域则多用字母。作物栽培领域汉字、假名词汇的比重最大,字母术语在信息及经营领域的比重仅次于畜产;字母术语占比最高的是信息及经营,病害杂草等,汉字、假名术语占比最高的分别是气象、病虫杂草。
2)汉字和假名是农业科技术语的基本构成要素。在本语料库收录的7类术语中,汉字词汇占53.7%,加上其与假名、字母的多种组合,包含汉字的词汇占比达75.4%,即完全不包含汉字的词汇低于25%。假名词汇占20.9%,再加上其与汉字、字母的多种组合,包含假名的词汇共占41.7%;包括与汉字、假名的组合,包含字母的词汇合计仅占5.1%。这样的构词结构为中文母语者了解日本农业科技动向提供了便利。
3)新型科技词汇中同一词义的假名、英文字母与汉字多词形并存现象值得关注。例如「ドローン」、「AUV」(Unmanned aerial vehicle)和「無人航空機」都表示用于农田勘测、喷洒农药、导航等的无人机;「WCS」是“Whole crop silage”的缩写,与「ホールクロップサイレージ」、「発酵粗飼料」都表示作物全株饲料。需要开发功能完备的语料库,以减少给检索引擎和推广应用带来的困扰。
2.2 日语农业科技术语新词及构词动向
参照日本科技信息集成系统J-STAGE(https://www.jstage.jst.go.jp)期刊学术论文、《农业技术事典》、相关专著以及作者积累的专业经验,在本文语料库中选取了新术语500词,反映20世纪90年代以后研发或普及的农业新技术、新概念。为直观分析日语农业科技术语构词特征的变动趋势,导入Python的数据可视化工具matplotlib库,绘制的全语料库及新词库中各类型术语分布对比如图2所示。与语料库全体词汇相比较,新词库中汉字词汇由53.7%大幅降至24.2%,其余类型词汇占比都有所增加。按照增幅由大到小依次是字母、假名+汉字、字母+汉字、假名、字母+假名、字母+假名+汉字。汉字类词汇(假名+汉字、汉字、字母+汉字、字母+假名+汉字)合计占60.8%,比全库下降14.6个百分点;假名类词汇(汉字+假名、假名、字母+假名、字母+汉字+假名)占比55.4%,比全库上升13.7个百分点;字母类词汇(字母、字母+汉字、字母+假名、字母+汉字+假名)合计占22.6%,比全库上升17.4个百分点。说明日语科技新术语中汉字词汇占比减少、其他各类型特别是字母词汇占比增加。例如,在新兴的农业信息领域「機械学習」(机器学习)这样的汉字术语较少,诸如「深層学習」(深度学习)的汉字形式较少出现在文献中,其片假名形式「ディープラーニング」更为常见。这样的发展趋势,体现了日本近年来更加重视学习引进欧美主导的农业信息及经营、农作物栽培前沿等领域前沿科学技术,减少与国外科技交流的文字障碍。汉字词汇比重降低,也要求构建高质量语料库以准确把握术语的构词特征。
2.3 停用词设置及高频语素分析
体现Python在语料库分析中的优势,还可以导入日语分词库提取和分析术语中高频字词,借以把握农业科技的发展动向。自然语言处理库nltk已经提供了中、英、法、俄等29种语言的停用词(Stop-words),用于统计时去除“的、是、很、the、of”等无实际含义的词汇,但是该库尚未提供日语停用词。
本文根据日语农业科技术语专业领域即构词特征,预先设定停用词用以排除各个术语中专业指向性模糊的汉字、假名等语素及数字、标点符号。程序开始首先导入处理自然语言的nltk库、日语分词库,从xlsx格式文件导入语料库数据。然后,编写代码遍历语料库中日语术语将其合并为1个字符串,排除设定的停用词后调用分词库生成语素列表。最后调用nltk库中的FreqDist函数分析和展示关键字词的分布频数并绘制曲线。以使用SudachiPy库分析育种及生物技术领域汉字类型的新词为例,设定的停用词包括“不”“性”“法”“的”“系”“系統”“技術”“·”,运行结果如图3所示。
纳入分析的31个术语中,高频语素包括出现10次的「遺伝子」、出现4次的「培養」、出现3次的「地図」(图谱)、「染色体」。以小规模精耕细作为特色的日本农业,重视研发与应用育种及生物技术改良动植物品性。例如,1994年构建水稻基因组遗传图谱,促进了染色体上基因排列测定和标记技术的迅猛发展;2006年利用「培養変異」(体细胞无性系变异)品种“北海287号”,培育了低直链淀粉、口感良好的转基因水稻品种“胧月”[13]。
3 结语与展望
Python为语料库开发提供了函数、专业库等开放高效的工具,在同类研究应用中的开发空间广阔。本文创建的语料库涵盖7 404个日语农业科技术语,覆盖作物栽培、土肥、病害、畜产、气象、育种、信息、环境、经管等专业领域,包括了汉字、假名和字母等多种文字组合的构词方式。交叉分布显著性的卡方检验证实,专业领域与构词类型间术语的交叉分布具有统计显著性;新术语中汉字依然是主要构词要素但比重大幅下降,假名和字母词汇比重显著上升,构词类型将更加复杂、凸显构建高质量语料库的重要意义。由于日语农业科技术语具有学科交叉属性,本文研究结论对于把握日语科技术语的整体构词特点也具有参考价值。适应科技语言与人工智能和数字技术加速融合的大趋势,后续研究可借助Python功能丰富强大的开源自然语言处理库和函数资源,拓展语料检索、近义词关联、同义词归并以及上下文关键词检索(KWIC)和提取,通过分析语篇中词汇出现频度、验证新术语选择的合理性。通过深化对日语农业科技术语构词特征的挖掘,及时准确地把握和借鉴日本农业科技成果,不断增强中国实现农业现代化和建设农业强国的科技保障能力。
参考文献:
[1] 農研機構.農業技術事典[DB/OL]. [2023-12-18]. http://lib.ruralnet.or.jp/nrpd.
[2] 共通農業語彙.農作業基本オントロジー[DB/OL]. (2021-08-02) [2023-12-20]. http://cavoc.org/aao.html.
[3] 長井正彦,大平亘,小野雅史,等[J].農業情報の相互流通性を支援するためのオントロジー構築ツールの開発.農業情報研究,2017, 26(2): 27-33.
[4] 朱成敏,小出誠二,武田英明,等.農業データの連携における農作業の標準語彙体系の構築[J].農業情報研究,2019, 28(3): 143-156.
[5] 関勝寿,溝口勝.Wikiによる農業農村情報用語集システム[J].農業農村工学会誌, 2014, 80(1): 3-6.
[6] 朱成敏,武田英明,鄧東波,等.国際相互運用性を考慮した農作物語彙体系の拡張[C].第34回日本人工知能学会全国大会論文集,2020, 2H1-OS-21-01: 1-4.
[7] 李红,卢冬丽,王薇.现代农科术语日汉翻译对等模式再探讨[J].中国科技术语,2014(5):33-37.
[8] 李红,夏建新,卢冬丽.农业科技日语术语汉译适应化现象分析[J].中国科技术语,2016,18(2):38-42.
[9] 管新潮.语料库与Python应用[M].上海:上海交通大学出版社,2018:2-7.
[10] 後藤功雄.自然言語処理のためのPython[J].映像情報メディア学会誌,2018,72(11): 125-128.
[11] 许家金.语料库研究学术源流考[J].外语教学与研究,2017,49(1):51-63.
[12] 農業情報学会.新スマート農業―進化する農業情報利用―[M].東京:農林統計出版,2019: 494-500.
[13] 大日本農会.平成農業技術史[M].東京:農文協,2019: 522-545.
[14] 三輪泰史、井熊均、木通秀樹.アグリカルチャー4.0時代の農村DX革命[M].東京:日刊工業新聞社,2019.
[15] 南石晃明.デジタル·ゲノム革命時代の農業イノベーション[M].東京:農林統計出版,2022: 315-320.
【通联编辑:李雅琪】