英文版导航电子地图制作的改进方法
2022-05-18贾晓晶
贾晓晶
(北京四维图新科技股份有限公司, 北京 100094)
0 引言
随着导航电子地图的普及和国际化的推进,越来越多的外国人也逐步使用导航电子地图出行,因此车厂客户开始重点关注英文版导航电子地图产品,随着对英文版地图关注度的提高,结伴而来的是数据问题不断被发现。全面分析后,发现英文版数据问题主要由以下几方面原因导致:①标准不完善,没有统一的制作参考规范;②工艺烦冗,生产交互复杂,导致作业反复;③翻译程序逻辑不合理,造成预翻译结果错误;④关键词库分16张表存放,并且在库外存储,没有系统维护机制,导致词库不能随平台元数据库的更新节奏进行维护;⑤生产人员经验不足,作业不熟练,造成品质不理想。
英文版导航电子地图是为了实现跨语言应用。如何制作高质量的英文版电子地图,已成为迫切需要攻关的技术难题。因此,本文设计了一套英文版地图系统性的改进方法,重新梳理英文地图制作标准及工艺、优化翻译程序、提升作业水平,系统地改善了英文数据品质。
1 英文要素概述
导航电子地图数据库由点要素、道路、背景3个主题构成,凡是有名称的要素均配置了英文名。点要素包括兴趣点(point of interest,POI)、点门牌、显示文字、地名;道路包括复杂道路要素对象(composite road feature object,CRFO)、路口、收费站等;背景包括行政区划、土地覆盖、经济开发区、感兴趣区域(area of interest,AOI)等。需要详细制作英文名的要素见图1。
图1 导航地图英文要素示意图
英文版导航电子地图按照数据存储和翻译特点,可分为4类。
1.1 常规英文名
常规英文名包括:POI名称、显示文字、地名、路口、收费站、分歧、CRFO、出口编号、土地覆盖、土地利用、经济开发区、AOI、建筑物、铁路。此类数据区分专名和通名[1],遵循从左往右,“专名分词(英文/拼音)+通名分词(英文)”[2]的基本翻译原则。翻译示例见表1。
表1 常规英文名翻译示例
1.2 POI地址
POI中文地址参考导航电子地图框架[3]以及数据制作标准顺序拆分为14个字段存储:乡镇街道办、地名小区名、街巷名、前缀、门牌、类型、子号、后缀、附属设施名、楼栋号、楼门号、楼层、房间号、附加信息。
POI英文地址则参考中文地址的拆分结果从小到大进行倒序翻译:附加信息+房间号+楼层+楼门号+楼栋号+附属设施名+后缀+[门牌+类型+子号]+前缀+街巷名+地名小区名+乡镇街道办。其中,“门牌+类型+子号”作为整体。
1.3 点门牌
点门牌与POI地址不同,POI地址是POI的一个属性,主要用于POI检索。点门牌是独立的要素,形式与POI地址类似,但是在导航电子地图中应用不同,主要结合道路进行路径导航。点门牌的中文名称按导航图制作标准拆分为11个字段存储:乡镇街道办、地名小区名、街巷名、前缀、门牌、类型、子号、后缀、附属设施名、楼栋号、楼门号。
英文按照编译要求将11个中文字段组合成5个字段翻译。“乡镇街道办+地名小区名+街巷名”组合一起翻译;“前缀+门牌+类型+子号+后缀”组合一起翻译,附属设施单独翻译,楼栋号单独翻译,楼门号单独翻译。
1.4 道路名
道路名称的中文按编译需求分5个字段存储:前缀、基本名、中缀、类型、后缀。道路名英文则按相应字段进行翻译。如表2所示。
表2 道路名英文名翻译示例
2 英文改进方法研究
英文版导航电子地图数据非实采作业,而是依据现场中文进行室内人工翻译,需要完善的翻译规范和成熟的生产工艺才能准确表达现场情况,进而向外国导航电子地图使用者提供准确的地理信息。针对引言提到的英文版导航电子地图生产中的问题,通过全面的分析,从标准、工艺、程序、词库、人员进行系统性的改进。
2.1 标准改善
以现有生产标准为基础,结合英文版导航电子地图制作要素,参考汉语拼音正词法基本规则[4]、行政区划代码[5]、地名库[6],补充缺失要素的翻译规范,增加了12个要素的制作标准。
英文版导航电子地图是全要素地图,各要素之间的翻译要保持内容及逻辑统一,本次标准改善中尤其强调这一点。
(1)行政区划要素是导航电子地图的基本骨架,由国家权威机构发布,所以各要素名称中出现行政区划的内容均应翻译一致。例如,哈尔滨,行政区划代码[5]中翻译为Harbin,当POI名称、POI地址等其他要素出现该词且表示行政区划含义时都应做Harbin翻译。
(2)数字“一二三”以及“1,2,3”的翻译,程思聪[7],童杉姗[8]在双语地图注记中建议放在名称之后翻译或拼音翻译。导航电子地图不同于纸质地图,导航电子地图除查看外,更重要的作用在于检索和导航。而数字的拼音翻译不便于手机端或PC端的输入。此次标准改善中明确了这点,如“北京三零六医院”翻译为Beijing 306 Hospital。
(3)参考道路现场挂牌,统一了道路类型名的翻译规范,凡涉及的道路类型内容有简写词,均翻译为简写内容,且不带点(.),若无简写词,则原样翻译。例如,“路”翻译为Rd,“巷”翻译为Ln,“胡同”翻译为“HuTong”。POI名称、POI地址、显示文字或其他道路要素中如果有道路名,统一遵循上述翻译原则。
(4)POI地址、点门牌有共性的内容,在英文翻译时也应保持相同的翻译逻辑。中文的“门牌”“类型”“子号”,这3个字段作为整体进行翻译,而不能机械倒序翻译。例如,“北清路3号1号”,门牌号:3,类型:号,子号:1号,翻译为No.3-1。这样可以从翻译结果清晰地区分主门牌和子号。
2.2 工艺优化
点要素数据的英文制作工艺相对简单顺畅,外业现场采集数据之后返回内业,内业进行中文名称制作和检查,然后数据流转到英文作业环节,作业完成之后数据流入质检环节,对数据品质进行检验。
道路和背景的英文制作工艺比较烦琐,交互复杂。本文分析了13个道路背景要素,对其中8项提出工艺优化。
2.2.1减少作业交互
通过明确数据制作原则,取消技术参与,减少作业交互,提高作业效率。涉及要素有CRFO、收费站、路口,如图2所示。
(a)改善前 (b)改善后
2.2.2采用程序翻译
改善前,英文翻译采用线下人工库外执行;改善后,采用平台程序进行英文翻译,减少人工作业,涉及要素:铁路。如图3所示。
(a)改善前 (b)改善后
2.2.3取消元数据库记录
改善前,英文的成果数据同步记录在元数据库,重复作业;改善后,利用翻译原则对数据进行检查,不需要重复记录数据,涉及的要素:AOI、经济开发区、土地利用,如图4所示。
(a)改善前 (b)改善后
2.2.4实现程序自动化
改善前,人工库外差分,差分效率低,且工作量大;改善后,采用平台自动差分,减少了库外人工操作,涉及的要素:分歧。如图5所示。
(a)改善前 (b)改善后
2.3 词库扩充
改善前,英文翻译程序调用的关键词库以大分类存储在16张配置表,总词库7.3万,词库重复度高,一个词在多个表中反复出现;词库设计不合理,例如,1号、2号这类不胜枚举的数列词,影响数据分词[9]结果。另外,关键词库没有集成在元数据库管理系统,不便于管理和维护。
改善后,将关键词库整合为1张表,见图6,并对关键词条做去重处理,同时删除不合理的关键词。另外,参考拼音词库、道路名库、品牌词库,以及从POI名称中提取的高频词[10],扩充关键词量,使关键词条达到43万。最后将关键词库集成到元数据库管理系统,按照元数据库定义规范设计配置表结构,见表3。纳入元数据库管理系统后可随着元数据库的更新频次进行管理和维护。词库中增加了“分类”列,可参考分类对数据在不同场景进行不同翻译。
(a)改善前 (b)改善后
表3中,“中文关键词”用来分词;“英文翻译”是中文对应的结果;“优先级”表明,同一个名称含有多个关键词时,取词的先后顺序;“分类”说明只有在该分类时,名称才会被该关键词划分;“关键词来源”和“备注”记录补充说明性信息。
表3 SC_POINT_CHI2ENG_KEYWORD结构
2.4 翻译细化
改善前,英文的翻译只是按词库采用正向最大匹配[11]机械分词,并没有加入相应原则的处理,翻译结果的优劣只能依赖关键词库。
改善后,不仅补充合理的翻译词库,而且引入特定的场景判断,可根据不同的场景设定不同的翻译逻辑。通过读取关键词库,对名称进行分词,程序优先从关键词库中采用正向最大匹配算法,对于划分后的词,若词库有对应英文翻译,则按照词库内容翻译。没有对应英文翻译,则判读是否符合设定的翻译逻辑场景,例如,第XX号、第XX小等这种情况,若符合则按照特定逻辑翻译,“第XX号”翻译为“No.XX”,“第XX小”翻译为“No.XX primary school”。如果不符合设定的翻译逻辑,则参考中文拼音进行直译,若直译的词为3个及3个以下,则拼音连写且首字母大写;若直译的词在4个及4个以上,则每个词分开写,并且首字母大写。
抽取2745条数据新旧设计程序翻译结果,进行人工对比分析,程序翻译品质提升了49%,翻译结果对比示例见表4。
表4 程序预翻译结果对比示例
2.5 人员培养
英文版导航电子地图要向外国使用者提供准确信息,英文的翻译不仅要真实科学,能准确反映实际地理信息,还要确保汉语的文化意义,合理恰当的翻译决定了英文版导航电子地图的适用性以及市场竞争力。
英文版数据最后的关卡还是人工确认,作业员的水平对数据品质有很大的影响,因此在制作英文版导航电子地图的过程中要加强作业员的翻译和理解能力,为了提升作业能力,开展了以下改进工作。
2.5.1建立作业机制
(1)作业前:培训与考核,并对薄弱点重点加强培训。
(2)作业中:加强反馈与监控力度,结合作业情况,进行再考核。
(3)作业后:总结问题,构建案例集。
2.5.2营造英文学习氛围
创建微信公众号知识分享活动,定期上传每周的问题分析与培训,让大家利用碎片化时间学习英文。
从2017春版本开始监测,连续5个版本作业员水平一直在提高,到2018春版时品质率达到94.47%,如图7所示。
图7 英文数据翻译品质监测图
3 结束语
通过对英文版地图的标准改善补充,最终形成了一套完整的生产作业指导规范;通过优化8个道路背景要素的制作工艺,释放了生产作业中的技术资源;对关键词词库的补充完善,提高了程序名称分词的准确性;对英文翻译程序的改善,使英文预翻译品质提升了49%;通过构建的作业机制和碎片化的学习,提升了作业员的作业水平。目前的英文改进方法成果被新平台继承,并指导新平台英文版地图数据常规生产。
英文名的改善不是一蹴而就的事情,而是持续性的工作,关键词库也需要持续扩充词库源才能源源不断地匹配到新增数据中。正文中提到的英文翻译程序设定的特殊场景也需随数据的变化以及语意场景的变化迭代维护,只有这样,英文名的数据品质才能趋于更好。