中俄网络语言编码接口问题的研究
2016-02-26陈龙仁
【摘 要】研究中俄文字符号在网络上的应用规律和特点,通过GB2312和UTF-8编码技术的转换技术解决中俄网络语言编程编码接口问题,结合中俄文语法特点,使用Java语言进行Web方式的中俄网络语言编码接口问题,提出解决方案。
【关键词】中俄文;编码;接口;Java
0 引言
研究中俄文互译和接口标准关系,能得中国科技企业面向俄语世界的网络贸易工作都能达到更好的经济效果。本文针对核心中俄文互通问题,整合与集成不同文化背景的网络符号互译与信息交换的标准接口问题,研究中俄文字符号在网络上的应用规律和特点,注意与计算机搜索引擎技术的协调配合,提高本研究的持续适应能力,形成具有统一性的国际协议。本项目实施相对长期的客户支持,能促进中国对俄语系21国家的电子商务活动,激励大众创业和万众创新,最终实现中俄电子商务合作的国际市场化应用[1]。
1 编码分析
中俄网络语言编码接口技术,通过合作研究GB2312和UTF-8编码技术的转换技术解决中俄网络语言编程编码接口问题,无论是俄文网站,还是中文网站,都能确保文字符号在,中、俄两个国家适用的操作平台上正常显示运行。
1.1 编码集
完成GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间的互联互通,制定统一的信息标准。由于缺乏编码方案来解决中俄这两种不同语言体系在计算机语言中表示的问题,从而导致一直以来中国的商品基本上通过欧美、日、韩等国家转销至俄语世界,原因在于他们拥有通往俄语国家的信息交流通道,UTF-8编码接轨较早。为了通过网络技术,给中俄企业沟通、交流、发布及获取信息提供直接的渠道,双方需要有设计全新的编码模型方案解决中俄这两种不同语言体系在计算机语言中表示的问题。
1.1.1 GB2312
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
1.1.2 Unicode
Unicode是为了解决传统的字符编码方案的局限而产生的,例如ISO8859-1(Latin-1,是西欧常用字符)所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。很多传统的编码方式都有一个共同的问题,即允许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。Unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。几乎所有电脑系统都支持基本拉丁字母,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256字符保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别处理;并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会丢失任何信息。在文字处理方面,Unicode为每一个字符而非字形定义唯一的代码(即一个整数)。以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。UNICODE用2个字节编码,它通过增加一个高字节对ISOLatin-1字符集进行扩展,可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Universal Transformation Format)。常见的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及UTF-32。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文、日文、韩文)。
1.2 中俄文字差别
1.2.1 中文双字节
GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间的互联互通,制定统一的信息标准。在两国架设的服务器设备中同时嵌入中俄两国的标准字符库,为数据汇总和数据交换中的数据冲突问题提供完善的解决方案,从而避免在境外使用出现的文字乱码现象。汉字是双字节而一些汉字编辑软件并没有充分认识到这一点,例如:汉化对光标移动、删除等还是按单字节方式处理,16*16俄文,8*16俄文字都是单字节的,给用户造半个字显示的混乱的后果[2]。
1.2.2 俄文重形式
俄语是庄重的书面体语体,它的商务行文简练,语法比较严谨,重点也突出,言辞极具数学逻辑性和技术准确性,交流要求尽可能准确地描述和解释一定的事实。俄罗斯人更加接近西方世界的直观式思维方式。强调由细节部到整体部,由外表到内涵的分析思路。比较理性的思维,注重形式的论证过程,不喜欢采用艺术比喻手段,追求语义简明且凝练,要求明白、并且直露[3]。
1.2.3 俄文多语格
俄语符号文句在语法上是:使用非一致性定语的第二格的特点比例较高[4]。俄语符号文句二格在网络俄文中,首先要用于表示出定语关系,语句中包含比列达到41%。形容词性在俄语文句中的混合运用相当多而普遍,除了形容词的普通混用之外,还大量地使用带着补语语法的形容词根。绝大多数俄语动词都用未完成语体的“现在时”来表达含义,比较复杂的动词第三人称的陈述式,占文章的大部分。网络现在时和网络动词的第三人称单数形式很多,使用比率较频繁。俄语还多喜欢用长句和复合句式,以便能确切地表达出严格的语义上的关联逻辑[5]。
1.3 商务编码转换
中亚国家属于俄语使用范围,俄语的交际功能和实际应用性并没有因法律地位的下降而大幅度降低。俄语仍然是主要的族际交际语言语言政策与现实需求的背离。严重影响着社会生活的方方面面[6]。中俄之间的互访路径往往要通过多次编码转换才能达成[7]。这就直接导致中俄双方页面在异域的运行速度非常慢,为实现双方文字在应用终端准确、实时的显现,中俄双方专家拟采用架设镜像服务器(Mirror server)的方式,完成主服务器字库定时镜像的任务,实现在网络以及双方现场进行俄、汉或其他文种贸易文本的起草、翻译、沟通、修改、确认、完成贸易合同;提供贸易活动的下游的双语文件和信息(包括商检、物流、报关活动所需的双语文件信息);通过网络对贸易活动全过程进行必要的安全监控。受到贸易规模的影响,国内大部分企业没有通过互联网开拓。国际市场基本上通过欧美、日、韩等国家转销至俄语世界,所以对俄企业数据库的建设速度较慢。
2 动态接口转换
将Web页面上的域标记,及其文本属性值进行Java程序化动态隔离,以DIV、SB和BB等标记为样本容器,利用Java脚本分析技术,实现动态的Web文本的过滤、布局、删除和修正的功能,来修正页面编码方式。在java编码中,要对网络平台的页面文件作“字符集设置”,如图1所示。
2.1 动态字符集
利用Web页面上的表单分析语法,将Web单元的文本数据和交互过程,实现动态翻译管理,丰富用户交互数据输入形式,动态俄文翻译的支持格式要求相应字符集的变动和动态字符的变更,目的是为客户数据能适用I/O功能来铺垫动态翻译模块。在编程开发工具中要对集成开发环境的字符编码做出设定,例如:ISO88591-1,以适应动态变更的需要。
2.2 转码方法
Web页面的专码问题,要求将俄文文本页面组织布局形式,划分的更加细小,适应文字节单位。服务器只传递“节部分”的变动性Web数据,直接翻译,不需要重复发送补充性重复资料。当用户请求翻译页面时,往往只需要动态构造的新的翻译字符码数据列表或DIV域局部。当用户翻译请求时得到的服务器动态响应时,启动异步翻译功能,对应域文本位置上,就能动态适用翻译结果替换HTML元素的局部文字。“动元翻译”是实现异国语言接口自动翻译系统的嵌入性技术基础,需要翻译插件的模块性支持。通过动态域元素字符集设定,可以解决独立页面和编程文件的字符统一问题,但是实际上在文字信息通过网络传输的过程中,仍然会因为不同用户的国家区域不同,操作语言不同,而产生乱码,因此需要对传输得到的文字信息进行编码和解码,如图2所示。
在一个多语种的网页中,Java脚本与HTML、CSS和COM组件集成,能实现复杂的交互过程,极大地丰富Java程序接口设计的手段。这样我们在文字信息的发送端对信息用固定的编码方式编码,在信息接受端用相应的解码方式进行解码,使得最终得到的信息适应接收端的本地环境,以接收端的本地语言方式正确显示出来。
如果客户适配本地的语言为:简体中文,但是对于俄语文字的保存,如果不做正确处理,就会保存为乱码。可根据数据库服务器所在国家的语言环境设定好默认字符集,并对数据库接收的信息进行预加工、预处理使它适配于数据库服务器所兼容的字符集,最后,再对处理好的信息进行保存操作。信息从数据库输出时,也要做类似的信息编码转换工作,使得从数据库中查询出的信息适配于各个本国家的语言环境,从而展示出来没有乱码。
2.3 乱码处理
网络上的俄文信息,一部分通过网络直接传输,但是大部分实际上是要保存到数据库中,来自不同国家,不同语言的文字信息要保存到数据库里,同样面对着信息乱码问题。
客户端通过页面操作激发自动接口动作,调用了Java组件的异步引擎。自动接口模块要捕获Web文本和图片对象的操作事件,直接合成翻译参数URL途径,再向客户发出翻译结果。客户端可以不等待自动接口的反馈结果,继续维持客户的其它交互性操作流程,保持业务操作的连贯性。Java语言可以操控Web文档的元素构成,默认以document指向整体文档对象,例如:和等为高级节点,节点类型是Element。对于每一次页面启动的Element节点元素,都可调用get-Attribute()、set-Attribute()和remove-Attribute()等方法,来设置或修改节点的接口性质[8]。也能使用parent-Node属性和child-Nodes[]数组形式,在预定文档树中,上下移动文本元素;可以通过遍历child-Nodes[]数组,使用first-Child和next-Sibling性进行循环性接口设置。从而改变文本结构和接口属性,达到灵活多变的翻译目标,避免文本混乱显示问题。
3 结果与分析
俄方网络平台展现情况:①应用本项目的转码技术后,俄方网络平台展示中文商品信息没有乱码。②中方网络平台展现情况:在中国国内访问俄方外贸交易平台没有乱码。同时在国内可以以俄文录入中国商品信息,在双方网络平台展示均无乱码。
网络平台采用转码技术后应用效果比较。①俄方网络平台应用情况:俄方网络平台能准确、完整地展现中国商品信息,客户认可率高。②中方网络平台应用情况:中方网络平台可以自如地用俄文描述,录入中国商品信息,并在俄方平台准确展示,很受企业欢迎。
使用接口转码技术后,在中俄两方的网络平台上均解决了乱码问题。实现了无论是俄文网站,还是中文网站,都能确保其在中、俄两个国家适用的操作平台上正常显示运行。有效解决了中俄网络语言编程编码差异化问题,提升了中国科技企业的跨国技术创新能力,从而帮助中国商品能迅速、有效、准确、直接在俄罗斯主流网络媒体展示。
【参考文献】
[1]李海舰,田跃新,李文杰.互联网思维与传统企业再造[J].中国工业经济,2014,10:135-146.
[2]王晓华,张鹏,傅景歆.俄汉编辑软件的实现[J].黑龙江大学自然科学学报,1998,02:43-45+48.
[3]徐涛.基于“情景更替理论”的俄语动词体常体意义新论[J].中国俄语教学,2015,01:40-44.
[4]陈雪.俄语计算机术语构成研究[J].中国俄语教学,2010,01:37-41.
[5]乐路.试探科技俄语的特点及其翻译[D].上海外国语大学,2009.
[6]张宏莉.中亚国家语言政策及其发展走向分析[J].新疆社会科学,2015,02:72-79+161.
[7]余自洁.计算机、多媒体技术和当今俄语教学[J].中国俄语教学,2003,01:51-54.
[8]王翠云.高校网络教学辅助平台的设计与实现[D].电子科技大学,2013.
[责任编辑:王楠]
- 项目与课题
- 《微机原理与接口技术》课程教学模式探索
- 科学研究为导向的《高分子化学》双语教学方法探索
- 我国专利分析软件的功能现状分析
- 基于BP人工神经网络的离散型车间生产调度指标预测模型的研究
- 血脑屏障与肺癌脑转移的关系
- 英文诗歌中的偏离与连贯
- 高三化学习题教学中的选题策略研究
- 微课程背景下“梯度概念”课堂教学的创新设计
- 基于汉字能力培养的初级阶段汉语教学模式探讨与研究
- “互联网+”思维下农产品电子商务营销模式研究
- 美国盖劳德特大学的聋人教学空间无障碍环境设计的启示
- 无线传感器网络基于测距的节点定位算法综述
- 日语学习中的日语汉字分析
- 工科大学生创新实践能力的培养
- 互联网时代下农产品的网络营销策略
- 道路工程专业课高效课堂阻碍因素及实施策略研究
- 民办本科院校《数控编程与操作》课程教学改革探索
- 基于SWOT分析的“饥饿营销”策略探究
- 基于江苏省部分市县调研食品安全监管存在问题及策略建议
- 应用型人才培养目标下大学文科专业课考试改革探索
- 通用化和个性化在线学习新模式的研究与探讨
- 云南高职学生体质测试现状与问题探析
- 对外汉语教学中的东北作家作品的文化导入探究
- 计算机实验室无盘化改造
- 环境类专业实验教学的探索与实践
- 翻转课堂教学模式在听障生课堂教学中的应用分析
- 《数字图像处理》课程的驱动教学实践
- 中俄网络语言编码接口问题的研究
- 基于“多元”视角下开放大学教学资源建设的创新性思考
- 材料微观组织结构资源库与网络平台建设
- 独立学院经管类专业统计学教学方法研究
- 谈模块教学在商务英语课程体系改革中的应用
- 基于ZEMAX的手机镜头设计
- “以学生为主体”在中职护理专业《生理学》教学中的实施策略
- 新疆哈萨克族毡房的数学规律研究
- 基于RFID技术的电动车充电系统
- 夏—王定理在二维连续型随机向量中的推广
- 戴尔校园黑客服务体验一体店创新项目研究
- 基于第二课堂的轮机英语社团研究与实践
- 基于模糊综合评价法的京津冀地区空气污染的研究
- 基于图像处理的印品质量检测系统研究
- 张掖马蹄寺文化资源的传承与创新研究
- 海洋溢油事件的生态风险评估方法比较研究
- 煤矿废水对蚕豆种子发芽与幼苗生长的生态毒性研究
- 减负下的大学工科数学教学几点思考
- 第三主族元素晶体材料的研究现状
- 由“强制阐释”到“本体阐释”:探寻文学翻译与中国文化关联的关系
- 专业兴趣培养在高校专业课程高效课堂改革中的应用
- 科教前哨
- 舰船辐射噪声RPT特征传播稳定性研究
- 论科技期刊编辑素质组成
- 广播电视工程中数字音频技术的优势及其应用分析
- 放射性废液输送设施联动冷调试及热调试
- CJ1模拟机运动系统及其故障排除
- “中国流动科技馆”项目展览发展研究
- 基于GIS的地质灾害危险性区划方法的细节问题研究
- 畅想非晶态金属在银饰材料上的应用及前景
- 浅谈电流互感器饱引起电保护误动及对策
- 浅析水质稳定剂阻垢性能的相关研究
- 几何、集合起码常识暴露中学数学一系列重大错误
- 基于小波分析的声发射信号去噪问题研究
- IT论坛
- 无线通信网络的优化
- 机械与电子
- 基于Matlab的激电中梯数据处理系统
- 守恒方程在燃烧爆炸学中的应用
- Tsw2500发射机中弧光检测器的应用
- 运用微波技术实现蚕蛹快速烘干
- AP1000安全壳环境状态对非能动余热排出系统运行的影响
- 关于地铁新线开通前的安全管理探讨
- 固封极柱生产工艺
- PID控制器采用双线性变换法离散存在的问题分析
- 浅谈现代有轨电车迷流危害及防护
- 高压断路器与重合闸配合问题浅析
- 无机胶后锚固施工技术研究
- 荧光性矿物在电梯应急照明上的应用
- TR模块通用自动测试系统
- 建筑与工程
- 国外水电工程控制测量实践
- 建筑工程造价管理分析
- 浅析钻孔灌注桩施工质量的控制
- 质量问题在建筑电气工程管理中的分析和处理策略
- 地面减震孔在地铁侧穿加油站爆破施工中的应用
- 浅析工程造价控制
- 论混凝土裂缝防治技术在土木工程中的重要性
- 影响市政工程造价因素分析
- 高校科技
- 基于硅基液晶技术的嵌入式投影物镜的设计
- 一种应对残缺人脸图像的3D人脸识别方法
- 基于学科背景的高校辅导员专业理论知识现状调查与分析
- 基于边缘检测和色彩空间的混合车牌定位算法
- 校企合作与地方中小企业发展问题研究
- 基于分水岭算法的颅脑CT图像分割研究
- 亚铁氨羧螯合剂法烟气同时脱硫脱氮
- 论高等中医药药院校就业指导工作的创新
- 法治政府生态问题探析
- 大学生性观念的现状调查及变迁研究
- 角斗活动归于体育范畴的逻辑悖论
- 浅谈如何提升大学英语教学效果
- 国内外旅游与休闲业发展研究综述
- WEB下的试卷库系统与网络在线考试系统的实现
- 如何做好以“公寓特色为基,文化育人为本”的大学生公寓文化节
- 现代篮球“跑轰”战术特征及其应用研究
- 学分制下的选课管理探析
- 网络平台在大学英语教改中的应用
- 曲靖市太极拳发展现状与对策研究
- 巧测大气压强
- 国内外工业炸药爆炸性能的表征方法比较
- 试论新形势下的研究生英语教学改革
- “按需练习按需辅导”实验室开放模式的效果观察
- 黄铁矿型FeS2的应用前景
- “梦”的起航
- 网络语言的构词特征
- 安全防护在学校体育中的意义和作用
- 体育教学现状调查分析
- 西北民族院校学生英语过程写作策略初探
- 传感器网络节点参数监测软件研究与开发
- 卓越工程师计划下的“电气控制与PLC”课程教学方法改进
- 《信号与系统》课程教学过程中思考与改进
- 基于Linex损失函数的正态分布模型的研究
- 智能家居无线通讯网络的适用性研究
- 临沂太极拳发展现状与对策研究
- 数据库系统在计算机体系结构中的应用
- 依托学科课程体系的《计算机导论》课程改革
- 四维空时中时间一维的特点
- 影响曲靖市区排球运动发展的主要因素研究
- 浅析班干部的轮换制度
- 《数控车床》仿真软件实验的教学探索
- 基于信源编码的数据融合隐私保护技术
- 宣威市少儿体育舞蹈开展现状与对策研究
- 创新创业背景下的高校科研与成果转化问题与对策
- 构建预备役部队舰船装备保障力量体系的思考
- 慕课浪潮冲击下的应用型本科院校的教学改革研究
- 络合吸收法烟气同时脱硫脱硝
- 基于STM32单片机技术的真空带式过滤机控制系统
- 人际关系适应不良案例分析反思
- MG机械制造公司STP营销策略分析
- 基于Hankel范数与平衡截断法的联合降阶模型
- 简易护理床的设计分析
- 重视学生主体性提高财经类院校计算机基础教学效果
- “互联网+”时代教育模式的探讨
- 上好一堂课:《材料力学》教学案例浅析
- 非物理专业大学物理实验教学存在的问题及建议
- 节律变化与心理体验的相关研究
- 《复变函数与积分变换》教学的研究
- 对偶关系的应用对提高电路教学效率的影响
- 大学物理基础实验课教学模式探索
- 外语论坛
- 多译本对比分析研究
- 以亚式悲剧观论《麦克白》
- Talking about the development of three important periods pipa
- 从目的论看现代影视字幕翻译
- 图书与档案
- 基于PHP+Mysql的图书馆公告系统前台开发
- 基于应急与危机管理的图书馆联盟研究
- 学位论文数据库管理的工作细则
- 浅谈少儿图书馆开展亲子阅读活动探讨
- RFID技术在我馆的应用及其局限性探讨
- 试论公共图书馆管理上法人治理的运用
- 继续教育与高校图书馆员能力提升
- 职校科技
- 基于工作过程的《非线性编辑与特效制作》课程标准研制与实践
- 刍议校园垃圾分类与高校学生管理
- 如何运用PMC信号监控进行机床故障分析
- 基于物联网的集中供热系统构建
- 高职院校一体化教学模式的研究与实践
- 环环相扣 重点突出
- 高职院校开设《Java EE企业应用开发》课程教学与设计
- 艺术高职心理健康专题学习平台的建设和应用
- 浅谈少儿武术训练方法及应当注意的问题
- 高职会计专业《财务会计》课程改革探究
- 基于AB岗工作制的高职院校行政管理效率探究
- 西式烹饪中不可或缺的角色:香草
- 有关中国职业教育改革新思路的探讨
- 论中职数控专业项目化教学开发校本教材开发的必要性
- 计算机网络技术在有线电视网络中发挥的作用
- 建东学院图书馆无线温度测量系统设计
- 《压花信息系统》网站优化的实现
- 系统论视阈下高职院校辅导员思想政治理论素养培养研究及外化对策
- 浅谈汽车电路分析的教学方法
- 高职计算机专业的一次信息化教学单元设计
- 贯彻依法治国基本方略 推进学校工会工作
- 任务驱动法在《单片机原理及应用》教学中的应用
- 利用微生物学原理处理城市生活垃圾
- 高等数学在高职教育中的研究探索
- 浅谈职业学校班主任如何巧妙化解学生与科任老师之间的矛盾
- 浅谈心理健康与心理障碍
- 关于分段函数在分段点处可导性的几种解法
- 护士工作倦怠的研究现状
- 能源科技
- 基于ArcGIS的胜利油田地理信息系统专业图符号化设计
- 500kV自耦变压器中性点小电抗对短路电流的影响
- EPON和McWill技术在配电通信网中的应用
- 淡谈如何用软件实现变户关系一致性动态检测
- 浅谈电力电缆绝缘性试验
- 基于配电系统可靠性评估方法与应用研究
- 220kV线路主二保护装置增加发信测试回路
- 电能质量谐波控制研究
- 浅析10kV配电线路防雷措施研究
- 河务科技
- 浅谈社会主义核心价值观融入黄河文化研究
客服热线:400-656-5456 客服专线:010-56265043 电子邮箱:longyuankf@126.com
电信与信息服务业务经营许可证:京icp证060024号
Dragonsource.com Inc. All Rights Reserved