APP下载

基于.NET的新能源中日对译语料库设计与实现

2012-07-16李战军梁晓晖王新文马晓涛

河北软件职业技术学院学报 2012年3期
关键词:语料语料库检索

李战军,梁晓晖,王新文,马晓涛

(河北软件职业技术学院 软件工程系,河北 保定 071000)

0 引言

近年来,面对传统能源供需失衡、全球气候日益变暖的严峻局势,世界各国纷纷加大对新能源开发与利用的力度。我国具有丰富的新能源和可再生能源资源,如何利用这个宝库已经成为科技工作者面临的重要任务,而参考和阅读国外在这方面研究走在前列的专业文献更是必不可少的重要环节。

语料库是指存放在计算机里的大量原始语料文本或经过加工后带有语言学信息标注的文本。它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征。语料库揭示最典型的语言特征,反映语言的真实面貌和实际运用规律[1]。基于语料库的翻译研究能使我们简洁、有效地进行编码,能使我们查询并获得大量的数据[2]。

基于.NET的新能源中日语料库旨在通过搜集整理新能源方面的日语语料及对照的中文翻译,为我国从事新能源工作的科技人员提高外文文献的阅读效率提供帮助。

1 可行性分析

基于语料库的翻译研究(Corpus_Based Translation Studies:CBTS)已成为当今翻译研究领域中一种新的研究范式,在理论、描写和应用等层面对翻译研究和翻译教学以及翻译培训起着越来越重要的作用,并激发了众多学者对相关问题进行研究的浓厚兴趣[3]。正因为如此,与之相关的各种语言学理论和算法层出不穷,并日臻成熟。

语料库的创建与实现离不开计算机技术的支持,如今应用广泛的基于B/S架构的Web2.0技术能够充分满足语料库应用软件的需求[4]。业界已经有采用相关技术开发语料库的成功案例。微软公司的.NET框架是一种全新的强大的计算平台,它简化了在高度分布式Internet环境中的应用程序开发,在Microsoft.NET框架下,建立大型的Web应用和Web服务变得更加便捷。基于C#语言的ASP.NET技术以其功能强大、开发效率高,日益成为广大.NET程序员的首选技术组合。因此,无论是从语料库行业技术方面还是计算机技术支持层面,该项目的开展都是可行的。

2 需求分析

创建基于.NET的新能源中日语料库,目的是利用Web2.0及微软的.NET技术,收集整理关于新能源领域的日语科技语料,并提供对应的中文翻译及检索功能,为该领域内的广大科技工作者阅读和翻译相关文献提供快速而准确的帮助。

概括来讲,系统主要由三大模块组成:后台语料管理模块,前台语料检索模块,安全管理模块。图1为系统总体结构框图[4]。

(1)后台语料管理模块主要负责语料库基础配置、语料的提取、规范化、清洗,以及语料的录入、删除、修改等功能,最终形成语料库。其中,语料库基础配置为超级管理员提供了语料基础信息配置的接口。而其他功能则为普通工作人员所用。

(2)前台语料检索模块主要负责语料的检索功能。为提高检索的质与量,系统提供了模糊查询和多关键字查询功能。

(3)安全管理模块通过认证与授权,主要负责系统的安全管理,包括用户信息的管理。

图1 系统结构图

3 系统设计

3.1 开发工具

系统采用Microsoft公司的Visual Studio 2010开发平台,采用的语言是为.NET平台量身定制的C#语言,采用的Web服务器是Internet信息服务(IIS)6.0 版本。数据库采用的是 Microsoft公司的SQL Server 2008。

3.2 开发模式

系统采用MVC设计模式。MVC是Model(模型)-View(视图)-Controller(控制器)的简称,最先被用在第一代基于视窗的计算机上管理GUI和用户交互,近些年开始被推荐应用在J2EE平台上。随着ASP.NET技术在大型Web应用上的地位得到巩固,MVC这个最广为人知、最著名的设计模式在.NET平台上也逐渐开始得到应用,并已成为当今设计交互式应用事实上的标准。MVC模式通过区分各个层,允许组成每个层的各个组件间松散耦合。这不仅使得程序开发更加灵活,而且可以减少重复性代码,实现代码重用。

本系统主要由Model实体层、DBUtility数据访问抽象类、CommonLib通用功能抽象类、DAL数据访问层、BLL业务逻辑层、UI层组成。

4 系统实现

4.1 数据库设计

考虑系统安全机制及业务需求,系统建立了两个数据库。新建一个登陆的数据库ASPNETDB.MDF用来存放管理员账号信息。然后再新建一个数据库Corpus.mdf来存放语料库相关信息[5]。语料库数据库主要由三张表组成:Citems存放语料信息,Cproperties存放语料属性相关信息,Cresource存放语料来源相关信息,其中后两者主要考虑到系统的可配置性和可扩展性。

4.2 安全机制

系统主要采用基于角色的安全机制。根据业务需求,系统用户分为三大角色:超级管理员,普通工作人员,用户。以下为各个角色的用例图。

技术实现上采用VS系统自带的基于membership的认证和授权,通过web.config配置文件实现各个角色的安全访问范围,其中需要注意角色大小写是敏感的。核心配置语句如下:

图2 系统用例图

4.3 可配置性与可扩展性

为了提高可维护性与可扩展性,系统在数据表设计上特意留出了扩展字段,可以非常轻松地扩展为多语种语料库,或者变换为其他语种语料库。

为了提高灵活性,系统提供了可配置功能,用户可以根据实际情况配置语料特性,设置语料来源。

4.4 检索算法

为了实现检索的准确性与灵活性,系统提供精确检索和模糊检索两种检索机制,并提供多关键字检索。检索字符串可以是简体汉字的任意字符串,符合检索条件的语料样本均可分面显示出来。显示检索结果时,检索关键字红色高亮显示,以便快速找到关键词在语料中的位置。所有检索结果允许复制或保存。

4.5 网页编码技术

为了使语料库具有广泛的通用性和较强的兼容性,中文语料采用了GB2312内码存储,日文语料采用了SHIFTJIS内码存储。这样,既可以适应各种版本的Windows平台,并且经过简单转换以后又可以在其他平台(如UNIX、LINUX)上使用,以提高语料库的应用价值和学术价值,并为最终实现中日文同屏显示和多功能检索打好基础[6]。

5 结语

随着能源危机的出现,新能源日益成为世界各国的研发重点,基于.NET的新能源中日语料库研制目标就是帮助我国相关领域技术人员迅速方便地查阅日文文献。本文介绍了一种基于.NET技术的新能源中日语料库系统的设计与实现过程,对相关领域的研究与应用发挥了积极作用。

[1]刘连勇,孟昭宽.基于Web的听力教学语料库的设计与实现[J].现代教育技术,2011,21(7).

[2]郝玉荣,罗桂保.国内语料库翻译研究现状综述[J],陇东学院学报,2010,21(4).

[3]杨晓军.基于语料库翻译研究和译者教育[J].外语教学与研究,2007,(10):51-55.

[4]郭小瑛,曾广平.基于Web2.0的数据集成系统设计与实现[J].微电子学与计算机,2008,25(6).

[5]岳晓光,梁晓诚,麦范金,赵子强.基于.NET的中文分词系统设计与实现[J].微计算机信息(管控一体化),2010,26(4-3).

[6]王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.

猜你喜欢

语料语料库检索
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
专利检索中“语义”的表现
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
国际标准检索
国际标准检索
语料库语言学未来发展趋势