科技文本研究
——以《Apache Solr 7.x使用指南》(节选)为例
2022-11-19李艳
李 艳
(安徽文达信息工程学院,安徽 合肥 231201)
一、引言
(一)研究背景
当今快速发展的数字时代,人们通过不同的方式产生各种各样的数据信息,比如拍照、上传照片、更新博客、评论博客、改变社交媒体的显示状态、发送推特、更新商业信息、进行金融交易、写邮件、云端存储数据等。因此,个人空间数据的数量不断增加,专业服务的数据规模也在飙升。然而,在专业服务领域,如谷歌,Facebook,New York Stock Exchange,Amazon,在这样类似的大公司里需要处理大量的数据,如果遇到数据海啸,人们需要选择适当的工具并以有组织的方式获取数据。
从对结构化、非结构化或半结构化角度进行数据的分析,这样有助于人们发现隐藏的模式、市场趋势、相关性和个人偏好。那就需要正确的工具来处理和分析数据,这样公司才有望制订更好的营销计划,增加额外的收入机会,改善客户服务态度,拥有更高的运营效率,并保持竞争优势。
(二)研究意义
如今,在企业数据领域,所有企业都面临着前所未有的复杂搜索需求,随着大数据信息的出现,搜索引擎的应用急剧增加,拥有一个能够满足企业应用需求的搜索引擎是势在必行的。Solr搜索引擎是一个基于Lucene Java的开源企业搜索服务器,已经被许多公司和企业所采用,它有处理丰富文档、分面搜索和全文搜索等多种功能。随着Solr 7.x的最新版本的发布,Solr搜索引擎提供的功能库已经得到了扩展。一方面,通过本书可以更好地了解科技文本的语言风格和特点。同时,也可以学到更多关于搜索引擎的专业知识,了解最新的Solr搜索引擎相关知识。对科技从事者来说很重要,这样他们能学习到更专业的知识。
二、文本分析
(一)文本简介
文章分析的源文本来自Apache Solr 7.x指南的第一部分和第二部分。Apache Solr 7.x由Sandeep Nair、Chintan Mehta和 Dharmesh Vasoya共同创作,目前在中国仍有售,市面上销售的版本至今没有中文版本。该书包含了Apache Solr 7.x搜索引擎的用户指南,摘要的第一部分包括四个方面,包括Solr搜索引擎的介绍,Solr搜索引擎的优势,Solr搜索引擎的用例,Solr搜索引擎的特点;第二部分是关于实践的,主要介绍了Solr 7.x搜索引擎的安装等技巧。
(二)作者简介
Apache Solr 7.x指南是由Sandeep Nair,Chintan Mehta和Dharmesh Vasoya共同创作完成。
Sandeep Nair对使用Liferay平台开发企业解决方案有着浓厚的兴趣,并且他已经对Liferay平台开发研究了9年,使用Liferay在各个垂直领域执行项目,为协作、企业内容管理和web内容管理系统提供解决方案,同时Sandeep Nair在Java和Java EE方面非常有经验,他在Java和Java EE方面的工龄超过11年。除了编程、旅行、美食和看书等兴趣以外,还撰写了Liferay初学者指南和Instant Liferay Portal 6 Starter。
Chintan Mehta是knowth Technologies的联合创始人,是cloud/RIMS/DevOps团队的领军人物,在Linux、AWS Cloud、DevOps、rim 和开源技术的服务器管理方面有着丰富的经验。他撰写了大数据MySQL 8、Apache Solr 7.x指南、MySQL 8管理员指南、Hadoop备份和恢复解决方案。此外,他还回顾了Liferay Portal性能最佳实践和构建无服务器Web应用程序。
Dharmesh Vasoya在2008年2月开始在Liferay 4.3.1中实现Spring MVC portlet。他在Liferay门户技术方面有4年的经验,他熟悉在Liferay中使用的技术,包括 Hibernate、spring、Ehcache、Struts、JSF、ICEfaces和Vaadin API,他使用最新版本的 Liferay门户网站实现了web服务并配置了网站。
(三)文本特点
《Apache Solr 7.x指南》这本书属于科学文本,同时它也属于科普读物,科普文本是科学文本的变体。科普文本和专业科技文献之间最大的区别:第一,读者更容易理解,语法更简洁灵活,复杂和模糊的词少,但长句与复杂结构中更多的科技文本。第二,科技文本不仅具有科学性和知识性,而且具有文学性、普及性和趣味性。第三,科普教材主要面向普通读者,主要介绍科技知识的有趣性质以及科学、技术与生活的关系。第四,他们的写作生动、严谨、流畅,语言风格多变。科普风格是一种科技风格,它的目的是普及自然科学和社会科学知识。
1.词汇特征
词汇是语言的一部分,词汇翻译是整个翻译的基础,不正确的词汇理解常常影响到整段甚至整章的翻译。英语科技语篇的主要词汇特征是专业术语和缩略语的大量使用[1]。
(1)专业术语
科技文献中有许多专业术语,正文包含大量的数学和统计术语、公式和图表。技术英语中的一些常用词需要经过专业人士的翻译。例如,术语“method”,这个词描述程序领域,它指的是“算法”。
(2)缩写
科技英语中经常使用缩略语。节选文章非常专业,包含了大量的缩略语,可以简洁有效地表达专业词汇。一些缩写词被翻译,可以在互联网上找到,比如“GUI”“图形用户界面”,“EA”“进化算法”,“FCC”“联邦通讯委员会”。
2.句法特征
节选文本作为一种科技文本,具有揭示真理、普及科学知识的科学性,是客观、通俗的。在句法上,除了简单句、复合句、复合句外,常用被动句,大多数文章中的句子都是非人称的句子。
(1)结构复杂的长句
众所周知,在科技英语中,简单的句子不能客观地描述科学的复杂性。因此,在科技英语中,经常使用语法结构复杂的长句,以达到结构严谨、逻辑强的目的。例如,句子“With a major release of Solr,lots of new features have been introduced.Overall,there are 51 new small-to-major features introduced in Solr 7.Along with these features,lots of bug fixes, optimization, and updates have been introduced,let us go through some of the major changes introduced in Solr”。
(2)名词化结构
名词化结构有助于科技文章客观表达,语言简洁明了[3]。这种现象在科技英语中尤为突出,在原文中可以找到一些名词化结构。例如,further processing“深加工”,parallel evaluation“平行进化”,名词化结构在翻译中起着重要的作用。
(3)被动语态
使用被动句表达更客观、更严谨,在描述概念、现象、过程、问题和因素结构时,使用被动语态是非常重要的。被动语态符合科技英语客观叙述的要求,能够抓住读者的注意力,给读者一种客观的感觉。被动语态更有利于阐述观点,常用在名词短语、定语从句或状语从句中[2]。被动句通常出现在句子的开头,例如,“Solr搜索引擎被Netflix、Disney、Instagram、the Guardian等大公司广泛接受和使用”。
(4)“it”——虚拟主语句
在科技语篇中,“it”虚拟主语句在英语中被广泛使用,使句子中的内容明显赋予了客观意义,而客观表达在科技语篇中更为常见,译者在翻译原文时需要注意文章的客观性[4]。
例如,句子是“It is written based on Java and uses the Lucene Java search library”[5],“it”作为形式主语,译者可以这句话翻译为“据说是基于Java编写的,需要使用Java Lucene搜索库”。
3.文体特征
科技语篇具有用语规范、逻辑清晰、表达准确、结构简洁的特点。
(1)科学性
Apache Solr 7.x指南作为一种科技文本,科普文本以科学性为主要内容,寻求客观真理以揭示真理,科普教材负责向大众普及科学知识。因此,必须保证文本的科学性。科普文本应努力学习自己的专业知识,完善在本专业领域已有的科学知识、方法和思想,并将其以文字的形式表达出来。科技文章中常包含大量特定符号、公理、图表等辅助说明方式,从而将深刻繁杂的内容以清晰简明的方式表达出来,为科技语言提供精练规范的表达范式,有效地促进科技的交流与发展进程。比如通过添加代码符号将Solr与连接器JAR链接,具有指示功能,以方便读者理解。
(2)意识形态
“科学普及”就是科学技术的普及,它有一定的使命感,科学普及把科学技术与社会生活联系起来。当Apache Solr 7.x手册被创作出来后,原著的作者传达了大量的科学思想、知识、精神和态度,例如“This book is for anyone who wants to not only learn Solr 7.0 but also understand various advanced concepts of Solr.You'll learn why you should search on an enterprise search platform like Solr by the time you finish this book[6]”作者以更加简练直白的方式阐述科学的世界观和方法论,从而提高读者的认知,提高其科学素质和思想素质,读者可以通过阅读Mastering Apache Solr7.x这本书了解Solr引擎相关内容,学习Apache Solr 7.x的性能特点。
三、结语
科技文本以运载科技思想为职能,主要目的是给读者传递新知识、新理论、新资料等。科技英语作为一种独立的文体形式,自身具有概念准确、描述客观、行文精练、逻辑性强的特点。文本中通常包含大量专业术语、名词化结构、公式化表达、被动句和复杂长句,文体风格具有用词规范、逻辑清晰、表达准确、结构简洁等特点。除此之外,科普作品是集科学性、思想性、大众性、趣味性、知识性于一体的。
比如Apache Solr,它是一个开源性搜索服务器,利用 Java语言开发,结合 HTTP和 Apache Lucene两方面优势,将资源存储于Apache Solr存储文档中,每个文档由一系列的“字段”组成,每个“字段”代表资源的一个属性。本书主要介绍的是Apache Solr 7.x搜索引擎的使用指南,第一部分介绍了Solr搜索引擎以及Solr搜索引擎使用案例;第二部分主要从实践的角度介绍Solr 7.x搜索引擎安装步骤以及用户界面等。
节选文章为搜索引擎提供了行业平行文本,为科技文本翻译提供了一定的语言环境。加强对国外科技信息资料的翻译和学习,能够启发人们的科技思维,拓宽人们的科技视野,从而促进国内的科技发展。