基于智能算法的化工英语辅助学习系统设计
2019-02-10肖海艳张丹
肖海艳 张丹
摘要:针对化工专业词汇学习的难度和复杂性,结合当前的智能算法,提出一种基于B/S的词汇辅助学习系统。为实现该系统,主要对词汇检索算法进行设计,分别提出基于词上下文向量相似度匹配和基于CNN+BLSTM的图像识别方法,并给出系统登录模块流程和检索流程。最后给出部分实现界面,并给出该化工词汇辅助学习系统构建心得,以此为化工专业学习与信息化的结合提供借鉴与参考。
关键词:相似度匹配;英语辅助学习;图像识别
中图分类号:G64 文献标识码:A 文章编号:1001-5922(2019)12-0185-04
化工行业的日益发展,使得国内外化工行业之间的交流日益频繁,从而导致对化工领域人才的职业素养也越来越高。这不仅要求他们具备扎实的化工专业功底,还要求具备扎实的专业语言交流功底。但化工领域涉及范围广,包含化学、制药、材料等各方面专业词汇,数量多,词汇复杂。黄微雅(2009)简单的以医药化工行业的专业词汇为例,提出一个简单的复合词就可能达到300个以上的单词。这些专业词汇量大,并且词汇复杂。而传统的化工专业词汇学习采用的是课本、词典等一些纸质资源。这些工具的特点在于只能按照固定的顺序对专业词汇进行学习。与此同时,随着现代信息技术的发展,研究者开始将计算机技术、数据挖掘技术、智能算法等引入词汇的学习中,如王文辉(2017)将相似度算法引入到英语智能问答系统中,并对该系统进行了详细的设计;褚喜之(2018)则采用B/S架构构建了一个英语辅助学习系统。但是归纳以往的研究发现,用于化工领域的专业词汇辅助学习系统相对较少。另外,在专业词汇检索的过程中,针对快速对以往宝贵的化学图片进行检索,进而提取有效的信息,是提高该辅助学习智能化的重要方式。因此,结合当前化工专业词汇学习的复杂性,提出一种智能化的化工英语专业词汇辅助学习系统,并对该系统进行了详细的设计。
1 系统用例分析
本系统构建的目的是为广大化工专业学生提供一个智能化的辅助学习工具。为简化该系统用例角色,更好的理清用户类型,设置系统管理员和学习者两类角色;在功能方面,系统主要为用户提供化工专业词汇学习,同时借助自身构建的化工英语专业语料库,为用户提供高效的英文信息检索服务。因此,结合以上的需求,系统不同用例的角色如图1所示。
2 系统功能模块设计
根據图1的用例分析看出,用户分为管理员和普通用户;在功能方面,主要设置权限设置、语料库、专业词汇学习、单词与语句检索、辅助测验等几个部分。上述五项功能模块的具体功能组成如图2所示。
3 高校检索算法设计
在本文中,一个重要的特色在于采用智能算法提高专业词汇或语句的检索效率,以此更好的辅助化工类专业学生学习。而在英文单词的检索方面,目前大部分针对单个专业词汇单词和语句的检索,但是除上述的检索以外,还存在部分针对的化工英文图片。对此,针对该问题,本系统设置2类算法:①提高单词或语句的检索效率,提出一种基于相似度计算的匹配方法;②针对化工领域存在的珍贵图片英文文本,提出一种基于深度学习的检索方法。
3.1基于相似度的词汇匹配
在化工领域中,要更好的辅助学生进行专业词汇查询,就需要通过一个词汇引申出多个词汇。如上述的化工词汇特点中,一个词缀可引申出多个词汇。对此,在检索中,本文引入基于词上下文向量的相似度计算方法。具体步骤分为两步。
3.1.1词向量生成
在该步骤中,以一关键词作为中心,对训练集内该关键词的上下文词语进行统计,得到该关键词的上下文向量,最终得到向量矩阵TCV[n][n]。
3.1.2相似度计算
在以上向量矩阵的基础上,计算两词语的相似度。具体步骤为:对任意给定的两词语,分别从向量矩阵中提取各自对应的上下文向量,然后计算两向量的余弦系数,即相似度值。具体计算公式为:
其中,Sim表示下三角矩阵,i≥j;Sim[i][j]表示为词语ti和tj的相似度,TCV[i]、TCV[j]分别表示为词语ti和tj的上下文向量,TCV[i][k]、TCV[j][k]为词上下文向量的第k维权值。
3.2图片检索识别
同时为进一步提高该辅助学习系统在词汇学习的作用,并且更好的提高对化工手稿材料的应用,提出一种基于手稿图片文字快速检索算法,以此能够让用户通过图片即可检索到所需要的相关化学材料图片。研究认为,传统的图像识别是采用图像分割,然后在进行匹配。这种检索会耗费大量的时间,同时也影响检索效率。为改变这个问题,本文则借鉴潘炜深的研究成果,采用CNN+BLSTM结合的方式对手稿英文图片进行识别。具体识别模型如图3所示。
在该思路中,采用CNN对文本行的图像时序特征进行提取;然后采用BLSTM对英文单词进行识别;第三步则是采用最大似然函数对目标函数进行相关的优化;最后则是输出识别匹配结果。
4 系统部分功能实现
4.1系统安装部署
为实现上述的辅助学习系统,分别安装JDK、Tom-cat、Oracle 10g。在安装完成后,启动数据库服务,并将初始化数据库文件导入。将开发的相关应用程序以war包的方式导入到应用服务器中;打开浏览器,输入服务器的IP地址,点击回车,进而对系统进行访问。
4.2系统登录模块实现
登录模式是该词汇学习系统安全的重要方式。在登录时,用户首先输入用户名和密码,然后在输入用户名和密码后,与数据库中的用户名和密码比对。而为了提高系统安全,在本辅助学习系统中,引入MD5加密算法。具体实现流程如图4所示。
4.3单词检索模块
在该模块中,主要包括单词检索匹配和图片识别。其中,单词检索主要是通过关键词检索,并结合词上下文向量实现对部分化工专业词汇同义词的匹配,以方便更多的化工专业学生进行学习。具体流程如图5所示。
5 系统应用效果
通过上述的设计,可以得到如图6所示的化工专业词汇检索界面。
6 结语
通过以上设计看出,在对化工专业词汇辅助学习系统设计后,用户只需要输入不熟悉的单词,即可找到化工词汇的解释,大大提高了化工领域专业词汇学习的便捷性,也凸显出该系统在化工词汇学习的专业性,可更好的辅助学生进行化工专业英语词汇学习。同时,文章也存在一定的局限,只是对单词检索进行了简单的实现,在图片识别检索工作方面,还需进行深入的探讨。
参考文献
[1]王文辉,吴敏华,骆力明,等.基于相似度算法的英语智能问答系统设计与实现[J].计算机应用与软件,2017,34(06):62-68.
[2]褚喜之.英语学习系统设计研究[J].微型电脑应用,2018,34(11):21-24.
[3]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(06):1229-1251.
[4]高学,王有旺.基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报(自然科学版),2014,42(01):72-76+83.
[5]张昭旭.CNN深度学习模型用于表情特征提取方法探究[J].现代计算机(专业版),2016(03):41-44.
[6]杨斌,钟金英.卷积神经网络的研究进展综述[J].南华大学学报(自然科学版),2016,30(03):66-72.
[7]林秀恒,吴虹.关于“说”的词汇使用特色的研究——基于CNN与China Daily政治新闻语料库[J].海外英语,2015 ,9(07):191-193+196.
[8]余本功,张连彬.基于CP-CNN的中文短文本分类研究[J].计算机应用研究,2018,8(04):1001-1004.
[9]买买提阿依甫,吾守尔·斯拉木,帕丽旦·木合塔尔,等.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(08):230-236.
[10]王毅,謝娟,成颖.结合LSTM和CNN混合架构的深度神经网络语言模型[J].情报学报,2018,37(02):194-205.
[11]潘炜深,基于深度学习的手写英文单词检索算法研究及其在历史文本上的应用[D].广州:华南理工大学,2016.