APP下载

日文网络语料信息智能筛选的实现方法研究

2019-02-13尚玉叶郑新超

数字通信世界 2019年5期
关键词:语料库网页语义

尚玉叶,郑新超

(南通大学计算机科学与技术学院、外国语学院,南通 226019)

随着信息高速公路的快速发展,搜索引擎在信息覆盖率、精准度和信息响应时间等方面的要求越来越高。日语学习者在查询资料或资讯时,常伴随着冗余垃圾信息的困扰。同时,网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力。因此,本文尝试在日语学习与交流的跨平台APP 开发过程中,针对日文网络资料进行自动检索,并过滤、筛选敏感信息,以提高学习平台资源信息的精准性和可靠性。

1 语料信息检索

网络爬取、建立索引数据库、排序是搜索引擎的三大基本工作原理。利用python 爬取网页,从中提取反应页面内容的字符串,索引程序提取字符串中的关键词,通过建立以页面为主索引的正向索引文件并将其存储到索引数据库。而倒排索引[1]则是建立以关键词为索引的索引表,用户输入搜索词,对搜索词进行处理形成一个或多个关键词,搜索系统查找倒排索引,从中读出包含这个关键词的多个页面,从而满足用户快速完成搜索的需求。搜索引擎反馈给用户的看似简单的过程实则很复杂。用户输入搜索词需要文本分析、语义分析等,对反馈结果需要经过链接分析、敏感词判断等处理。

2 文本、语义分析

在面向大数据的环境中,利用语义分析的方法对评论进行挖掘[2]成为大数据的主要研究领域之一,也是当下比较热门的话题。目前,国内外都在这方面投入了大量的人力、物力进行更多探索性的研究。部分研究已在市场上运行,并取得较好的用户体验,譬如各种APP 个性推荐页面、慕课相似课程推荐等,这使得文本、语义分析尤为重要。

(1)文本分析。对用户输入文本中的数字、连接符、标点符号和字符的大小进行预处理,过滤掉区分能力低的词汇,决定对哪些关键词建立索引。搜索引擎接口返回的列表内容或多或少的有着不同的linkURL 却有着相同的内容。自动提取关键词的算法就是计算出文档特征项的TF-IDF 值,具有较高权重的TF-IDF 特征项代表文本。词袋模型是关注文档中出现的已知词,忽略其词序、语法、句法等要素,即词与词之间是独立的,最终都是以N维特征向量的表现形式表示。譬如有一个文本包含两个简单句,分别是“我是一个学生”,“他也是一个学生”,则词集为{我、他、也、是、一、个、学生}对应的向量分别是[1001111]、[0111111]。基于此可以排查相似网页显示给用户,提高检索率。

(2)语义分析。在提高用户的查询效率、分析用户喜好、提高用户体验等方面起着不可替代的作用。基于本APP 的用户主要是日语学习者,交流的大都是日语相关的话题,本文的语义分析主要是基于词共现的语义分析。一个文本由若干个词组成,采用基于词典的建立词表方法,对选定文本进行正向最大匹配和逆向最大匹配相结合的处理。假设分别有中文词表{个性、体验、诗人、诗、有、的、中}和日文词表{人工、知能、は、発展、潜在、力、の、ある、学科、である},则{诗中有诗人的个性体验}、{人工知能は発展潜在力のある学科である}这两句话通过分词分别得到{诗/中/有/诗人/的/个性/体验}和{人工/知能/は/発展/潜在/力/の/ある/学科/である}的词集。基于词共现(Co-OccurrenceWordModel)的向量空间模型,假设若干词经常共现在文本的同一个窗口单元内,则这若干词在意义上是相互关联的。窗口内共现词越多,则其内的相互关联程度越高。对窗口大小的设置可以根据个人需要调节。若两个特征项的相关度超过一定的阈值,则将这两个项连接,对所有的特征值进行两两比较相关度,从而形成词共现图。一个连通子图代表着一个关键语义,子图中的特征项节点说明该子图其权值越大,对文本的语义贡献越大,越能代表文本的语义。取靠前的K 个特征项子图,与语料库进行匹配敏感词汇,得出语义。

3 敏感信息的识别与过滤

为减少敏感信息的出现,需通过算法自动识别并过滤敏感词汇。常用的过滤算法有:规则匹配算法、神经网络的信息匹配算法[3]等。本文尝试在建立敏感词库的基础上进行基于语义的敏感信息检测。

(1)敏感词汇库的建立。第一步,对比现有网址与敏感网址库里的网址记录,若有相同的记录存在则该网址的网页显示空白网页,否则对该网址的内容下载;第二步,内容的过滤操作,但先不展示给用户,把下载的内容与敏感词汇库中的记录进行比对,若内容中包含敏感词汇库的敏感词汇,则将该网址记录到敏感词汇库,为下一次的敏感网址库记录对比做准备,并显示空白网页,否则进行网页的图片过滤;第三步,对于图片过滤需先建立一个图片库,通过肤色检测算法和纹理检测模型等[4]进行图像过滤。

(2)基于语义的敏感信息检测。语义向量空间模型[5]是被GenardSalton 和Salton,Wong,&Yang 在SMART 信息检索系统所发展。语义向量空间模型VSM 的主要思想是把集合里的每个文档表示为空间的一个点,空间中的点距离越近,语义相似性就越高;空间中的点距离越远,语义上相似度减小。在拥有敏感词汇库的基础之上,通过建立语义向量空间模型搜索词汇。

对待检测敏感词汇的鉴别最关键技术就是判断其语义信息,为了能够发现待检测词之间的内在关系,可以构造一个m*n 的敏感信息转化矩阵。每一列是表示的是敏感词汇组成的文本向量。对矩阵进行降维为一个纯量阵,是转化矩阵的参数,得出待检测词汇的主要内容,提取内容,便能得到相关词汇的语义信息,将无关的语义信息过滤掉,排除部分敏感词汇,提取需要的关键语言信息,从而提高语义检索的速度。

为了取得更好的过滤效果,可以运用阀值理论对词汇进一步筛选,将词汇按照不同的语义分为敏感和非敏感词汇,降低漏检率,提高系统的性能。输入多个检索词进行多次检索,从而评价信息检索系统的性能水平。为验证这一方案,本文尝试基于词共现模型的语义分析对朝日新闻的数据库,包括9个类别、53个关键词库,共1630000个文档,利用词共现模型和模式匹配两种方法进行检索,本方案的检索效率显而易见。

4 结束语

本文在建立语料库的基础上进行了基于词共现语义分析与敏感词汇的识别,主要优点有:一是语义分析对查询结果进行分析,给用户更好的体验;二是敏感词汇对结果进行筛选,屏蔽敏感词汇。目前,在语料库方面主要借鉴了少纳言语料库和中文语料库,未建立自身的语料库,考虑更多语义因素是下一步要研究的重点。

猜你喜欢

语料库网页语义
基于HTML5与CSS3的网页设计技术研究
语言与语义
《语料库翻译文体学》评介
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
基于JAVAEE的维吾尔中介语语料库开发与实现