APP下载

基于SQL的教育资源数据库索引自动推荐模型

2022-11-28秦慧娟

自动化技术与应用 2022年10期
关键词:文档网页检索

秦慧娟

(上海第二工业大学附属浦东振华外经职业技术学校,上海 200120)

1 引言

当前大多数教育资源网支持基于关键字的检索,但是实际上,用户有时只能模糊地描述查询口号,而且输入的关键字也不能和数据采集时存储的数据完全一致[1]。因此,研究面向教育资源数据库的索引推荐方法具有十分重要的意义。

为此,大量研究学者提出了教育资源推荐方法。其中,基于模糊匹配原理的推荐模型,需要支持关键字的模糊匹配,才能检索到类似用户输入的资源信息。虽然该方法能够获得大量优质的教学资源,但该过程缺少有效的管理体系和工具,使资源的检索与利用成为制约资源效益发挥的瓶颈。而且在基于模糊匹配原理推荐模型中,每个关键字的查询结果集是通过查找每个集合的交集得到的,尽管在一定程度上可以支持模糊匹配,但数据推荐模型的召回率较低。当进行多个关键字查询时,每一个关键字的查询结果都要进行查询,增加了查询延迟时间和网络通信。基于超立方体原理的多关键字查询模型,当实现多关键字检索时,请求发起节点与根节点之间的路径长度不一定小于搜索范围内其他节点之间的路径长度,存在推荐准确率较低的问题。除此之外,还有学者提出了面向关系数据库的智能索引调优方法,采用机器学习方法建立索引量化模型,运用该模型对索引的查询结果进行估计。采用最优索引选择算法选取满足约束条件的最优索引组合。实验结果表明,该方法能够在不同场景下对数据进行优化索引,但是推荐准确率较低[2-4]。

针对当前教育资源数据库索引推荐方法存在的问题,提出了基于SQL 的教育资源数据库索引自动推荐模型。该模型在满足系统可扩展性和用户请求响应速度的同时,能在较短的时间内向用户返回更多的信息。

2 自动推荐模型体系结构

搜索引擎带来的大量冗余信息浪费了使用者大量的时间,同时由于信息量巨大,也给软件开发者查找相关信息增加了许多不便[5]。为了更好地利用现有教学资源,满足人们对信息检索的需求,迫切需要一个智能化的基础教育搜索引擎。图1显示了系统的结构,主要由采集器、控制器、教学资源库、索引器、搜索器以及用户界面等部分组成。

2.1 索引器

利用网络爬虫技术原理在网络中抓取所有网页[6-7],具体是指从网站的某一页(通常为首页)开始,阅读网页的内容,查找网页中的其他链接地址,然后发现下一页通过这些链接地址进入,这个循环将持续到该站点的所有页面被爬取。索引器的功能主要是获取教学资料的信息,从中提取索引项,用它们来表示文档,生成索引表。对搜索引擎而言,选择索引关键词是一个更为核心的问题[8]。索引词在搜索引擎中被选择时,虽然检索时需要的存储量较小,但每个索引词出现的频率较高。因为未注册的单词很多,所以很明显不适合将它们引入索引词汇表。所以,用统计的方法过滤未注册的单词。

统计学词汇获取是一种识别未注册词汇的方法,在大型语料库中,有一定表达能力的词往往不会孤立出现,而是有一定的统计规律。采用统计学的方法,利用词汇间的共现信息,自动获得词汇。从形式上讲,一个词是一个稳定的组合,因此,在上下文中相邻的词同时出现的次数越多,就越有可能构成一个词。所以,词与词结合的频率或可能性更能反映出构词的可靠性。在语料库中计算相邻共现符的组合频率,计算它们的互现信息,从而确定两个汉字之间的互现信息,计算它们相邻的共现概率。

如果汉字组合的密闭性超出了某一阈值,就可以认为这个短语构成了一个词,分析网页和分词之后,需要使用倒索引技术来索引分词,包括正向索引和反向索引,见图2。

如图2所示,在分析Web页面之后,得到一个用页码作为主键的向前索引表。建立反向指标,要加速重组过程,整个过程必须在记忆中完成,在数据量很大的时候,有足够的内存以确保创建过程一次性完成,在增加数据量后,可采用先分组后合并的策略。指数模块的策略是将指数分成k组,这取决于计算机系统的内存大小,因此每组操作所需的内存小于系统能够提供的最大内存。采用倒排索引生成算法生成了k组的倒排索引,合并k组索引,将相同索引项对应的数据合并到一起,最后得到以该索引项作为主键的倒排文件索引,即反向索引。

2.2 控制器

控制器着重解决整体效率和质量问题。所谓效率,就是用尽可能少的资源、计算机设备、网络带宽和时间来收集预定的网页。值得注意的一点是:即使用计算机收集网页,也要注意并行开发和利用。在安排使用多台计算机组成集群的同时,共享导出网络带宽。随着设备数量的增加,该网络带宽域很快成为环境的瓶颈。另外,不要让收集器启动的爬行过程只专注于少数站点。若过于注重某些网站的收集活动,或在短时间内从某个网站上抓取过多的网页,则可能导致所谓的质量问题。网页爬行器不能过于频繁地抓取网页,从而影响网站用户的正常访问。因为一定时间内收集到的网页数量有限,所以尽量多搜索重要的网页,不要错过那些非常重要的网页。识别网页是进行结构挖掘的关键,尽可能多地使用主页,然后对主页进行首轮搜索,可以提高总体搜索效率。

2.3 用户接口

用户接口的功能是输入用户查询信息,显示查询结果,并为用户提供相关反馈机制。其主要目标是方便用户使用搜索引擎,并通过各种途径获得高效、及时的信息,从而提高效率。用户接口的设计与实现采用人机交互的理论与方法,完全符合人类的思维习惯,通过智能搜索引擎的用户界面,用户可以用自然语言提交查询请求,系统会根据用户的需要对分词系统进行分解,得到需要查询的词。使用者输入界面可分为简单界面和复杂界面,一个简单的界面提供了一个供用户输入查询字符串的文本框,而一个复杂的界面则允许用户限制查询条件,如逻辑运算、相似度、域名范围、位置、信息显示时间、长度等。

3 推荐流程设计

3.1 基于SQL教育资源数据索引库构建

在查询系统中建立数据索引数据库的过程包括以下主要部分:用户给出查询要求的条件,索引系统根据查询要求检索与查询要求相关的文档子集,获取的文档基于与查询条件是否相关以及相关性进行排序,排序后的文档最终返回给用户。图3显示了一个基于SQL基础资源的数据索引数据库。

在图3所示的索引库支持下,确定影响索引的因素,查询关键词、连接操作字段、值域中值的个数;值域中值的概率分布、字段更新频率、索引维护代价、数据库插入删除操作频率。基于这些影响因素,确定在字段上建立索引,由此完成数据库索引的构建。

3.2 文档查询与处理

创建索引前,文档统计组件需要汇总和记录与文字特征对应的统计数据,然后利用这些数据计算文档得分。根据排序算法和检索模型确定用户希望获取的数据。图4显示了具体的文档查询与处理流程。

(1) 分析查询以及文档

将查询的分析和处理与文档的处理步骤相对应,即将查询中的单词转换为与处理文档文本时生成单词相同的形式,否则,排序时就会出错。文本分析主要包括词法分析,即对文本内容所包含的语素信息、词汇信息和短语信息进行识别,文件分析的结果是文件对应的结构和相关内容的表示;

(2) 去除停用词

停用词是一些高频词,或者是文本信息,比如在文档文件中使用的介词。这两个功能词对句子结构有帮助,有助于描述文章中的主题,去掉这两个词,既可以减小索引的大小,又能够减少相应的内存空间占用,还可以提高索引的速度和效果;

(3) 提取词干

在检索过程中,词干提取能使信息检索与相关语义匹配。若一词有形变,或源自多种形式,则可将其简化为同一词干。

3.3 推荐模型构建

为节省空间,应尽可能使用最小整数数据。一个tinyint数据只占用一个字节,一个int数据占用四个字节,也许这并没有太大的不同,但在更大的表中,字节数增长得非常快。另一方面,一旦创建了一个字段,修改它是非常困难的。所以,为安全起见,应该预测可能需要存储字段的最大值,然后选择合适的数据类型。图5中显示了基于SQL的查询语言结构。

要对存储在字段中的数据进行更好地控制,可以使用数值表示数字的整数部分和小数部分,并据此建立了推荐模型。

设样本集为X={x1,x2,…,xn},需要估计参数为α,由此确定隐含变量,似然函数公式为:

式(1)中,L(α)表示参数α相对于样本集X的似然函数;n表示样本数量;p 表示隐含变量;i表示数据类型。参数α的数学表达式为:

采用对数求和方法对似然函数进行转化,由此得到对数似然函数表达式:

根据对数似然函数表达式得到自动推荐模型:

式(4)中:Ra表示所需教育资源推荐结果;T表示所需样本集合,该值越高,自动推荐结果越精准,由此完成数据库索引自动推荐。

4 实验

在Intel(R) Core(TM) CPU 226 GHz CPU环境下对基于SQL的教育资源数据库索引自动推荐模型进行实验验证分析。

4.1 实验数据集

在CitelLike 论文资源网站上,用户可以自由提交论文,同时添加自定义标签,方便其他用户浏览和查询。在该平台上共收集7800533 篇论文,以用户行为数据为基础,进行实验分析,平台数据集如表1所示。

表1 CitelLike实验数据集说明

4.2 实验指标

评价推荐结果指标分别为准确率和召回率,在实际推荐方法中,选取不同推荐列表长度,使用基于模糊匹配原理推荐模型、基于超立方体原理推荐模型和基于SQL推荐模型统计一组准确率和召回率,通过分析准确率曲线和召回率曲线,比较三种模型推荐效果。

设用户集合为U,对于U个用户推荐方法得到的推荐资源集合为Q(U),用户实际索引行为资源集合为W(U),由此计算准确率(Precision)和召回率(Recall):

4.3 实验结果与分析

4.3.1 准确率

推荐准确率决定了推荐效果,分别使用基于模糊匹配原理推荐模型、基于超立方体原理推荐模型和基于SQL推荐模型计算推荐准确率,对比结果如图6所示。

由图6可知:使用基于模糊匹配原理推荐模型推荐准确率在查询次数为30次时,达到最高为63%,在查询次数为90次时,达到最低为21%;使用基于超立方体原理推荐模型推荐准确率在查询次数为10次时,达到最高为69%,在查询次数为90次时,达到最低为32%;使用基于SQL推荐模型推荐准确率在查询次数为10 次时,达到最高为95%,在查询次数为90次时,达到最低为86%。通过上述分析结果可知,使用基于SQL推荐模型推荐准确率较高。

4.3.2 召回率

分别使用三种模型分析召回率,对比结果如表2所示。

表2 三种模型推荐召回率对比分析

由表2可知,使用模糊匹配原理推荐模型召回率最高为0.64,基于超立方体原理推荐模型召回率最高为0.61,基于SQL 推荐模型召回率最高为0.95。由此可知,使用基于SQL推荐模型召回率较高。

5 结束语

建立了基于SQL的教育资源数据库索引自动推荐模型,实现教育资源的自动推荐,方便了教育资源的检索。将教育资源数据库的检索引入到SQL教育资源查询过程中,能对查询结果进行有效的反馈和检索。

该模型虽然实现了教育资源信息检索的功能,提供了相应的工具,但是随着学习对象元数据内容包装系统的开发和教育资源信息工作的规范化,教育资源元数据信息检索在基于SQL的基础上不断扩展和深化。在发展过程中,也暴露出一些不足之处,需要加以改进:只考虑纯文本信息的元数据片段,搜索内容,从用户的角度来看,总是希望找到与用户所寻找的内容更一致的最大可能性。元数据片段中所有数据类型基于内容的信息检索技术应得到改进和实现,而不应仅仅基于纯文本资源。

猜你喜欢

文档网页检索
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于HTML5与CSS3的网页设计技术研究
CNKI检索模式结合关键词选取在检索中的应用探讨
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
基于HTML5静态网页设计
英国知识产权局商标数据库信息检索
搜索引擎怎样对网页排序
Word文档 高效分合有高招