计算机专业信息服务的智能化应用研究
2021-03-22马刚李红云
马刚 李红云
摘要:高校在教学过程中会产生大量的数据,很多数据都是孤立的存储于计算机中,数据之间缺少语义关联,无法满足个性化、多样化的信息检索服务。本文对人工智能化技术进行了综合论述,分析各种智能化技术的特点,优先采用基于知识图谱技术作为高校学生智能化信息处理平台,以本人所在学校智能制造学院为例,利用已存的学生数据信息表为载体,依据学生学习需求服务为原则,试图建立一种智能化专业学习信息处理系统模型。
关键词:人工智能;知识图谱;信息处理系统
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2021)06-0135-03
1概述
在传统办公过程中,学校会产生出大量的文件、班级表、课程表、成绩单等数据,很多数据都是孤立被存储在计算机硬盘中,如果遇到一个具有复杂功能的查询,就需要很多人在同一时间段查询各种数据表,经过认真分析,最后才能找到所需的数据。这种较低的办公效率会极大地影响学校信息化系统建设,不利于学校的快速发展。基于当前人工智能[1]技术的不断发展,高校的信息化管理应当不断向智能化办公方向发展。本人以我校智能制造学院为例,本文首先研究了基于人工智能的信息检索技术,汇总学生的各种数据信息作为数据源,依据教务管理材料推导出语义检索的标准规则,探讨一种面向学生学习信息需求服务的智能化办公软件系统模型。
2信息的智能化处理技术理论和方法
人工智能是九十年代初开始兴起的一种智能化处理数据的学科,主要包括机器学习、数据挖掘、模式识别等内容,它基于大量的计算机智能算法而得到人们期望的最优数据。目前该学科已经广泛应用于图像处理、文本处理、语言处理、机器人系统等领域。人工智能技术构建具有良好的判断能力,理解能力和学习能力,同时这也是人们开发人工智能系统,开展智能化信息技术研究的根本目标。利用人工智能算法(关联规则、模糊理论、神经网络、知识图谱等)对原始数据信息进行采集和综合化加工处理,最终得到智能化决策结论。
2.1模糊理论
美国人L.A.zadeh在二十世纪中期创立了模糊集合理论[2],主要内容包括模糊逻辑、模糊推理、模糊控制、模糊计算等,它主要用于解决现实问题中的抽象模型分析与推理,后来被归纳为数学科学中的一个分支学科,成为模糊问题的主要解决理论和方法。当前人们常用的模糊计算方法主要有:模糊统计法、模糊分步法,熵权法。熵权法揭示的原理:如果与指标相关的熵值越小,则此指标对综合评价的影响较大。这种思想被应用在信息检索中具有较高的应用价值。例如:一个词语,在不同的句子中往往具有多种含义,如果把句子看成是该词语的背景,不同的背景就决定了该词语的一种含义。在分析句子词语的含义值,对该词语计算出其在句子中背景的信息贡献量,得到熵值作为特征值用于确定词语的某一种含义,提高了信息检索的水平。
2.2人工神经网络
BP神经网络[3]算法能学习和存储大量输入—输出模式映射关系,为个性化查询带来较高的效率,但不足的是需要大量的样本数据,才能确定该算法中用到的多个参数模拟值,同时,该算法设计很复杂,当客户端大量访问需要较高的服务器硬件资源。
2.3 知识图谱
为了给大众提供更加精准的信息检索服务,谷歌公司首次提出“知识图谱”,其观点认为世界是由大量的实体和实体之间的关系组成,从而达到基于语义级别的智能化信息检索,目前基于知识图谱[4]的研究在语义分析、智能推理、智能互答等领域都有了重要突破。
知识图谱起源于语义网络,以“实体-关系-实体”作为基本单元,大量的关系把大量的实体彼此联系起来,便构成了知识网络模型。知识图谱目前已经广泛应用于教育、企业、科研等。
知识图谱的研究内容[5]主要包括:知识图谱表示与建模(实体建模)、知识存储、知识抽取与知识挖掘、知识图谱融合、知识图谱推理、语义搜索 、知识问答等核心内容。
通常,知识图谱技术的核心研究对象是本体,本体由五个基本构成元素:类(Class)或概念(Conception),关系(Relations),函数(Functions),公理(Axioms),实例(Instance)。
因此,本体可以看成是一种五元组:O = ( C , P , I , H, F ),其中,C代表概念集合;P代表属性集合;I代表个体集合即实例集合;H代表概念层次的结合;F代表函数集合。
构建知识图谱需要大量的数据源,如果使用自底向上的方法可以获取知识图谱中的实体概念、属性、类别、关系等信息,一般情况下,通过采集数据源和数据处理这2个过程就可以构建知识图谱的首要工作,在结合7步法可以有效识别出实体。
关系抽取是基于知识图谱某一领域中,寻找实体与实体之间的关系,可以使用实体对关系预測的方法进行判定,例如:一名计算机专业学生王二参加福建省计算机程序大赛,可以推测实体(王二)与实体(计算机程序大赛)是成员关系。
3需求分析
构建计算机专业知识图谱的最终目标就是为学生提供基于语义的智能化专业信息检索服务[6],让学生理解学习哪些课程、如何学习专业课程、是否达到专业学习水平等话题。本人对我院约500名学生进行问卷调查,列举出学生提出的各种学习问题,收集了大概400份左右的反馈信息。通过这次调研,获取学生主要关心的专业课问题,进行汇总、整合,对学习需求问题进行分类。需求分类如下:(1)课程学习需求:计算机有哪些课程?这些课程的内容是什么?课程内容的目标、特点、课程之间的关系?学习方法是什么?是否具备参加计算机专业期末考试的条件?(2)专业技术考试需求:如何评价自身的计算机专业水平?是否具备参加计算机专业资格考试的条件?(3)比赛需求:是否具备参加计算机专业比赛的条件?(4)毕业需求:是否符合计算机专业毕业条件?是否存在未修的公共课课程、专业课程?总学习积分是多少,是否达标?
张甜甜在论文中给出数据结构课程实体研究成果[7],里面包含有大量知识点本体:算法、排序、有向树、递归等,这些本体中部分本体被引入了本文中作为衡量课程难度和核心内容的本体。本文列举面向学生学业信息的知识图谱中常用本体:学生、学生成绩、课程、专业基础课程(概念、公式、算法等)、专业核心课程、专业必修课程、专业非必修课程、考试、公共课考试、专业课考试、比赛、国家级比赛、省级比赛、市级比赛、校赛。
4系统实施
4.1 MySQL表导入Neo4j系统
一个知识图谱里面通常包含有大量的实体、实体的属性、实体之间的关系,这3种信息是无法直接存储在关系数据库当中的,为此,人们开发出了一种基于图形结构方式的数据库软件系统Neo4j[8],它可以存储上亿个实体,并且同时满足企业不断变化的业务需求,具备极高的数据检索性能,支持大规模的数据事务管理,目前已被应用到大量的企业智能检索系统中。
知识图谱中的本体模型通常是基于RDF三元组表示的,要把本体数据模型存储到Neo4j数据库中,需要将本体和Neo4j数据库中创建的节点相匹配,具体操作过程主要包括3步骤:对本体解析,把三元组RDF模型数据映射到Neo4j图节点模型,对Neo4j图节点进行存储。最后把基于外键联系的传统关系型数据库MySQL[9]迁移到基于关系关联的图形数据库Neo4j。
在Neo4j数据库中存放完实体模型后,结合我院数据库服务器MySQL中存放的历年学生信息表、成绩表、课程表等具体数据,提取MySQL数据表中的主键和字段,根据主键在Neo4j数据库中建立实体节点,根据字段在实体节点中建立属性,重复该操作,把所需的MySQL数据表中的数据全部转化成Neo4j数据库中的实体值和属性值。根据MySQL数据表中的外键,在Neo4j数据库中建立所有的实体节点之间的联系(即实体之间的关系)。这里给出MySQL数据表:
(1)学生档案表:身份证号码、学生姓名、籍贯、出生地、性别、常住地址、电话、备注;(2)学生信息表:年级、专业、学生编号、姓名、性别、电话、QQ号,宿舍号、学习状态;(3)学生课程表: 课程编号、课程名称、任课教师、教师编号、课程学分、课程性质;(4)课程信息表:课程编号、课程名称、学分、课时量、课程性质;(5)学生课程成绩信息表:学生编号、课程编号、平时成绩、期末成绩、综合成绩;(6)技能考试表:考试编号、等级、考试名称;
本文使用MySQL-Workbench6.3软件工具画出与学生学习管理相关的数据表图,如图1所示。由MySQL数据表给出的数据被转换到Neo4j数据库中后,则得到了计算机专业信息的知识图谱实体和实体关系,本文截取了部分实体和实体关系,如图2所示。
4.2 建立知识推理规则集
在每学期开学时,根据已经设定好的专业教学目标,任课老师准备好相关的教材、题库、考试方案、教案、授课计划等很多教学相关资料。基于知识图谱的语义检索,需要人工方式来根据学校教育制度,专业技术资格要求、毕业条件要求、考试资格要求、学生生活手册要求,把这些制度和要求转换成语义检索的规则集。本人搜集了与学生学业相关的教务管理材料,经过人工分析,获取如下几个方面的资格条件实体规则库模型公式。
(1)考试规则:在无作弊的前提下,学生一门课程的期末总成绩不低于60分,课程通过,且获取该课程的学分数。(2)毕业条件:全部课程均通过,达到相应的学生毕业总积分数,且无其他不良的记录。(3)参加比赛资格: a1*专业课课程总分数+ a2*专业课课程总分数+…+ an*专业课课程总分数+b*软件项目成绩。
(4)参加专业技术资格考试:a1*专业课课程总分数+ a2*专业课课程总分数+…+ an*专业课课程总分数。
举例说明:某一个学生要参加国家计算机软件水平考试——软件设计师(中级),其知识能力计算方式:a1*计算机文化课程分数 + a2*软件工程课程分数+ a3*数据结构课程分数 + a4*Java程序设计课程分数 + a5*计算机组成原理课程分数 + a6*计算机操作系统课程分数 + a7*计算机网络课程分数。相关说明:以上列举的课程内容都属于软件设计师考试的范围,a1至a7这7个参数值可以使用机器学习算法进行确定。
4.3 搭建系统平台
基于人工智能技术的信息检索具有一定的智能运行思维,其能够根据用户的浏览习惯和需求,进行相关信息的智能化推理和推送,使得用户能够在庞大的信息数据中快速获取所需信息。计算机专业信息检索智能平台[9]搭建需要引入Web技术,学生在JSP Web页面上输入关心的问题或话题,对句子进行分词处理,得到相关的实体,利用知识图谱进行语义推理,在neo4j数据库中进行语义检索,把处理查询结果在Web界面显示并反馈给客户端。下图3给出学业智能信息检索系统运行模型图。
参考文献:
[1] 苏俊.人工智能技术应用与发展趋势[J].电子技术与软件工程,2018(3):250.
[2] 李小文.基于模糊理论的医生综合评价系统的研究与开发[D].杭州:浙江理工大學,2019.
[3] 徐恺英,王硕.利用BP神经网络算法优化个性化搜索引擎[J].情报理论与实践,2011,34(2):100-102.2:3-7.
[4] 张甜甜.基于数据结构的知识图谱构建及其可视化应用的研究[D].上海:上海师范大学,2020.
[5]邓志鸿,张铭.Ontology研究综述[J].北京大学学报,2002,38(5):730-738.
[6] 王飞,张应中,罗晓芳.基于SQWRL的本体知识库语义查询[J].计算机技术与发展,2017,27(2):15-19,24.
[7]曹皓伟.基于Neo4j生物医药知识图谱的构建[J].计算机时代,2020(6):1-10.
[8] 曲小纳.基于PHP技术与MYSQL数据库技术的Web动态网页设计[J].电脑知识与技术,2020,16(13):50-51.
[9] 苏翔.基于知识图谱的“数据结构”教学资源平台的构建研究[D].北京:北京林业大学,2019.
【通联编辑:闻翔军】