基于本体的农村信息化服务平台用户模型
2020-08-28国帅司海平
国帅 司海平
摘要:农业是我国社会经济发展的支柱性产业之一,农村作为农业活动的基地,其信息化建设将推动传统农业的种植生产、监控管理、市场营销等飞速发展。以农村信息化服务平台为研究对象,围绕此平台利用OWL、Protégé软件构建农业领域本体,基于农业领域本体与平台用户注册信息构建用户初始模型,计算用户对平台资源的初始兴趣度;然后利用正面学习与反馈学习方法,从用户日志与用户反馈中获取用户对平台资源的动态需求,进而对初始兴趣度进行更新,以更为准确地贴合用户动态知识需求,构建动态变化的用户模型。
关键词:领域本体;农村信息化服务;用户模型
中图分类号: S126文献标志码: A文章编号:1002-1302(2020)13-0251-05
收稿日期:2019-08-13
基金项目:河南省科技惠民计划(编号:152207110002)。
作者简介:国帅(1995—),男,河南汝南人,硕士研究生,从事农业信息技术研究。E-mail:631768265@qq.com。
通信作者:司海平,博士,副教授,从事农业信息化、农业大数据、计算机应用技术研究。E-mail:pingsss@126.com。农村信息化服务平台是智慧农业的重要构成部分,也是适应“三农”(指农业、农村、农民)发展和精准扶贫要求的农村信息化支撑体系,依托数据库管理技术对农业领域的销售动态、市场供求、政策法规、农业情报、科普知识、实用技术等进行整合集成与统筹管理,为农技人员、涉农企业、批发市场、种养专业户以及广大农民提供个性化、交互式的农业综合信息检索服务[1]。农村综合信息服务平台所面向的服务对象众多,所管理的涉农信息庞杂、所服务的地域广泛、所面对的信息需求多样,如何为平台用户提供精准的农业信息服务,有效满足平台用户特定的知识需求是当前农村信息化服务平台面临的关键问题。当前,计算机领域内常用的检索引擎普遍以用户输入的关键词为数据库检索对象,以关键词的文字正则匹配为核心算法[2],缺乏对关键词的语义理解与关联,更无法针对用户动态、个性的知识需求提供有效的信息服務,检索结果的通用性导致面向特定用户的信息泛滥,用户感兴趣的信息会淹没、流失在海量信息资源中[3]。
用户模型是以用户的身份职业、知识结构、兴趣偏好以及动态需求等为核心所构建的用户画像,是综合描述用户个体差异化特性的模型。基于用户模型所推荐的信息资源更具针对性与个性化,更为贴合用户的实际、潜在的知识检索需求,是当前应对海量信息精准检索与推荐、提高检索结果与用户需求之间重合度的重要方法。当前用户模型构建方法主要分为手工定制、示例建模与自动建模三大类,其中手工定制与示例建模均须依赖用户操作,一方面用户操作的主观能动性直接关系到模型刻画的准确度,另一方面用户参与会降低建模效率,难以实时动态更新用户需求描述模型。自动建模是系统根据用户的各类行为,如检索、浏览、下载等,对用户的需求兴趣点进行捕捉,构建反映用户行为特点与潜在需求的用户模型,其建模客观性与建模效率均较高,且能够根据用户源源不断的行为对用户需求模型进行更新与优化,是个性化推荐系统中最常用的用户模型构建方法。基于本体的用户建模方法是一种典型的自动建模方法,依托对领域内知识的概念化与共享化实现信息的共享与重用,本研究将基于本体的用户建模方法引入到农村信息化服务平台中,以期为涉农信息的精准检索与个性化推荐提供服务支撑。
1农业领域本体构建
1.1本体
本体是对共享概念模型的明确的形式化规范说明,多着眼于某一特定领域,对领域内的知识进行抽象与概念化,使其更具归纳性地对领域内的信息以及信息之间的关联关系进行描述与表达,在不同交流体之间得以有效共享与重用。某一专业领域的本体库受到其固定的知识范围、明确的知识概念等因素影响,本体库的体量以及复杂程度相对有限,通常采用自上而下的构建方法对本体库进行构建[4]。当前在本体库构建中常用的本体描述语言包括资源描述框架(resource description framework,简称RDFS)、本体交换语言(ontology exchange language,简称XOL)、网络本体语言(web ontology language,简称OWL)等,其中,OWL是万维网联盟(world wide web consortium,简称W3C)推荐的语义网技术栈的核心技术之一,在全球广域网(world wide web,简称Web)环境与场景下应用较为普遍,且具有较强的本体表达能力,作为RDFS的拓展版,其预定义词汇功能为用户更为准确地表达专业领域的实体、属性及其相互关系提供了良好的渠道[5]。
1.2农业领域本体
对于农业这一专业领域,本体库是依据农业实体中的相关概念与特征对农业领域进行抽象模型构建而形成的库。当前联合国粮食及农业组织(FAO)已面向不同农业子领域如渔业、食品安全、植物等定义了多个本体库[6],但是面向农村信息化服务平台应用的专门农业领域本体库尚未构建。面向农村信息化服务平台应用的农业领域本体库的构建首先需要对本体描述语言进行选择与确定,考虑到平台中农业信息资源的存储环境多为Web端,OWL自身也具备优质的、丰富的知识表达能力以及灵活的数据建模能力[7],因此,本研究选择OWL作为农业领域本体描述语言,并基于此构建农业领域本体库,具体实现流程如下:
1.2.1概念抽象对平台中农业领域的实体重要概念与主要特征进行描述,主要包括生产对象、农机设备、涉农技术、生产过程等,对上述概念进一步细化,生产对象包括作物、动物、土壤等,农机设备包括耕耘机、插秧机、播种机、脱粒机、抽水机、拖拉机、收割机、打捆机等,涉农技术包括作物种植技术、动物养殖技术、土壤培育技术等,生产过程包括动物生产过程等。
1.2.2概念定义对“1.2.1”节中抽象出的概念进行定义,在本体库中,所有的类都是物品Thing类的子类,上述概念生产对象、农机设备、涉农技术、生产过程的类分别定义为Object、Equipment、Technology、Process,上述概念所具备的属性与详细描述见表1。
1.2.3约束条件定义在“1.2.2”节对农业领域相关实体及其属性定义的基础上,须要对其实体之间的约束条件进行定义,例如Object类中的劳动手段与Technology类中的涉农技术二者之间是互为互逆关系的,通过对实体及其属性构建约束条件,可以更为精确地描述农业领域本体库。
1.2.4本体库构建在农业领域的实体、属性、约束条件等定义的基础上,本研究采用Protégé软件对本体进行编辑,以OWL为本体描述语言,构建面向农村信息化服务平台的农业领域本体库。
(1)本体类定义。
Object类定义:
###http://www.Object_kq.com#Object
:Objectrdf:typeowl:Class.
Equipment类定义:
###http://www.Object_kq.com#Equipment
:Equipmentrdf:typeowl:Class.
Technology类定义:
###http://www.Object_kq.com#Technology
:Technologyrdf:typeowl:Class.
Process类定义:
###http://www.Object_kq.com#Process
:Process rdf:typeowl:Class.
(2)部分对象属性定义。
劳动手段objectTechnology对象属性定义:
###http://www.movie_kq.com#directMovie
:objectTechnologyrdf:typeowl:ObjectProperty;
owl:inverseOf:technologyObject
rdfs:domain:Technology;
rdfs:range:Object;
(3)部分数据属性定义。
生产对象类型objectType数据属性定义:
###http://www.movie_kq.com#objectType
:objectTyperdf:typeowl:DataProperty;
rdfs:domain:Object;
rdfs:rangexsd:enum;
农机设备使用年限equipmentYear数据属性定义:
###http://www.movie_kq.com#equipmentYear
:equipmentYearrdf:typeowl:DataProperty;
rdfs:domain:Equipment;
rdfs:rangexsd:DateTime;
1.2.5创建本体实例“1.2.1”节至“1.2.4”节步骤可以实现基于OWL与Protégé的农业领域本体库构建,在本体库具体应用中,须要对本体与属性进行实例化,创建农业领域本体实例。
2基于本体的用户模型构建思路
用户模型是对用户知识结构与兴趣爱好的综合描述,一方面用户模型要在初始阶段为每个用户个体建立1个初始模型,此初始模型源起于用户知识结构,另一方面用户模型应当伴随着用户兴趣偏好的变化而动态更新,以更为精准地捕获用户个性化需求。基于这一认知,本研究农村信息化服务平台用户模型的构建思路如下。
2.1构建初始用户模型
本研究中,领域本体中蕴藏了农业领域的实体、属性与实体关系等信息,可以通过三元组较为全面、准确地对农业领域实体进行表达与描述,例如农业领域中的Object类与Technology类,二者各自有各自的属性,同时二者又通过“劳动手段”等对象属性进行关联,构成了农业领域知识结构,同时也被作为奠定用户知识结构的基础。
初始用户模型在农业领域知识结构的基础上增加用户个性化信息。对于农村信息化服务平台而言,游客仅能对平台的概括性、介绍性信息进行浏览,不是平台的深度用户,也非本研究关注的研究对象。平台中的重要资源、数据与服务均面向注册用户,本研究以此类深度用户为研究对象,用户个性化信息来源于农村信息化服务平台中详细的用户注册信息,包括用户的职业、年龄、电话、所在地区、研究关注方向等,隐藏了用户个性化特征,例如用户的职业隐性反映其兴趣,研究关注方向可通过与领域本体概念的相似度计算显性反映用户对资源的兴趣度。
2.2用户模型更新
初始用户模型是基于农业领域知识以及用户注册信息构建的基础性、固化性、具有一定个体代表性的用户模型。用户模型更新需要在此初始用户模型的基础上进行优化更新,以更为精准、动态地捕捉用户知识需求。用户模型更新的学习方法主要包括正面学习、观察学习、反馈学习等,对于农村信息化服务平台而言,主要以正面学习与反馈学习为学习方法,一方面,通过平台实时监测、自动保存的用户日志正面反映用户对平台的历史查询检索行为,包括检索关键词、关键词所属兴趣领域、平台资源浏览时间。另一方面,通过用户对平台资源的反馈信息,如“点赞”“评论”等,作为统计数据表达用户对某资源的关注度。
3基于本体的农村信息化服务平台用户模型构建
3.1构建初始用户模型
面向农村信息化服务平台的初始用户模型(UModel)可表达如下:
UModel={Uinfo,Rinfo,Interest}。(1)
式中:Uinfo为用户信息;Rinfo為平台资源信息;Interest为用户对平台资源的兴趣度。
用户信息由用户注册信息构成,可表达如下:
Uinfo={Uname,Uphone,Uage,Uregion,Ujob,Ustudy}。(2)
式中:Uname为用户姓名;Uphone为用户联系方式;Uage为用户年龄;Uregion为用户所在区域;Ujob为用户职业;Ustudy为用户所关注的研究方向。
平台资源信息为农村信息化服务平台所存储与管理的资源信息,可表达如下:
Rinfo={Notion,Resource,Similarity}。(3)
式中:Notion为本研究所构建的农业领域本体中的概念;Resource为农村信息化服务平台中管理的资源与数据;Similarity为资源与概念之间的语义相似度。
3.1.1资源与概念之间的相似度计算资源与概念的相似度计算主要步骤如下。
3.1.1.1平台资源映射到低维向量空间中采用嵌入式转化模型(translating embedding,简称TransE)作为平台资源关键信息的表示学习方法[8],将平台资源关键信息所映射的实体与关系嵌入到一个低维向量空间中,实现实体与关系的向量化表示,其表达式如下:
Resource=(V,E)。(4)
式中:Resource为农村信息化服务平台中管理的资源与数据,V为平台资源中的实体集合(节点集合),E为平台资源中实体间关系的集合(边集合)。
定义基本单元三元组(vh,r,vi),vh与vi为平台资源关键信息的实体(首、尾节点),其中,h和i是首、尾节点编码,r为2个实体(节点)之间的关联关系。将三元组中的实体与关系映射到一个低维向量空间中,希望得到的情况是:首节点的向量与关联关系向量之间相加接近尾节点向量,其表达式如下:
vh+r≈vi。(5)
vh+r越接近vi,则表明实体与关系在低维向量空间中的嵌入越准确。根据上述思想,构建三元组中实体与关系嵌入低维向量空间准确度的评价函数,其表达式如下:
f(vh,r,vi)=‖vh+r-vi‖。(6)
式中:f(vh,r,vi)为准确度评价函数,其值越小,表明准确度越高。
式(6)为针对某一三元组构建的准确度评价函数,而对于平台资源向量化表示而言,需要对所有三元组的准确度评价函数进行综合,则面向所有样本的目标函数可表达为:
L=∑(h,r,t)∈S∑(h;,r,t;)∈S(h,r,t)′max [0,f(vh,r,vi)-f(v;h,r,v;t)+γ]。(7)
式中:S为正确的三元组集合(正样本);S(h,r,t)′为错误的三元组集合(负样本),正样本直接从领域本体中构造获得,负样本则通过从领域本体中构造获得正确的三元组后再对其中的任一特征(首节点实体、尾节点实体、实体间关系)进行修改,模拟构造出错误的样本;γ用于在向量空间中表达正、负样本之间的间距,其值越大表明在向量空间中,正、负样本可以更好地被区分与隔离开,在TransE中γ值通常设置为1;h;为错误的首节点实体编码;t;为错误的尾节点实体编码;L为对领域本体中的所有三元组进行遍历。最终计算得到的准确度与正负样本间距之和,对于正样本而言,f(vh,r,vi)越靠近0表明准确度越高,对于负样本而言,f(v;h,r,v;t)越靠近无穷大表明错误的三元组准确度非常差。
模型训练旨在通过正样本与负样本在模型中的迭代运算,对目标函数中的相关参数进行优化,最终使得目标函数的值达到用户预先设定的目标值(目标函数收敛)0或者迭代次数达到用户预先设定的迭代次数[9]。本研究引入反向传播(back propagation,简称BP)算法对模型进行训练,将同等数量的正样本与负样本作为输入数据输入到初始模型中,引入随机梯度下降算法对模型进行迭代运算,使得模型可以以更快的速度收敛。
随机梯度下降算法的核心理念是,考虑到模型训练过程中巨大的样本量,随机梯度下降算法从大量样本中随机抽取一定的样本作为本次迭代运算的训练样本集,利用有限的训练样本集对模型进行训练,对模型参数进行优化,提高模型訓练与收敛的效率,其实现步骤如下。
步骤1:设置最大迭代次数与收敛值,初始化模型优化参数(γ等),准备好正、负训练样本集N;步骤2:从训练样本集中抽取m个样本,构成本次迭代训练样本集;步骤3:计算偏导数,估算目标值下降梯度;步骤4:对初始化模型参数γ进行更新;步骤5:重复步骤2至步骤4,直到下降后的目标值低于初始设置的收敛值或者迭代次数超过初始设置的最大迭代次数。
是综合描述用户个体差异化特性的模型。本研究将基于本体的用户建模方法引入到农村信息化服务平台中,首先基于农业领域本体与用户注册信息构建初始用户模型,接着利用实时监测的用户日志与用户反馈对初始用户模型进行更新优化,为涉农工作人员提供个性化的平台资源。
参考文献:
[1]张源媛. 供给侧改革背景下农业信息化建设研究[J]. 经济论坛,2019(5):63-68.
[2]黄利斌. 基于本体的农业知识库检索关键技术研究[D]. 长沙:湖南农业大学,2017.
[3]何胜,冯新翎,武群辉,等. 基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J]. 图书情报工作,2017,61(1):40-46.
[4]李贯峰. 基于本体的农业知识建模研究[J]. 软件导刊,2016,15(12):65-67.
[5]苏玉宁,姜艺,陈贺胜,等. 基于Ontology的农业科学领域知识库构建[J]. 江苏农业科学,2018,46(5):194-198.
[6]赵嫦花,米春桥. 大数据时代基于本体的农业信息融合方法研究[J]. 怀化学院学报,2017,36(5):41-45.
[7]周义刚. 基于本体分子的动态知识检索模型及可视化呈现[J]. 图书馆学研究,2018(11):48-56.
[8]阮怀伟,胡松华,陈艳平,等. 基于本体的兴趣模型和语义相似度计算方法的研究[J]. 电脑知识与技术,2018,14(20):183-185.
[9]魏同,李绍稳,耿凡凡,等. 基于领域本体的用户兴趣模型构建方法研究[J]. 计算机技术与发展,2017,27(3):65-69.张净,张涛,郭洪波. 基于窄带物联网的中药材种植智能测控系统设计[J]. 江苏农业科学,2020,48(13):256-264.doi:10.15889/j.issn.1002-1302.2020.13.052