基于案例推理的个性化推荐系统数据源研究
2017-07-12孙洁丽朱智清次晓峰朱蔓莉
孙洁丽,朱智清,次晓峰,朱蔓莉
(1.河北经贸大学信息技术学院,河北 石家庄 050061; 2. 河北省工业和信息化厅,河北 石家庄 050071)
基于案例推理的个性化推荐系统数据源研究
孙洁丽1,朱智清1,次晓峰2,朱蔓莉1
(1.河北经贸大学信息技术学院,河北 石家庄 050061; 2. 河北省工业和信息化厅,河北 石家庄 050071)
大数据时代,海量资源给用户快速从浩瀚的资源中获取所需信息带来了难题,个性化推荐系统的市场需求越来越大。案例推理技术在个性化推荐系统中的应用还很少, 因此,提出了基于案例推理的个性化推荐系统数据源建设方案。分析了数据源的组成,建成了包括用户案例库和知识库的个性化推荐系统数据源,为案例推理提供了一定的基础数据。系统研究结果表明,数据源建设对系统推荐结果个性化程度的质量具有重要意义。
个性化推荐系统;数据源;案例推理;案例库;知识库
1982年美国耶鲁大学Schank教授首先描述了案例推理(Case-Based Reasoning,CBR)[1]。案例推理是人类形象思维、逻辑思维和创造思维的综合表现形式[2]。一般情况下,案例推理研究采用4R认知模型:案例检索 、案例重用、案例修正和案例保存[3]。目前,案例推理是人工智能领域的重要研究方向之一,已经得到了许多应用,如告警[4]、故障诊断[4]、预测[5,6]、决策[8,9]、应急系统[10,11]等。但是,在图书和档案管理方面的应用还不是太多。
普遍被人们接受的推荐系统的定义是 Resnick和Varian的定义[12]。个性化推荐系统(Personal Recommender System, PRS)是一种应用系统,能够帮助用户决定购买商品,从而完成购物[13]。通过对用户行为和偏好进行分析,可以针对性地向用户进行“个性化推荐”商品或信息,个性化推荐系统的研究主要集中在推荐算法和工程实践两个方面[14]。常用的推荐算法有基于过滤的推荐;基于知识的推荐;基于内容的推荐;基于人口统计学的推荐;混合推荐技术[14,15]。在个性化服务方面,2016年7月,中国互联网络信息中心(CNNIC)发布的《第38次中国互联网络发展状况统计报告》指出:互联网企业更加注意对用户进行多元化、差异化的服务。由此可见,为用户提供个性化的服务已经受到普遍重视。已经有大量的个性化推荐算法[14-18]被提出,但是,将案例推理结合个性化推荐应用到图书和档案管理中的算法还很少。
1 个性化推荐系统的数据源
数据源是提供个性化推荐系统所需要数据的原始媒体即数据的来源。本文研究的推荐系统数据源主要来源于用户行为日志,根据用户行为日志中的记录数据生成推荐的案例库,得到推荐系统的数据源。
1.1 用户行为日志数据
用户行为是推荐系统的基础,用户的信息行为是推荐系统产生推荐的重要数据源。因此,用户的信息行为是推荐系统案例数据获取和分析的重要内容。日志数据由推荐系统获取用户行为而创建,日志主要记录用户行为。日志记录的具体内容有:标识码,行为类型和行为内容,用户对推荐文档项的操作行为类型,用户操作的推荐文档项标识码,用户对推荐文档项的操作时间,用户对推荐文档项的反馈信息。
1.2 生成用户行为日志数据
用户行为日志主要记录系统用户使用的行为数据,系统根据用户行为生成日志记录并写入日志。生成用户行为日志过程为:系统根据用户行为信息记录用户行为相关的信息,生成用户日志记录,如果记录能够写入用户日志,则生成日志,相反,如果由于存储空间不足等原因使记录无法写入用户日志,则提示写入日志失败的提示信息。生成用户行为日志过程流程图如图1所示。
图1 用户行为日志生成流程图
2 个性化推荐案例库建设
本文研究的推荐系统是利用案例进行推荐,案例是产生推荐的主要数据源,基于案例推理的个性化推荐系统案例库建设方案是推荐系统的一项基础数据工作。基于案例推理的个性化推荐系统中,案例库服务于整个推理过程,是其它各个模块进行工作的基础。推荐系统采用案例库组织系统案例,案例库建设是案例推理的关键。
2.1 用户行为日志数据分析
案例库建设首先进行用户日志数据分析处理,把用户日志文件中无效的信息删除,获取有效用户行为数据存入用户暂存数据库中。
用户日志分析的步骤为:
(1)输入待分析的日志的日期,根据日期找相应的日志文件,如果找到相应的日志文件,则进行步骤(2),否则重新输入待分析的日志的日期。
(2)读出用户日志文件记录,如果暂存数据库有该标识记录,则在该标识下添加一条新纪录,否则,创建该标识的数据记录,然后再在该标识下添加一条新纪录。
(3)步骤(2)中标识添加的新记录添加成功,则日志数据写入用户数据暂存库,否则抛出异常。用户日志分析流程图如图2所示。
图2 用户行为日志分析流程图
2.2 用户案例库建设
用户案例生成是对用户暂存数据库进行处理。提取有效数据存入案例库,有效数据是指已经分析处理过的数据,分析用户暂存数据库的数据,读取有效用户数据;清除用户暂存数据库中的无效数据;把检索字符串记录到检索字符串表中,则案例库就插入一条案例记录。用户案例生成过程如图3所示。
图3 用户案例生成过程图
3 知识库建设
知识库是一种特殊的数据库,知识库是领域专家的智慧结晶,这些专家具有领域学科知识,熟悉推荐系统采用的分类法,有一定的经验,如能够提取概念、处理多主题的问题等,在进行文献资源数据和用户案例数据分类的过程中发挥着重要作用。
推荐系统的知识库建设步骤是:
(1)确定要采集的知识范围。
(2)采集已经确定的知识范围内的数据。
(3)设计分析器,并利用分析器对采集的数据进行分析。通过分析器的分析,得出特征词、分词词典和系统参数等信息,这些信息需要展现给专家审核,审核通过后再进行步骤(4)。
(4)设计推理器,利用推理器对采集的数据进行分类。根据特征词等信息,利用设计的推理器对数据进行分类 ,在设计推理器的过程中,要把推理器推理的分类结论,展示给领域专家,经过领域专家审核后,最终确定数据类别,通过实验改善所设计的推理器,提高其分类的准确率。
(5)将经过专家审核的数据分类结果存入知识库。知识库可以辅助支持基于案例推理的个性化推荐推理过程。在基于案例推理的个性化推荐系统中,关键是不断收集、规范和整理领域专家的知识和经验,以形成推荐系统知识库。
4 结语
基于案例推理的个性化推荐系统实现思想是把用户案例数据和文献资源数据进行分类,以便于个性化推荐系统组织相关案例数据。基于案例推理的个性化推荐系统的关键技术在于案例的表示、案例的获取以及案例的组织和应用,基础数据工作是设计与建立案例库和知识库。本文建立的案例库和知识库是产生个性化推荐的主要数据源,对系统推荐结果个性化程度的质量具有重要意义。
[1] R.Schank,Dynamic Memory[M].NewYork:Cambridge University Press,1982.
[2] R.Schank,R Abelson,Goals and Understanding[M].Erlbanum:Eksevier Science,1977.
[3] A Aamodt, E Plaza.Case-Based Reasoning: Foundational Issues, Methodological Variation, and System Approaches [J].AI Communications, 1994,7(1):39-59.
[4] 张素琪.案例推理关键技术研究及其在电信告警和故障诊断中的应用[D].天津:天津大学,2014.
[5] 阎馨,付华,屠乃威.基于PCA和案例推理的煤与瓦斯突出动态预测[J].传感技术学报,2015,28(7):1028-1034.
[6] 王兰英,郭子雪,张玉芬,等.基于直觉模糊案例推理的应急物资需求预测模型[J].中国矿业大学学报,2015,(4):775-780.
[7] 陶连金,王焕杰,田健,等.基于AHP案例推理法的地铁施工地表沉降预测方法[J].黑龙江科技大学学报,2016, 26(2):202-206.
[8] 张薇,何瑞春.基于案例推理的交通疏导辅助决策方法[J]. 计算机工程与设计,2014,(10):3621-3625.
[9] 杨丽,周雪忠,毕斓馨,等. 基于案例推理的中医临床诊疗决策支持系统[J]. 世界科学技术-中医药现代化,2014,(3):474-480.
[10] Liao Z L, Mao X W, Hannam P M, Zhao T T.Adaptation methodology of CBR for environmental emergency preparedness system based on an Improved Genetic Algorithm[J].Expert Systems with Applications,2012,39(8):7029-7040.
[11] 蔡玫,曹杰,于小兵.基于应急实例本体模型的应急案例推理方法[J].情报杂志,2016,(6):183-188.
[12] Resnick P, Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[13] DIAS M B, LOCHER D.The value of personalized recommender systems to e-business:a case study[C].Proc of the 2008 ACM Conference on Recommer System,2008:291-294.
[14] 胡于响.基于Spark的推荐系统的设计与实现[D].杭州:浙江大学,2015.
[15] 牛车攀.基于用户细分及组合相似度的个性化推荐算法的研究与实现[D].长春:长春工业大学,2016.
[16] 金志福.基于大数据的教育资源个性化推荐系统设计与实现[D].北京:中国科学院大学,2015.
[17] 乔亚飞,张霞,张文博.智能图书系统中的个性化推荐[J].计算机系统应用,2016,(9):188-192.
[18] 黄义文.大数据环境下图书馆学术资源个性化推荐服务研究[J].图书馆学刊,2016,(7):78-80.
Research on data source of case-based reasoning personal recommender system
SUN Jie-li1,ZHU Zhi-qing1,CI Xiao-feng2,ZHU Man-li1
(1.Information&TechnologyCollege,HebeiUniversityofEconomics&Business,ShijiazhuangHebei050061China;2.IndustryandInformationTechnologyDepartmentofHebeiProvince,ShijiazhuangHebei050071,China)
In the era of big data, a puzzle has been brought to users to get the information which they needed from the massive resources quickly.The market demand of personal recommender system is increasing.The application of case-based reasoning technology in personal recommender system is very little. Thus, the construction scheme of data source for personalized recommender system based on case-based reasoning is proposed.The composition of data sources are analyzed.The data source of personal recommender is build, including user case base and knowledge base of personalized recommender system,some basic data is provided by it.Research results show that data source construction have important implications for quality of the recommend results of system.
Personal recommender system (PRS);Data source;Case-based reasoning;Case base;Knowledge base
2017-03-01
河北省科技计划项目(15454704D)
孙洁丽(1969-),女,博士,教授,研究方向: 个性化推荐、智能检索和数据挖掘.
1001-9383(2017)01-0008-06
G350.7;TP39
A