国内基于大数据的信息推荐研究进展:核心内容
2020-08-19孙雨生朱金宏李亚奇
孙雨生 朱金宏 李亚奇
摘 要:[目的/意义]从用户兴趣建模、推荐机制、信息资源管理3方面阐述国内基于大数据的信息推荐核心内容研究进展。[方法/过程]文章用内容分析法归纳了263篇文献内容,从用户兴趣建模、推荐机制、信息资源管理3方面阐述了国内基于大数据的信息推荐核心内容研究进展。[结果/结论]基于大数据的用户兴趣建模主要结合大数据技术改进传统用户兴趣建模,包括模型表示、模型初始化和模型进化;基于大数据的推荐机制主要改进、混合传统推荐机制并优化推荐结果;基于大数据的信息资源管理包括数据采集、数据挖掘、数据表示、数据存储和数据更新。
关键词:大数据;信息推荐;用户兴趣建模;信息资源管理;个性化
Abstract:[Purpose/Significance]In order to reveal research development on core content of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Method/Process]Using the content analysis method,the authors summarized the content of the 263 articles,and expounded the core content research development of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Result/Conclusion]User interest modeling based on big data mainly improved traditional user interest modeling with big data technology.It included model representation,model initialization and model evolution.The recommendation mechanism based on big data mainly reforms,combined the traditional recommendation mechanism and optimized recommendation outcome.The information resources management based on big data included data collection,data mining,data representation,data storage and data update.
Key words:big data;information recommendation;user interest modeling;information resource management;personalization
伴隨移动互联网[1]、社交网络[2]、GPS、智能终端[3-7]、云计算[8-9]、物联网[2,6,10-12]等技术迅猛发展,人类社会急剧变革并快速迈入大数据时代(从数据荒漠迈向信息海洋:领域行业性应用亟待智能化[1,4,13-15]改造、数字化创新,用户获取信息来源、工具及维度日益丰富,导致信息处理量、认知负荷猛增),致使信息过载[4-5,9,11,16-23]、知识掩埋[9,12,22](信息不规范转载、差异化处理(标注社会化[3,12]、标准多样化[10]分别导致结果同质化、失真)等固有问题愈发严峻,对此,目前多采用信息推荐机制实现由以信息资源管理为核心向以用户个性化服务为核心转型并最终达到“信息找人”目的,传统信息推荐技术多通过算法定制、规则提取等[4,10,21,24-32]提升信息服务效率及质量、提高信息资源处理自动化程度及挖掘深度以实现“千人千面”并缓解用户认知负荷但存在间接加剧用户圈层化(忽视用户潜在需求[4,13,16,33]致使推荐模式趋同、结果重复[10,13,25,31,33]、处理“数据荒漠”问题方法较固定(集中、全局式处理)、难适应多源异构海量数据[1,4,12-13,17,19,27,30-31,33-36]环境(影响推荐效率[3,33,37]等问题,客观急需构建面向大数据的新型信息服务机制,在这种形势下,基于大数据的信息推荐应运而生,其以本体[33]、全局计算(相似填充[1,4,10,16,20-21,25,35]、模型构建[15,26,28,36]、神经网络[3,21,29,33]、数据(局部、典型值[3]、聚类[1,3-4,10,19,21,23,29-30,33,36]、分布式[8]、分段[29]挖掘[38]、深度学习[1,23]等技术精准定位“信息海洋”中用户需求[35],基于并行化思想[1,4,16,19,24,36]并结合用户情境[8,13,22]、社会关系、动态反馈[7,36]等优化[16,18]推荐机制及结果以智能推荐,结合大数据处理技术[8,10,24-25,33,35-37]多渠道全面系统动态采集并分别压缩、重构、整合[27]数据(含信息、知识)资源以部分解决传统信息资源管理中数据缺失、来源限制、信息匮乏[32,39]等问题及信息推荐扩展性、稀疏性、冷启动等问题[1,4-5,10,12,14,16,18-19,21,23,25,28-31,33-36]进而实现大规模、多样化、动态化[1,13,16,18,34]、个性化[8,15,22,26,30,33]智能推荐并促使信息推荐迈入“一人千面”时代。因此,研究基于大数据的信息推荐问题有重要意义。
本文以知网、万方的学位论文库、期刊论文库及维普的期刊论文库为信息源,以“大数据”和“推荐”为关键词组合在题名中检索相关文献(截至2020年3月8日,从知网获期刊论文166篇、硕博论文55篇,从万方获期刊论文114篇(新发现14篇)、硕博论文48篇(新发现9篇),从维普获期刊论文176篇(新发现19篇),合计263篇);详读263篇文献归纳国内基于大数据的信息推荐核心内容研究进展并根据提及频次、内容质量详细标注,本着最大限度反映国内基于大数据的信息推荐核心内容研究进展重要文献、优中选优(剔除标注次数少、与其他标注文献内容重复文献)原则选出43篇参考文献(内容覆盖263篇文献);最后从用户兴趣建模、推荐机制、信息资源管理3方面阐述国内基于大数据的信息推荐核心内容研究进展。
1 基于大数据的用户兴趣建模
作为基于大数据的信息推荐前提和基础,用户兴趣建模核心是提取、處理特征、行为等属性数据以构建、存储(缓存)、进化用户兴趣模型,精准表示用户兴趣[34]。
1.1 建模思路
邓玉林[36]基于分片聚类构建用户短期兴趣模型,基于潜在语义分析特征向量矩阵并聚类出兴趣集构建用户长期兴趣模型;屠海龙[23]、严克文[28]基于用户相异度(用同项目评分差绝对值度量)、项目特征[29]向量构建用户相异度矩阵以量化用户兴趣间差异进而构建用户兴趣模型;丁继红等[9]构建用户(风格、动机、认知、目标、兴趣)、项目(类型、格式、交互方式、难易度)、行为轨迹(时间、地点、载体、天气、心情)子张量并关联融合(张量连接,张量同维合并、张量异维保留、张量内元素相乘(原多张量中元素排列组合成新张量元素)),基于学习者、学习时间、学习地点、所用设备、资源五维融合子张量构建用户兴趣模型;此外,段文彬[32]基于传播贡献度(用户点击数与访问量)、用户影响力(转发次数、他人评价、被提及数)、用户活跃度(系统自动评论数,用户对数据资源评论数,用户回复他人评论数和用户周访问数)构建用户兴趣模型并基于粗糙集识别潜在用户、离散化潜在用户数据(分割属性种类)、约简潜在用户关键属性、基于置信度提取规则构建潜在用户兴趣模型。
1.2 模型表示
基于大数据的用户兴趣模型表示主要研究表示原则和方法,遵循表示基本原则、结合多种方法规则化、层次化、多元化表示用户兴趣:前者包括模型、方法、数据分别管理,模型低耦合高内聚,用户、项目、规则易匹配,模型易迁移复用;后者多用矩阵法,丁继红等[9]提出基于张量法,王俞翔[10]提出基于用户-项目评价矩阵法,邓玉林[36]提出基于特征向量矩阵法,谢瑶瑶[25]、严克文[28]提出基于相异度用户矩阵表示法,胡蓉[21]提出基于向量空间模型法、基于颗粒度法、基于神经网络法,邹小波[1]提出基于张量分解法、基于网络模型法、基于主题模型法,李翠平等[5]提出基于语义网络法,董小妹[33]提出基于本体法,屠海龙[23]提出基于谱聚类法(用子图表示用户聚类结果,用节点表示用户群的共同兴趣项,用节点间边权值表示用户群兴趣相似性)。
1.3 模型初始化
区别于传统用户兴趣模型多基于用户显性信息初始化并结合隐性信息优化,基于大数据的用户兴趣模型多用大数据技术全面系统采集、处理用户属性、兴趣、行为、情境、项目等信息初始化并结合基于大数据技术的用户隐性兴趣预测进行优化。
1.3.1 数据采集
此处仅阐述用户信息采集,其他见3.1节。
1)采集来源
鉴于大数据环境下用户兴趣建模动态性、精确性需求及用户兴趣数据来源广泛,用户兴趣大数据采集需基于平台计算能力限度、用户容忍度(结合QoS评价确定)构建用户兴趣大数据集群以动态、全面、准确采集(迁移)用户显隐性数据,包括社交媒体[18,27]、用户数据库、智能终端[3,13,16,24,28,30,33-34,40-41]、传感器[13]、物联网[32],此外,段文彬[32]以用户征信平台为数据源。
2)采集类型
针对用户兴趣,李翠平等[5]按稳定性分长期(反映真实兴趣)、短期(反映兴趣变化,多与热点相关)兴趣;段文彬[32]按存在形式分显性(包括用户主动定制[5](回答问题)、归一化评分[35](两级、多级评分)、传统用户信息(纸质文献型、缩微声像型)、数字用户信息(单机、联机型)[32],直观易获取[16]但耗时且主观性强)、隐性[18](被动记录、自动生成,真实性强但缺少交互)兴趣,按保密性分公开、半公开、非公开型,按存储介质分传统型(纸质)、磁介质型(软盘、光盘、硬盘)、网络型(网络平台、云存储)、无介质型(交流获取未记录载体信息),按用途分业务型、管理型、战略型[32]。
3)采集内容
主要采集用户基本信息[6,22,33](涉及ID、姓名、性别、出生年月、民族、地域[13]、婚姻、学历、专业、单位、职业[22,33]、语言、宗教、社会关系、住址、社团、收入、联系方式[8]、权限[41]、兴趣信息(性格、特长、标签[2,7,19,24,28-29]、行为信息[18,22-23,28](注册(年龄、注册时间)、登录(ID、地点、时间、操作系统、登录设备)、请求[21](输入、检索(主题词、时间、地点、关联度)、咨询)、浏览[39](阅读(内容与模式)[13]、观看[23],涉及对象[6](类型[36]、名称、路径、访问频次[18,33,36]、点击[39](是否点击、点击时间地点、滞留时长、点击顺序)[36]、推荐确认(推荐项目ID、用户反馈、时间、地点)、收藏、下载、购买[32-33,36,39]、评价(评分[5,41]、评论,涉及对象ID、时间[41]、地点、内容[36]、分享、社交[13]、线下移动路径[13]、情境信息[8,22](领域、知识层次[8]、语境、场景(心理情绪[13][13,22]、时空[13,21]、所接触项目信息[21-22](项目描述[21]、项目内容(音频、视频、书目、专利、文献[22]、所属主题[5,18]、项目操作(转载、排序、热点及趋势分析[5,18]、社交网络构建)、终端参数[13,22](品牌、机型、操作系统、芯片型号、内存容量))。
4)采集方式
基于大数据的用户兴趣采集强调时效性、全面性,方式分在线采集(初始化用户兴趣模型)、离线采集及混合采集(进化用户兴趣模型)且多在线采集:尤海浪等[17]、刘海鸥等[22]基于Flume实时采集用户日志;陈玉兆[16]基于多终端采集用户数据并离线存储;杨国龙[29]基于企业大数据平台采集用户数据;邓玉林[36]基于Hadoop采集用户兴趣数据,调用用户数据库接口采集用户注册信息,通过系统日志提取、Cookie(分析用户日志)采集用户登录、检索行为并分析其网站浏览信息及习惯,通过推荐系统数据库采集用户推荐确认、评分信息,通过浏览器(涉及Cookie、JS)历史记录(用户、电商商户)采集用户购买信息;韩莉[38]基于Web采集非结构化数据填充用户数据;李佳[40]基于MySQL、Oracle、HBase等数据库采集用户数据。此外,孟祥武等[18]提出重点研究大数据环境下用户隐性数据采集方式。
1.3.2 數据处理
1)数据预处理
多结合在线计算(用神经网络[3]、云计算虚拟化技术[24]处理结构化数据(文本[33]、标签[2,7,19,24,28-29]、用户基本信息[6])、离线处理(标准化、结构化(集成NLP、概率统计、AI与机器学习方法[29]半结构化、非结构化数据)实现数据清洗、归一化[33]、规范化、合并/拆分(均衡大数据分析粒度)[29]、集成存储:娄建楼[12]基于TF-IDF、分布式计算预处理行为文本、项目信息[29]得出用户兴趣标签;胡蓉[21]通过更新停用词、扩展缩写词、提取词干预处理用户日志;段文彬[32]基于列表删除、成对删除法剔除完全随机缺失数据,基于加权法、单值插法、极大似然估计、最大期望算法预测填充随机缺失数据以预处理用户兴趣;邓玉林[36]基于TF-IDF法、单一数据标准化法、混合数据标准化法预处理用户兴趣。此外,段文彬[32]构建HDFS物理存储层、虚拟资源池层(虚拟化并动态替换数据节点)、数据转化层(通过缩放特征、构造特征、逆规范化重构数据并统一格式)、资源组合层(构建用户兴趣数据集)预处理用户、项目数据。
2)兴趣度量化及优化
基于大数据的用户兴趣度量化涉及用户兴趣特征量化(结合大数据分析统计频率、设定权值)、基于用户区分度的兴趣特征权值调整以精确表示用户兴趣项及兴趣度:胡蓉[21]提出基于文档频率法(按文档频率阈值选择特征词)、信息增益法(基于评估特征词出现前后信息量差异的熵值选择特征词)、互信息法(基于在特定类别中出现频率选择特征词)、x2统计量法(检验列联表按与文档类别关联度选择特征词)、文本证据权法(计算类别出现频率与特征词出现时类别出现条件概率之差以按与类别相关度选择特征词)、TF-IDF法量化特征权值并选择特征词集构建用户兴趣模型。
1.4 模型进化
集中于基于大数据更新动态学习、更新用户兴趣模型:针对前者,王俞翔[10]归一化评分以计算均值,重设评分区间(端值分别为所有最小值、最大值均值,降低稀疏性),计算新用户-项目评分矩阵并构建评分预测算法促进用户兴趣学习。针对后者,胡蓉[21]混合时间窗口法、遗忘函数法以引入时间因素、兼顾长短期兴趣进行模型更新;严克文[28]基于用户选择、评价进行模型增量更新;胡一[34]分别基于用户反馈(评价、评分)、Web日志挖掘(针对用户行为)进行模型直接、间接更新。此外,邹小波[1]基于数据仓库离线数据计算用户评分矩阵偏置量、相似度(方便系数参数调优),训练迭代次数、正则化系数、数据集类型参数并融入偏置量、相似度进行模型进化。
2 基于大数据的信息推荐机制
信息推荐机制是推荐系统核心,直接决定推荐性能,基于大数据的信息推荐机制针对大数据环境下信息推荐面临问题,对传统推荐机制进行并行化改进(提升推荐规模、动态性,解决冷启动问题)、组合(提升推荐针对性、多样性)、推荐结果优化。
2.1 基于大数据的推荐机制并行化改进
2.1.1 基于内容推荐
基于内容推荐分析提取项目特征并向量化[4],匹配用户兴趣模型并推荐(常基于用户兴趣主题向量、Web日志特征向量加权、计算后推荐[33],大数据环境下基于内容推荐机制改进集中于内容提取算法优化以提升提取规范性(精度、效率)并降低提取规模:严克文[28]通过提前遴选项目特征[42]并形成用户需求配置文件,依托信息检索、过滤[25]获取并推荐项目[28]以改进内容提取过程;谢瑶瑶[25]基于关键词赋权(TF-IDF[4,25,36,40]、概率模型[25,29]、特征分析[4,35]、NLP、模糊联想记忆神经网络、AI[29]、统计分析、机器学习[25,29]等改进内容提取技术;叶志强[41]提出结合用户兴趣、评分均值赋权用户兴趣项,计算词频差异特征并向量化文档以提升内容提取精度;董小妹[33]提出基于反馈信息的自适应学习算法改进内容提取效率。
2.1.2 协同过滤推荐
协同过滤推荐定义与内涵见文献[26],推荐思路契合大数据处理特点,基于大数据的协同过滤推荐机制依托大数据聚类、压缩缓解传统协同推荐的数据稀疏、海量异构问题,通过用户及项目特征预测、补全及提取规范化提升相似度计算精度、推荐效率。
1)基于内存协同过滤推荐
大数据环境下基于内存协同过滤推荐基于评分矩阵发现与目标用户(项目)相似用户(项目)并结合其对候选项目评分推荐[4,40],多针对大数据特点通过算法改进提高推荐质量,流程为评分采集、相似度计算、近邻发现、评分选择、项目推荐[4,19,25,30,40,43](TOP-N推荐[4,11,40],按对象分基于用户协同推荐和基于项目协同推荐。
针对大数据环境下基于用户协同推荐中相似度计算问题,邹小波[1]结合RecTree(推荐树)并行化构建叶子节点以聚类用户向量进而改进用户相似度算法;曹萍[4]基于Spearman秩相关、条件概率法量化相似度;沈杰[30]基于AC(余弦调整)、MSD(均方差)、SRC(Spearman秩相关)法量化相似度;邓玉林[36]基于欧几里德距离量化相似度;李佳[40]基于Jaccrad相似度、余弦相似(空间向量相似度[4,10,16,19,28-29,33,36,40]、Pearson相似度[4,10,16,19,28,30,33,36,40]、修正余弦相似度[4,10,19,28,40](剔除用户平均评分[4,10,28,40]以降低计算量、提升计算精度)量化相似度。此外,谢瑶瑶[25]正交化处理近邻数据以标准化并加权近邻评分进而预测用户评分。
针对大数据环境下基于项目协同推荐中相似度计算问题,曲朝阳等[15]基于用户兴趣形成初步推荐结果,基于Apriori算法挖掘项目关联规则以基于项目协同推荐并调整结果序列;张健[42]结合项目特征、评分数据处理改进项目建模,基于项目间相似度确定近邻,进而结合用户兴趣模型、Pearson算法推荐[4,10,19,29,33,35,40]。
2)基于模型协同过滤推荐
主要研究大数据环境下基于模型协同推荐用户-项目模型构建及模型相似度计算问题[19],邹小波[1]提出整合临近算法、协同过滤算法的KNN-ALS算法,基于回归法填充评分矩阵缺失值以改进用户-项目模型构建,进而结合矩阵分解(结合交替最小二乘法、考虑用户或项目相似度)改进模型相似度计算;曹萍[4]提出基于原始评分矩阵初步生成用户平均评分并挖掘用户及其项目行为后优化以构建用户-项目模型,基于评分均值(剔除异常评分)相似度、依托概率计算/设定的阈值(压缩计算范围)优化用户-项目模型相似度并行化计算;陈玉[14]提出构建用户-项目评分矩阵并基于改进FCM算法聚类成簇进而基于簇中矩阵相似度协同推荐;屠海龙[23]融合项目-类别矩阵、用户-项目评分矩阵构建用户-项目偏好矩阵[19],基于CSPA(节点间相似度)思路集成图聚类算法、BC-Slope One(混合聚类、评分排序)算法生成矩阵相似性谱聚类进而并行化推荐;丁继红等[9]基于用户-项目-行为轨迹融合张量构建全局用户-项目张量,抽取学号、时间、地点、设备、项目号五维特征融合成子张量,进而关联两者分析(高阶奇异值分解后融合子张量并选择)出核心张量、因子矩阵并连续模乘以通过相似填充进行重构,进而得出近似张量进行推荐。此外,董小妹[33]构建领域本体库描述用户、项目,基于层次、属性信息分别计算用户本体、项目本体相似度进而分别构建用户、项目本体树以辅助并行化协同过滤推荐;李佳[40]提出混合时间因子(降低舊兴趣权值)、共同评分项目数优化用户相似度,基于K-Means聚类相似用户,基于偏差矩阵分解预测近邻用户项目评分并计算其真实、预测值均差,优化用户对项目评分预测进而推荐;胡蓉[21]按评分相似度阈值聚类用户-项目评分并计算相似用户平均评分,加权后预测目标用户评分,提升协同推荐速度、精度。
2.1.3 情境化推荐
基于大数据的情境化推荐整合、挖掘线上线下情境数据以补全数据、提升情境化推荐精准性、动态性,实现情境推荐模态化、应用生态化,主要研究推荐情境分类、推荐机制改进:前者按获取途径分线上用户行为情境感知(基于用户检索、时空行为分析大数据网络环境,支持按行为特点推荐)、线下物理情境感知(依托实名制及云计算、数据挖掘技术,基于物联网、传感器感知),按应用场景分情境预测(基于用户信息、兴趣及检索记录)、情境主体互换(通过用户间情境信息交互丰富当前情境以满足所有用户情境化推荐需求)、情境进化(融合用户行为历史、知识需求动态构建大数据情境)[8]。针对后者,邹小波[1]融合上下文情境、时间衰减因子进行基于时间上下文情境推荐;周苏亭[8]基于云计算、大数据技术挖掘用户检索记录、兴趣并结合用户情境进行个性化推荐、基于反馈优化相似度计算以提升推荐效果;马晓亭[13]构建用户情境数据库,基于推荐质量反馈、移动设备实时情境感知预测用户需求变化进而推荐;此外,胡蓉[21]提出上下文情境感知推荐范式分上下文预过滤(推荐前按上下文预过滤推荐相关数据集)、上下文后过滤(推荐后基于上下文过滤/排序推荐结果)、上下文建模(结合推荐情境进行用户兴趣、资源建模及推荐机制设计)。
2.1.4 社会化推荐
基于大数据的社会化推荐基于社交网络、社交媒体挖掘用户社群、信任网络补全用户数据以提升数据稠密度,寻找相似(信任)用户集,挖掘潜在(新异)关系进行推荐:吴淑凡[2]基于Mark-ov链图随机游走算法构建随机游走模型C-LRWR(基于网络结构推荐算法预测链路):先通过标签传播算法提取(用户)节点特征以标签化用户并划分社区、计算社区用户相似度,为用户推荐好友集及其感兴趣社区;刘海鸥[11]提出移动SNS信任模型以从信任网络聚集、共引维度挖掘移动SNS潜在社会信任关系,并行化推荐相似用户集;沈杰[30]提出按项目类别分类用户,基于标签传播算法挖掘候选信任用户集,用皮尔逊算法计算目标用户与信任用户评分相似度并用Logistic函数映射成信任值进而确定信任用户集,计算信任用户项目类评论占全项目类总评论比例以确定并并行化推荐高信任度项目类;金伟晟[19]提出可信社团发现方法分基于圈定法(涉及基于谱平分法、W-H法(电阻网络电压谱))、基于距离法(涉及Kernighan-Lin法、可信标签传播法)、基于聚类法(涉及分裂层次聚类法、凝聚聚类法、分裂聚类法)3类,常用于划分评估用户信任网络、计算网络内用户间相似度以协同推荐。此外,娄建楼等[12]提出基于用户RT-G贪婪算法实时推荐网站:基于信任网络发现合适数量用户并基于其评价网站标准发现目标用户可能感兴趣网站集,融合通过迭代发现的最信任用户集及其网站访问频度形成最终网站推荐列表。
2.2 基于大数据的推荐机制组合
基于大数据的混合推荐应用广泛性仅次协同过滤推荐,其基于结构调整、流程改造、算法优化动态适应大数据海量、异构、稀疏、快速生成特性并提升推荐性能,主要研究算法混合方式并按混合机制、阶段分类:按混合机制分特征组合[4]、特征扩充(主要算法集成次要算法特征信息[4,40]、分层混合(前算法结果输入后算法推荐[4,16]、元级混合(将前面算法所得模型迭代输入后序推荐算法进行推荐[4,40]以整合各模型优势[4]、分区混合(按场景选择算法[16][4,16,36,40]、切换[24](推荐过程中动态调整算法[4,16]、推荐结果(加权[4,16,28]混合[4];按混合阶段分前融合(直接融合推荐算法再推荐)、中融合(推荐过程中按预期效果将一推荐算法融入另一算法框架[28]、后融合(直接融合推荐结果)[4,16,40]。此外,姚静天[31]按推荐流程分并行式、串行式、整体式(并行、串行式混合);李翠平等[5]基于Duine框架动态配置大数据环境下内容推荐和协同过滤推荐(预测填充)算法混合参数。
2.3 基于大数据的推荐结果优化
主要是基于QoS(以服务属性揭示服务质量及其用户满意度[19,21]最优化大数据环境下推荐结果排序组合(按功能需求组合非功能属性以提升用户满意度[3,19],常基于典型值聚类算法、全局计算效用均值法实现:江澄[3]基于典型值(分片代表值)法、均值法简化QoS数据处理:前者用基于CLARA聚类法的CBSC推荐服务组合:聚类候选服务的历史记录集(规模较大时用CLARA算法,较小时用PAM算法)并用其聚类中心点分别表示,按QoS指标生成服务集及其组合方案效用值进而推荐最佳方案;后者用DCAH法推荐服务组合:依托全局约束分解(按比值分解为局部约束并据此选择记录)、服务历史记录均值(代表整体记录集)分别计算候选服务组合历史记录均值及效用值并推荐。
3 基于大数据的信息资源管理
鉴于大数据6V(容量大、种类多、生成快速、可变性高、真实性强、价值分散)1C(复杂度高)特点,全面采集、高效挖掘、规范表示、分布式混合存储并增量更新海量分布异构数据成为大数据环境下用户、项目、推荐过程信息资源管理基本需求以支持用户兴趣建模、推荐机制改进、信息资源配置进而优化推荐效果。
3.1 数据采集
大数据环境下数据采集旨在全面采集推荐所需用户、项目及推荐过程类信息,此处阐述后两类信息,用户信息见1.3.1。
3.1.1 采集来源
大数据环境下数据来源多样、较固定并线上线下混合,涉及社交媒体[18,27](Facebook[20]、Twitter、微博、微信[7,13,42]、QQ、BBS、博客[27]等)、(Web、代理)服务器(基于Cookie采集日志[15,33]、数据库系统、智能终端[3,13,16,24,28,30,33-34,40-41](手機、PDA[13,34]、iPad[36]、有线电视、遥控器、机顶盒[41]、RFID标签)、传感器[13](视频监控器、服务器监控器、RFID读取器、NFC设备、GPS设备、遥感设备、阅读终端监控器)。此外,马晓亭[13]提出共享第三方服务商数据。
3.1.2 采集类型
主要分用户、项目、推荐过程3类,不同于用户数据,大数据环境下项目数据采集类型较成型且多按传统项目类型采集(少数新项目先采集再分类以提升动态性);大数据环境下推荐过程数据采集分用户间、项目间、用户与项目间交互3类(类似1.3.1中采集类型),旨在提升基于大数据推荐精度。此外,王俞翔[10]提出分用户原创(主动)、系统运营(自动)、设备感知(被动)3类;段文彬[32]按数据来源分人工输入、社交媒体(含网页)、交易生成、移动通信、设备传感5类。
3.1.3 采集内容
涉及用户、项目、推荐过程数据,后两者采集完善传统推荐过程所需数据并侧重基于数据集群隐性采集推荐全程数据以补全、丰富、深度采集用户相关数据。针对项目数据,叶志强[41]基于数字机顶盒采集媒体资源描述信息(分常规、自定义两类,前者涉及类型、名称、国家地区、年份、导演、主演等,后者涉及清晰度、上传时间、评价)、使用信息(点播时间、点播量、单价),基于遥控器采集媒体资源操作信息(播放、暂停、切换、录制);马晓亭[13]采集阅读终端设备参数、阅读行为历史数据、阅读社交数据。针对推荐过程数据,姚凯等[39]基于变量表采集推荐过程中用户点击流数据(涉及用户类型、是否点击、点击对象、点击速度、点击量)、外部用户访问数据(涉及用户名称及类型、用户影响力、与内部用户关联度、访问频率、访问时长、最近访问时间)。
3.1.4 采集方式
多用特定工具,混合在线、离线采集方式从分布式接口全面、动态、高效采集大数据环境下推荐所需数据:邹小波[1]用Kafka的Consumer模块实时采集Producer模块动态生成的项目评分并存入Broker模块以实现分布式实时数据发布与订阅;尤海浪等[17]基于Flume分布式实时采集项目数据;邓玉林[36]用Nutch采集项目数据;姚凯等[39]基于Cookie采集内外部网站数据并汇总项目信息;段文彬[32]通过搜索引擎采集检索数据,通过平台采集自有数据,通过调研、共享、购买采集项目数据;胡一[34]、韩莉[38]提出用用户选择、行为追踪[38]、推荐情境自适应3种模式动态采集用户Web使用日志。
3.2 数据挖掘
作为大数据环境下主流的信息载体,Web数据海量、分布、异构特性凸显,常基于分布式数据库、云计算环境[8]、语义技术(如基于潜在主题、分类的隐语义模型[20],本体[33],根据大数据推荐场景、性能等需求智能选择Web数据挖掘技术,尤其是聚类技术(降维处理以高效挖掘并提升结果可靠性、价值)挖掘Web内容(多为文本、多媒体特征)[33-34,38]、Web结构(多为网页内部结构、链接结构)、Web使用(多为Web日志及其隐藏访问信息)信息以提升推荐效率、性能。
3.2.1 聚类算法分类优化
胡蓉[21]按实现原理分划分聚类(K-Means算法[24]、层次聚类(CURE算法[24]、模糊聚类、概率聚类(DBSCAN算法)[24]、密度聚类、网格聚类、模型聚类[3,21],按聚类对象分基于用户兴趣相似度用户聚类法(采集并预处理用户日志以提取其兴趣集并向量化,基于余弦距离公式计算用户兴趣相似度并用K-Means算法并行化聚类)、基于项目特征相似度项目聚类法(用波特词干器提取项目特征以标签化项目,基于Jaccard相似系数计算项目标签相似度并加权整合成项目特征相似度进而用凝聚型层次聚类法聚类);金伟晟[19]提出层次聚类法分凝聚法(圈定无连接网络节点边界以聚类)、分裂法(打破有连接网络节点间边界以聚类)。
3.2.2 聚类算法效果改进
针对用户聚类效果改进,邹小波[1]基于MLlib中机器学习算法进行二叉树聚类以降低用户聚类难度;屠海龙[23]用集成聚类代替单用户聚类以更好适应大数据特点、提升推荐效率;杨国龙[29]提出基于K-Means改进标签分段算法RR-SEG:混合标签粗细粒度聚类标签成簇并计算各簇均值以量化用户数据边界、高效分配计算资源进而提升数据挖掘效率。针对项目聚类效果改进,江澄[3]改进适用小规模项目聚类的PAM算法形成CLARA算法以自适应项目聚类规模;曹萍[4]用大数据平台实现基于K-Means、Canopy算法的项目并行化聚类;邓玉林[36]提取检索词主题、时空等行为属性以分片并行化聚类项目;王俞翔[10]基于项目差异度聚类项目;金伟晟[19]、沈杰[30]基于社团发现聚类项目。此外,针对用户、项目聚类,吴淑凡[2]基于分类器分类用户项目评价以提升聚类效果;董小妹[33]融合SOM(自组织映射神经网络)与K-Means算法提升聚类智能性。
3.3 数据表示
数据表示通过特定方法形式化数据以便计算机高效识别、处理。
3.3.1 表示类型
江澄[3]将QoS服务数据分为数值型、非数值型(涉及布尔型、文本型);杨国龙[29]按引流数据类型分为用户/项目特征数据、项目关联数据、推荐过程数据(基于用户/项目及项目关联数据分析潜在相关数据);段文彬[32]按分析类型分实时分析数据、批量分析数据,按处理方法分预测分析数据、特征识别数据、文本分析数据、位置分析数据、社会网络分析数据,按结构化程度分结构化、半结构化、非结构化数据。此外,邓玉林[36]提出分标称型数据(候选值为两个且固定)和二元型数据(候选值为两个但多元化)。
3.3.2 表示方法
主要涉及数据格式转化、分解重构、聚集融合处理并常用(特征赋权)矩阵法[33,43]规范表示大数据环境下用户、项目及推荐过程数据:段文彬[32]分析数据属性、取值等特征以发现属性映射、验证规则及其工作流以便规范化原始数据,进而通过单变量处理(涉及开方、取对数、归一化、径向基核、协变量添加等方法)、双变量融合(涉及变量间和差及乘除、阈值选取、笛卡尔积、白化处理等方法)、多变量结合(涉及主成分分析、聚类分析、稀疏编码、随机森林等方法)提取项目特征并向量化表示;王俞翔[10]歸一化用户评分并基于用户-评分矩阵法表示;刘海鸥等[22]融合情境后基于用户-项目评分矩阵法多维表示数据;此外,曲朝阳等[15]多粒度分解项目知识、构建知识树以关联并推理知识进而树形表示知识,支持语义层知识组织、推理及可视化;邓玉林[36]混合时间窗、图聚类表示热点标签,用TF-IDF法向量化表示用户检索词及评分文本(向量按词表排序,缺值用零补齐),用最小-最大值或Z-score(标准分数)标准化表示用户评分,用日期格式表示数字型信息,用自身格式表示URL类、无意义String类数据。
3.4 数据存储
主要基于关系型(MySQL)、非关系型数据库[7,30,35,37](Redis、HBase[1]、MongoDB、Neo4j)分别存储元数据及相应大数据资源[3]并基于文件管理系统(HDFS)分布式管理:针对关系数据库,杨清智[7]、沈杰[30]、陈泽[35]、房璐璐[37]基于MySQL(或Derby[37]缓存[35]在线Web服务(APP[7]信息、Hive元数据(表名、属性、数据路径)、用户相关数据(用户兴趣模型、推荐结果、项目评分)[37]。针对非关系型数据库,杨清智[7]基于机型、操作系统版本、芯片型号、内存容量、兴趣标签维度设计存储用户静态基本信息的HBase标签表,基于用户自身、APP类别、性别、兴趣、地域维度划分标签表存储用户动态兴趣信息。针对文件管理系统,邹小波[1]用HDFS按Parquet格式封装存储数据集以构建离线数据仓库;李翠平等[5]基于中心节点管理分布式文件系统以关联集群节点并精准定位文件;姚凯等[39]基于HDFS存储数据并结合Hive提取数据;此外,王俞翔[10]基于MySQL的数据表、集群分别直接存储数据、临时存储文件,累积后批量存入HDFS;段文彬[32]基于SAN技术分布式存储(用专用网络连接数据存储器及服务器构建存储区域网并实现分布式数据网络)、基于远程数据镜像异地备份、基于Push技术协调服务器工作(通过平台主动向服务器推送协作指令)。
3.5 数据更新
3.5.1 更新方法
涉及空值数据添加(新用户注册信息、推荐结果[10]、用户发布内容、新项目信息[6]、时效数据查新(评分[3]、用户日志[7]、用户行为、历史数据[16]、用户位置、活动信息[18]、项目信息、供需信息[33]、状态数据[36]、学习进度)、动态数据调整(算法数据[5,35]、交互数据[13,36]、信任评估[19]、相异度矩阵[28]、分类目录、社区标签、用户及项目特征向量[30]、本体定义[33]、规则及配置信息[37]、学习步长)、错误数据替换(预测及推荐结果[10]。
3.5.2 更新方式
邹小波[1]提出基于Kafka分布式发布订阅实时数据交由Spark Streaming的Dstream流计算并实时更新;孟祥武等[18]提出计算新增对象及其关联边以增量[28]微调社会化推荐结果并基于自适应法定期消除局部计算误差;严克文[28]提出基于Hadoop分布式处理既定规则、新标记变量分别确定更新策略、增量更新模型并更新数据。
4 结束语
综上,本文从用户兴趣建模、推荐机制、信息资源管理3方面阐述了国内基于大数据的信息推荐核心内容研究进展:基于大数据的用户兴趣建模主要研究用户兴趣模型表示(多研究表示方法,常遵循表示原则结合大数据特点确定)、模型初始化(多研究数据采集(多按用户数据类型全面系统隐式采集)、数据处理(先在线离线混合式动态预处理,再量化兴趣度并结合基于大数据的隐性兴趣预测进行优化))和模型进化(基于用户反馈、算法改进动态学习、更新用户兴趣模型)以提升用户兴趣模型精准性;基于大数据的信息推荐机制主要研究推荐算法改进及并行化改造、推荐机制组合、推荐结果优化以缓解传统信息推荐的针对性、冷启动、动态性、多样性等问题:算法改进及并行化改造涉及基于内容推荐(针对大数据环境改进内容提取算法以提升推荐效率)、协同过滤推荐(依托大数据聚类、压缩提升数据稠密度,通过特征预测、补全及规则抽取提升相似度计算精准度、推荐性能)、情境化推荐(通过线上线下情境大数据整合及挖掘、推荐算法改进提升情境推荐精准性、动态性)、社会化推荐(多基于社交网络、社会化媒体挖掘用户社群、信任网络以提升基于群体特征、面向用户的信息推荐效率和基于信任网络协同过滤推荐效率),机制组合主要研究混合推荐以基于推荐机制及阶段动态整合各推荐机制优势,结果优化主要基于QoS指标并用典型值法、(效用)均值法推荐项目组合以优化推荐结果;信息资源管理包括数据采集(基于Kafka、Flume等工具采集线上(社交媒体、日志服务器、数据库等)、线下(终端、传感器等)大数据并共享第三方服务商数据)、数据挖掘(整合云计算及语义等技术、改进聚类算法以高效发现数据间潜在关系)、数据表示(常用矩阵法)、数据存储(基于关系、非关系数据库分别存储元数据及相应大数据资源并基于文件管理系统分布式管理)、数据更新(基于分布式数据采集、处理、分发,用空值添加、即时查新、动态调整、错误替换等方法周期性增量更新大数据),最终实现数据全面采集、高效挖掘、规范表示、混合分布式存储及增量更新。
下一步,笔者将设计基于大数据的信息推荐方案,供相关研究与实践参考。
参考文献
[1]邹小波.大数据平台下推荐系统的研究与实现[D].泉州:华侨大学,2018.
[2]吴淑凡.大数据环境下的移动社交网络推荐算法[J].安阳师范学院学报,2017,(2):61-64.
[3]江澄.大数据环境下基于QoS历史记录的服务组合推荐方法研究[D].南京:南京大学,2014.
[4]曹萍.基于大数据的协同过滤推荐算法研究[D].南京:南京农业大学,2014.
[5]李翠平,蓝梦微,邹本友,等.大数据与推荐系统[J].大数据,2015,1(3):23-35.
[6]侯崇岳.大数据在高校图书馆文献推荐中的应用[J].宁波教育学院学报,2017,19(6):80-83.
[7]杨清智.基于大数据技术的手机应用推荐系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2017.
[8]周苏亭.面向云计算的大数据知识服务情景化推荐解析[J].滁州职业技术学院学报,2016,15(3):54-56.
[9]丁继红,刘华中.大数据环境下基于多维关联分析的学习资源精准推荐[J].电化教育研究,2018,39(2):53-59,66.
[10]王俞翔.面向大数据集的推荐系统研究[D].秦皇岛:燕山大学,2014.
[11]刘海鸥.面向大数据知识服务推荐的移动SNS信任模型[J].图书馆论坛,2014,34(10):68-75.
[12]娄建楼,邹伟,王玲,等.社交网络大数据下贪婪式实时网站推荐算法[J].计算机应用研究,2015,32(5):1361-1364.
[13]马晓亭.基于情景大数据的图书馆个性化服务推荐系统研究[J].现代情报,2016,36(4):90-94.
[14]陈玉.大数据背景下电商用户需求挖掘的个性化推荐方法研究[J].信息与电脑:理论版,2016(17):88-89.
[15]曲朝阳,周宁,曲楠,等.基于知识关联度的电力大数据协同过滤推荐算法[J].东北师大学报:自然科学版,2018,50(1):74-78.
[16]陈玉兆.大数据下的个性化推荐研究与实现[D].西安:西安电子科技大学,2014.
[17]尤海浪,钱锋,黄祥为,等.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学,2014,30(10):27-32.
[18]孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15.
[19]金伟晟.面向大数据的可信服务推荐方法研究[D].南京:南京邮电大学,2016.
[20]刘云.基于大数据的广告推荐方法研究及应用[D].北京:华北电力大学,2017.
[21]胡蓉.大数据环境下服务推荐系统及其关键方法研究[D].南京:南京大学,2014.
[22]刘海鸥,陈晶,孙晶晶,等.图书馆大数据知识服务情境化推荐系统研究[J].图书馆理论与实践,2018,(8):98-103.
[23]屠海龙.基于大数据的协同过滤推荐算法研究[D].杭州:浙江工业大学,2018.
[24]李星.个性化推荐系统优化及其大数据处理研究[D].哈尔滨:哈尔滨工程大学,2014.
[25]谢瑶瑶.大数据模拟环境下的分布式协同过滤推荐系统的研究[D].武汉:武汉理工大学,2014.
[26]孙雨生,张晨,任洁,等.国内电子商务个性化推荐研究进展:核心技术[J].现代情报,2017,37(4):151-157.
[27]黄义文.大数据环境下图书馆学术资源个性化推荐服务研究[J].图书馆学刊,2016,38(7):78-80.
[28]严克文.大数据环境下电子商务个性化推荐算法应用研究[D].合肥:合肥工业大学,2016.
[29]杨国龙.企业间大数据推荐引流系统研究与设计[D].长沙:湖南大学,2016.
[30]沈杰.大数据环境下基于协同过滤的推荐系统研究与实现[D].杭州:浙江工业大学,2016.
[31]姚静天.基于项目搭配度的大数据推荐算法研究[D].南京:南京理工大学,2017.
[32]段文彬.大数据联盟数据资源推荐系统研究[D].哈尔滨:哈尔滨理工大学,2018.
[33]董小妹.大数据环境下基于本体的协同过滤推荐算法改进研究[D].南京:南京工业大学,2013.
[34]胡一.基于大数据的电子商务个性化信息推荐服务模式研究[D].长春:吉林大学,2015.
[35]陈泽.个性化推荐算法研究及“大数据”下的系统开发[D].重庆:重庆邮电大学,2013.
[36]邓玉林.基于Hadoop大数据框架的个性化推荐系统研究与实现[D].成都:电子科技大学,2016.
[37]房璐璐.基于大数据分析的推荐系统研究[D].北京:北京邮电大学,2015.
[38]韩莉.大数据时代的个性化推荐技术分析[J].晋中学院学报,2016,33(3):74-77.
[39]姚凯,涂平,陈宇新,等.基于多源大数据的个性化推荐系统效果研究[J].管理科学,2018,31(5):3-15.
[40]李佳.面向大数据的协同过滤推荐算法研究[D].南充:西华师范大学,2016.
[41]叶志强.基于有线电视互动点播业务的大数据分析推荐系统探析[J].广播电视信息,2016,(2):56-59.
[42]张健.基于大数据技術的有线电视推荐系统研究[J].中国有线电视,2016,(S1):362-365.
[43]陈永康,章美仁.基于大数据的在线就业课程推荐系统[J].电子商务,2017,(4):72-73.
(责任编辑:郭沫含)