APP下载

基于RSS的个性化信息服务系统研究

2018-08-13王崇峻

软件 2018年7期
关键词:个性化用户服务

王崇峻,魏 鹏



基于RSS的个性化信息服务系统研究

王崇峻1,魏 鹏2

(1. 解放军航天工程大学,北京 101400;2. 家数字交换系统工程技术研究中心,河南 郑州 450002)

针对现有个性化信息服务在动态性与时效性上存在一定局限性的问题,本文充分借助RSS信息聚合的能力,将RSS融合进个性化信息服务系统中,使得众多与用户需求相吻合的信息聚合在一起快速、动态地推送给用户。本文构建了基于RSS的个性化信息服务系统,其功能模块构成主要包括用户兴趣模型构建、资源推荐、RSS包装与信息服务推送,通过系统测试对本系统与人工操作结果进行对比,本系统在去重应用中的查准率为82.0%,查全率为92.2%,说明本架构与系统的可行性以及系统的有效性。

RSS技术;个性化信息服务系统;推送方式

0 引言

上世纪中叶以来,随着科学技术的快速发展,以计算机技术为代表的高新技术逐渐崭露头角,计算机技术与互联网技术迅速在各行各业中扎根深入,信息化建设成为了传统企业转型的途径[1]。技术的革新打破了人们获取信息的时间与空间局限性,为信息的表达与传递提供了信息化平台支撑,与此同时,海量的信息不断生成形成了显著的“信息爆炸”现象,如何从海量的信息中摒弃无价值或无关的信息,准确找到与搜索主题切实相关的信息是现代搜索引擎的研究宗旨。搜索引擎与海量信息搜索技术的发展使得信息服务模式发生了重大变化,由早期的用户被动接收有限量信息逐渐转变为用户根据需求从海量数据库中主动获取实际有价值的信息,这种信息服务模式以用户的需求为核心,依托于个人需求与信息过滤技术可以将需要的信息从不需要的信息(兜售信息,垃圾邮件等)中分离出来,并向用户推送符合其专业特征或使用偏好的信息服务。然而传统的个性化信息服务系统在时效性与动态性上存在一定的局限,在推送方式上也存在用户网络安全隐患与用户操作繁琐等弊端,迫切需要对传统个性化信息服务系统加以改进。

1 研究背景

个性化信息服务系统是应对海量信息快速筛选与推送、用户主动式获取有价值信息的重要途径,其工作流程如图1所示,首先用户遇到难以解决的问题,根据这一问题产生围绕这个问题的信息获取需求,个性化信息服务系统根据的个性化需求采用某种资源搜索与组织策略对信息产品进行生产与优化,采用一定的策略将针对用户个性化信息需求的信息打包成服务并推送给用户,以满足用户个性化信息需求,帮助其解决问题。

图1 个性化信息服务系统工作流程图

传统的个性化信息服务系统中,由于绝大部分的网络信息在结构上均是无序的、非结构化的[2],在进行用户建模时通常需要许多数据预处理工序,以使得信息相对结构化与规律化,数据预处理工作会带来极大的时间消耗,导致个性化信息服务的时效性较差。同时传统的个性化服务系统在推送方式上存在一定的局限性,其主要采用用户专用网页、频道推送、邮件推送等方式进行个性化服务推送[3],其中用户专用网页必须要用户先进行系统登录,登录成功进入相应的网站之后才能对信息进行不同程度的定制,若是用户所需信息所在的网站众多,则用户需要非常频繁地登录各个网站以便获得个性化信息服务,一方面增加了用户在信息获取阶段的时间消耗与工序繁杂性,另一方面也会影响用户获取信息的时效性。频道推送,顾名思义是将某些网页设置为浏览器中的频道,用户在使用浏览器时可以像调电视频道一样地接收感兴趣的网页推送的个性化信息,虽然用户无需登录即可获得个性化信息服务,但是在频道推送方式下用户无法屏蔽或取消那些用户未曾订阅的网页内容,也无法关闭那些随时弹出的网页窗口小广告[4]。邮件推送是指向用户发送邮件的方式为用户提供个性化信息服务,这种信息推送方式在安全性方面存在缺陷,推送的邮件中潜伏的病毒会对用户的电脑带来或轻或重的安全隐患,此外,在众多的推送邮件中存在着非贴近用户个性化需求的垃圾邮件,给用户开展邮件管理与垃圾邮件管理工作带来许多不便。

RSS技术基于XML标准[5],在信息推送方式上具有良好的动态性与时效性,因此现有的个性化信息服务大多引入RSS技术。在个性化信息服务中RSS技术的应用方向主要集中在RSS信息聚合技术以及RSS搜索引擎技术两个方面。在信息聚合方面,RSS主要应用于电子商务平台与网站中,通过搭建信息传播技术平台,将电子商务平台中的用户均作为信息提供的“潜在志愿者”,发布RSS文件提供个性化RSS推送服务。在搜索引擎方面,国内外众多主流搜索引擎,如雅虎、百度、谷歌资讯、人民网、新浪等均采用RSS技术,从海量庞杂的信息中筛选出贴合个性化需求的RSS信息向用户进行动态推送,上述搜索引擎或网站采用“用户专用网页”的的信息推送方式,用户输入个人信息登录到上述网站中即可享受网站所提供的各类分门别类的新闻与信息资讯服务,但是这种定制化的服务并不能充分满足用户对新闻与资讯的个性化需求,无法真正做到用户需要什么,对什么感兴趣,网站就自动推送什么新闻或资讯,即通过对用户浏览新闻或信息资讯的主题与内容进行分析,动态更新符合用户感兴趣主题的网站新闻与资讯,以便用户能够获得迎合自身兴趣与需求的信息服务。这种缺乏用户参与的、相对僵化的个性化网站在一定程度上存在被动性,与真正的“所需即所见”仍然存在不小的差距。

2 基于RSS的个性化信息服务系统设计

基于RSS的个性化信息服务系统旨在运用RSS技术实现个性化需求与个性化信息服务的联动、动态更新,系统从工作流程与功能结构上可以分为用户兴趣模型构建、资源推荐、RSS包装与信息服务推送,其系统架构如图2所示。

(1) 用户兴趣模型构建

用户兴趣模型是基于RSS的个性化信息服务系统的眼睛与耳朵,用于对用户的个性化需求进行搜集获取,对用户的个性化需求、兴趣点、行为模式等进行综合化描述,旨在刻画符合用户内心真实需求的信息服务类型。用户兴趣模型具有唯一性,每一个用户均有其对应构建的用户兴趣模型,每个用户均需要在个性化信息服务系统中进行个人信息注册,以用户登录帐号唯一标识用户个人,一个用户登录帐号对应一个用户兴趣模型,用户登录到信息服务系统后可以浏览自己所感兴趣的新闻、资讯等信息,系统通过对用户浏览新闻或信息资讯的主题与内容进行分析,并追溯用户浏览信息的源头,采用不同的需求搜集方式对用户的兴趣点与需求点进行信息化建设,形成用于描述与表达用户个性化需求与兴趣的模型库,作为动态更新符合用户感兴趣主题的网站新闻与资讯的基础性模型保障,以便用户能够获得迎合自身兴趣与需求的信息服务。

图2 基于RSS的个性化信息服务系统架构图

由于绝大部分的网络信息在结构上均是无序的、非结构化的,在进行个性化服务系统的用户建模时通常需要许多数据预处理工序,以使得信息相对结构化与规律化,数据预处理工作会带来极大的时间消耗,导致个性化信息服务的时效性较差。基于RSS技术的文档信息格式是一种结构化的描述和同步网站内容的格式,结构化的信息特征极大地减少了信息预处理过程中的时耗,同时结构化的信息有利于采用传统的数据查询与检索方式进行高效率地信息筛选,是简化用户兴趣模型构建工序的重要内容之一。网站中的RSS信息的结构化特性有利于信息的分解与抽取,因此对于使用RSS信息源的用户,系统可以无需采用显示的方式,可以采用相对隐性的方式对行为模式、兴趣爱好、个人需求、专业特征等进行跟踪与记忆,获取用户个人信息与用户需求信息,建立更为完善且全面的用户兴趣模型。例如,用户启动浏览器搜索浏览相关信息的记录在短期内会保存在用户访问日志中,这些浏览记录存储者用户与浏览器网站的交互信息[6],其中蕴含着用户的浏览行为以及用户的偏好特征,是用户兴趣模型构建的重要参考数据,在实际进行用户兴趣模型构建时通常会运用数据挖掘模型如模糊聚类、决策树等对用户的浏览行为以及所浏览网站的信息进行深入挖掘[7],为模型构建提供数据基础。网站中的信息除了结构化的RSS信息之外,也存在着非结构化的信息,对于这部分信息可以采用显示方式全方位地搜集用户的信息,如用户的姓名、职业、年龄、邮箱地址、手机号码等,以补充用户个人信息表与用户需求信息表,更为针对性地为用户推送符合其专业特征或使用偏好的信息服务。本研究中,基于RSS的个性化信息服务系统的用户个人信息表与用户需求信息表结构如表1与表2所示。

(2) 基于个性化推荐技术的资源组织

基于个性化推荐技术的资源组织即以用户兴趣模型为参照[8],全网匹配与用户兴趣模型中的用户兴趣点相关的信息,对筛选出的信息进行信息整合与数据组织,运用现有的推荐技术对组织的数据进行计算获得优化结果集,最终的优化结果集是符合用户的个性化需求与兴趣模式的,以达到个性化信息整合的目的[9]。

表1 用户个人信息表

Tab.1 Users' personal information

表2 用户需求信息表

Tab.2 User requirements information

(3) RSS包装

RSS是一种XML,RSS文档遵循XML 1.0规范,在W3C网站上发布了规范。RSS文档中,最外层是元素,version是其属性,属性明确了本文档遵的RSS版本规范,如果RSS文档用此规范表示,那么它的version属性就是2.0。元素中有一个子元素,包含了 (元数据)和它的内容的一些信息。元素下有可选的和必须的频道元素,必需的频道元素有、<link>、<description>,<title>是频道的名称,它表明别人如何访问你的服务,如果有一个与RSS文件内容一致的HTML网站,则title元素值应该与网站的标题相同。<link>对应频道的网站的URL链接地址,如http://www.baidu.com,<description>是关于频道的文字性描述。<channel>元素还有些可选元素,如<language>是指频道使用的语言,例如在一个网站上,允许聚合所有的意大利语站点到相应的分组。对于这个元素,可使用的值参阅W3C定义的清单;<copyright>是指频道内容的版权声明;<managing­Editor>指内容责任编辑的电子邮件地址;<pubDate>是指频道内容发布的日期。时间和日期遵循RFC 822规范,但年份可以用2个或4个字母表示。</p><h3>(4) 基于RSS技术的资源推送</h3><p>基于RSS技术的资源推送即将优化后的资源结果集按照RSS文档规范格式进行标准化处理包装生成RSS文件,然后将RSS文件部署到Apache、Tomcat等Web服务器上以便访问,将RSS在服务器中的存储路径转变为RSS文件的访问网址,将该网址添加到RSS阅读器中,用户基于RSS阅读器可以获取RSS文件及其中的信息内容,从而实现个性化信息服务向用户的推送以及RSS文件的联动、动态更新。</p><h3>(5) 关键技术</h3><p>在基于RSS的个性化信息服务系统中,按照传统方法将个性化信息服务系统分为信息获取、信息预处理和按主题聚合三个技术模块[10]。</p><p>信息获取部分负责从互联网上查找并下载文本信息,本文根据信息载体的不同将信息获取方式分为RSS源和抽取网页正文两方面,网页正文提取是web信息处理的基础,网页正文中包含了众多非结构化信息,现有网页正文抽取技术在非结构化信息获取效率、获取准确性与获取覆盖度等方面存在的不足,针对上述问题,本文以现有技术很少涉及的多正文网页为研究对象,提出一种可以快速、准确识别正文区域的基于标签相似度的多正文网页抽取技术,有效地提高了Web数据抽取的准确率和效率。</p><p>信息预处理主要包括中文分词、文本去重等步骤,在文本去重方面,去重的查准率与查全率一直是去重算法普遍关注的两项指标,然而现阶段的去重算法相比较于人工去重在有效性方面仍然存在较大的差距,本文结合Simhash技术设计制定了本系统中信息的去重方式及存储格式,有效提高去重算法的应用效果。</p><p>按主题聚合部分主要将预处理后的文档按照所涉及的主题进行聚类聚合,并将结果存储,以便用户在查看浏览相关主题时可以在聚类组合中找到其他关联性主题并将其提供给用户。现阶段在按主题模块方面使用角度的技术为布尔模型、空间向量模型和概率主题模型,以空间向量模型为例,其运用向量之间的距离与夹角等参数定量刻画文本间的相似度,但是其不足之处在于,空间向量模型只是对词项进行分析,并不能挖掘出隐含在词项之中的语义信息,如“大数据”与“Hadoop”、“Spark”两词之间应有很强的语义关系(因为是处理大数据的重要工具),但使用向量空间模型无法发现这类信息,但使用空间向量模型无法发现这类信息。针对现有按主题聚合技术方面存在的问题,本文采用LDA主题模型来挖掘潜在语义信息,进行文本的聚合,将语义相同的文本归为一类,同时对主题模型进行一些改造以适应信息实时性强、主题多变的特点,若用户想査看与某篇文章主题相同的其他信息,便能方便的通过系统查看[11]。</p><h2>3 测试实例</h2><p>将本研究提出的个性化信息服务系统应用到某大学图书馆中文期刊检索这一的实例中,以验证本研究系统的可行性。</p><p>(1)用户需求:用户想查找到主题词为univ­ersity的相关信息。</p><p>(2)资源组织:借助搜索引擎对图书馆中文期刊元数据库中的所有主题记录进行逐个匹配,筛选出元数据库中所有主题词包含university的信息记录。</p><p>(3)RSS包装:将检索记录按照RSS文档规范格式进行标准化处理包装生成RSS文件,部分RSS文件内容如下:</p><p><rss version="2.0"></p><p><channel></p><p><description>university from DL Grid </desc­ription></p><p><item></p><p></item></p><p></channel></p><p></rss></p><p>(4)资源部署与推送:在Web服务器上部署RSS文件,并将RSS网络地址添加到RSS阅读器中,便于以RSS阅读器作为媒介进行访问,如图3所示为个性化信息服务访问界面。</p><p>(5)实验对比分析</p><p>为验证本文所研发的基于RSS的个性化信息服务系统的有效性,本文以2017年某大学图书馆新登记的2320本外文电子书为实验数据,运用本系统对其进行university关键词过滤与去重处理,并以人工过滤与去重作为去重正确率的有效参照,以验证本系统在信息去重方面的应用效果。实验结果如下:采用本系统进行去重的university信息条数共计648条,其中去重正确的信息条数共计598条,采用人工手段进行去重的university信息条数共计729条,通过查全率与查准率对系统在去重方面的有效性进行定量分析,通过对上述实验数据进行计算,本系统的查全率为92.2%,查准率为82.0%,表明本个性化信息服务系统在去重方面具有较高的准确率与覆盖率。</p><p><img src="https://img.fx361.cc/images/2022/1223/adeda1ffc93dd865b1867930af16f23596522e53.webp"/></p><p>图3 个性化信息服务访问</p><h2>4 结论</h2><p>RSS技术在信息推送方式上具有良好的时效性与动态性,本文将RSS技术引入到个性化信息服务系统中,对基于RSS的个性化信息服务系统的体系架构、功能模块等进行了详细阐述,为实现高时效、动态更新的一站式个性化信息服务提供了技术与方法支撑,通过测试实例并将其与人工操作结果进行对比分析,本文提出的基于RSS的个性化信息服务系统在去重应用中的查全率92.2%,查准率82.0%,验证了本系统的有效性与精度。</p><p>[1] 左素素. 基于智能过滤的数字图书馆个性化信息服务研究[J]. 图书馆学研究, 2016(3): 80-84.</p><p>[2] 曹劲. 基于RSS的个性化内容推荐服务系统设计与实现[D]. 复旦大学, 2010.</p><p>[3] 胡晶晶, 郑志蕴. 基于RSS的个性化信息服务研究[J]. 计算机应用与软件, 2009, 26(5): 40-42.</p><p>[4] 张立彬, 杨军花, 翟春红, 王璐. 基于RSS的搜索引擎技术及其发展趋向探析[J]. 情报科学, 2009, 27(2): 183-189.</p><p>[5] 黄艳娟. 基于RSS的图书馆个性化信息推送服务[J]. 情报科学, 2006(7): 1023-1026.</p><p>[6] 姜瑞其. RSS在图书馆自助式数字参考咨询服务中的应用[J]. 情报理论与实践, 2006(1): 78-81.</p><p>[7] 刘家玮, 刘波, 沈岳. 知识图谱在农业信息服务中的应用进展[J]. 软件, 2015, 36(3): 26-30.</p><p>[8] 田鹏程, 张莉梅, 杨俊. 就业信息服务平台数据隐私保护方案设计[J]. 软件, 2015, 36(4): 18-23.</p><p>[9] 荣艳冬. 基于云计算的高校就业信息服务平台的应用研究[J]. 软件, 2015, 36(5): 45-48.</p><p>[10] 韩旭, 常青. 社区警务信息工作平台的研究与开发[J]. 软件, 2015, 36(6): 163-166.</p><p>[11] 林少普, 倪礼豪. 温州农业科技园信息化管理平台SaaS 方案设计[J]. 软件, 2015, 36(8): 67-70.</p><p>Research on Personalized Information Service System Based on RSS</p><p>WANG Chong-jun1, WEI Peng2</p><p>(1. Wang Chongjun, PLA Aerospace Engineering University, Beijing 101400, China; 2. Wei Peng National Digital Switching System Engineering Technology Research Center, Zhengzhou 450002, China)</p><p>In view of the limitations of existing personalized information services in terms of dynamics and timeliness, this paper makes full use of the ability of RSS information aggregation to integrate RSS into personalized information service systems, which makes many match the needs of users. The information is aggregated together and pushed to the user quickly and dynamically. This paper constructs a personalized information service system based on RSS. Its functional modules mainly include user interest model construction, resource recommendation, RSS packaging and information service push. The system is compared with the manual operation results through system testing. The accuracy of the application is 82.0%, and the recall rate is 92.2%, indicating the feasibility of the architecture and system and the effectiveness of the system.</p><p>RSS technology; Personalized information service system; Push method</p><p>TP391.1</p><p>B</p><p>10.3969/j.issn.1003-6970.2018.07.023</p><p>王崇峻(1993-),男,研究生,主要研究方向:信息网络安全;魏鹏(1994-),男,研究生,主要研究方向:新型网络体系结构。</p><p>本文著录格式:王崇峻,魏鹏. 基于RSS的个性化信息服务系统研究[J]. 软件,2018,39(7):110-115</p></div></div> <!-- <div class="m_article_pdf"><a href="https://cimg.fx361.com/kkb.apk">查看pdf文档请下载app</a></div>--><div class="article_love_part"> <h3>猜你喜欢</h3> <div class="article_love_keyword"><span><a href="/tags/4/b/a41a93ecbbfb8959/1.html" target="_blank">个性化</a></span><span><a href="/tags/1/d/c38333badc226309/1.html" target="_blank">用户</a></span><span><a href="/tags/4/d/f4c3e91a86d23afe/1.html" target="_blank">服务</a></span></div> <div class="article_love_news"><dd><a href="/news/2019/0815/14051915.html" target="_blank" title="服务在身边 健康每一天">服务在身边 健康每一天</a></dd><dd><a href="/news/2019/0104/14106060.html" target="_blank" title="服务在身边 健康每一天">服务在身边 健康每一天</a></dd><dd><a href="/news/2019/0103/14053962.html" target="_blank" title="服务在身边 健康每一天">服务在身边 健康每一天</a></dd><dd><a href="/news/2018/0919/17709512.html" target="_blank" title="新闻的个性化写作">新闻的个性化写作</a></dd><dd><a href="/news/2017/0104/12627038.html" target="_blank" title="上汽大通:C2B个性化定制未来">上汽大通:C2B个性化定制未来</a></dd><dd><a href="/news/2016/1219/12669547.html" target="_blank" title="关注用户">关注用户</a></dd><dd><a href="/news/2016/0629/12688343.html" target="_blank" title="关注用户">关注用户</a></dd><dd><a href="/news/2016/0509/12951966.html" target="_blank" title="关注用户">关注用户</a></dd><dd><a href="/news/2015/0227/13983877.html" target="_blank" title="如何获取一亿海外用户">如何获取一亿海外用户</a></dd><dd><a href="/news/2015/0122/15424567.html" target="_blank" title="满足群众的个性化需求">满足群众的个性化需求</a></dd></div> </div><div class="phbk_part"><h3>杂志排行</h3> <ul><li><a href="/bk/hzjjykj/202413.html" class="title">《合作经济与科技》</a><a href="/bk/hzjjykj/202413.html" class="date">2024年13期</a></li><li><a href="/bk/hyyjk/202410.html" class="title">《婚育与健康》</a><a href="/bk/hyyjk/202410.html" class="date">2024年10期</a></li><li><a href="/bk/swyzhsby/20247.html" class="title">《思维与智慧·上半月》</a><a href="/bk/swyzhsby/20247.html" class="date">2024年7期</a></li><li><a href="/bk/tckjyjs/202311.html" class="title">《陶瓷科学与艺术》</a><a href="/bk/tckjyjs/202311.html" class="date">2023年11期</a></li><li><a href="/bk/zgsr/20247.html" class="title">《中国商人》</a><a href="/bk/zgsr/20247.html" class="date">2024年7期</a></li><li><a href="/bk/jsbl/20244.html" class="title">《教师博览》</a><a href="/bk/jsbl/20244.html" class="date">2024年4期</a></li><li><a href="/bk/sdjy/20246.html" class="title">《师道·教研》</a><a href="/bk/sdjy/20246.html" class="date">2024年6期</a></li><li><a href="/bk/zgdwmy/20246.html" class="title">《中国对外贸易》</a><a href="/bk/zgdwmy/20246.html" class="date">2024年6期</a></li><li><a href="/bk/bl/20246.html" class="title">《伴侣》</a><a href="/bk/bl/20246.html" class="date">2024年6期</a></li><li><a href="/bk/jjjsxzxx/20246.html" class="title">《经济技术协作信息》</a><a href="/bk/jjjsxzxx/20246.html" class="date">2024年6期</a></li></ul> </div><div class="bk_part"> <div class="bk_im_b"><a href="/bk/ruanjian/20187.html"><img src="https://img.fx361.cc/images/2022/1222/3e6ae42b536157fa15d62d57511c5cfb11e14111_mini.webp" alt=""></a></div> <div class="dbk_title"><a href="/bk/ruanjian/" target="_blank">软件</a></div> <div class="dbk_date"><a href="/bk/ruanjian/20187.html" target="_blank">2018年7期</a></div> </div><div class="others"> <h3><a href="/bk/ruanjian/" target="_blank">软件</a>的其它文章</h3> <ul><li><a href="/news/2018/0813/13312416.html" title="比较教学法在医学院校计算机基础课程中的应用">比较教学法在医学院校计算机基础课程中的应用</a></li><li><a href="/news/2018/0813/13346233.html" title="k次Herschel—师连通圈网络">k次Herschel—师连通圈网络</a></li><li><a href="/news/2018/0813/13346245.html" title="城轨门系统接触参数实验获取方法研究">城轨门系统接触参数实验获取方法研究</a></li><li><a href="/news/2018/0813/13346251.html" title="基于SSH框架卫生科技成果申报系统的设计与实现">基于SSH框架卫生科技成果申报系统的设计与实现</a></li><li><a href="/news/2018/0813/13346260.html" title="基于源码与二进制文件的漏洞挖掘技术">基于源码与二进制文件的漏洞挖掘技术</a></li><li><a href="/news/2018/0813/13312047.html" title="基于扩展OpenFlow流标结构增强SDN网络安全性研究">基于扩展OpenFlow流标结构增强SDN网络安全性研究</a></li></ul></div></div> <div class="m_footer"></div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript" src="https://s2.pstatp.com/cdn/expire-1-M/Swiper/4.5.0/js/swiper.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery.lazyload/1.9.1/jquery.lazyload.js"></script> <script type="text/javascript"> document.write('<script src="https://img.fx361.cc/js/m.index_cc.js"><\/script>'); </script> </section> </body> </html>