基于大数据爬虫技术的创新创业竞赛服务平台研制
2018-01-04孙颖馨王静由扬
孙颖馨 王静 由扬
摘要:本项目通过数据爬虫等数据采集技术动态收集各类分散的创新创业竞赛信息,通过大数据处理技术对数据进行清洗、组装及整合分类保存,形成创新创业竞赛大数据中心,通过数据订阅及智能推荐系统将数据精确的推送给有需求的创业者和竞赛组织者。同时,还可以通过大数据分析技术,为政府部门提供创业资源数据分析服务,及对政府决策提供数据支持。
关键词:爬虫技术;大数据;竞赛;创业;创新
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)30-0203-03
1 引言
在国家政策和创新创业大环境的影响下,各种推动和促进创新创业的网络平台不断涌现。而目前,国内已经开发完成并对外提供服务的创新创业竞赛网络平台还没有形成,带有交易功能的创业服务网络平台也少有出现。国内绝大部分创新创业竞赛服务平台都存在只能针对单一场次竞赛提供咨询以及创业信息,信息更新及时率低,信息资源有限等方面的问题。
因此迫切需要创建创新创业竞赛大数据分析平台,实现创业主体以及创业服务过程的有效整合,提高不同的创业主体基于不同的创业过程的服务能力和水平,实现网络创业环境的持续创立和优化,并带动实体创业环境的建设。
2 系统关键技术
2.1 Hadoop技术
Hadoop是由Apache基金会开发的分布式系统架构。它实际是实现了一个能够让用户轻松架构和使用的分布式平台,即分布式文件系统。使得用户可以在不了解系统底层细节的情况下,开发应用程序。利用它用户可以轻松地开发和运行包含海量数据的应用程序。
Hadoop具有高容错性,可充分利用集群的特性进行高速运算和存储,并可以以流的形式访问文件系统中的数据。它还可以提供对高吞吐量应用程序数据的访问能力,特别适合那些有着超大数据集的应用程序。另外,Hadoop还可以部署在低廉的硬件上。
2.2 聚焦网络爬虫技术
聚焦网络爬虫,又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。常用的几种策略如下:
l 基于内容评价的爬行策略;
l 基于链接结构评价的爬行策略;
l 基于增强学习的爬行策略;
l 基于语境图的爬行策略。
2.3 智能推荐算法技术
1)基于内容推荐
基于内容的推荐是由于信息过滤技术的发展而产生的,它不需要依据用户对项目的意见评价,而是利用机器学习的方法从相关内容的描述上得到用户的兴趣资料。在推荐系统中,通过相关的特征的属性来定义项目或对象,基于用户已评价特征,学习其兴趣,匹配用户资料与待测项目的相关程度。常用决策树、神经网络和基于向量的表示等方法,并根据用户的历史数据,来建立用户的资料模型。并且可以随着用户的兴趣的改变而做出相应的调整。
2)协同过滤推荐
协同过滤推荐是从用户的角度来进行相应推荐的,这一过程不需要用户填写适合自己兴趣的推荐信息。而是自动地从用户的购买模式或浏览行为等隐式获得的。协同过滤最大优点是对推荐对象没有特殊的要求,并且可以能处理非结构化的复杂对象,如音乐、电影等。
这种技术一般是利用用户的历史喜好来计算用户的距离,并以目标用户的最近邻居用户对商品评价为基础,进行加权来预测目标用户对特定商品的喜好程度。并根据喜好程度推荐给目标用户。
虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题(Sparsity)和可扩展问题(Scalability)。
3 系统功能实现
本系统主要完成以下几个子平台的设计。
1)基于大數据爬虫技术的数据采集平台
数据采集平台正是基于网络爬虫技术设计研发,采集平台支持各种网站类型:新闻、论坛、电商、社交、行业资讯、企业门户等都可以实现数据抓取。并支持多终端平台,与PC网站一样,手机网站亦可抓取,爬虫可模拟移动端agent。同时支持多种网页类型:服务器侧动态页面、浏览器侧动态页面(AJAX内容)、静态页面都可抓取,甚至可抓取没有终点的瀑布流页面。爬虫在默认状态下就可抓取AJAX、JavaScript动态页面、服务器动态页面等动态页面,无须其他设置;甚至还可以自动滚屏抓取动态加载的内容。
2)消息订阅平台
消息订阅平台主要实现订阅、退订、更新与接收新消息的基本功能,完成观察者和内容主题之间的交互过程。当订阅方需要订阅,在内容主题框中显示订阅方信息,退订时则删除其中的退订方信息。使得新消息内容只有在订阅用户列表中的用户能收到消息更新,退订者和没有订阅者都不会收到新消息。
3)智能推荐平台
个性化智能推荐平台设计建设由三步构成:第一步建立平台用户行为的召回模型,维度基于用户历史行为的数据召回、用户偏好召回和用户地域召回来实现,用户历史行为数据召回基于用户历史浏览、点击、评论、分享、收藏、关注等触点,分类推荐在线相关、在线相似、离线相关、离线相似行为;基于用户偏好召回是基于用户归类画像与平台多屏互通融合;基于用户地域召回是基于用户地域的网格化来实现地域行为推荐算法;第二步是召回模型匹配算法,利用高斯逻辑回归及多维算法来得出与用户召回行为的匹配商品及广告信息;第三步是平台针对匹配模型推荐结果的排序算法,基于用户交互日志通过模型训练特征权重,采用排序算法来实现自动匹配个性化推荐。在系统实现技术架构上,为支撑个性化推荐系统平均至少每周进行算法迭代。
通过智能推荐平台,可以使用户进入平台页面时,根据其日常的行为喜好和习惯、心理,在还没有点击页面时,将页面自动推荐给用户,以提升平台用户体验性。甚至可以在用户还没有访问,或者还没有打开电脑时,通过邮件或信息等方式,在特定的时间或者周期性的推送给用户。
4)大数据中心
该数据中心提供数据整合、挖掘、分析及订阅功能,为创业者、孵化机构和政府部门提供数据支持、推荐、订阅和统计分析服务。
本中心提供的独立功能有如下几个部分。
l 海量数据云存储功能:采用云存储技术,为大规模、海量数据及文件提供存储和管理等功能。
l 标准数据库管理:各类创业竞赛数据库、大学生基本信息库、企业基本信息库等。
l 数据交换功能:把各类创业竞赛的数据进行抽取、脏数据清晰,断链条数据修复。代码转换,接口模式认证,为其他系统提供硬件的支持。
云存储数据中心结构示意图如图1所示:
各类用户,无论是企业还是个人,都可以通过电脑、手机等登录云计算数据中心的各类服务接口,获得所需信息。云计算管理平台是数据中心的“大脑”,既管理该云用户服务定制的接入,计算处理接入定制服务的内容,还组织协调数据中心内外网的服务节点,经由管理节点制作或加工定制服务内容,然后交付该端用户定制服务。其中的节点就是泛在网络中的传感器。
数据中心的云服务管理平台,给端用户的印象是一台超级计算机,拥有无穷的服务资源,来满足端用户的定制服务需求。而实际上,该服务资源即数据中心内外网的服务节点。只不过由该平台组织协调,从而虚拟为超级计算机而已。
4 项目建设的意义
1)项目建设将有效推动创新创业竞赛开展,提高参赛项目创业成功率
本项目能够有效推动创新创业竞赛中各种创业资源的对接和推广。同时能够提高创业者的创新热情,促进创业意识的产生,采取有效措施规避创业过程中的风险,提高参赛项目创业成功率;同时通过网络平台整合不同的创业主体和创业资源,能够带动更多的创业者参与到创新创业竞赛中来,进而提高创业的数量,实现创业带动就业的目标。
2)项目建设扩大创新创业竞赛资源整合的范围,有效改善创新创业竞赛资源的闲置状态
项目建设将成为全国创新创业竞赛资源整合模式最新颖、创新创业竞赛资源内容最丰富、创新创业竞赛资源更新最及时、创新创业竞赛服务最优化的综合性的创业服务平台,能够有效改善目前创业园、高校等教育机构、政府创业服务和监管部门所掌握的创新创业竞赛资源的闲置状态,强化创业资源载体对创业过程的参与力度和程度,能够营造良好的创业环境。
项目实现创新创业竞赛服务信息化、网络管理,能够有效降低提供创业服务的成本,提高创新创业竞赛服务的效益。
项目实现创业服务内容的网上交易,将有效调动创业资源对创业过程的参与程度,创业服务资源在参与交易服务过程中也在不断地优化和改进,产生创业大数据。
3)项目建设将实现创新创业竞赛资源数据分析,为政府决策提供依据
项目建设将汇集创新创业竞赛资源,并对数据资源进行分析整理,将有利于政府决策的数据信息分析处理,为政府管理部门更有效的制定创业就业服务政策、调整和分配创业资源以及提高创业园的服务水平提供管理工具和决策依据,更有利于发挥创业带动就业的作用。
4)项目建设基于用户行为大数据,实现资源需求智能分析推薦
项目建设通过数据爬虫技术有效地收集存储创新创业竞赛资源数据,建立创新创业竞赛资源大数据中心,并依托数据资源进行挖掘分析,开发创业者、孵化机构和政府需要的创业应用。推动万众创新和开放创新提供动力。基于平台建立的创新创业竞赛资源大数据中心,创业者可在平台的订阅中心根据自身的需要订阅所需要的创新创业竞赛资源信息,系统会根据需要按时发送所感兴趣的创业信息。
5 结束语
基于大数据爬虫技术的创新创业竞赛服务平台可以提供网上项目收集、竞赛信息收集、需求推荐、创业帮扶、项目推广以及交易对接等服务。促进不同的创业主体之间创业服务交易对接,为创业资源的可获性提供良好的工具。既能提升创新创业竞赛的整体水平,又能促进各种创业资源的持续发展、更新和丰富,为创业资源载体提供盈利机会和能力,从而更好地为创业提供服务,促进创业成果转化。
参考文献:
[1] 刘鑫.网络爬虫在信息检索中的研究与应用[J].数字技术与应用,2017(8).
[2] 姚剑,等.基于个性化导购的商品智能动态推荐系统[J].价值工程,2017(8).
[3] 段薇,路向阳.基于Hadoop的高校移动图书馆个性化信息服务平台设计[J].科技广场,2017(5).
[4] 高鹏.协同过滤推荐方法在新媒体领域中的应用[J].广播与电视技术,2015(6).
【通联编辑:朱宝贵】