基于大数据的云计算网络协同创新平台的研究

2017-09-08程淑玉

安徽理工大学学报·自然科学版 2017年3期

程淑玉

摘要：以云计算和大数据技术为理论基础，构建了一个具有“产学研”功能的网络信息协同创新平台，对该平台的“云”架构和功能模块进行了叙述，重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题，提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法，实现智能推荐，从而有效的提高了算法的执行效率。

关键词：云计算；协同创新；Hadoop；协同过滤推荐算法

中图分类号： TP311.52 文献标志码：A [WT]文章编号：1672-1098（2017）03-0072-07

Abstract：Based on the theories of Cloud Computing and Big Data， a network information platform for collaborative innovation is constructed with the purpose of realizing the function of production， learning， and research. This paper describes the "cloud" platform architecture and functional modules，and focuses on the working mode of Hadoop cloud platform. Aiming at solving the problem of data sparsity and scalability in big data environment， the paper put forward a collaborative filtering algorithm based on Hadoop platform using the user's implicit behavior data， which could realize Intelligent recommendation and therefore improve the execution efficiency of the algorithm.

Key words：cloud computing； collaborative innovation； Hadoop； collaborative filtering recommendation algorithm

随着国务院《国家中长期科学和技术发展规划纲要（2006-2020年）》的颁布，具有中国特色国家创新体系建设被提上工作日程，围绕产业的全面升级转型，通过产学研结合技术创新，实施創新驱动发展战略。根据“整合、共享、协同、提高”的原则，建设“面向企业的创新支撑平台”，围绕解决区域发展重大、共性问题，推动跨区域协同创新。协同创新是以高校、科研机构、企业为主、以政府、第三方机构为辅，为实现重大科学技术创新而开展的多元主体大跨度整合协同创新的网络创新模式[1]。网络协同创新平台，将多元主体通过立体化网络连接起来，共同通过与外部环境的交互作用，实现各主体之间的知识流动、技术研发合作和资源集成共享，是整合资源、开放交流和协作创新的基础。

云计算技术的不断发展为协同技术创新创造了良好的条件，它将多元化主体分散的各类创新需求和技术资源、服务资源进行重新整合，使得资源能够在最大范围内共享，降低了各创新主体的合作成本，提高了协同创新的实效性。

1 网络协同创新平台现状分析

1.1 平台发展现状

网络协同创新平台能够让多元主体在交互式、自主式的网络环境中获取各类资讯服务、创新服务、技术信息及需求信息，并提供创新合作虚拟空间进行技术合作研发[2]。协同使得各主体间信息沟通更加便捷、更容易获取创新所需资源，创新效率也变得更加高效。网络协同创新平台目前存在三种模式，一种是行业创新平台，该平台主要依托行业科研院所和重点企业针对某一产业开展技术创新和研发，无法实现跨界、跨区域合作；另一种是以提供服务为主的科技创新服务资源平台，该平台提供了资讯中心、资源下载、科技服务等基础的科技信息服务，在诸如资源共享、创新合作虚拟空间、协同创新等方面较为薄弱；还有一种是以高校为主，企业为辅的产学研合作创新平台，该平台由于机制等问题，产学合作的不够深入，在创新方面由于缺乏资金支持，往往以基础创新研究比较多，其研究成果多因工程化能力弱而难以推广应用。

1.2 平台存在的问题

现有的网络协同创新平台的用户都是通过访问一个功能强大、性能过硬的服务器实现协同工作，协同用户越多，服务器承载压力就会越大，一旦服务器发生故障，用户之间就无法实现资源的共享和协同创新。当协同用户不在工作时，服务器就很空闲，从而造成服务器的极大浪费。

随着平台信息的不断增多，平台数据不断增大，用户已很难从这些信息中获得对自己真正有用的那部分信息，知识的创新过程缓慢。如何从大量数据中快速有效的获取有用的信息，推荐系统顺应而生，传统的协同过滤推荐系统使用用户对项目的预测评分数据为依据进行推荐，评分会增加用户的操作，影响用户体验，数据稀疏，而大数据环境下数据处理量更多，冗余度更强，导致算法可扩展性差，处理效率低，推荐的实效性低，精确度不够高。

针对以上问题，构建了基于云计算和大数据技术的网络信息协同创新平台，由政府引导引入金融服务机构，提供投资融资服务，产学合作实施平台建设，该平台引入了Hadoop分布式框架实施协同过滤推荐算法，该框架采用集群并行计算模式，利用MapReduce编程框架将计算任务分配给Hadoop 集群内的每台机器，从而能有效的提高推荐系统的执行效率。

同时该平台在数据收集上利用了隐性户行为数据（如用户点击量、浏览网页的次数、停留的时间等），这些数据能直观的反映用户行为偏好，且不影响用户体验，收集方便，数据规模很大， Hadoop平台使用对稀疏数据具有良好支持的分布式数据库Hbase来保存数据，能有效改善数据稀疏问题，提高推荐的实效性。

2 云计算及大数据技术

2.1 云计算技术

云计算是虚拟化、网络存储、分布式计算、并行计算等计算机和网络技术融合的产物。云计算的虚拟化体现在它把大量的计算机硬件、平台、软件及服务等资源迁移到互联网上，形成虚拟资源，拥有这些虚拟资源的网络被称为“云”，在“云”端的资源可以共享，用户可以根据需要从“云”端请求所需的计算、服务，按使用付费[3]。

云计算提供了分布式并行计算模式，将计算任务扩展到服务器集群中更多的计算资源，并使用冗余的资源进行容错处理，具有超强的计算能力和低成本、高安全性等特性，在网络资源共享等方面具有明显的优势[4]。

云计算平台简称云平台，常用的开源云平台有AbiCloud、Hadoop、MongoDB等。

2.2 大数据技术

大数据与云计算是相辅相成的，所谓的大数据技术，就是在云平台基础架构上，对海量数据中进行处理，并快速获取对用户有价值信息的技术。大数据处理技术包括五大块：数据的采集、数据预处理、数据存储管理、数据挖掘分析及数据的展现与交互[5]。

数据的采集是大数据服务的基础，就是使用某種技术或手段采集各种类型的海量数据并存储于特定设备上；数据的预处理主要是对采集到的数据进行清洗、过滤、效验、转换等操作，从而提取出有效数据；数据的存储管理要用存储器把采集到的数据存储起来，建立相应的分布式数据库，把数据分布到多个存储节点上进行管理和调用；数据的挖掘分析，主要利用数据挖掘，机器学习等技术，对处理后的数据进行挖掘分析，分析出其潜在的数据价值[6]；数据的展现与交互就是将隐藏于海量数据中的有价值信息挖掘出来，并用生动直观的展示方式展示给用户，如图表等，以便用户更好的理解数据的内涵。

本文重点研究了基于Hadoop云平台的创新平台设计，阐述了创新平台的“云”架构和功能模块，并就Hadoop云平台的工作模式进行了详细阐述，同时针对用户难以在海量数据中找到有用信息的问题，采用了数据挖掘技术，建立了智能推荐系统模块，可以根据用户的基本信息、访问信息等信息发现其兴趣点，从而向其推荐感兴趣的信息、资源及服务。

3 平台设计

3.1 平台建设内容

产学研合作，多主体协同。通过搭建网络信息协同创新平台，紧紧抓住产业龙头企业，充分发挥行业商协会作用，引入高校、科研院所的科技创新资源，协调金融机构共同参与，把产业、科技、金融等创新要素协同起来，共同服务产业发展，促进科技、产业、金融、人才相结合，建立健全协同创新体制机制，实施跨界、跨区域合作，推动产业转型升级和高端发展。

3.2 平台架构设计

该平台由创新资源整合服务平台、产学研协同创新平台和各园区科技创新平台三大部分组成，该平台以公有云为核心，将各创新主体（如企业、高校、科研院所）、金融机构、主管部门自身拥有的资源进行整合，面向用户提供创新资源服务。其中各创新主体接入公有云的方式有两种，第一种是采用私有云接入，各创新主体都建立自己的私有云平台，并实施规范化描述和封装，然后通过标准接口接入公有云，用户通过浏览器/客户端就可以访问这些资源，并得到点对点的服务。第二种方式是直接接入，各创新主体直接租用共有云平台的虚拟资源，将自己资源上传到该平台，然后通过该平台提供的工具对资源进行有效管理[7]。

3.3 平台的模块设计

该平台采用B/S结构，前台采用HTML5响应式技术，使得用户能够通过PC和手机共同访问平台，后台采用MVC框架设计，系统的主要功能模块如图2 所示。

其中，技术服务平台主要向多元主体用户提供技术转移、成果转化、需求对接等技术服务。公共服务平台主要提供信息资讯服务，包括发布相关的行业信息，对国家相关政策进行导读、分析，提供点对点的设备资源、技术信息资源、人才资源、行业数据资源、科技文献资源、投资融资服务，提供科技项目、产学研项目申报、人员培训等服务。产学研协同创新平台主要给企业、高校和科研院所之间的协同技术创新提供环境，包含技术对接、技术服务和虚拟实验室模块，技术对接主要是针对某个项目发布请求，寻找技术合作伙伴进行合作研发；技术服务主要用来展示高校的重点实验室、名师工作室的科技成果，以方便企业寻找伙伴进行商业合作；虚拟实验室为校企合作创新研发提供一个研发平台，包含共享的技术知识库、行业数据库，及整个项目合作过程中的资料、合作创新、协同研发等流程，该平台综合运用协同、Agent技术实现协同创新研发。各园区科技创新平台主要是针对园区重点企业及行业的研发平台，该平台建立在企业内部，主要任务是完成企业的科技研发工作。

3.4 所采用的关键技术

1）Hadoop云计算平台架构。Hadoop是一个分布式数据和计算框架，能够充分利用集群的威力进行高速运算和存储，用户使用该框架可以不需要了解分布式底层服务，也能开发分布式程序。Hadoop实现了一个分布式文件系统HDFS，用来实现对海量数据的保存和管理，它的使用能够消除网络的拥堵，提高系统的整体吞吐量；MapReduce是Hadoop处理大量数据的编程框架，用于大规模数据集的并行运算，能够减少数据冗余，高效率的处理网络信息；HBase是构建在HDFS上的分布式的、面向列的开源数据库，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力[7]。

在公有云中通过搭建Hadoop平台，将采集到原始数据存储到数据存储区，数据存储区采用HDPF模块，该区由数据导入和数据分析两个子模块组成，数据导入子模块将采集到原始数据进行预处理，过滤掉其中错误、残缺的数据，得到有应用价值的初级数据，然后通过HDFS数据上传接口，将预处理后的初级数据存储到HDFS中；数据分析子模块是建立在Hadoop的MapReduce框架之上的框架，其主要功能为读取HDFS上的数据并执行MapReduce作业来进行数据处理分析工作，一个MapReduce作业在执行时会分为两个阶段： Map（映射）和Reduce（归约）， Map 阶段对输入的数据进行分片处理，即map（key1，value1）->list（key2，value2），映射成一组新的数据输出，新数据根据key值进行排序、合并、划分等操作后将处理的结果交给Reduce 阶段， Reduce 对数据里相同key 下的所有value 进行合并产生一组更小的数据对作为最终的结果输出存入Hbase，供后续的如用户查询，深度挖掘分析等各类数据分析业务使用[8]，该平台工作流程如图3所示。

2）基于协同过滤的的智能推荐。基于协同过滤的智能推荐就是根据用户的相关信息进行数据挖掘，分析用户兴趣，基于不同的兴趣对用户进行群组划分，综合同一用户群里的相似用户对某一信息的兴趣度，对目标用户进行预测，并推荐类似的信息。

本平台中的智能推荐系统模块，是根据Hbase中的用户基本信息、需求信息、访问信息等个性化网络行为和数据，采用协同过滤推荐算法挖掘分析出符合各主体用户兴趣偏好的信息，当该用户登录平台时会主動将其感兴趣的信息推荐给用户，从而实现个性化服务，具体的推荐流程如4图所示。

协同过滤智能推荐包括基于用户的协同过滤推荐和基于项目的协同过滤推荐，本文采用的的是基于项目的协同过滤推荐，该推荐算法具体流程分三步走，第一步是收集用户偏好，第二步是查询最近邻居，第三步是预测并进行推荐[9]，如图5所示。1.用户偏好收集2.查询最近邻居3.预测并进行推荐

1）用户偏好收集

从用户隐性行为中收集用户的偏好信息，通过回归模型计算出一定的时间段内用户User对项目Item的兴趣度值interest，根据这些这些兴趣度值构建如上图所示的“用户——项矩阵” 模型。

2）查询最近邻居

第一步：输入数据， map阶段接收输入的，输出UserID作为key值，ItemID和 interest作为value输出。Reduce阶段接收到用户对每个ItemID的兴趣度值后生成“用户——项目矩阵”。

第二步：map阶段接收“用户——项目矩阵”后，提取每个用户下的项目兴趣度值，以项目对（ItemID（i），ItemID（j））作为key，项目对应的（interest（i），interest（j））作为value输出。Reduce阶段对相同key下的所有value进行处理，利用余弦相似度方法计算项目间相似度。

第三步：map阶段根据所有项目ItemID间的相似度，得出每个项目的最近邻居集合（neighborItems），输出给 Reduce阶段，根据目标用户UserID的最近邻居的兴趣度值预测其对某个项目的兴趣度值，通过对兴趣度值的排序，得出推荐项目结果（recommendItems）返回给用户。

4 结束语

随着“互联网+”的提出，创新成为推动社会发展的主要因素，单打独斗的创新已经无法满足技术增长的需求，网络的不断发展、资源的日益庞大为协同创新提供了基础。协同创新能够将充分利用各主体的优势，提高资源的共享整合，达到更好的创新效果，创造更大的利益。本文主要研究了基于大数据的云计算网络信息协同创新平台，该平台利用云计算技术解决了网络信息不断增大情况下的网络堵塞等问题，同时将资源进行共享整合，降低创新的成本，提高协同创新的效率。随着各主体用户数据的不断增长，用户项目对接的难度不断增大，为了使得各主体用户能够快速的找到需要的信息，我们设计了智能推荐模块，采用了协同过滤算法进行推荐，取得了一定的效果，但是由于网络上的一些信息没有遵循行业的标准，存在不规范性，所以在某些情况会存在推荐质量低的问题，如何有效的解决这个问题，改进算法有待进一步研究。

参考文献：

[1] 邵云飞，杨晓波，邓龙江，等.高校协同创新平台的构建研究[J].电子科技大学学报（社科版），2012（4）：79-84.

[2] 王翔，潘郁.基于云计算的协同技术创新平台[J].计算机工程与应用，2011，47（15）：57-60.

[3] 霍丽，于淼，高义栋.云计算支持的群体协作学习环境研究[J].中国信息技术教育，2010（5）：77-80.

[4] 张琼妮.网络环境下区域协同创新平台模式与机制及政策研究[D].杭州：浙江工商大学，2014.

[5] 赵伟，岳东升. 浅谈大数据[J]. 佳木斯职业学院学报，2015（10）：447-447.

[6] 王少华，王可勤，牛振喜，等，基于云计算的产学研协同创新平台研究[J].机械设计与制造工程，2014（5）：1-4.

[7] 林文辉.基于Hadoop的海量网络数据处理平台关键技术[D].北京：北京邮电大学，2011.

[8] 李秋虹.基于MapReduce的大规模数据挖掘技术研究[D].上海：复旦大学，2013.

[9] 吕佳. WEB日志挖掘技术应用研究[J]. 重庆师范大学学报， 2006， 4（23）： 39-44.

[10] 杨志文，刘波.基于Hadoop平台协同过滤推荐算法[J].计算机系统应用，2013（7）：108-112.

（责任编辑：李丽，范君）