APP下载

基于云平台的岭南通IC卡数据挖掘方法研究

2014-08-12方晓洪陆涛吴金成何建兵

科技视界 2014年19期
关键词:IC卡云计算

方晓洪 陆涛 吴金成 何建兵

【摘 要】随着城市公共交通一卡通互联互通的发展,越来越多的企业重视数据的价值与利用,然而现有的数据挖掘方法已经满足不了一卡通跨区域多领域的数据应用要求。本文从需求和技术等两个方面进行分析说明建立基于Hadoop计算模型的城市公共交通一卡通数据挖掘方法的可行性。

【关键词】IC卡;云计算;大数据挖掘;Hadoop

0 引言

公共交通在我国经济发展与日常生活中占据着非常重要的地位,为了鼓励与便利市民公共交通出行,大部分城市都采用了发行非接触式公交IC卡的方式,实现了大众乘坐公交、地铁等公共交通的便捷支付。随着区域经济一体化融合发展,跨区多领域的应用将是城市公共交通一卡通未来的发展趋势。广东岭南通股份有限公司(下称“岭南通公司”)在政府的支持和地市的配合下承担粤港澳城市公共交通一卡通互联互通工程建设,致力于打造服务于区域经济发展的现代公共交通信息化管理平台。本文将结合岭南通跨区多领域应用的发展趋势,分析了基于云平台的IC卡大数据挖掘的需求,对云计算和大数据挖掘技术进行分析,从而给出相应的一个解决方案。

1 IC卡数据挖掘云平台需求分析

近年来,我国公交IC卡发展十分迅猛,覆盖范围广泛,卡片发行量巨大,由此而产生的数据量异常庞大,以往基于数据统计的“小数据”模式已经满足不了现代公共交通信息化应用的需要。随着信息技术的发展,如今的IT技术已经足够有条件实现一种新的基于大数据思维模式的人工智能。基于IC卡的大数据挖掘技术不仅可以全面掌握庞大的数据信息,还能对这些有意义、有价值的数据进行专业化的分析与处理,从中挖掘潜藏其中的内在价值,并通过这些价值的利用来提高交通出行效率和管理水平[1]。

通过文献研究可以发现,国内外已有不少专家学者对IC卡数据分析与利用进行过相关的研究,如James J.(2002年)和Zhao(2004年)先后运用出行链的思想结合纽约市公交AFC数据得到了下车站点推到方法;Yves Croissant(2013年)等人基于公交IC卡数据对居民的日常出行行为进行研究以及国内东南大学陈学武等人(2004年)对IC卡数据的采集、分析及应用进行了相关探索。随着人们对公共交通出行数据重视程度的提高,国内外学者对IC卡数据分析挖掘的研究也越来越多。由上面可以发现国内外有关IC卡数据的研究虽然给后来人提供了重要的理论基础和宝贵的经验,但是他们的研究一般仅限于某一个城市或者单一的交通工具或者单一的主题分析与研究,缺乏对跨区域公交数据的相关研究,面对城市共交通一卡通跨区域多领域应用(互联互通)的发展趋势,迫切需要建立一种理论来填补这一空白。

2 基于云计算的大数据挖掘技术

数据挖掘旨在发现大量的数据中客观存在的一些规律,而这种规律需要通过相关技术分析数据才能够获得。尽管目前数据处理技术在不断地提高,但是在数据规模日益增大的背景下,人们对海量数据的快速高效处理又提出了新的需求。随着公共交通出行比例日益增加和城市公共交通一卡通的跨区多领域应用的发展,日常刷卡公交支付行为产生了海量的公共交通出行数据,规模可达GB、TB、PB级别的数据集随处可见,传统的技术要处理这些数据显得力不从心了。

云计算是当今信息技术产业变革的结果,是对分布式、并行处理和网格计算的进一步发展,它是一种基于互联网的计算,同时能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统。对用户来说,云计算可以降低成本、提高了灵活性和扩展性,采用云计算架构模式能够降低信息系统的复杂性。在云计算的架构中,复杂的计算过程、资源管理都集中在位于“云端”的数据中心层面实现,用户付费使用云计算产品和服务,无需考虑云端后台的技术复杂性。

为了解决海量数据计算分析的问题,国内外学者相继提出了基于集群、基于网格、基于Agent等各种分布式数据挖掘平台,虽然在一定程度上提高了数据挖掘系统的处理能力,但容易衍生出一些自身难以解决的问题。如果能将云计算融入数据挖掘,通过云平台的大规模数据并行计算,可以解决海量数据挖掘的效率问题。结合岭南通数据源的特点,基于云计算的大数据挖掘技术满足了未来城市公共交通一卡通互联互通的发展趋势,建立一个岭南通“云”平台系统是顺应了这一发展的要求,如图1所示。

图1 岭南通“云”平台系统架构

3 基于Hadoop的岭南通数据挖掘云平台

3.1 Hadoop框架原理

Hadoop是Apache软件基金会所研发的一个能够对大量数据进行分布式处理的软件框架,是GFS和MapReduce的Java实现。Hadoop实现了MapReduce并行编程模型,提供了分布式文件系统HDFS(Hadoop Distributed File System),为分布式计算提供底层存储支持。一个MapReduce作业由大量Map和Reduce任务组成,它将大规模数据处理作业拆分成若干个独立运行的Map任务,分配到不同的机器上去执行,生成某种中间格式的文件,再由若干个Reduce任务合并这些中间文件或得最后输出文件。HDFS是一个由名字节点NameNode和若干个数据节点DataNode的组成。NameNode负责存储文件系统中的元数据和控制外部客户的访问,DataNode用来存放实际的数据。每个文件都被划分成若干个64M的数据块,这些数据块被分散的存储到各个DataNode上,HDFS为了保证数据的安全性,还会为数据进行备份存储到不同的机器上。用户从NameNode那里获取数据的位置信息后,直接与存放数据块的DataNode进行通信。

3.2 基于Hadoop 的岭南通数据挖掘模型

基于Hadoop的岭南通数据挖掘模型大体上可以分为三层,如图2所示。

最底层为云计算服务层,提供分布式并行数据处理和大数据的云存储。分布式存储为数据保存多份副本保证数据发生灾难时不影响用户的正常使用,提高了数据的安全性。

数据挖掘处理层位于云计算服务层之上,包括大数据的预处理和数据挖掘算法的并行化。数据预处理对形态各异的海量数据进行抽取、转换、清洗和集成等,预处理后的数据提高了数据挖掘的质量,使挖掘的过程变得更有效、更容易。数据挖掘算法的并行化是大数据挖掘的关键,需要进一步深入研究,使得改造后的挖掘算法和并行化策略能直接应用在云计算平台上的挖掘任务。

最顶层是面向各类用户的用户层。改成主要接受各类用户啊的请求,并将其传递给中层和底层,最后将最终的数据挖掘结果展示给用户。用户可以通过可视化的界面监视任务的执行,并且方便的查看执行结果。

基于云计算的大数据挖掘模式是大数据挖掘的主流方式。基于云计算的大数据挖掘服务能够为不同规模的企业应用,使得各类用户能够方便地定制和提交数据挖掘任务,直接使用数据挖掘能力,不必关心数据挖掘具体执行者,挖掘数据存在的隐藏价值。

4 结束语

本文从城市共交通一卡通发展需求分析,可以发现基于云计算的大数据挖掘技术是合理和可行的。利用Hadoop的分布式文件系统灵活扩展的特性可以解决公交一卡通公司快速增加的数据存储问题。利用基于Hadoop的岭南通数据挖掘模型在面向大众、企业内部管理和政府决策方面的对应数据分析与利用能够发挥极大的优势,对打造区域城市公共交通一卡通信息服务平台具有很大的帮助和应用前景。

【参考文献】

[1]顾建国.走进大数据时代的常州智慧公交:专访常州市公共交通集团公司董事长、总经理蔡健臣[J].人民公交,2013(07):24-32.

[2]洑云龙.云平台下的数据挖掘研究[D].南京:南京邮电大学,2013.

[3]杨来,史忠植,梁帆.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(05):936-944.

[4]韩艳,关宏志,严海.公交IC卡数据分析处理方法[J].交通标准化,2010(19):14-18.

[5]罗华群,易国平.校园一卡通数据的挖掘与应用[J].科技信息,2010(01): 41-42.

[责任编辑:孙珊珊]

【摘 要】随着城市公共交通一卡通互联互通的发展,越来越多的企业重视数据的价值与利用,然而现有的数据挖掘方法已经满足不了一卡通跨区域多领域的数据应用要求。本文从需求和技术等两个方面进行分析说明建立基于Hadoop计算模型的城市公共交通一卡通数据挖掘方法的可行性。

【关键词】IC卡;云计算;大数据挖掘;Hadoop

0 引言

公共交通在我国经济发展与日常生活中占据着非常重要的地位,为了鼓励与便利市民公共交通出行,大部分城市都采用了发行非接触式公交IC卡的方式,实现了大众乘坐公交、地铁等公共交通的便捷支付。随着区域经济一体化融合发展,跨区多领域的应用将是城市公共交通一卡通未来的发展趋势。广东岭南通股份有限公司(下称“岭南通公司”)在政府的支持和地市的配合下承担粤港澳城市公共交通一卡通互联互通工程建设,致力于打造服务于区域经济发展的现代公共交通信息化管理平台。本文将结合岭南通跨区多领域应用的发展趋势,分析了基于云平台的IC卡大数据挖掘的需求,对云计算和大数据挖掘技术进行分析,从而给出相应的一个解决方案。

1 IC卡数据挖掘云平台需求分析

近年来,我国公交IC卡发展十分迅猛,覆盖范围广泛,卡片发行量巨大,由此而产生的数据量异常庞大,以往基于数据统计的“小数据”模式已经满足不了现代公共交通信息化应用的需要。随着信息技术的发展,如今的IT技术已经足够有条件实现一种新的基于大数据思维模式的人工智能。基于IC卡的大数据挖掘技术不仅可以全面掌握庞大的数据信息,还能对这些有意义、有价值的数据进行专业化的分析与处理,从中挖掘潜藏其中的内在价值,并通过这些价值的利用来提高交通出行效率和管理水平[1]。

通过文献研究可以发现,国内外已有不少专家学者对IC卡数据分析与利用进行过相关的研究,如James J.(2002年)和Zhao(2004年)先后运用出行链的思想结合纽约市公交AFC数据得到了下车站点推到方法;Yves Croissant(2013年)等人基于公交IC卡数据对居民的日常出行行为进行研究以及国内东南大学陈学武等人(2004年)对IC卡数据的采集、分析及应用进行了相关探索。随着人们对公共交通出行数据重视程度的提高,国内外学者对IC卡数据分析挖掘的研究也越来越多。由上面可以发现国内外有关IC卡数据的研究虽然给后来人提供了重要的理论基础和宝贵的经验,但是他们的研究一般仅限于某一个城市或者单一的交通工具或者单一的主题分析与研究,缺乏对跨区域公交数据的相关研究,面对城市共交通一卡通跨区域多领域应用(互联互通)的发展趋势,迫切需要建立一种理论来填补这一空白。

2 基于云计算的大数据挖掘技术

数据挖掘旨在发现大量的数据中客观存在的一些规律,而这种规律需要通过相关技术分析数据才能够获得。尽管目前数据处理技术在不断地提高,但是在数据规模日益增大的背景下,人们对海量数据的快速高效处理又提出了新的需求。随着公共交通出行比例日益增加和城市公共交通一卡通的跨区多领域应用的发展,日常刷卡公交支付行为产生了海量的公共交通出行数据,规模可达GB、TB、PB级别的数据集随处可见,传统的技术要处理这些数据显得力不从心了。

云计算是当今信息技术产业变革的结果,是对分布式、并行处理和网格计算的进一步发展,它是一种基于互联网的计算,同时能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统。对用户来说,云计算可以降低成本、提高了灵活性和扩展性,采用云计算架构模式能够降低信息系统的复杂性。在云计算的架构中,复杂的计算过程、资源管理都集中在位于“云端”的数据中心层面实现,用户付费使用云计算产品和服务,无需考虑云端后台的技术复杂性。

为了解决海量数据计算分析的问题,国内外学者相继提出了基于集群、基于网格、基于Agent等各种分布式数据挖掘平台,虽然在一定程度上提高了数据挖掘系统的处理能力,但容易衍生出一些自身难以解决的问题。如果能将云计算融入数据挖掘,通过云平台的大规模数据并行计算,可以解决海量数据挖掘的效率问题。结合岭南通数据源的特点,基于云计算的大数据挖掘技术满足了未来城市公共交通一卡通互联互通的发展趋势,建立一个岭南通“云”平台系统是顺应了这一发展的要求,如图1所示。

图1 岭南通“云”平台系统架构

3 基于Hadoop的岭南通数据挖掘云平台

3.1 Hadoop框架原理

Hadoop是Apache软件基金会所研发的一个能够对大量数据进行分布式处理的软件框架,是GFS和MapReduce的Java实现。Hadoop实现了MapReduce并行编程模型,提供了分布式文件系统HDFS(Hadoop Distributed File System),为分布式计算提供底层存储支持。一个MapReduce作业由大量Map和Reduce任务组成,它将大规模数据处理作业拆分成若干个独立运行的Map任务,分配到不同的机器上去执行,生成某种中间格式的文件,再由若干个Reduce任务合并这些中间文件或得最后输出文件。HDFS是一个由名字节点NameNode和若干个数据节点DataNode的组成。NameNode负责存储文件系统中的元数据和控制外部客户的访问,DataNode用来存放实际的数据。每个文件都被划分成若干个64M的数据块,这些数据块被分散的存储到各个DataNode上,HDFS为了保证数据的安全性,还会为数据进行备份存储到不同的机器上。用户从NameNode那里获取数据的位置信息后,直接与存放数据块的DataNode进行通信。

3.2 基于Hadoop 的岭南通数据挖掘模型

基于Hadoop的岭南通数据挖掘模型大体上可以分为三层,如图2所示。

最底层为云计算服务层,提供分布式并行数据处理和大数据的云存储。分布式存储为数据保存多份副本保证数据发生灾难时不影响用户的正常使用,提高了数据的安全性。

数据挖掘处理层位于云计算服务层之上,包括大数据的预处理和数据挖掘算法的并行化。数据预处理对形态各异的海量数据进行抽取、转换、清洗和集成等,预处理后的数据提高了数据挖掘的质量,使挖掘的过程变得更有效、更容易。数据挖掘算法的并行化是大数据挖掘的关键,需要进一步深入研究,使得改造后的挖掘算法和并行化策略能直接应用在云计算平台上的挖掘任务。

最顶层是面向各类用户的用户层。改成主要接受各类用户啊的请求,并将其传递给中层和底层,最后将最终的数据挖掘结果展示给用户。用户可以通过可视化的界面监视任务的执行,并且方便的查看执行结果。

基于云计算的大数据挖掘模式是大数据挖掘的主流方式。基于云计算的大数据挖掘服务能够为不同规模的企业应用,使得各类用户能够方便地定制和提交数据挖掘任务,直接使用数据挖掘能力,不必关心数据挖掘具体执行者,挖掘数据存在的隐藏价值。

4 结束语

本文从城市共交通一卡通发展需求分析,可以发现基于云计算的大数据挖掘技术是合理和可行的。利用Hadoop的分布式文件系统灵活扩展的特性可以解决公交一卡通公司快速增加的数据存储问题。利用基于Hadoop的岭南通数据挖掘模型在面向大众、企业内部管理和政府决策方面的对应数据分析与利用能够发挥极大的优势,对打造区域城市公共交通一卡通信息服务平台具有很大的帮助和应用前景。

【参考文献】

[1]顾建国.走进大数据时代的常州智慧公交:专访常州市公共交通集团公司董事长、总经理蔡健臣[J].人民公交,2013(07):24-32.

[2]洑云龙.云平台下的数据挖掘研究[D].南京:南京邮电大学,2013.

[3]杨来,史忠植,梁帆.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(05):936-944.

[4]韩艳,关宏志,严海.公交IC卡数据分析处理方法[J].交通标准化,2010(19):14-18.

[5]罗华群,易国平.校园一卡通数据的挖掘与应用[J].科技信息,2010(01): 41-42.

[责任编辑:孙珊珊]

【摘 要】随着城市公共交通一卡通互联互通的发展,越来越多的企业重视数据的价值与利用,然而现有的数据挖掘方法已经满足不了一卡通跨区域多领域的数据应用要求。本文从需求和技术等两个方面进行分析说明建立基于Hadoop计算模型的城市公共交通一卡通数据挖掘方法的可行性。

【关键词】IC卡;云计算;大数据挖掘;Hadoop

0 引言

公共交通在我国经济发展与日常生活中占据着非常重要的地位,为了鼓励与便利市民公共交通出行,大部分城市都采用了发行非接触式公交IC卡的方式,实现了大众乘坐公交、地铁等公共交通的便捷支付。随着区域经济一体化融合发展,跨区多领域的应用将是城市公共交通一卡通未来的发展趋势。广东岭南通股份有限公司(下称“岭南通公司”)在政府的支持和地市的配合下承担粤港澳城市公共交通一卡通互联互通工程建设,致力于打造服务于区域经济发展的现代公共交通信息化管理平台。本文将结合岭南通跨区多领域应用的发展趋势,分析了基于云平台的IC卡大数据挖掘的需求,对云计算和大数据挖掘技术进行分析,从而给出相应的一个解决方案。

1 IC卡数据挖掘云平台需求分析

近年来,我国公交IC卡发展十分迅猛,覆盖范围广泛,卡片发行量巨大,由此而产生的数据量异常庞大,以往基于数据统计的“小数据”模式已经满足不了现代公共交通信息化应用的需要。随着信息技术的发展,如今的IT技术已经足够有条件实现一种新的基于大数据思维模式的人工智能。基于IC卡的大数据挖掘技术不仅可以全面掌握庞大的数据信息,还能对这些有意义、有价值的数据进行专业化的分析与处理,从中挖掘潜藏其中的内在价值,并通过这些价值的利用来提高交通出行效率和管理水平[1]。

通过文献研究可以发现,国内外已有不少专家学者对IC卡数据分析与利用进行过相关的研究,如James J.(2002年)和Zhao(2004年)先后运用出行链的思想结合纽约市公交AFC数据得到了下车站点推到方法;Yves Croissant(2013年)等人基于公交IC卡数据对居民的日常出行行为进行研究以及国内东南大学陈学武等人(2004年)对IC卡数据的采集、分析及应用进行了相关探索。随着人们对公共交通出行数据重视程度的提高,国内外学者对IC卡数据分析挖掘的研究也越来越多。由上面可以发现国内外有关IC卡数据的研究虽然给后来人提供了重要的理论基础和宝贵的经验,但是他们的研究一般仅限于某一个城市或者单一的交通工具或者单一的主题分析与研究,缺乏对跨区域公交数据的相关研究,面对城市共交通一卡通跨区域多领域应用(互联互通)的发展趋势,迫切需要建立一种理论来填补这一空白。

2 基于云计算的大数据挖掘技术

数据挖掘旨在发现大量的数据中客观存在的一些规律,而这种规律需要通过相关技术分析数据才能够获得。尽管目前数据处理技术在不断地提高,但是在数据规模日益增大的背景下,人们对海量数据的快速高效处理又提出了新的需求。随着公共交通出行比例日益增加和城市公共交通一卡通的跨区多领域应用的发展,日常刷卡公交支付行为产生了海量的公共交通出行数据,规模可达GB、TB、PB级别的数据集随处可见,传统的技术要处理这些数据显得力不从心了。

云计算是当今信息技术产业变革的结果,是对分布式、并行处理和网格计算的进一步发展,它是一种基于互联网的计算,同时能够向各种互联网应用提供硬件服务、基础架构服务、平台服务、软件服务、存储服务的系统。对用户来说,云计算可以降低成本、提高了灵活性和扩展性,采用云计算架构模式能够降低信息系统的复杂性。在云计算的架构中,复杂的计算过程、资源管理都集中在位于“云端”的数据中心层面实现,用户付费使用云计算产品和服务,无需考虑云端后台的技术复杂性。

为了解决海量数据计算分析的问题,国内外学者相继提出了基于集群、基于网格、基于Agent等各种分布式数据挖掘平台,虽然在一定程度上提高了数据挖掘系统的处理能力,但容易衍生出一些自身难以解决的问题。如果能将云计算融入数据挖掘,通过云平台的大规模数据并行计算,可以解决海量数据挖掘的效率问题。结合岭南通数据源的特点,基于云计算的大数据挖掘技术满足了未来城市公共交通一卡通互联互通的发展趋势,建立一个岭南通“云”平台系统是顺应了这一发展的要求,如图1所示。

图1 岭南通“云”平台系统架构

3 基于Hadoop的岭南通数据挖掘云平台

3.1 Hadoop框架原理

Hadoop是Apache软件基金会所研发的一个能够对大量数据进行分布式处理的软件框架,是GFS和MapReduce的Java实现。Hadoop实现了MapReduce并行编程模型,提供了分布式文件系统HDFS(Hadoop Distributed File System),为分布式计算提供底层存储支持。一个MapReduce作业由大量Map和Reduce任务组成,它将大规模数据处理作业拆分成若干个独立运行的Map任务,分配到不同的机器上去执行,生成某种中间格式的文件,再由若干个Reduce任务合并这些中间文件或得最后输出文件。HDFS是一个由名字节点NameNode和若干个数据节点DataNode的组成。NameNode负责存储文件系统中的元数据和控制外部客户的访问,DataNode用来存放实际的数据。每个文件都被划分成若干个64M的数据块,这些数据块被分散的存储到各个DataNode上,HDFS为了保证数据的安全性,还会为数据进行备份存储到不同的机器上。用户从NameNode那里获取数据的位置信息后,直接与存放数据块的DataNode进行通信。

3.2 基于Hadoop 的岭南通数据挖掘模型

基于Hadoop的岭南通数据挖掘模型大体上可以分为三层,如图2所示。

最底层为云计算服务层,提供分布式并行数据处理和大数据的云存储。分布式存储为数据保存多份副本保证数据发生灾难时不影响用户的正常使用,提高了数据的安全性。

数据挖掘处理层位于云计算服务层之上,包括大数据的预处理和数据挖掘算法的并行化。数据预处理对形态各异的海量数据进行抽取、转换、清洗和集成等,预处理后的数据提高了数据挖掘的质量,使挖掘的过程变得更有效、更容易。数据挖掘算法的并行化是大数据挖掘的关键,需要进一步深入研究,使得改造后的挖掘算法和并行化策略能直接应用在云计算平台上的挖掘任务。

最顶层是面向各类用户的用户层。改成主要接受各类用户啊的请求,并将其传递给中层和底层,最后将最终的数据挖掘结果展示给用户。用户可以通过可视化的界面监视任务的执行,并且方便的查看执行结果。

基于云计算的大数据挖掘模式是大数据挖掘的主流方式。基于云计算的大数据挖掘服务能够为不同规模的企业应用,使得各类用户能够方便地定制和提交数据挖掘任务,直接使用数据挖掘能力,不必关心数据挖掘具体执行者,挖掘数据存在的隐藏价值。

4 结束语

本文从城市共交通一卡通发展需求分析,可以发现基于云计算的大数据挖掘技术是合理和可行的。利用Hadoop的分布式文件系统灵活扩展的特性可以解决公交一卡通公司快速增加的数据存储问题。利用基于Hadoop的岭南通数据挖掘模型在面向大众、企业内部管理和政府决策方面的对应数据分析与利用能够发挥极大的优势,对打造区域城市公共交通一卡通信息服务平台具有很大的帮助和应用前景。

【参考文献】

[1]顾建国.走进大数据时代的常州智慧公交:专访常州市公共交通集团公司董事长、总经理蔡健臣[J].人民公交,2013(07):24-32.

[2]洑云龙.云平台下的数据挖掘研究[D].南京:南京邮电大学,2013.

[3]杨来,史忠植,梁帆.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(05):936-944.

[4]韩艳,关宏志,严海.公交IC卡数据分析处理方法[J].交通标准化,2010(19):14-18.

[5]罗华群,易国平.校园一卡通数据的挖掘与应用[J].科技信息,2010(01): 41-42.

[责任编辑:孙珊珊]

猜你喜欢

IC卡云计算
工商业IC卡控制器改造为物联网控制器实践
在用电梯加装外接式IC卡运行控制系统设计改进
一种新的无触点IC卡的检测方法
实验云:理论教学与实验教学深度融合的助推器
湖北省高速公路IC卡管理系统浅谈