“数据分析与计算专栏”主持人语
2014-10-20刘滨
刘 滨
数据,泛在于自然、社会和人文空间,在记录历史轨迹的同时,也蕴藏着推动发展的力量。随着信息、通讯、网络等技术的演进,互联网、移动网、广电网、物联网、社交网等现代网络及衍生业务迅速生长,数据体量、增速、复杂性等都达到了前所未有的高度。分析数据的特征和规律,计算出信息和知识,已经成为多学科理论交叉融合、共同面对的任务,更是一个协同创新的命题,需要计算机、数学、管理、信息、心理等多专业人才协作研究、解析问题、建立模型、设计算法、实施方案和评价结果。
承蒙河北科技大学学报编辑部为我们DARG组(Data Analysis Research Group,数据分析研究组)开辟本专栏,提供了一个与国内外优秀同行交流成果、切磋业务、探索问题、共同进步的宝贵平台。DARG组教师(详见主页:http://www.bigdatacn.org)主要来自河北科技大学、清华大学、北京理工大学和北京交通大学,具有在剑桥大学、清华大学、日本国立岐阜大学、北京理工大学、天津大学、南开大学、重庆大学等国内外知名学府的博士教育背景和博士后工作经历。
本期“数据分析与计算专栏”共推出3篇文章。
第1篇是刘滨撰写的《分布式数据挖掘综述》,关注如何将泛在于网络空间的分布式计算环境和分布式数据资源相结合,提高分布式挖掘的效率和质量问题。文章根据系统设计思路和主要依托技术,对当前国内外主流分布式数据挖掘系统进行了分类,归纳出各类别的特点和局限,提炼出当前研究的共性问题,提出了利用本体度量数据源语义距离改善挖掘方式和结果质量的思路。
第2篇是杨彦波等撰写的《信息可视化研究综述》,关注数据分析和计算的过程与结果展现问题。信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。文章对信息可视化的数据对象和技术进行了综述,对当前研究热点进行了整理,探索性提出了信息可视化未来的研究方向。
第3篇是许云峰等撰写的《基于三元闭包和会员闭包的社区发现算法研究》,关注以微博为代表的现代社交网络中的社区发现问题。由于社交网络中人数众多,关系错综复杂,因而产生的社交数据和传统的数据相比具有数据量大、结构复杂、语义丰富的特点。针对此种情况,文章根据用户之间的关系,提出了一种基于三元闭包的社区划分算法,并通过与宽吻海豚网和Zachary俱乐部的社区网络进行比较,证明了该算法的有效性和可行性。
限于学术水平,以上文章定有可进一步完善之处,欢迎各位朋友不吝指正。大数据时代已经来临,让我们共同为推进数据的分析与计算工作而努力奋斗!