吴春妹:大数据时代的领航者
2016-12-26李宝铎
李宝铎
随着网络科技的发展,人类走进了大数据时代,如何对海量数据进行合理应用,成为人们必须要思考的问题。在这种形势下,数据挖掘技术逐渐发展起来,在这些技术的支持下,数据的存储、处理以及分析变得更加方便、快捷。企业可以建立一个超级计算环境,提高数据的利用率,完善生产经营模式。当下,越来越多的人才投身到数据挖掘技术的研究中,并取得了非常不错的成果,吴春妹就是这些优秀人才中的代表。多年来,她始终坚持数据挖掘技术和大数据算法的研究,并取得了丰硕的成果,帮助合作企业建立了新型的运作模式,为互联网行业的发展和进步做出了一定的贡献。本期,笔者就对吴春妹女士进行专访,了解她对数据挖掘技术的看法以及研究经验。
笔者:您好,作为互联网数据挖掘领域的佼佼者,您已经在该行业中拼搏了多年,能为我们分享一下您的从业经验吗?
吴春妹:我进入互联网行业的时间比较早,一直坚持研究数据挖掘方面的技术。我认为,在这个大数据时代中,谁能应用先进的技术对海量数据进行合理运用,谁就能占得先机、实现发展。当然,对于这个新兴领域来说,很多东西都是未知的,但是我们不能因此退缩,未知中往往蕴含着更多的财富。所以,无论是技术研发还是企业管理,我都会以一种积极的心态去面对。每一次在技术研发方面取得新的突破,都让我更加坚定自己的选择,我觉得只要坚持下去,就一定会有所收获。
笔者:近几年,大数据这个概念频频出现,数据挖掘技术被炒得很热,但是很少有人真正清楚其中的含义,能够根据您的理解为我们解析一下吗?
吴春妹:所谓的数据挖掘,就是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中、人们事先不知道的,但又是潜在有用信息和知识的过程。关于数据挖掘有很多定义,我个人认为刚才我表述的这个定义最具代表性,能够清楚地描述出数据挖掘的内涵。而我们研究数据挖掘技术,就是要在最短的时间内从海量数据中找到自己最需要的信息。这是一个非常复杂的过程,涉及到统计、在线分析处理、模糊识别等多方面技术。这就需要我们技术研发人员加强学习,完善自己的理论知识体系,熟练掌握相关技术,这样才能研究出满足实际需要的数据挖掘技术。
笔者:近几年您获得了多项软件著作权,得到了权威机构的认证,并被一些企业应用于管理实践中,取得了非常不错的效果。您研发相关软件系统的初衷是什么?
吴春妹:最初出现的大数据技术,主要是被应用于大型网络企业中,是对点击流数据进行分析。随着网络技术的发展,数据量成倍增加,很多企业每天都需要处理大量数据。包括银行、情报部门以及事业单位等,他们对大数据技术的需求越来越大。同时,很多企业的管理者开始认识到了信息服务的重要价值,他们觉得,对信息进行合理挖掘和利用,能够在一定程度上提高自己的竞争优势。如果在信息收集、处理以及利用方面不积极,起点就可能比竞争者低很多。因此,短时间内,数据挖掘技术成为了企业关注的焦点。出于对这种现状的考虑,我开始研究相关的软件系统,针对不同企业的特征做出了不同的设计,希望这些系统能够帮助企业对数据进行收集、分析,提高信息的利用率,促进企业健康发展。
笔者:现在看来您的目标基本上实现了,很多企业应用了您研发的软件系统以后,都觉得很满意。
吴春妹:我的研究成果能够为合作企业的发展起到一定的积极作用,我感到非常欣慰。我觉得不同类型的企业对信息处理有着不同的需求,所以我在研究软件系统的时候,会考虑多方面因素,争取为企业构建一个完善的信息处理系统,保证其对现有的数据信息进行合理利用。
笔者:开始您就说过,数据挖掘过程非常复杂,其流程究竟是怎样的呢?通过什么样的方式在海量数据中挖掘到自己需要的信息?
吴春妹:数据挖掘过程可以总结为以下几个步骤。第一步是定义问题,就是明确目标,确定本次操作想要得到什么,后续所有步骤都要围绕所定义的问题展开;第二步是准备数据,就是在数据库中提取目标数据集,对这部分数据进行预处理、加工等,具体包括检验数据的完整性和一致性,对丢失的域进行填补,对无效的数据进行删除等;第三步是数据挖掘,需要选择合适的数据算法,要将数据的功能以及算法作为依据,然后在净化和转换过的数据集上进行数据挖掘;第四步是结果分析,就是对挖掘的结果进行转换和评价,将其转化为用户能够理解的知识;第五步是知识的运用,这是数据挖掘的最终目的,就是将得到的知识整合到业务信息系统中去,成为企业管理的一部分。从流程中我们可以看出数据挖掘的过程比较复杂,任何一个环节出现问题,都有可能无法达到理想的挖掘效果。因此我们在研究相关技术和软件系统的过程中会考虑到每一个细节,不允许出现任何疏漏。
笔者:现在,数据挖掘软件的种类越来越多,企业面临着很多选择。能根据您的经验为我们分析一下如何评价、选择数据挖掘软件吗?
吴春妹:随着大数据技术的发展,商业软件的数量越来越多,企业选择合适的软件,能够大大提升数据挖掘的成功率。根据我的个人经验,我觉得应该从以下几个方面来评价和选择。首先是评价其计算性能,除了确定软件能否在不同的商业平台上运行之外,还要考虑其是否能连接不同的数据源,计算效率、运行的稳定性如何等;其次是评价功能性,包括算法的多样性、算法的适用范围、用户能否根据自己的需要对算法和参数进行调整、挖掘结果能否以不同的形式表现出来等;第三是评价其可用性,包括用户界面的友好程度、软件的应用范围和易学程度、主要针对初级用户还是高级用户等;最后是评价其辅助功能,包括软件是否允许用户修改数据集中的错误,能否将一次分析的结果反馈到另一次分析中。评价过程中,要从以上四个方面综合考虑,根据自己的需要做出合理的判断和选择。
笔者:您分析得非常全面,企业在选择数据挖掘软件时,可以将其作为重要的参考依据。作为一名技术研发人员和一名企业管理者,您肩上的责任很重,您是如何在这两项工作中间做好平衡的?
吴春妹:我觉得,一名合格的企业管理者必须是一名优秀的技术研发人员,尤其对于我们这种类型的企业来说更是如此。公司的主要业务就是研发大数据相关技术,为合作企业提供相应的服务。作为一名管理者,如果不懂这些技术,就无法明确公司的发展方向。所以长期以来,尽管公司日常管理工作非常忙碌,我也从来没有放弃过技术研究。这样做,一方面是可以将自己多年的研究经验传授给大家,鼓励团队成员之间相互交流,共同进步;另一方面是可以引起大家对技术研发工作的重视,用创新推进公司发展。我会根据市场需求和公司的实际情况对发展战略进行调整,将公司发展与行业发展统一起来,防止发展偏离轨道。
笔者:近几年,您带领团队开发数据挖掘技术和大数据算法,能为我们分享一下经验吗?
吴春妹:当前,大数据这个概念非常火热,各行各业对数据挖掘技术越来越重视,这对于我们这种类型的企业来说无疑是一种发展良机。但是,所谓水涨船高,竞争者的数量越来越多,部分竞争者的实力非常强大。谁能研究出最先进的技术和产品,谁才能得到用户的信任。就是说,仅仅认识到现实形势是不够的,要想在竞争中处于优势地位,必须用实力说话,而先进的技术和产品就是实力的直接代表。所以,我和团队成员会非常关注市场行情,明确用户需要什么,然后确定技术研究方向,有条不紊地开展每一项研究工作。我们会将数据挖掘流程与用户的特征联系起来,综合考虑各方面因素,研究出适合不同行业、不同用户的大数据技术。当然,研究过程中会遇到很多困难,很多时候在进入模拟试验阶段以后,才发现技术或者软件功能没有达到预期,此时就需要回头对每一个细节进行重新分析,明确问题所在,逐一改进。所有细节修改完成以后,需要重新模拟试验,再次对软件的可靠性和功能性进行评价,直至满意为止。
笔者:凭借先进的技术和产品,您的公司与很多知名企业建立了长期合作的关系,这一过程中一定收获了可观的经济效益吧?
吴春妹:的确是,事实证明我们在技术研发方面的投入没有白费。产品被用户认可,并被广泛应用于实际中以后,公司的盈利能力明显提升。尤其是与一些企业建立了长期合作关系以后,公司能够获得相对稳定的收益。我们会将收益中的一部分拿出来,继续投入到技术研发工作中去,始终保持公司的创新活力,实现公司的可持续发展。如今,公司的盈利能力提升,规模处于进一步发展壮大之中。未来,我会带领团队向更多企业寻求合作,通过研发先进的数据挖掘技术提升其综合管理水平,实现双方的互利共赢。
笔者:您一直在强调将数据挖掘技术应用于实际中,重视对用户需求的考虑,能谈一下原因吗?
吴春妹:原因很简单,因为数据挖掘技术的出现主要就是面向应用的。随着网络技术的发展,各行各业的业务操作逐渐向着自动化的方向发展,业务数据越来越庞杂。我们研究数据挖掘技术,就是为了帮助企业解决数据管理和应用中的实际问题,所以我一直在强调用户需求以及技术和产品的实际运用。现在,数据挖掘技术的应用范围越来越广,涵盖了电信、医学、军事、金融等各个领域,取得了很好的效果。
笔者:您认为互联网数据挖掘领域的发展前景如何?
吴春妹:我觉得这个领域具备非常广阔的发展前景。从目前的情况来看,数据挖掘技术尚处于发展期,就已经创造了意想不到的价值。随着技术的成熟,这种技术的应用范围将会越来越广,成为各行各业发展过程中必不可少的工具。所以,我会在这个领域坚持下去,希望自己能够有机会见证各个行业的蜕变。同时,我也希望更多优秀的人才参与到数据挖掘技术研究工作中来,为该领域的发展和进步添砖加瓦。
笔者:根据您的判断,您认为未来一段时间内数据挖掘技术的研究焦点是什么?
吴春妹:通过对市场形势进行分析,结合我个人的理解,我认为未来一段时间内该领域的研究重点将体现在几方面上。一是研究互联网环境下的数据挖掘技术,尤其是分布式数据采掘技术的开发和应用将会越来越广泛;二是有关生物信息的数据挖掘,推进生物化学、生物医学领域的进一步发展;三是数据挖掘过程将向着可视化的方向发展,以往我们重点研究挖掘结果的可视化,将数据转化为知识,方便用户的理解和使用。而挖掘过程的可视化可以使用户更加清楚整个进程,有利于人机交互的实现;四是数据处理范围将会越来越广,会涉及到更多数据类型,可能是结构比较特殊的数据,也可能是比较复杂的数据;五是数据挖掘语言将会越来越丰富,可能会研究专门用于知识发现的数据挖掘语言,促使其向着标准化的方向发展。
笔者:未来您在研究相关技术时会将以上几点作为重点吗?
吴春妹:我会将自己的判断与公司的业务范围联系起来,确定科学合理的技术研发方向,为公司的发展指明道路。可以肯定的是,无论行业向着什么方向发展以及发展重点是什么,技术研发都是重中之重。因此,我和团队成员会始终将该项工作作为公司发展的核心,积极学习相关理论知识,丰富实践经验,提高技术研发能力,以此适应市场形势,紧跟时代潮流。
笔者:对于这个行业的未来你有着怎样的希冀呢?
吴春妹:我认为这是一个充满朝气的行业,具有无限的可能性,因此对于这个行业的未来,我充满期待。我会将公司以及每一个研究项目作为载体,为数据挖掘技术的成熟和进步贡献一份力量。当然,我也希望各行各业的精英们能够认识到数据挖掘技术的巨大潜力,加强相关产品和技术的应用,提高信息利用率,实现自身的健康发展,同时推进互联网数据挖掘行业的革新。