基于多字段分析的运动员信息舞弊审计方法
2014-11-19杨绮陈伟
杨绮+陈伟
【摘 要】 运动员信息舞弊审计是目前体育比赛中关注的一个重要问题。针对体育比赛的现状及需要,提出了基于多字段分析的运动员信息舞弊审计方法。该方法通过对参赛运动员信息数据表中的多个字段进行检测来查找重复运动员信息,发现舞弊线索。在分析该方法原理的基础上,设计了两种实现方法,以实例验证了这两种方法的有效性及实用价值,并对这两种方法的优缺点进行了比较。研究表明:基于多字段分析的运动员信息舞弊审计方法能有效地检测运动员舞弊信息,满足了体育比赛的实际需要。
【关键词】 运动员信息; 舞弊审计; 多字段分析
中图分类号:F249;G808.2 文献标识码:A 文章编号:1004-5937(2014)33-0112-04
一、问题的提出
1971年的“乒乓外交”敲开了封闭多年的中美关系大门,中美两国乒乓球队的友好往来,推动了两国关系正常化的进程,开创了我国外交史上的先河。如今,体育不仅服务于政治和外交,而且在市场经济的大潮中起着重要的作用,成为推动我国经济持续增长的重要力量。然而,随着体育比赛商业化的发展,在一些大型比赛项目中,常常会出现参赛运动员舞弊问题,即在不同地方注册的运动员可能会代表不同的运动队参加比赛,这违反了比赛规则。比如:2012年在河南南阳举办的第七届全国农民运动会象棋比赛中就被曝出有专业棋手改名参赛。
为了能有效地检测出这些违规的运动员信息,仅靠人工判断效率低下;另外,只从身份证信息或姓名这一个字段信息来判断运动员信息还不够准确。因此,如何通过对运动员信息进行数据分析来检测运动员信息舞弊成为一些大型比赛顺利开展所面临的重要问题。
对于数据分析,目前常用的方法主要有:账表分析、数据查询、审计抽样、数值分析、统计分析等,但这些方法多用于舞弊审计领域之中,很少应用于大型体育比赛项目中。基于以上分析,本文提出了基于多字段分析的运动员信息舞弊审计方法。
二、运动员信息舞弊审计方法原理分析
表1为某运动员信息表中关于运动员信息的4条记录。在表1中,编号为Y98001和Y98003的这两条记录仅从编号和姓名来看是不一样,但这两条记录除了编号和姓名不同外,性别、年龄、身高、体重、运动项目、入队时间、运动员等级等字段都一样,这样的运动员信息实际上有可能是同一名运动员。因此,对于这样的运动员信息,仅从编号和姓名上来判断其归属的运动队存在很大的漏洞。根据以上分析,本文提出一种基于多字段分析的运动员信息舞弊审计方法,其原理如图1所示。
该方法的原理描述如下:
首先,根据对被审计运动员信息表的分析和实际情况选取比较字段;其次,对运动员信息表中的数据进行预处理,如标准化数据字段格式等;再次,根据实际情况,选择相应的重复数据分析方法,并根据所选取的比较字段,检测重复运动员信息,所检测出的重复信息即为可疑数据;最后,对检测出的每一组重复运动员的信息(可疑数据)由工作人员通过一定的方法做进一步的延伸调查,最终确认是否有运动员的舞弊信息。
三、运动员信息舞弊审计方法的实现
根据以上分析,结合常用的数据分析方法,可以采用多种方法实现运动员信息舞弊审计。本文设计了两种运动员信息舞弊审计方法。
(一)基于数据查询的方法
数据查询是目前最常用的数据分析方法。简单地讲,数据查询就是按照一定的数据分析模型,在通用软件(如Microsoft Access)中采用SQL命令来分析采集来的电子数据。运用SQL语句的强大查询功能,通过构建一些复杂的SQL语句,完成模糊查询以及多表之间的交叉查询等功能,从而可以完成复杂的数据处理功能。针对运动员信息舞弊审计的需要,假设工作人员想根据“性别、年龄、身高、体重、运动项目、入队时间、运动员等级”这几个字段查找重复运动员信息,其对应的SQL查询语句如下:
(二)基于数据分析软件的方法
对于不熟悉SQL查询语句的工作人员,在条件许可的情况下,也可以采用一些数据分析软件来完成运动员信息舞弊检测。比如采用数据分析软件(如IDEA)的重号分析功能来完成运动员信息的舞弊检测。
重号分析用来计算某个字段中相同数值重复的次数。在舞弊审计领域,重号分析一般多用来检查一个数据表中是否存在相同的发票被重复记账,以判断是否有利用发票重复报销或重复使用发票、使用虚假发票的情况。重号分析这种方法目前已被应用于现场审计实施系统、ACL以及IDEA等审计数据分析软件中。
四、案例分析
(一)案例介绍
本节以实例来分析以上两种基于多字段分析的运动员信息舞弊审计方法的应用。假设“运动员信息表”为某大型比赛活动中运动员的信息数据,数据格式为Microsoft Access数据表,如图2所示。
(二)基于数据查询的方法
总之,工作人员可以根据需要更改相应的SQL语句,对字段进行检测,从而灵活地检测出重复运动员信息。
(三)基于数据分析软件的方法
以IDEA数据分析软件为例,分析如何采用数据分析软件来检测重复运动员信息,主要过程如下。
五、两种方法的比较
根据以上分析可以发现:
一是基于数据查询方法的优点是使用起来比较灵活,且Access数据库系统比较容易获得;缺点是要求工作人员必须灵活掌握如何写SQL查询语句。
二是基于数据分析软件方法的优点是使用起来比较简单;缺点是数据分析软件(如IDEA)是专门的软件,一般不能免费获得。
六、总结
本文根据我国大型体育比赛活动的需要,提出了基于多字段分析的运动员信息舞弊审计方法,有效地满足了体育比赛的实际需要。在实际使用过程中,工作人员可以根据实际情况和所具备的条件,选择最佳方法。
另外,不管被审计的运动员信息数据以何种数据格式存在,如Excel、文本文件或其他数据库格式,在实际操作中可以先把这些不同格式的数据采集到Access数据库或IDEA中,然后再采用本文的方法对这些数据进行分析。
当然,本文所研究的方法不能够解决体育比赛中所有的运动员信息舞弊问题,但通过和其他方法一起使用,能在很大程度上提高工作效率,满足大型体育比赛活动的需要。●
【参考文献】
[1] 换个马甲当农民21人被“清退”[N].青岛晚报,2012-09-26.
[2] Monge A E. Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin, 2000,23(4):14-20.
[3] Navarro G. A guided tour to approximate string matching[J]. ACM Computing Surveys, 2001,33(1):31-88.
[4] Durtschi C, Hillison W, Pacini C. The effective use of benford's law to assist in detecting fraud in accounting data[J].Journal of Forensic Accounting,2004,5(1):17-34.
[5] 陈伟,张金城,Robin Qiu.计算机辅助审计技术(CAATs)研究综述[J].计算机科学,2007,34(10): 290-294.
[6] 陈伟,Robin Qiu,刘思峰.一种基于数据匹配技术的审计证据获取方法[J].计算机科学,2008,35(8): 183-187,194.
[7] 陈伟.计算机辅助审计原理及应用(第二版)[M].北京:清华大学出版社,2012.
[8] 陈伟,Robin Qiu.面向大型数据库的审计数据采集方法[J].计算机应用,2008,28(8):2144-2146,2149.endprint
【摘 要】 运动员信息舞弊审计是目前体育比赛中关注的一个重要问题。针对体育比赛的现状及需要,提出了基于多字段分析的运动员信息舞弊审计方法。该方法通过对参赛运动员信息数据表中的多个字段进行检测来查找重复运动员信息,发现舞弊线索。在分析该方法原理的基础上,设计了两种实现方法,以实例验证了这两种方法的有效性及实用价值,并对这两种方法的优缺点进行了比较。研究表明:基于多字段分析的运动员信息舞弊审计方法能有效地检测运动员舞弊信息,满足了体育比赛的实际需要。
【关键词】 运动员信息; 舞弊审计; 多字段分析
中图分类号:F249;G808.2 文献标识码:A 文章编号:1004-5937(2014)33-0112-04
一、问题的提出
1971年的“乒乓外交”敲开了封闭多年的中美关系大门,中美两国乒乓球队的友好往来,推动了两国关系正常化的进程,开创了我国外交史上的先河。如今,体育不仅服务于政治和外交,而且在市场经济的大潮中起着重要的作用,成为推动我国经济持续增长的重要力量。然而,随着体育比赛商业化的发展,在一些大型比赛项目中,常常会出现参赛运动员舞弊问题,即在不同地方注册的运动员可能会代表不同的运动队参加比赛,这违反了比赛规则。比如:2012年在河南南阳举办的第七届全国农民运动会象棋比赛中就被曝出有专业棋手改名参赛。
为了能有效地检测出这些违规的运动员信息,仅靠人工判断效率低下;另外,只从身份证信息或姓名这一个字段信息来判断运动员信息还不够准确。因此,如何通过对运动员信息进行数据分析来检测运动员信息舞弊成为一些大型比赛顺利开展所面临的重要问题。
对于数据分析,目前常用的方法主要有:账表分析、数据查询、审计抽样、数值分析、统计分析等,但这些方法多用于舞弊审计领域之中,很少应用于大型体育比赛项目中。基于以上分析,本文提出了基于多字段分析的运动员信息舞弊审计方法。
二、运动员信息舞弊审计方法原理分析
表1为某运动员信息表中关于运动员信息的4条记录。在表1中,编号为Y98001和Y98003的这两条记录仅从编号和姓名来看是不一样,但这两条记录除了编号和姓名不同外,性别、年龄、身高、体重、运动项目、入队时间、运动员等级等字段都一样,这样的运动员信息实际上有可能是同一名运动员。因此,对于这样的运动员信息,仅从编号和姓名上来判断其归属的运动队存在很大的漏洞。根据以上分析,本文提出一种基于多字段分析的运动员信息舞弊审计方法,其原理如图1所示。
该方法的原理描述如下:
首先,根据对被审计运动员信息表的分析和实际情况选取比较字段;其次,对运动员信息表中的数据进行预处理,如标准化数据字段格式等;再次,根据实际情况,选择相应的重复数据分析方法,并根据所选取的比较字段,检测重复运动员信息,所检测出的重复信息即为可疑数据;最后,对检测出的每一组重复运动员的信息(可疑数据)由工作人员通过一定的方法做进一步的延伸调查,最终确认是否有运动员的舞弊信息。
三、运动员信息舞弊审计方法的实现
根据以上分析,结合常用的数据分析方法,可以采用多种方法实现运动员信息舞弊审计。本文设计了两种运动员信息舞弊审计方法。
(一)基于数据查询的方法
数据查询是目前最常用的数据分析方法。简单地讲,数据查询就是按照一定的数据分析模型,在通用软件(如Microsoft Access)中采用SQL命令来分析采集来的电子数据。运用SQL语句的强大查询功能,通过构建一些复杂的SQL语句,完成模糊查询以及多表之间的交叉查询等功能,从而可以完成复杂的数据处理功能。针对运动员信息舞弊审计的需要,假设工作人员想根据“性别、年龄、身高、体重、运动项目、入队时间、运动员等级”这几个字段查找重复运动员信息,其对应的SQL查询语句如下:
(二)基于数据分析软件的方法
对于不熟悉SQL查询语句的工作人员,在条件许可的情况下,也可以采用一些数据分析软件来完成运动员信息舞弊检测。比如采用数据分析软件(如IDEA)的重号分析功能来完成运动员信息的舞弊检测。
重号分析用来计算某个字段中相同数值重复的次数。在舞弊审计领域,重号分析一般多用来检查一个数据表中是否存在相同的发票被重复记账,以判断是否有利用发票重复报销或重复使用发票、使用虚假发票的情况。重号分析这种方法目前已被应用于现场审计实施系统、ACL以及IDEA等审计数据分析软件中。
四、案例分析
(一)案例介绍
本节以实例来分析以上两种基于多字段分析的运动员信息舞弊审计方法的应用。假设“运动员信息表”为某大型比赛活动中运动员的信息数据,数据格式为Microsoft Access数据表,如图2所示。
(二)基于数据查询的方法
总之,工作人员可以根据需要更改相应的SQL语句,对字段进行检测,从而灵活地检测出重复运动员信息。
(三)基于数据分析软件的方法
以IDEA数据分析软件为例,分析如何采用数据分析软件来检测重复运动员信息,主要过程如下。
五、两种方法的比较
根据以上分析可以发现:
一是基于数据查询方法的优点是使用起来比较灵活,且Access数据库系统比较容易获得;缺点是要求工作人员必须灵活掌握如何写SQL查询语句。
二是基于数据分析软件方法的优点是使用起来比较简单;缺点是数据分析软件(如IDEA)是专门的软件,一般不能免费获得。
六、总结
本文根据我国大型体育比赛活动的需要,提出了基于多字段分析的运动员信息舞弊审计方法,有效地满足了体育比赛的实际需要。在实际使用过程中,工作人员可以根据实际情况和所具备的条件,选择最佳方法。
另外,不管被审计的运动员信息数据以何种数据格式存在,如Excel、文本文件或其他数据库格式,在实际操作中可以先把这些不同格式的数据采集到Access数据库或IDEA中,然后再采用本文的方法对这些数据进行分析。
当然,本文所研究的方法不能够解决体育比赛中所有的运动员信息舞弊问题,但通过和其他方法一起使用,能在很大程度上提高工作效率,满足大型体育比赛活动的需要。●
【参考文献】
[1] 换个马甲当农民21人被“清退”[N].青岛晚报,2012-09-26.
[2] Monge A E. Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin, 2000,23(4):14-20.
[3] Navarro G. A guided tour to approximate string matching[J]. ACM Computing Surveys, 2001,33(1):31-88.
[4] Durtschi C, Hillison W, Pacini C. The effective use of benford's law to assist in detecting fraud in accounting data[J].Journal of Forensic Accounting,2004,5(1):17-34.
[5] 陈伟,张金城,Robin Qiu.计算机辅助审计技术(CAATs)研究综述[J].计算机科学,2007,34(10): 290-294.
[6] 陈伟,Robin Qiu,刘思峰.一种基于数据匹配技术的审计证据获取方法[J].计算机科学,2008,35(8): 183-187,194.
[7] 陈伟.计算机辅助审计原理及应用(第二版)[M].北京:清华大学出版社,2012.
[8] 陈伟,Robin Qiu.面向大型数据库的审计数据采集方法[J].计算机应用,2008,28(8):2144-2146,2149.endprint
【摘 要】 运动员信息舞弊审计是目前体育比赛中关注的一个重要问题。针对体育比赛的现状及需要,提出了基于多字段分析的运动员信息舞弊审计方法。该方法通过对参赛运动员信息数据表中的多个字段进行检测来查找重复运动员信息,发现舞弊线索。在分析该方法原理的基础上,设计了两种实现方法,以实例验证了这两种方法的有效性及实用价值,并对这两种方法的优缺点进行了比较。研究表明:基于多字段分析的运动员信息舞弊审计方法能有效地检测运动员舞弊信息,满足了体育比赛的实际需要。
【关键词】 运动员信息; 舞弊审计; 多字段分析
中图分类号:F249;G808.2 文献标识码:A 文章编号:1004-5937(2014)33-0112-04
一、问题的提出
1971年的“乒乓外交”敲开了封闭多年的中美关系大门,中美两国乒乓球队的友好往来,推动了两国关系正常化的进程,开创了我国外交史上的先河。如今,体育不仅服务于政治和外交,而且在市场经济的大潮中起着重要的作用,成为推动我国经济持续增长的重要力量。然而,随着体育比赛商业化的发展,在一些大型比赛项目中,常常会出现参赛运动员舞弊问题,即在不同地方注册的运动员可能会代表不同的运动队参加比赛,这违反了比赛规则。比如:2012年在河南南阳举办的第七届全国农民运动会象棋比赛中就被曝出有专业棋手改名参赛。
为了能有效地检测出这些违规的运动员信息,仅靠人工判断效率低下;另外,只从身份证信息或姓名这一个字段信息来判断运动员信息还不够准确。因此,如何通过对运动员信息进行数据分析来检测运动员信息舞弊成为一些大型比赛顺利开展所面临的重要问题。
对于数据分析,目前常用的方法主要有:账表分析、数据查询、审计抽样、数值分析、统计分析等,但这些方法多用于舞弊审计领域之中,很少应用于大型体育比赛项目中。基于以上分析,本文提出了基于多字段分析的运动员信息舞弊审计方法。
二、运动员信息舞弊审计方法原理分析
表1为某运动员信息表中关于运动员信息的4条记录。在表1中,编号为Y98001和Y98003的这两条记录仅从编号和姓名来看是不一样,但这两条记录除了编号和姓名不同外,性别、年龄、身高、体重、运动项目、入队时间、运动员等级等字段都一样,这样的运动员信息实际上有可能是同一名运动员。因此,对于这样的运动员信息,仅从编号和姓名上来判断其归属的运动队存在很大的漏洞。根据以上分析,本文提出一种基于多字段分析的运动员信息舞弊审计方法,其原理如图1所示。
该方法的原理描述如下:
首先,根据对被审计运动员信息表的分析和实际情况选取比较字段;其次,对运动员信息表中的数据进行预处理,如标准化数据字段格式等;再次,根据实际情况,选择相应的重复数据分析方法,并根据所选取的比较字段,检测重复运动员信息,所检测出的重复信息即为可疑数据;最后,对检测出的每一组重复运动员的信息(可疑数据)由工作人员通过一定的方法做进一步的延伸调查,最终确认是否有运动员的舞弊信息。
三、运动员信息舞弊审计方法的实现
根据以上分析,结合常用的数据分析方法,可以采用多种方法实现运动员信息舞弊审计。本文设计了两种运动员信息舞弊审计方法。
(一)基于数据查询的方法
数据查询是目前最常用的数据分析方法。简单地讲,数据查询就是按照一定的数据分析模型,在通用软件(如Microsoft Access)中采用SQL命令来分析采集来的电子数据。运用SQL语句的强大查询功能,通过构建一些复杂的SQL语句,完成模糊查询以及多表之间的交叉查询等功能,从而可以完成复杂的数据处理功能。针对运动员信息舞弊审计的需要,假设工作人员想根据“性别、年龄、身高、体重、运动项目、入队时间、运动员等级”这几个字段查找重复运动员信息,其对应的SQL查询语句如下:
(二)基于数据分析软件的方法
对于不熟悉SQL查询语句的工作人员,在条件许可的情况下,也可以采用一些数据分析软件来完成运动员信息舞弊检测。比如采用数据分析软件(如IDEA)的重号分析功能来完成运动员信息的舞弊检测。
重号分析用来计算某个字段中相同数值重复的次数。在舞弊审计领域,重号分析一般多用来检查一个数据表中是否存在相同的发票被重复记账,以判断是否有利用发票重复报销或重复使用发票、使用虚假发票的情况。重号分析这种方法目前已被应用于现场审计实施系统、ACL以及IDEA等审计数据分析软件中。
四、案例分析
(一)案例介绍
本节以实例来分析以上两种基于多字段分析的运动员信息舞弊审计方法的应用。假设“运动员信息表”为某大型比赛活动中运动员的信息数据,数据格式为Microsoft Access数据表,如图2所示。
(二)基于数据查询的方法
总之,工作人员可以根据需要更改相应的SQL语句,对字段进行检测,从而灵活地检测出重复运动员信息。
(三)基于数据分析软件的方法
以IDEA数据分析软件为例,分析如何采用数据分析软件来检测重复运动员信息,主要过程如下。
五、两种方法的比较
根据以上分析可以发现:
一是基于数据查询方法的优点是使用起来比较灵活,且Access数据库系统比较容易获得;缺点是要求工作人员必须灵活掌握如何写SQL查询语句。
二是基于数据分析软件方法的优点是使用起来比较简单;缺点是数据分析软件(如IDEA)是专门的软件,一般不能免费获得。
六、总结
本文根据我国大型体育比赛活动的需要,提出了基于多字段分析的运动员信息舞弊审计方法,有效地满足了体育比赛的实际需要。在实际使用过程中,工作人员可以根据实际情况和所具备的条件,选择最佳方法。
另外,不管被审计的运动员信息数据以何种数据格式存在,如Excel、文本文件或其他数据库格式,在实际操作中可以先把这些不同格式的数据采集到Access数据库或IDEA中,然后再采用本文的方法对这些数据进行分析。
当然,本文所研究的方法不能够解决体育比赛中所有的运动员信息舞弊问题,但通过和其他方法一起使用,能在很大程度上提高工作效率,满足大型体育比赛活动的需要。●
【参考文献】
[1] 换个马甲当农民21人被“清退”[N].青岛晚报,2012-09-26.
[2] Monge A E. Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin, 2000,23(4):14-20.
[3] Navarro G. A guided tour to approximate string matching[J]. ACM Computing Surveys, 2001,33(1):31-88.
[4] Durtschi C, Hillison W, Pacini C. The effective use of benford's law to assist in detecting fraud in accounting data[J].Journal of Forensic Accounting,2004,5(1):17-34.
[5] 陈伟,张金城,Robin Qiu.计算机辅助审计技术(CAATs)研究综述[J].计算机科学,2007,34(10): 290-294.
[6] 陈伟,Robin Qiu,刘思峰.一种基于数据匹配技术的审计证据获取方法[J].计算机科学,2008,35(8): 183-187,194.
[7] 陈伟.计算机辅助审计原理及应用(第二版)[M].北京:清华大学出版社,2012.
[8] 陈伟,Robin Qiu.面向大型数据库的审计数据采集方法[J].计算机应用,2008,28(8):2144-2146,2149.endprint