APP下载

侦查讯问中的大数据解读与应用设想

2015-01-29殷明江苏警官学院江苏南京210012

中国刑警学院学报 2015年3期
关键词:讯问职业化嫌疑人

殷明(江苏警官学院 江苏 南京 210012)

侦查讯问中的大数据解读与应用设想

殷明
(江苏警官学院 江苏 南京 210012)

大数据有四个基本特征:数据规模大 (Volume)、数据种类多 (Variety)、数据要求处理速度快(Velocity)、数据价值密度低 (Value)。当前刑事案件侦查工作因其案件涉及的数量、涉案信息的形态变革以及案件分析手段的多样性决定了刑事案件侦查的大数据化。在讯问过程中,大数据的体现是证据种类繁多、数量庞大,人工已无法胜任分析工作。但是,当前犯罪的职业化趋势为讯问工作中面对的大数据解读提供了可能。利用大数据进行犯罪趋势的一级表征编码,通过讯问工作对具体案件“人”的特征和“案”的特征进行二级表征编码,以二级表征来解读大数据。如果能够实现“主题建模”则可以实现主动来主动寻找隐案和潜在的相关犯罪嫌疑人。

讯问 大数据 特征 表征

1 大数据与刑事案件侦查

1.1 关于大数据的概念诠释

全球知名的咨询公司麦肯锡 (McKinsey) 2011年 6月份发布了一份关于大数据的详尽报告“Big Data:The next frontier for innovation,competition, and productivity”,报告首次提出了大数据的概念。大数据有四个基本特征:数据规模大 (Volume)、数据种类多(Variety)、数据要求处理速度快(Velocity)、数据价值密度低(Value),即所谓的四V特性。[1]有一些研究将数据价值密度低改为“数据准确性”(Veracity),但是就目前的现状来看“数据准确性”(Veracity)很难得到保证,因此数据价值低密度性更符合现实。即大量数据信息呈指数增长的同时,其中包含的真实信息或存在应用价值的信息并没有和信息量的增长同步,相反信息的量淡化了信息的价值密度,使得获取有用信息的难度增加。

大数据由于其巨大的应用价值,目前正逐步向不同的行业中渗透与发展,包括经济、政治、文化、生活等多个领域在内都不同程度地涉及大数据的应用。例如经济领域内电商通过分析人们的上网行为来获取普通大众乃至特定个体的消费习惯和期望,实现广告精准推送;政治领域内则通过大数据的获取与分析,实现对社会面的有效管控和指导,犯罪调查为其中应用方向之一。

1.2 刑事案件侦查的大数据化

1.2.1 案件数量的剧增

我国伴随着当前城市流动人口增加、社会贫富差距拉大、失地农民和城市失业人群数量攀升等诸如此类的社会问题,导致近年来刑事案件总量也呈现不断攀升的趋势。从2000年全国刑事案件立案363万多起,到2012年全国刑事案件立案数量达到600万起以上。同时由于犯罪黑数问题的存在,根据我国早期的一项研究——《中国现阶段犯罪问题研究》 (该项目是由公安部、公安大学以及地方公安系统共同承担的全国哲学社会科学“七五”重点研究课题,课题组从1987年12月至1988年11月对全国300多个派出所的立案以及近万个具体案件的情况进行了数据搜集调查与分析),课题组所获取的关于犯罪黑数数据显示:犯罪明数最多只占实际发生的 1/3。[2]随着立法和相关监管措施的完善,犯罪黑数问题有所好转,但是依然是一个不容忽视的客观存在。因此,可以推断出目前全国刑事案件发案的总量应该是相当惊人的,并且呈现出逐年递增的趋势。一般而言,任何一起案件都包括人、事、物三方面的信息:即犯罪嫌疑人、被害人、犯罪事实、涉案物品、犯罪现场等。随着案件数量的不断激增,涉案信息的数量也越来越庞大。面对如此庞大的案件数量,传统侦查手段已捉襟见肘,必须引入全新的能够适用当前形式的侦查思维与侦查手段。

1.2.2 涉案信息的变革

在案件数量剧增的同时,涉案信息也发生了颠覆性的变革,案件所涉及的信息已不再局限于传统的纸质卷宗材料。

变革的第一方面是信息量呈现出指数级别的增长形式,即所谓的“信息爆炸”,由此带来了海量规模的涉案信息。这一方面是由于刑事案件总体发案数量的剧增,另一方面则是单个刑事案件涉案信息量的激增。随着现代社会技术手段的不断发展,带来了交通与通讯工具的便利化、高效化与大众化。尤其是数据通讯技术的产生与应用,使得每一个普通的社会个体所能触及的社会领域越来越广阔。任何人任何时间都可以实现瞬间的大范围物理空间转移以及大规模信息交换,因此,在这一过程中导致单个刑事案件涉案信息量的急速扩增。

同时由于信息数据化存储和信息网络技术覆盖面的逐步扩大,打破了信息存贮、信息传递以及信息共享的技术限制。信息资料打破了行业与部门之间的封锁,实现了各类信息数据库互联贯通,在案件侦查过程中除了公安内部的信息数据外,更需要充分挖掘、搜集和利用社会信息资源,[3]如金融、电信、工商、税务、劳动等部门的信息数据,将海量的社会信息资源依托数据技术手段进行整合从而服务于刑事侦查工作,由此进一步扩大了侦查的信息源,使得涉案信息量以指数无限扩大。

变革的第二方面是涉案信息形态的变化。传统涉案信息一般为实物材料或纸质材料形式存在,目前的涉案信息除了传统的实物和纸质材料以外,视频信息、数字化数据信息开始大量使用,尤其是遍布于街头巷尾,几乎无处不在的视频监控信息的利用,网络社交媒体信息的融合,以及海量无线数据通讯痕迹的应用,这些变革正在将涉案信息形态逐步从有形向无形转变。

现代数据技术的出现,彻底突破了信息的物质形态,将作为概念表征的信息与承载这些概念表征的物质媒介进行了分离。传统的信息必须凭借具体的物质媒介以直观的方式存在及表现,例如各种书籍就是一种典型的传统信息表现形式,特定种类的信息必须依托相对应的载体,因此,这些载体在某种程度上等同于信息本身。但是,以现代数据技术为依托的信息则摆脱了对于传统物质载体的依赖,如视频信息、社交信息、通讯信息都可以脱离固定物质载体而以独立的形式存在,并且不以物质载体的消失而湮灭。信息与信息的载体成为截然不同的两种事物。

1.2.3 案件分析手段的多样

在涉案信息发生变革的同时对涉案信息分析的手段也在不断变化以适应形势。随着信息的数据化,目前初步实现了对不同性质、不同种类的涉案信息统一归集,同时借助于计算机数据分析技术,即所谓的“人工智能”已经能够实现涉案信息的搜集、归类、存储,并且做出初步的数据分析,所有这些数据处理成为侦查工作的基础和起点。在此过程中,首先将传统不同物质形态、不同种类甚至是不同案件的信息进行了数字化合并,实现了人、事、物整体涉案资料信息的串并形成一个海量数据库,同时在此数据库的基础上依赖于人工智能实现对涉案人员、涉案资料以及相关案件的自动检索与比对,从而将所有的涉案信息都能够整合为个案侦查的信息基础。进一步而言,通过数据通信技术还能够将全社会范围内与案件信息相关的其他人、事、物信息进行关联,进行更大规模的整合,为类案、个案的侦查提供信息支撑。因此,利用数据技术,对案件信息、对社会信息的整合同时进行自动化的检索分析,以支撑个案或类案的侦查,符合当前社会技术发展前提下个体空间范围和信息范围扩展所导致的涉案信息海量化的发展趋势。但是,目前对于涉案信息人工智能化数据处理,其效率还非常低,需要通过对海量信息进行筛选,从中分析寻找出有价值的线索。

综合上述,对照大数据的“4V”特点和相关的概念界定,案件侦查过程在某种程度上就是对涉案信息的搜集、整理与分析,这些信息符合数据规模大(Volume)—— 案件数量剧增,涉案信息面广,同时融合了不同部门、不同行业以及社会信息;数据种类多 (Variety)—— 包括实物信息和数据信息,多种信息形态;数据要求处理速度快(Velocity)—— 利用网络技术进行传输以及电脑自动高速处置;数据价值密度低(Value)—— 大海捞针式信息分析检索。因此,可以判定案件侦查开始步入大数据时代。

2 侦查讯问环节的大数据

2.1 证据要素来源复杂

讯问工作是案件侦查的一个必不可少的环节,在这个过程中一个比较重要的目的就是通过犯罪嫌疑人的口供将各种孤立的证据形成完成的证据链。前文所述,当前刑事案件侦查进入了大数据时代。因此,在讯问过程中侦查人员必须同样面对大量不同来源的证据信息用以分析和解决讯问中的“七何”要素。在实践工作中由于此类信息来源复杂,因此对数据信息的甄别是侦查员首先要完成的工作,但是面对大数据时代的证据信息,单靠人力资源无法完成对此类信息的分析筛选。必须采用分布式计算架构,必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。通过这些技术实现对涉案证据信息数据的广泛搜集与自动检索、分析比对。

2.2 证据种类规格复杂

法律规定的证据种类一共有 8种,每种证据就其存在形态或数据规格来说可能又存在不同的样式,由此就形成了大量不同规格种类的证据。如何从如此多种类的证据中发现和当前审理案件相关的信息,形成完整的证据链证实犯罪的客观性。更重要的是从大数据中利用已有案件的信息发掘出潜在的犯罪类型、潜在的犯罪嫌疑人甚至是高危地区、高危人群。对于这种多证据规格信息的处置,正是讯问工作中大数据特征的体现。

2.3 证据数量的庞大

在目前规定的8种证据类型中,其中视听资料、电子数据的加入使得证据数量呈指数级别增长。前文所述如金融、电信、工商、税务、劳动等部门的信息数据,遍布于街头巷尾,几乎无处不在的视频监控信息、网络社交媒体信息以及海量无线数据通讯痕迹都属于有效的证据。这些证据种类的加入使得证据的数量彻底颠覆了传统证据的概念,从证据的获取、证据分析利用到证据的保存都发生了改变。必须利用网络技术进行传输以及电脑自动高速处置符合大数据要求处理速度快 (Velocity) 的特点;同时,由于以云计算为代表的技术创新的衬托,使得原本很难收集和使用的数据开始容易被利用起来了。通过各行各业的不断搜集汇总,证据数量规模越来越庞大,如此海量的证据信息在某种程度上稀释了证据原本的价值含量,因此,数据价值密度低(Value)同样符合大数据的特点。

通过以上对讯问过程中证据问题的分析,可以确定讯问环节的大数据化。那么如何利用大数据为讯问工作服务成为一个具备实际价值的问题。

3 讯问中大数据的破解

讯问过程中面对浩如烟海的大数据,如何充分利用,提高讯问工作的效率和价值是一个亟待解决的问题。当前犯罪职业化倾向的出现为这一问题的解决提供了启示。犯罪职业化,是指职业犯罪活动已经在现在的各类犯罪里占有一席之地,成为犯罪特征一个重要组成部分。[5]同时,大数据本身对职业化犯罪的研究提供着重要的支撑作用。

神人面部的特点是倒梯形,这可能是良渚人比较普遍的脸形,另是羽冠,这充分反射良渚人是崇拜鸟的。兽面纹有各种变体,变体的兽面纹,其鼻、嘴有不同情况的变形,但是重圈的眼睛纹基本上是不变的。这重圈的眼睛纹似乎在一定程度上独立化了,成为一种纹饰,它可以构成兽面纹,也可以构成鸟纹。也许,良渚玉器装饰图案中最突出的就是这眼睛纹了。

3.1 职业化犯罪特征

3.1.1 犯罪地域化

通过对办案实践中简单数据分析发现:当前我国职业化犯罪呈现出较为明显的地域化特征。这一特征具体表现为两个方面:第一是犯罪人员的地域化趋势明显,即大量不同类型的犯罪人员组成中某些特定地区所占的比例远高于其他地区,即所谓的高危地区;第二是犯罪类型呈现特定的地域化趋势。这里也具体表现为两种:一是某种特定类型的犯罪集中发生于某些特定地域,可以称之为被害高危地区;二是特定类型的犯罪人员集中来自于某些特定的地域,即社会媒体中谈及的“专业制毒村”、“专业制假镇”、“电信诈骗县”等。例如,2013年底广东省公安厅集中3000多警力处置的汕尾陆丰地区“第一制毒大村”陆丰市博社村。据统计根据全国查获毒品数量,30.34%的冰毒来自汕尾陆丰地区。

犯罪地域化特征中涉及的人员信息、相关人员活动轨迹信息、各类犯罪信息等构成了大数据的信息来源,同时其表现出的特征也是大数据处置的依据。

3.1.2 犯罪专业化

犯罪职业化的另一个特征是专业化趋势明显,主要有以下4个方面。

第一,犯罪呈现组织化。从单个犯罪来看,其成员相对固定,并且以特定的人际关系为联系各成员的纽带,例如同乡、亲属、同学,甚至是狱友等。各成员之间分工明确,不同的人各司其职承担犯罪环节中的一部分,当前较为典型的就是电信诈骗案件。整个犯罪过程,组织成员分工协助,完成不同的犯罪过程。这种犯罪组织化,其成员之间相互复杂的社会关系网络信息成为大数据的构成,同时这张关系网也是大数据筛选分析潜在犯罪和潜在犯罪嫌疑人的依据。

第二,犯罪呈现产业化。从整个犯罪形势来看,某些特定类型的犯罪甚至形成了完整的产业链。从技术研发、犯罪产出、运输、销售等,形成了较为明确的产业链分布,最为明显的如毒品犯罪。这个产业链涉及人员信息、物流信息、资金流动信息都是大数据的重要构成形式与数据来源。

第三,犯罪工具专业化。与传统孤立案件的犯罪工具的随意性不同,目前职业化犯罪的专业特征的另一个重要表现就是犯罪工具专业化。越来越多的职业犯罪案件中,犯罪嫌疑人所使用的工具已非市面常见物品,而是根据其犯罪目的进行了专业设计与制造。最为常见的是各类开锁工具,最高科技的是网络犯罪制作各类病毒盗取资金、数据等。一般而言专业化的工具是和特定的犯罪类型相关联的。而前文所述,特定类型的犯罪又与地域相关,因此,涉及的人员信息、相关人员活动轨迹信息、各类犯罪信息等构成了大数据的信息来源,同时其专业化工具特征也是大数据处置的线索,对数据进行分析处置的依据。

第四,犯罪手段程式化。职业犯罪中犯罪嫌疑人作案过程程式化特征明显,根据特定类型的犯罪,其作案手段往往有一整套固定的程式。如果未受外界刺激的干扰,例如被抓捕,那么这种程式化的犯罪手段会一直持续下去。当前这种程式化发展的极端是出现了某些犯罪手册,教唆如何进行犯罪。这种犯罪手段的程式化除了和犯罪类型相关外,还和犯罪主体的地域性存在关系,即同一种类型的犯罪会因不同地区的人作案而呈现犯罪手段的差异。这种犯罪手段的程式化为犯罪类型和犯罪主体进行了标注表征,因此相关的信息成为大数据来源与处置根据。

3.2 职业化犯罪破解大数据

3.2.1 职业化犯罪的表征作用

通过对职业化犯罪的分析,其对大数据分析处置最重要的一个作用即为表征。所谓表征是对某客观对象采用抽象符号的形式进行记录、阐释与说明。一般而言,表征必须从被表征的事物中抽取出事物最为本质、共性同时又最为个性的东西,用符合的形式来记录展现,用以对被表征事物的诠释。传统的刑事案件一方面由于其发案的偶然性,另一方面在于其案件的孤立性,缺乏有效的手段将案件进行关联,无法对案件进行整体把握,因此无法对其进行抽象表征。但是当前刑事案件的职业化趋势使得刑事案件从人员、地域、组织、手段、形态等都呈现出共性和特性,同时辅以大数据的支撑,实现了案件的整体关联,因此可以实现对犯罪进行表征。职业化犯罪的表征可以分为两个层面:一级表征编码即为上文所述的地域化、组织化、产业化、专业化、程式化五个命题,对整体职业化犯罪的表征;二级表征编码是结合具体类型的犯罪和犯罪主体,进而采用相对具体化的符号对一级表征进行阐释。二级表征编码的抽象程度要低于一级表征,通过二级表征编码才可以对大数据进行操作层面上的梳理,真正发挥大数据的实际价值。在侦查讯问工作中,侦查人员则需要把握二级表征,针对具体类型的人与案,搜集二级表征编码。

3.2.2 讯问实战设想:主题建模

尝试通过二级表征编码,建立起对刑事案件大数据的有效分析技术—— 主题建模,为侦查讯问过程中案件信息采集与分析提供快速、简便的分析手段与技术。就目前已有的成熟技术而言,主题建模(Topic Modeling) 不但可以自动摘要大规模电子文档,而且还可以从海量互联网用户行为数据中挖掘有用信息,也就是可以针对不同数据源主动发现符合分析需求的信息,从而可以实现在涉案大数据的快速分析。通过主题模型机器学习理论,探索基于快速高精度消息传递的,针对复杂文档网络数据的三个特点包括高阶(Higher-order)、多 通 路 (Multiplex)和 动 态 性(Dynamics),进行主题检测与追踪。因此,主题模型在侦查讯问过程中使用,不仅可以用于对已有案件的分析,还可以根据对已有案件的二级表征来追踪和预测可能发生和潜在已经发生的案件。主题建模的关键是通过具体的讯问工作进行二级表征,抽取特征符号编码。利用特征符号编码建立主题模型,通过数据学习来主动寻找隐案和潜在的相关犯罪嫌疑人。因此,侦查讯问工作中关注的重点开始发生转移。

4 讯问工作的重点

针对大数据的特点,侦查人员要善于从个案查获系列案件,查获同类型案件;善于从犯罪个体挖掘犯罪团伙、潜在犯罪嫌疑人及高危人群,充分发挥讯问工作环节的价值。因此,讯问工作的重点在关注传统案件审查的“七何”要素的同时,更应着重于利用案件进行二级表征的提取,为大数据的进一步利用提供基础。

4.1 侦查人员对案件二级表征的提取应关注于“人”的特征

所谓“人”的特征,这里的人主要指犯罪嫌疑人和被害人。犯罪嫌疑人的特征包括人的自然属性特征和社会属性特征。侦查人员传统讯问过程中对于人的关注点较少,除了固定的姓名、性别、年龄等人口学特征问题外,更多关注案件本身。但是,如果要充分挖掘大数据的作用,必须对案件进行更为具体的二级表征编码。因此,在讯问过程中关于“人”的特征,一方面要把握人的自然属性即人口学特征,这些特征即为二级表征的编码。利用这些表征,依托信息技术从大数据中挖掘出符合二级表征编码的人员,明确其身份、明确其行踪,为确定“七何”要素提供依据。另一方面,侦查员还要关注犯罪嫌疑人的社会属性,抽取其社会属性的二级表征的编码。这里的社会属性包括犯罪嫌热人所有的网络账号、网络社交媒体账号、无线通讯工具的号码、社会保险号、社会关系、血缘关系等一切在社会生活中能够代表犯罪嫌疑人个体的符号,这些符号即为社会属性二级表征的编码。通过对人的特征的讯问,抽取疑犯自然属性和社会属性编码。前文所述,由于职业化犯罪的地域化、组织化、产业化特征,犯罪嫌疑人相对比较稳定,且身边往往同样稳定地隐伏着一批同案人员。因此,通过在具体案件中选取疑犯“人”的特征进行二级表征编码,利用这些编码作为主题建模的依据,对大数据进行梳理。其目的主要包含三个方面:第一,挖掘疑犯的真实身份;第二,挖掘疑犯的行踪;第三,挖掘疑犯身边隐藏的其他疑犯;第四,挖掘疑犯的社会关系网络。

4.2 侦查人员对案件二级表征的提取应关注于“案”的特征

所谓“案”的特征,本身包含的内容范围比较广泛,但是作为讯问环节中“案”的特征,主要是通过犯罪嫌疑人的口供来发现犯罪嫌疑人作案过程中的手段、方法、工具等三个方面的内容,抽取此三方面的信息作为对案件的二级表征。寻找犯罪嫌疑人作案过程中的特征,这些特征符号即为二级表征编码。具体而言,以盗窃案件为例,此类犯罪就目前公安机关在办案件情况来看,绝大多数均属于职业化犯罪。即犯罪嫌疑人往往是长时间、跨地区、多起案件累加。侦查人员在讯问过程中一般都以“七何”要素为基础,通过讯问来明确犯罪嫌疑人身份、作案时间、作案地点、作案动机、涉案物品等具体个案情况。但是面对大数据时代的职业化犯罪,作为二级表征编码的要求侦查人员应该关注于此犯罪嫌疑人可能在不同案件中呈现出的共性,而这些共性又是此类案件或此犯罪嫌疑人区别于其他案件、区别于同类型案件其他犯罪嫌疑人的个性特征。例如此犯罪嫌疑人为何会选择该作案地点,是否具有选择偏向,即该犯罪嫌疑人在作案地点选择上是否具有固定倾向;再如使用的作案手段,侦查人员应了解其作案手段的具体特征、作案手段生成的缘由等,明确其个性特征。以这些个性特征作为案件的二级表征编码,同样以主题建模为依托,对涉案信息即大数据进行梳理,主动挖掘出隐案、系列案件、类型案件,并且结合“人”的特征挖掘出“高危人群”、“高危地区”。真正发挥侦查讯问工作的作用,应当从侦破现行案件入手,破获隐案、抓获隐犯;发现犯罪前兆,发现犯罪线索,实现犯罪预防。

[1]马建光.姜巍.大数据的概念、特征及其应用[J].国防科技,2013,2(34):10-17.

[2]冯树梁.中国现阶段犯罪问题研究综述[J].公安大学学报,1989,(1):25-29.

[3]李影.有限理性指导下的过渡性制度构建 -社会转型背景下侦查程序完善的整体设想[J].辽宁大学学报(哲学社会科学版),2009,6(37):146-161.

[4]李承华.刑事诉讼中计算机模拟证据问题研究[J].重庆邮电大学学报 (社会科学版),2013,25 (5):41-44.

[5]王力一.职业犯罪及其侦查要点[J].江苏警官学院学报,2004,6(19):49-52.

(责任编辑:郭 帅)

D918

A

2095-7939(2015)03-0009-05

2015-04-27

江苏警官学院侦查学科研创新团队项目(编号:2015SJYTS01-01)。

殷明(1977-),男,江苏无锡人,江苏警官学院侦查系讲师,硕士,主要从事侦查学研究。

猜你喜欢

讯问职业化嫌疑人
整体形象设计课程教学的职业化探索
侦查讯问课程的改革与创新
一支烟打开嘴
光从哪里来
无序攻击的防御与控制(中)
非法讯问与监控式讯问机制
三名嫌疑人
职业化院长尚无生存空间
加速职业化
试述高校篮球教练员的职业化艺术