第二节 文献综述
目前,各个领域都在强调发展大数据战略。相对于大数据在互联网、电子商务等先驱领域的应用,大数据在司法和侦查领域的发展节奏相对慢一些,不过近两年也逐渐呈现蓬勃发展之势。笔者以“大数据”与“侦查”为关键词,在“超星中文学术资源发现平台”进行了检索,对我国“大数据侦查”的学术研究状况有大致的了解。根据检索结果(如图1-1、图1-2所示),可知有关大数据侦查的文献在2012年之后开始兴起,并呈现持续走高的态势;这一研究主题涉及的关键词主要有侦查工作、检察机关、职务犯罪、数据采集、数据分析等。
一、有关大数据的研究综述及评价
在展开具体的大数据侦查研究之前,需要理解“大数据”本身的内涵、外延及应用原理等。本文选取大数据的概念、大数据技术原理、大数据类型、大数据的应用以及大数据发展中所面临的挑战等内容进行文献梳理。
图1-1 以“大数据”和“侦查”为主题的学术关键词分布
图1-2 以“大数据”和“侦查”为主题的期刊发展趋势
(一)大数据的概念
维克托•迈尔-舍恩伯格(2013)从价值的角度对大数据进行界定,强调大数据是从海量数据中提取到价值和服务。孟小峰(2013)从比较的角度,认为大数据是海量的、非结构化并具有附加价值的数据。作为权威部门,中国工信部(2014)的官方文件中则从数据、结构等特征去描述大数据,并强调大数据不仅仅是静态的数据,更是综合的技术体系。由此可见,目前学界对于大数据的概念并没有一个盖棺论定的界定,学者们从大数据的特征或者其价值等不同角度出发进行界定,不过可以肯定的是大数据的定义都不仅仅局限于“数据”本身。
(二)大数据的技术原理
对大数据技术原理的理解可以从两个角度出发,一是纵向的大数据运行流程,二是横向的大数据分析技术。从纵向的运用流程看,工信部(2014)的官方文件将大数据的运用过程分为数据准备、数据存储与管理、计算处理、数据分析和知识展现这五个阶段。孟小峰(2013)认为可以将其运用流程分为数据选取、数据集合、数据分析以及数据解读这几个阶段。实务中大数据的运用一般都遵循相同的流程,大致可以分为数据收集、数据清洗、数据分析以及数据可视化呈现这几个阶段,其中每个阶段还可以进行更细致的划分。
从横向的数据分析技术看,数据挖掘是大数据体系中最核心的技术。赵刚(2013)指出,数据挖掘比大数据出现得要早,它是大数据技术发展的前身和基础。数据挖掘是通过智能化分析技术,从数据背后发掘出数据之间的模式和规律。数据挖掘包括关联性分析、聚类分析、序列分析、异常分类等不同类型。这些不同的数据挖掘方法技术和侧重点各不相同,它们可以单独或配合使用,均发挥着重要作用。可见,无论从技术还是目的上来说,数据挖掘技术已经形成了大数据技术的雏形。
(三)大数据的运用模式
这里大数据模式是指一些普适性的大数据运用类型。城田真琴(2013)从不同角度对大数据的运用模式进行了归纳。横向角度,可以从整体、个别、实时、事后四个角度出发,将大数据运用分为四个类型:个别优化—批处理型,分别优化—实时型,整体优化—批处理型,整体优化—实时型。这四种大数据的运用模式在各领域皆适用。纵向角度来看,城田真琴(2013)还从时间维度将大数据的运用模式归纳为“过去/现状的把握—将来预测—优化”这样的一个循序渐进的过程,作者认为大数据运用的最终目的并不一定是优化,根据不同的需求可以运用到不同的级别,比如做到“预测”这一步为止也是可以的。
(四)大数据的应用领域
相比于对大数据技术的抽象介绍,学者们其实更喜欢描述大数据在各个领域的具体运用。赵刚(2013)介绍了互联网、电子商务、零售业、金融业、政府、医疗业、能源业、制造业等领域对大数据的个性化需求;李军(2014)介绍了大数据在通讯、医疗、网络、零售、制造、餐饮等领域的运用。钟瑛、张恒山(2013)认为大数据应用有两种类型:一类是专门提供大数据技术的行业,它们本身没有数据源;另一类是拥有海量数据源的行业,它们所提供的主要是数据资源及附加服务。不过,目前大数据在各个领域的发展不是很平衡,工信部(2014)的官方文件认为目前全世界的大数据发展都处于初级阶段,中国的发展落后于世界先进国家。大数据在不同领域的发展也不平衡,一般来说,网络、金融、电子商务等领域的大数据产业发展较快。
(五)大数据在发展中所面临的问题
大数据在发展中首要面临的问题便是技术上的挑战,面对海量的、非结构化的数据,采用何种技术来存储、处理一直都是业界的难题。工信部(2014)的官方文件中对此归纳得非常到位,其认为目前我国大数据建设的最严重问题一是数据壁垒、数据孤岛现象严重,各个部门之间的数据不流通;二是大数据本身的存储、清洗、分析等相关技术发展水平较低。孟小峰(2014)认为,大数据集成中面临着异构性等问题。除去技术因素外,大数据本身也存在很多风险。郑毅(2012)认为大数据的算法、质量、解读等有可能出现错误,会给我们的决策带来风险。要警惕人为主观恶意对数字的操纵,警惕数据中存在的系统误差等问题。另外,大数据只能告诉我们数据背后的规律是什么而非为什么,人们还应当在此基础上借助其他经验去探究背后的原因。
另外,大数据时代的个人隐私还面临着前所未有的风险,对数据价值的利用、开发必然会影响到公民的隐私安全,并且大数据对个人隐私权的侵犯已经突破了传统的限度。维克托•迈尔-舍恩伯格(2013)认为,大数据时代要建立全新的隐私保护方式,以前是在数据收集过程中赋予收集者通知及获取许可的义务;而今数据在收集之后还会被多次使用,根本无法预知数据将来的用途。因此传统的保护方法已经过时,应当将隐私保护义务的重心放在数据使用环节。实际上,大数据利用与公民隐私权之间的博弈是每个国家都面临的问题,城田真琴(2013)介绍了不同国家对此问题的回应方式——美国奥巴马政府出台了Privacy Bill of Rights,对消费者的数据权利进行了全面的保护;欧盟在2012年对《欧盟的数据保护指令》进行了修改,引入“被遗忘的权利”,在没有明确征得用户同意情况下,禁止处理个人数据;在对日本隐私权立法进行建议时,作者提出“对集合匿名信息的使用”这一原则。赵刚(2013)提出,可以通过一些技术手段去加强隐私保护,例如采取去个性化技术、数据脱敏技术,使得仅从数据本身无法判断出数据主体的身份信息,从而在保证数据价值的同时也较好地保护了个人隐私。
通过上述文献的梳理,基本能够对“大数据”本身有了初步的了解,包括大数据的概念、技术、运用模式、应用领域以及面临的问题等内容。了解大数据的目的是为大数据侦查的叙述奠定基础,大数据的相关技术、运用模式及面临的问题与大数据侦查体系的构建具有密切联系。不过,目前有关大数据的文献大都偏向于技术方法或者实务应用的介绍,而对于大数据的相关思维理念、配套机制等偏向人文社科领域方面的研究尚涉及不多。
二、有关大数据侦查概念的研究综述及评价
本书所提出的“大数据侦查”这一概念,具有一定的开创性意义。因为,在目前已有的文献中,还很少有学者提出过“大数据侦查”的概念。大部分学者都是将大数据作为研究背景或者是一种新的技术方法,来探讨大数据对侦查工作的影响。其中,将大数据作为研究背景的文献要多一些,如何军(2015)、程宏(2015)、王晓楠(2015)、张俊岳(2014)都是将大数据作为新的侦查背景,来将其与传统的侦查模式进行比较研究。冯欣(2015)、殷明(2015)、张晟(2015)、侯睿(2014)等则将大数据作为新的侦查技术,探讨其在侦查工作中的具体运用。
何军(2015)提出“大数据驱动侦查”的概念,强调大数据对传统侦查工作所带来的颠覆性变革,大数据不仅能够总结历史犯罪规律,还能够在此基础上对未来时空的犯罪活动进行预测。张兆端(2014)提出了“大数据时代的智慧警务”概念,强调大数据及相关技术给公安工作、警务工作所带来的智能化变革。张俊岳(2014)认为大数据技术在侦查领域的运用是大势所趋的时代潮流,传统的信息化侦查为大数据侦查发展提供了基础。不过也有个别学者在文章中提出过“大数据侦查”的概念,李蕤(2014)重点从大数据分析、挖掘技术对侦查工作影响的角度去描述大数据侦查的内涵。
通过上述文献的梳理,可见大数据对侦查工作的影响已经是势不可当,大数据在侦查领域显示出前所未有的巨大潜力。然而,现有文献对于大数据在侦查领域的研究仍过于保守和片面,或是将大数据作为时代背景,而在具体内容上相较于传统信息化侦查而言突破并不大;或是将大数据作为一种技术,从方法的角度去介绍大数据对侦查工作的影响。笔者认为,大数据本身是思维、方法、技术、价值观的总和,大数据对于侦查领域的影响也是全面的,不仅带来侦查技术、方法的革新,更是对侦查模式、侦查思维以及侦查价值的全面影响。
三、有关大数据技术在侦查领域运用的研究综述及评价
目前,介绍有关大数据技术在侦查领域具体如何运用的文献相对较多。其中,贪污贿赂案件、侵财类案件、恐怖犯罪活动以及金融证券犯罪这几类犯罪的侦查对大数据的需求相对大一些。另外,一种新的侦查模式——“预测型侦查”,也随着大数据技术的兴起而被越来越多的学者所关注。
(一)在传统犯罪领域的运用
贪污贿赂类犯罪侦查。大部分文献都集中于强调大数据技术在挖掘贪污贿赂类犯罪线索,以及预测尚未发生的贪污贿赂类案件中的作用。王立楠、魏佳明(2015)认为,应当灵活运用大数据的关联性分析技术,在侦查初期就发现贪污贿赂犯罪、渎职犯罪等案件的线索。程宏(2015)认为,大数据有利于发现职务犯罪的“黑数”,通过数据挖掘技术可以打开新的侦查视野,在其他相关领域去发现犯罪线索,如房产信息、政府采购信息等。邓树刚(2014)着重强调大数据的预测、预防犯罪功能,大数据技术能够提前预知职务犯罪活动的发生,从而对国家机关工作人员产生有效的监督。
侵财类犯罪侦查。不少学者提出运用大数据技术找出侵财类案件的犯罪规律,并在此基础上有的放矢地制定侦查策略,以及利用侵财犯罪规律对未来的犯罪活动进行预测。李蕤(2014)探讨了利用大数据技术,总结北京市侵财犯罪的在地域、时空、数量等维度的发展演变规律,并强调要根据数据分析结果来及时调整侦查战略的部署工作。张晟(2015)探讨了大数据在多发性盗窃案件中的运用,结合此类案件人员流动性强的难题和大数据的技术特征,提出“由人到案”的大数据侦查模式;另外,作者认为大数据算法为犯罪预测提供了依据——借助已发生的案件,可以得到概率;借助概率,可以寻求犯罪规律;借助犯罪规律,能够预测未来犯罪活动。
恐怖活动类犯罪侦查。恐怖组织犯罪活动近些年来有扩展趋势,2001年的“9•11”恐怖袭击、2015年的巴黎恐怖袭击等事件,拉响了全球的反恐警报,不少学者开始探讨大数据在反恐中的运用。由于恐怖犯罪活动具有隐蔽性,学者们大多探讨如何运用数据挖掘技术,在犯罪活动准备、预备阶段就及时识别出犯罪线索及恐怖分子。刘铭(2015)提出可以对恐怖分子的网络行为特征建立数据模型,并在互联网的海量信息中进行数据挖掘,从而识别具有恐怖嫌疑的人员。梅建明(2007)从美国的反恐项目中总结数据挖掘的作用,并建议我国实施反恐大数据挖掘的计划。侯睿(2014)探讨了大数据在反恐情报收集与分析中的运用,提出从“数据化”的原理出发,对反恐数据进行多点搜集、立体化搜集,注重对恐怖分子网络通讯数据的挖掘。
通过对上述文献的梳理,我们大致了解了大数据在犯罪侦查中的具体运用情景及运用方式。尽管只介绍了大数据技术在上述几类案件侦查中的运用,但是我们可以举一反三,将一些可行的大数据侦查方法推广至其他案件中去。不过,目前相关文献对于大数据侦查方法的介绍往往依赖于具体的犯罪场景,尚还很少有学者总结、归纳出一些普适的大数据侦查方法及侦查模式。因此,对一些重要的、常用的大数据侦查方法进行归纳也是本文拟研究的重点内容。
(二)在犯罪预测中的运用
除了在具体个案侦查中运用外,大数据侦查还有一类重要的运用——预测犯罪活动的发生。大数据本身最重要的价值就在于预测,这一功能在侦查领域当然也会有所体现。尽管预测犯罪现在听起来还带有一些科幻色彩,但这已经不再是遥不可及之事,理论界也越来越多的学者开始关注大数据的预测犯罪功能。
吕雪梅(2015)介绍了美国的“预测警务”制度,其认为预测警务的关键就在于大数据技术的运用,通过数据挖掘技术归纳出各种犯罪的数据模型,并用于对未来犯罪的预测。冯冠筹(2014)则对我国预测警务的运用进行了展望性的设计,将其分为国家安全预测、维稳态势预测、治安形势预测、社会管理预测、民意向导预测以及民生服务预测六个领域。
犯罪热点分析是大数据预测型侦查的核心内容。吕雪梅(2015)指出美国当前的犯罪情报分析中,融合了“热点成像”和“地理画像”技术的达80%的比例。陈鹏等(2012)从专业角度提出了犯罪热点的识别和分析方法。阎耀军等(2013)结合侦查实务中具体的犯罪预测工具“犯罪预测时空定位信息管理系统V1.0”,来对犯罪的时间热点和空间热点进行研究,在此基础上可以获得犯罪在时间和空间上所呈现的规律,将现实中一些动态的因素与之相结合,便能够得到预测犯罪发生的数学模型。陆娟等(2012)将犯罪热点总结为热点地区、热点时段、热点类型、热点目标几个方面,并基于专业角度提出了犯罪热点的识别方式。
尽管实务中仍然有很多人对大数据的预测犯罪功能持怀疑态度,但通过上述的文献梳理可以发现,预测犯罪从技术上来说是完全可行的。不过,目前此方面的文章多集中于专业预测技术介绍,尚缺乏相关法律理论的介绍,容易造成技术与实践运用脱节的现象。实际上,犯罪预测并非是完全新鲜的事物,传统犯罪学中也有犯罪预测的相关理论,不过大数据时代的预测犯罪又有了新的技术和内涵。因此,笔者拟将传统的犯罪预测理论与现代的大数据预测技术相结合,提出预测型大数据侦查模式,探讨犯罪预测在大数据时代的新内涵。
四、有关大数据侦查与传统侦查相比较的研究综述及评价
上述文献主要是从具体的、微观的层面去探讨大数据侦查技术、方法的运用。从抽象的、宏观的层面看,大数据侦查对传统的侦查模式、侦查思维也会带来突破性影响。
(一)大数据侦查对传统侦查模式的突破
何军(2015)提出“大数据驱动侦查”的概念,认为其是一种全新的侦查模式,体现出数据共享的一体性特征,是一种由点到面的全景式侦查、预知未来的预测型侦查以及利用数据模型的算法型侦查。相对于传统侦查而言,这一新型侦查模式能够更全面地获取信息,能够更深入地分析研判信息。张俊岳(2014)指出,大数据改变了传统“口供为王”的侦查模式,更多地依赖以数据为中心的侦查技术;大数据改变了过去由案到人的侦查模式,转向“由数据到案”“由数据到人”的侦查模式。王晓楠(2015)指出大数据将促进侦查模式由反应型侦查向主动型侦查转变,并且大数据的预测功能将促进主动型侦查模式进一步朝着纵深方向发展;大数据的关联性分析、碰撞等功能能提前预测犯罪活动的发生。
(二)大数据侦查对传统侦查思维的突破
何军(2015)认为在大数据时代,应当确立在线、开放的数据共享侦查理念;数据主导侦查的理念,依据数据分析结果来采取侦查措施;相关性理念,善于利用大数据的相关性分析功能;线上与线下相结合的理念,强调数据逻辑与人类经验、法律规定的互补。
马忠红(2011)认为人类社会的技术变革也必将引起侦查思维方式的变革。信息时代应当以“信息”作为侦查思维的起点,侦查人员要培养发散性、立体化、智能化、多维度的理念。作者还提出了信息时代侦查思维在时间、空间、人、物等方面的转变要点。
(三)大数据侦查对传统侦查理念的突破
贾永生(2013)提出了大数据视野下犯罪现场概念,他认为在大数据视野下,犯罪现场要延伸至数据空间,尤其要注意一些表面上看起来与案件及犯罪嫌疑人无关的数据,这些看似无关的数据背后往往蕴藏着重要的破案信息。
另外,还有学者讨论了大数据对于传统犯罪心理画像、犯罪情报等传统侦查概念的影响。赖继(2015)认为,在大数据时代,犯罪心理画像可以借助基础数据平台和标签卡的方法,进行智能化数据画像。陶雨(2015)认为大数据会对传统的侦查情报收集及分析产生影响,大数据能够扩展侦查情报的来源,提高侦查情报的研判能力。
上述的文献从不同角度回应了大数据侦查将带来的侦查模式、思维等一系列宏观层面的变革。每个作者都是基于其本身的研究旨趣和学科背景来展开研究,不可能面面俱到,况且对于大数据侦查本身而言也没有绝对的统一研究范式。不过,在宏观、抽象层面上,目前学界大多基于比较的视角,将大数据侦查与传统侦查进行对比,对大数据侦查的模式、方法、思维等进行研究。在侦查模式上,大部分学者都将“数据”作为切入点,建立从数据到人、从数据到案的侦查模式;强调大数据的“预测”功能对犯罪侦查模式在时间维度上所带来的改变。在侦查思维上,学者们从大数据本身的“全数据”“混杂性”以及“相关性”三个基本特征出发,衍生出大数据侦查的思维模式,其中尤其以“相关性”思维为重点——通过大数据的相关性思维模式来改变传统的因果关系思维模式,在此基础上发现更多的犯罪线索,提高侦查的效率。此外,还有很多诞生于传统侦查语境下的概念在大数据时代都有了新的定义,如犯罪现场、犯罪心理画像,等等。
五、有关大数据侦查所存在问题及回应的研究综述及评价
大数据在带来侦查技术变革、进步的同时,也会带来一系列的问题。有些问题是缘于大数据本身,例如大数据对隐私权的冲击在各个领域都不可避免;有些问题则是大数据这一中立技术在法律领域所特有的不适反应。
(一)技术方面的问题及回应
大数据侦查在技术方面所面临的问题大多缘于大数据本身的技术特征。张兆端(2014)指出目前大数据侦查技术体系建设中还面临着标准体系缺乏、忽视数据质量等问题。吕雪梅(2015)强调要设计犯罪特征算法模型,大力发展数据挖掘技术。冯冠筹(2014)强调要构建集数据存储、处理、分析于一体的警务中心。
(二)机制方面的问题及回应
在大数据侦查的机制建设方面,目前最大的问题就是各个部门之间的数据壁垒,数据之间不能共享、开放,海量的数据资源就无法被盘活。吕雪梅(2015)强调要推动政府数据及社会数据的开放,注重数据质量。张俊岳(2014)强调要促进各级侦查机关之间的数据共享机制,规范数据使用分配权限,对数据运用进行全面记录。
(三)权利方面的问题及回应
隐私权是大数据侦查所面临的最重要问题之一,几乎所有学者都提到在侦查中大数据技术的运用会对公民的隐私权带来前所未有的威胁。赵峰等(2015)认为大数据侦查会对公民的“信息自决权”造成侵犯,尽管在刑事侦查中公民的个人信息权需要做出一些让步,但并非是无限度的。作者还提出在侦查过程中对涉及信息自决权的事项实施审批机制,以及引入独立的第三方对信息自决权进行评估等。吕雪梅(2015)提出在侦查机关收集、分析个人数据时,应遵守公开原则、收集限制原则、个人参与原则等。刘铭(2015)指出,在反恐中的大数据应用必将涉及公民的个人信息,从而会造成对公民隐私权的侵害。在美国,很多学者提出“大数据监控”的概念(big data surveillance),通过新型的数据采集技术,对公民的各项数据进行收集,实现全方位监控。现在政府有能力收集、分析与个人有关的几乎所有数据,各种数据库、监控系统的建立就是“大数据监控”的最好体现。Miller Kevin(2014)认为,大数据对公民隐私权的侵犯是一种“从质到量”的变化,传统的隐私权关注对公民物理空间和私生活的侵犯,这是一种“质”的侵犯模式;而大数据则是通过一个个信息碎片组成海量的数据库,这些数据的单独使用都是合法的、无关隐私的,但是聚集起来进行再次分析后则会对个人隐私带来侵犯,这也是传统隐私法无法规制的。
除了隐私权之外,大数据侦查对传统刑事诉讼中的一些程序性权利、法律原理也会带来影响。王晓楠(2015)和维克托•迈尔-舍恩伯格(2013)认为,大数据侦查涉及对未发生犯罪的处罚,嫌疑人所遭受的惩罚来源于未实施的行为,不利于人权保障,违背了无罪推定原则。梅建明(2007)则担忧数据挖掘技术所产生的错误,并由此而带来的“错判”风险,有可能放走坏人,也有可能冤枉无辜者,因此要提高数据挖掘的准确度。Miller Kevin(2014)指出,大数据侦查中不可避免地带有人为主观偏见,从数据的收集、数据算法的设计到数据结果的执行,每一环节都离不开人为的操作,每个环节也都不可避免地带有人为主观偏见的影响。侦查执行环节,这些早期环节的人为价值偏见会在执行中被放大。在美国,很多学者认为大数据侦查侵犯了宪法第五修正案所保护的正当程序权利(due process),这主要源于大数据侦查过程的不透明。大数据系统是一个“暗箱操作”(black box)的过程,人们只看到数据的输入和输出结果,而对其中间的运算过程却一无所知。在此过程中,公民的正当程序权无法得到保障。
通过对上述文献的梳理,我们大致可以了解大数据侦查目前所面临的技术、机制及权利方面的问题。大数据侦查是一个复杂的体系,技术上的攻克仅仅是基础环节,各部门之间的数据开放共享以及大数据专业人才队伍的建设是各侦查机关都需要面对的配套机制问题。另外,大数据侦查必然会对传统法律程序、法律权利带来冲击和影响。无论是对公民的隐私权,还是传统的正当程序价值、公平正义价值,大数据技术都显示出巨大的威慑力。因而,必须通过法律手段对大数据侦查进行规制,否则会给社会秩序及公平正义带来不利影响,有违大数据的伦理要求。不过上述文献对于这些问题的研究也并非面面俱到。例如大部分学者都提到了隐私权问题,但是大数据时代的隐私权不同于传统的隐私权,其更强调一种动态的权利机制,传统的隐私权保护方式已经不再适应大数据时代的隐私权,并且大部分学者对于如何协调隐私权与侦查权之间的关系并没有给出明晰的对策。