刘品新 申国军 冯丽君 :深挖检察业务数据价值 提升法律监督质效

《中共中央关于加强新时代检察机关法律监督工作的意见》要求加强检察机关信息化、智能化建设,为检察机关深挖数据价值、提升法律监督质效作出重要指引。本刊特组织专家学者围绕“深挖检察业务数据价值 提升法律监督质效”主题,就如何加强检察业务数据精准研判、发挥治理效能、拓展应用场景等问题展开探讨,敬请关注。

刘品新(中国人民大学法学院教授、博士生导师)

申国军(最高人民检察院案件管理办公室主任、一级高级检察官)

冯丽君(湖南省人民检察院案件管理办公室主任)

问题一:如何保证检察业务数据质量?

主持人:司法实践中,对类案普遍性问题或者突出问题进行摸排分析,检察业务数据是重要基础。对于检察业务数据中存在的错填、漏填、补填案卡信息等现象,如何通过技术手段加强管理?如何保证数据的真实性、准确性、及时性?

刘品新:

从信息化、智能化发展趋势来看,以机器抓取数据为主,以人工填报数据为辅,是保证检察业务数据质量的不二选择。在大数据时代,如何有效采集高质量的数据,是检察业务管理亟待解决的重要问题。一个日益凸显的规律是,随着数据走向巨量化,依靠人工填报数据日益变得不现实,也不必要。那种传统手段不仅意味着极大的人工量,而且不可能保证海量数据的真实性、准确性、及时性。相应地,依靠数据平台自动汇聚、抓取数据必将成为新的路径。这需要提升数据平台的抓取广度和深度。展开来说,我国检察系统开发了全国检察业务应用系统等平台,形成了汇聚检察大数据的良好态势。在此基础上,数据采集可以尽可能地提升机器抓取的比例,尽可能减少人工填报的需求。现阶段,检察机关要求检察人员填报数据的情形仍然偏多、偏复杂,要求填报的部分数据科目还缺乏合理性(如在办案初期要求填报“涉案金额数”等),加上当下数据平台会出现卡顿、崩溃等不稳定状况,在一定程度上加剧了“瞎”填数据等现象,最终影响检察业务数据的价值。要切实解决上述问题,检察机关应推动检察业务数据采集方式由人工填报向机器抓取转变,当前,可以先行探索从信息相对准确的法律文书,如起诉意见书、起诉书、判决书等中自动抓取数据。以法学实证研究为例,一种常见做法是由研究者对法律文书、调查问卷进行统计分析。这会费时费力,若研究样本量大则时间付出更多且统计质量堪忧。更优的方式是对批量下载的电子法律文书使用电子取证软件进行文本搜索,特别是进行正则表达式的搜索,而后加以统计分析和案例归类、类案研判、规律研究。可称之为智能化或数据化研究方法,无论是研究速度还是质量都有极大提升,对于提高检察业务数据采集质量具有借鉴意义。

申国军:

数据质量是统计工作的生命线。2017年全国检察业务应用系统统计子系统上线运行后,数据的生产端在一线检察官,其在办案中同步填录案卡项目;而数据使用端往往在上级检察院。这种生产者与使用者相分离的状态,一定程度上影响了数据质量。为此,我们重点把好“四关”:一是积极引导一线办案检察官树立填录案卡信息就是办案的理念,并出台了《检察业务数据管理办法》,明确填录责任,把好数据源头关。二是坚持日常核查与专项检查相结合;积极推动建立覆盖每一个案卡填录项目的逻辑验证规则,对互斥、异常数据增加自动拦截、提醒、预警功能;通过技术手段实现数据核查的全覆盖;发现填录不实的案卡信息则及时修正,把紧数据出口关。三是加强业务数据分析,发现与实际不符或者异常的数据,及时跟踪反馈,并积极听取业务部门意见,把实数据反馈关。四是推动各地将数据质量纳入检察机关业绩考核和案件质量评查工作中进行评价,对于问题严重的,严肃问责,把严数据追责关。

冯丽君:

全国检察业务应用系统1.5中统计子系统数据源头为案卡信息,完全依赖于案件受理人员和办案人员手工录入,因而案卡信息如果错填、漏填、补填,将导致检察业务数据生成不真实、不准确、不及时,影响数据质量。错填、漏填、补填案卡信息若属跨月操作,则操作人员需最高检开放统计数据修正权限,才能对错误数据予以修正;若属跨年操作,则无法修正。全国检察业务应用系统2.0中有案卡自动回填功能,进一步完善系统设置可以降低因案卡信息错、漏、补填所导致的数据质量问题。目前手工录入案卡信息还将在一定时期内持续,要保障数据的真实性、准确性、及时性,需从以下几个方面入手:第一,业务部门要担负起数据质量监管的主体责任。及时、准确、规范填录案卡信息是统计数据真实、准确、及时生成的前提条件。检察官是数据质量责任第一人,不能将案卡填录与案件办理分割开来,而应将案卡填录视为案件办理的必要步骤,及时、准确填录相应案卡信息。业务部门要承担数据质量的主体责任,配备专人负责监管本部门、本条线业务数据质量。湖南省检察机关目前要求业务部门与案件管理部门建立重点、敏感数据人工审核双台账,并定期核对。第二,案件管理部门要构建数据质量监管体系。抓实数据质量管理的重要途径是,案件管理部门要确立以数据质量为中心的日常监管模式,拓宽数据监管的广度和深度。湖南省院目前以数据质量监管驱动流程监控和案件质量评查,以点带面抓牢案件质量管理,并成功探索出“三异常法”,即从异常数据中发现异常流程,从异常流程查找异常问题案件。第三,强化数据监管结果的运用。数据质量监管的成果在业务条线的管理指导中得到充分利用,才能彰显数据质量管理的价值与意义。湖南省院将数据质量管理结果纳入对单位的检察业务考评和检察官业绩考评。第四,严格责任追究。在数据监管中发现违反检察职责情形的,要启动督察严肃追责,形成内部监管的闭环。湖南省院案件管理办公室与检务督察部建立了线索双向移送机制,使内部监管与追责问责有效衔接。

关于如何通过技术手段加强和完善数据采集和管理的问题,建议在全国检察业务应用系统升级完善和统计子系统开发中注意以下两点:第一,在数据源头信息采集方面,要避免案卡信息靠手工录入且内容过于繁复的设计缺陷。案卡信息应当尽量由系统自动抓取,通过系统智能审核校验后对错填、漏填项自动回填。必须手工填录的案卡信息也应该采取“傻瓜机式”填录,并设置填录弹幕,以提醒、指导检察官正确填录,减少案卡信息错误和及时纠正错误。第二,须有智能审核案卡信息功能。比如,可将案卡填录标准嵌入系统,系统能在采集案卡信息内容生成统计数据时,自动读取关联的法律文书内容和案卡填录标准,对采集数据进行自动校验或补充,扩大数据采集路径。又如,可设置对数据与数据、数据与案卡、数据与法律文书、数据与案件节点等信息关联和智能比对功能以及表间与表卡一致性智能审核功能等。审核结果及时反馈至承办人与数据监管人员,以便人工核查与处理。

问题二:如何加强检察业务数据精准研判?

主持人:检察业务数据重在挖掘、分析。针对实践中存在的一些数据分析方法单一、质效不高等问题,检察机关如何应用新技术和方法,提升检察业务数据精准分析研判能力?针对人才少、能力较弱的问题,如何打造专业化的人才队伍?

刘品新:

梳理办案及管理的经验,开发数据化改造的算法,是加强对检察业务数据精准研判的关键。“算法”的本质就是解决问题的方式,当前体现为以数据方式智能化地辅助解决问题。检察机关所需要的精准研判检察业务数据的算法并不神秘,主要是将检察人员既有的办案经验、管理经验通过数据化的方式予以实现。展开来说,检察人员进行办案、管理活动往往遵守思维逻辑,由此可设计一台遵循同样逻辑的“机器”进行辅助判断,其实质是追求“机器”像检察人员一样思考。实践中,数据碰撞、数据画像、数据挖掘是比较常用的精准研判方法。举例来说,浙江省绍兴市检察院开发的“智慧检察监督平台”,能够从30余万件民事裁判文书中快速有效发现监督线索,原因在于其巧妙地嵌入了“套路贷关联人员”“疑似虚假诉讼线索”“企业违法线索”“保险诉讼违法线索”“行政诉讼线索”等算法。这是过去检察机关开展职务犯罪侦查所累积的信息化办案经验之转场,也是近年来检察机关查处虚假诉讼等民事检察经验之升华。不难看出,要研发出更多更好的检察业务数据精准研判算法,离不开具有丰富办案、管理经验的业务人才,离不开可进行数据化实现的科技人才。当然,最好的支撑力量是融丰富办案经验和管理经验、数据思维和人工智能知识于一体的专业队伍。当前检察系统普遍缺乏满足需要的专业化人才。建议检察系统“不拘一格”用人才,真正加强同高等院校、高科技公司的强强合作,推动具有丰富办案经验、管理经验的检察官以及具有理论功底的法学教授形成合力,共同促进智慧检务创新。建议在条件具备的检察院进行人才孵化、算法开发的“试验田”建设,在检校共建基础好的地方开设专门的人才班、师资班。

申国军:

业务数据分析研判中,数据是基础,分析是过程,研判是目的。业务数据分析研判要坚持问题导向,深潜到数据背后,发现倾向性、典型性、异常性问题,分析原因,提出有针对性、可操作性的建议,发挥指导作用,绝不能浮于数据表面,浅尝辄止。一是案件管理部门要发挥好对业务数据分析研判的主导作用,紧盯业务数据,结合流程监控、案件质量评查等业务监管信息,通过综合分析和专题分析,及时发现倾向性和苗头性问题。二是强化与业务部门的合作,发挥业务部门专业化优势和实践优势,为分析研判提供更多的案例注脚,提升分析研判的精度。三是积极借助外脑,引入高等院校专业力量,开展课题研究合作;也可以适时听取人大代表、政协委员、人民监督员的意见,拓宽分析视野,增加社会因素,提升分析研判的深度。四是发挥信息化作用,通过技术手段,更多实现数据与数据之间的关联分析,发挥大数据作用,提升分析研判的广度。五是强化专业人才队伍培养。业务数据分析研判是近两年才开展起来的工作,人才缺乏是现实问题。我们也在积极探索运用上下一体工作机制,加大对下指导力度,通过下级院参与上级院的“分析实战”“业务轮训”,有效整合、培育各级院分析研判人才。

冯丽君:

从事业务数据分析工作,必须掌握数据清洗、分析、处理的基本方法和工具,否则举步维艰。数据清洗是业务数据分析中最基础的工作,也是最繁琐最累的活。有条件的单位可以在开发智慧案管软件时置入数据清洗插件,省时省力,最为快捷。对不具备条件的,推荐使用Excel表格工具替代手工清洗。比如对重复的数据,将源数据导入Excel表格中,选择要查重的列,依次选择“开始—条件格式—突出显示单元格规则—重复值”,就可以快速找到数据集中的重复值,然后使用删除重复项功能,可删除重复数据。涉及多个表格的查重,可以先通过透视表功能和强大的VLOOKUP函数将两个表格数据进行合并,再进行查重操作。对基础数据分类,使用Excel的筛查功能也很方便。

查找问题要用最常见的对比分析方法,解释问题要用逻辑树法。树叶代表表层问题,树干代表主要问题,树根代表问题归因。将问题悉数查找出来后,要从树叶到树干,再到树根进行归因分析。所谓归因分析,形象地说就是研究萎黄的树叶、枯枝的背后是哪些树根在起作用,各自起了多大作用。归因分析分单触点归因和多触点归因,前者适用于一因一果,后者适用于多因一果现象。

在处理数据时要用到经典的“二八法”,即帕累托法则。通常情况下,20%的数据产生80%的效果,在分析过程中有时要围绕20%的数据进行挖掘,抓住重点问题进行分析。比如,我们在对2017年以来毒品犯罪案件进行“案-件比”专项分析时,对影响“件”值“八成因素”的退回补充侦查和延长审查起诉期限未予重点关注,而是对只占“二成”的少数和极少数的“件”重点分析。发现这些少数或者极少数的“件”虽对“案-件比”的“件”值影响“小”,但本身隐含的质量问题往往“大”或者“很大”。又如,在“极少数”的复议复核改变原决定案件数中,就发现普遍存在实体质量问题,其中两起审查逮捕案件在审查、采信证据方面存在严重错误,由此作出错误的不逮捕决定。省院十一部采纳我们分析报告中的建议后,对全省重大毒品犯罪案件如何准确把握推定明知进行专项督导,及时纠偏一批案件。

检察机关的业务数据分析相对于其他行业而言起步较晚,案管部门力量配置普遍较弱,专业化的人才队伍尚未形成,实务中主要依靠组建业务数据分析团队来弥补个体专业能力、结构的天生不足。据了解,目前主要采取平行型和纵向型两种方式组建团队,前者成员由案管部门与业务部门骨干组成,后者成员由案管部门条线内骨干组成。湖南省院采取第二种方式,组建的业务数据分析团队是由省院案管办业务骨干担任导师的七人研学小组。小组每季度末在省院导师的指导下共同完成全省及小组成员所在单位的业务态势分析,以战代训。省院导师可随时对小组成员在线授课或就业务数据分析中遇到的问题组织在线研讨,及时解决问题或答疑。

问题三:如何深化数据分析、增强指导意义?

主持人:检察业务数据分析一般分为综合业务数据分析和专题业务数据分析。综合业务数据分析涉及数据多、范围广,如何在“大而全”的数据中找准问题,找到各业务条线司法办案的规律和趋势,增强指导意义?专题业务数据分析如何做到以小见大,针对重点、热点、难点问题在深度、广度、纬度方面拓展深化分析?如何在谋篇布局上优化数据分析报告?

刘品新:

设计并完成检察业务数据分析报告是一项专业性很强的工作。没有专业的检察业务数据分析个人或团队,不可能完成高质量的报告。可能在相当长的时间内,检察系统难以出现足够多的检察业务数据分析个体专家,这就需要以团队的方式完成工作。值得注意的是,一些检察院设置业务数据联络员等以改进工作,但这还不够。检察系统可以考虑选择课题研究的方式进行强化。课题制的优点在于能够集研究合力、产集体成果、促专业进阶,这是深化数据分析增强指导意义的有效路径。

申国军:

检察业务数据分析研判的根本目的就是指导工作。通过对数据的深度挖掘和有效利用,从而将隐藏在数据背后的价值释放出来,实现“用数据说话、用数据决策、用数据管理、用数据创新”的最终目的。这也是业务数据分析研判的价值所在。深化数据分析增强指导意义关键是坚持问题导向,实践中应做到四个紧贴:一是紧贴办案规律开展数据分析。任何事物都有其发展规律,办案活动也是如此。检察业务数据分析时应坚持实事求是原则。比如,2019年全国检察机关适用认罪认罚从宽制度办理案件比例比较低,我们注重对比例低的原因进行分析,发现主要是一线办案人员不会适用、不敢适用的问题。这种情况下,我们一方面逐月进行对比分析,发现变化趋势,为业务推进提供科学参考;另一方面推动业务部门积极开展对下培训,发布典型案例,引导办案人员适用这一制度。在2020年已经达到较高适用比例时,经过深入调研,我们对适用比例设定了合理区间,不无限拔高,遵从办案的客观规律。二是紧贴办案质量开展数据分析。2020年1月,最高检确定了以“案-件比”为核心的87项质量评价指标,今年进行大幅度精减后,全部是反映办案质量的指标。分析研判就要围绕这些质量指标,找出办案质量上的不足和短板。为体现指标分析的科学性,在新的指标体系中,经过周密测算并充分征求业务部门意见,我们对一些指标设定了合理区间,对于区间之内的一律不作负面评价,以提高业务数据分析的科学性。三是紧贴数据变化分析背后原因。数据变化是表象,找到变化原因才能对症下药,我们抓住数据变化,紧跟业务工作,探究数据变化的原因,从而提出有针对性的建议。四是紧贴业务重点开展专题分析。综合分析研判的优点在于涵盖“四大检察”“十大业务”的各项工作,缺点是不够深入。为更好地发挥指导作用,就要针对综合分析中反映的突出问题开展专题分析。这样能够实现长跨度宽领域的深度分析,从而提升指导价值。

冯丽君:

无论是综合业务数据分析报告还是专题业务数据分析报告,都是要给决策者看的,所以报告完成过程应该是分析者与决策者的对话过程,分析者必须有决策者的高度才能成功完成这场对话。实务中一些报告对于数据所反映的深层次问题挖掘不够或者没有挖掘,分析深度不够、针对性和指导意义不强,表面看是分析方法不得要领,其实根源在于思维局限。思路决定出路。立意高远的分析报告,分析者必须有以下三种思维:一是体系思维。检察业务数据分析是典型的综合业务,除必须有全面的业务知识储备和全局的数据视野外,还要有眼观全局的体系思维。即便是做专题分析,对业务数据的运用也应当是全方位的,也要打破专业思维的“墙”。因为分析的广度与深度受制于数据视野宽窄和思维逻辑疏密。比如,性侵害未成年人犯罪专项分析运用的业务数据涉及“四大检察”“十大业务”,进行预测分析时还要运用地方经济、人口等统计数据。二是“破圈”思维,即跳至更高处俯视现处位置的思维方式。只有这种高位阶思维,才能保证我们有足够高的站位和足够宽阔的胸襟来审视数据与问题的映射关系,才能找到问题的核心症结所在。对于检察业务数据分析而言,要做到三层“破圈”:第一层是跳出案管思维看检察业务数据;第二层是跳出检察思维看检察业务数据;第三层是跳出法律思维看检察业务数据。比如,我们在做罪犯因身体健康原因未被收押、收监情况专项分析时,有人提出案件管理办公室在流程监控中发现个案质量问题,督促业务部门整改即可,至于专项清查以及其他问题则是捕诉业务和刑事执行检察业务范畴。我们当时不这么看,案件管理办公室凭借强大的数据资源优势和客观公正的监管立场,更能看清问题的真相。在完成全省该类案件数据清查后,我们的思维完成上述三次“破圈”,最终达到从助力国家治理能力、治理体系现代化的高度,深度剖析专项清查发现的“七多”现象及其原因,思考如何运用综合治理手段解决收治难问题。该分析报告对于推动全省专项整治工作发挥重要作用。三是溯源思维。做业务数据分析不能只盯着数据指标,要主动对每张报表与数据的关联、每条案卡信息与具体业务流程的关系追根溯源。具备这种溯源思维,会获得更多的复合信息量而赋能分析自由度,势必增长业务数据分析的附加值效应。比如,我们做的市州院拆分案件专项数据分析,在对报表数据与案卡信息、业务流程逐一进行溯源跟踪时,发面某地区拆分案件违反管辖规定交办案件现象较为突出,及时发出监管意见。

文似看山不喜平,对于业务数据分析报告亦是如此。对于综合业务数据分析报告一定要突出重点、热点、难点问题,沿着点再找到各业务条线司法办案的规律和趋势,文章才会达到“数点梅花天地春”的意境。问题是如何找到这点点“梅花”?从供需关系考虑,应当紧跟决策者的需求去找,无非以下途径:业务数据本身的逻辑规律,时政动态要闻,民生领域热点问题,等等。比如,湖南省近年来洗钱罪的上游犯罪之一毒品犯罪高发,但是今年上半年办理的洗钱案寥寥无几,在半年业务态势分析中我们将此作为重点关注问题进行分析。分析报告要紧跟大局形势,就要求分析者时刻关注党中央、国务院和最高检、最高法等高层时政动态消息,结合自身工作经验预判这些时政信息可能触发的检察工作新的发力点。对于专项业务数据分析,一定要以小见大,有“触类”“旁通”的张力。在深、广度拓展上要运用第一性原理“下钻”,因为任何一个问题的背后都一定有其原因,原因的背后还有原因,应一步一步向前推演,直至找到问题最本质的原因。在这种“下钻”式探索原因的过程中,信息量会成倍增加,势必增加分析的深度和广度。与此同时,还要通过“触类”与“旁通”增加分析报告的边际效应,即运用发散思维将检察业务数据分析从单纯的司法办案角度拓展到发案行业和社会治理的场域进行分析与思考。比如,在对虚开增值税专用发票案业务数据进行分析时,除关注司法实务中的办案程序、证据采信、法律适用、量刑情节认定等重点问题外,还要关注大案、串案高发的金属建材、珠宝玉石、石油化工原料等行业,运用第一性原理“下钻”,可进一步分析背后的社会管理制度漏洞。从金属建材、珠宝玉石行业高发原因再“下钻”,还会发现反洗钱国际标准明确提到贵金属和珠宝玉石销售行业,那么在对策建议上就很自然想到扩大洗钱罪上游犯罪范围的立法建议。

分析报告的谋篇布局要用“5W2H”法。高质量的检察业务数据分析报告并非在所有基础数据分析完成之后才起炉灶的,而是在动手做分析时就已成竹在胸。做好谋篇布局,推荐“5W2H”法,即When(何时)、Where(何地)、What(何事)、Why(何因)、Who(何人)、How(何法)、How Much(何益)。用一句话概括就是,何时何地发生何事,为何会有该问题,何人、用何法解决该问题会有何益。在做某项检察业务数据分析之前,头脑里有这么一句话,一篇分析报告的大致轮廓和做法步骤也就出来了。报告内容大致分为背景目的、数据来源及展示、数据分析结论、提出建议等。需要注意的是,要图文并茂,尽量图表化,分析结论不必多而在精,相关建议切记不要假大空。

问题四:如何完善检察业务数据分析研判会商制度?

主持人:2020年7月,最高检修订《最高人民检察院业务数据分析研判会商工作办法》,完善了检察业务数据分析研判会商制度。该制度在实践中积累了哪些经验,还存在哪些问题,如何完善?如何依托或者利用政法机关跨部门协同平台办案数据,拓展数据分析研判会商机制?

刘品新:

检察业务数据分析研判会商制度是近年来检察系统实施的一项重要举措,运行效果如何要结合实践全面看。我认为,该制度在各地、各院的运行效果取决于一把手是否重视,取决于各部门有无专人负责推动落实。建议将该项工作纳入一把手工程,并在检察机关建立跨部门的“专业群”去落实。

申国军:

经过两年多的发展,业务数据分析研判会商制度逐步形成了集业务数据提醒、业务数据分析、业务数据会商、会商意见部署与反馈、业务数据发布与解读等“五位一体”的具体工作内容。作为一项全院性工作,最高检每季度召开一次会商会议,张军检察长主持,其他院领导、各业务厅主要负责同志参加,共同把脉会诊业务工作。从实践情况看,成效非常明显,司法办案产生业务数据、业务数据分析研判提升司法办案质效的良性互动局面逐渐形成。在制度完善上,最高检和基层院着力点有所不同。

从最高检层面来看,接下来要重点在发挥对下指导作用上下功夫。我们对今年1月至7月各省、自治区、直辖市检察机关主要办案质量指标在全国排序情况,办案质量同比下降幅度较大的情况,普通、重大、职务、经济类犯罪情况,以及新领域公益诉讼案件数量成倍甚至几倍增长的情况进行了简要分析,并对各地整体办案质量作了基本判断、提出关注重点,形成各地主要办案质量情况简析材料,直接发送各省级院参考,发挥对下指导作用。我们会根据各地反馈情况进一步改进、完善,逐步形成按月对下推送办案质量情况简析制度。从地方院尤其是基层院来看,重点还是做实业务数据分析研判会商会议。张军检察长明确要求省级院每两个月召开一次,市、县级院每个月召开一次。各地一方面要落实好定期会商的要求,另一方面会商内容要务实有效。基层院如果一个月整体办案趋势没有变化,没有会商价值,也可以针对某一项业务,或者当地多发的某一类案件,甚至针对某一犯罪几年、十几年、几十年的变化情况进行会商。

冯丽君:

该项制度已成为各级检察机关检察业务管理的新引擎,成为各级检察机关把脉业务问题的会诊台、指导业务工作的指挥棒、助力社会治理的新抓手。湖南省院建立“三步走”季度案件质量讲评制度。每个季度由省院检察长主持,省院领导、各市州院检察长和省院各内设机构负责人参加的案件质量讲评会议,对全省检察业务数据宏观运行情况和个案办理质量进行讲评。主要分三步走:一是形成“一报告一清单”,将业务数据监管成果作为讲评内容。会前省院案件管理办公室根据本季度的日常监管情况,拟定《全省检察机关业务态势分析报告》《案件质量问题清单》提交季度案件质量讲评会议讨论研究。二是实行“一会商一点评”,将监管成果转化为整改措施。会前省院案件管理办公室针对报告和清单中的问题,充分与业务部门进行会商沟通达成共识。在讲评会上,案件管理办公室主要汇报存在的问题,业务部门主要谈整改措施,分管院领导逐一进行点评。三是会后落实“一事项一督办”,将整改措施转化为工作实效。为确保讲评中发现的问题及时得到整改,使讲评制度形成闭环,省院建立整改督办制度,严格督察督办。“三步走”季度案件质量讲评制度是湖南省案件管理“日清月结季讲年考”长线监管机制的轴心部分。与最高检的业务数据会商机制的区别在于人员和内容方面,参会人员扩大到下级院检察长,内容方面增加数据所反映的类案、典型个案质量问题,实时解决司法办案中的具体质量问题。

问题五:如何发挥检察业务数据社会治理效能?

主持人:张军检察长在今年第一季度检察业务数据分析研判会商会议上,对用好检察业务数据这个司法办案的“晴雨表”、为社会治理现代化提供“检察预警”提出要求。如何充分利用检察业务数据的价值,将其转化为社会治理效能?

刘品新:

以服务党委和人民为经,以回应社会热点为纬,是发挥检察业务数据社会治理效能的面向与奥秘。检察机关是人民美好生活的法律守护者,检察业务数据是实现国家治理现代化的重要资源。检察人员在办案及管理中要发挥数据预警及助推治理的效能,不能就办案而办案、就案管而案管,而应当在办案之后、在案管之余延展其工作,多针对人民群众普遍关心的问题,特别是社会热点问题开展专题性质的检察业务数据分析,为制发检察建议、形成检察内参打下基础。在条件成熟时,在全国或省级层面可以考虑对检察业务数据助推社会治理的典型案例进行评优示范。

此外,针对最高检的一些重大部署,在事前、事中、事后进行配套数据分析,形成有说服力的报告,也是发挥检察业务数据社会治理效能的应有之义。比如,建立以“案-件比”为核心的案件质量评价指标体系后,检察机关应当开展全方位的数据分析及论证,特别是针对常见多发案件的“案-件比”进行跟踪研究,形成有分量的报告或白皮书。当然,这类报告或白皮书可以侧重于检察业务数据与社会治理相结合。

申国军:

当前,我国正面临中华民族伟大复兴战略全局和世界百年未有之大变局。大变局大调整大发展中有许多不确定性,风险、挑战、矛盾会接踵而至,数据分析是超前捕捉并敏锐发现大变局中矛盾隐患的有效工具。检察机关前接公安后对法院,利用检察业务数据资源进行定量分析检测和预警,可以透视出当前社会治安、社会运行状况,社会矛盾的聚集点,提前发现排查隐藏在数据背后的重大风险隐患,发挥检察业务数据的社会治理效能。应重点在以下几个方面下功夫:一是在选题上下功夫。要紧扣党和国家工作大局,关注检察机关参与社会治理类的数据,比如对开展“扫黑除恶”的数据情况、服务非公经济发展的数据情况等进行深入分析。二是在社会因素分析上下功夫,关注社会热点问题,透过案件看社会。比如,分析未成年人犯罪或者侵害未成年人犯罪数量上升的问题,就要增加对学校教育供给不足的分析,对农村留守儿童家庭教育缺失的分析,以及不良网络信息对未成年人身心影响的分析,等等。三是在成果转化上下功夫。要将数据透视出的当地刑事犯罪发案点、社会矛盾聚集点等方面的分析研判成果报党委、政府有关部门,或者转化为检察建议送有关部门,督促有关单位建章立制,堵塞漏洞。四是在对外宣传上下功夫。要选取有助于推动社会治理的数据信息,对人民群众的法治意识具有引领作用的数据信息,包括典型类案所反映的新情况、新特点、新变化、新趋势,予以发布并解读,发挥预警社会、警示犯罪、引导司法的作用。

冯丽君:

任何案件首先是一种社会矛盾冲突现象,其次才是司法现象。在业务数据分析研判中,要深度开发检察业务数据反映社会现象尤其是社会矛盾冲突的价值洼地,为社会治理赋能。可以借鉴销售贸易行业的成本分析法,从社会治理成本视角研判个案、类案中暴露的碎片治理、被动治理问题,提出合理化建议。比如对虚开增值税专用发票犯罪业务数据专项分析时,若发现石油化工行业虚开增值税专用发票案高发的根本原因是非标油的变名销售模式,可以对过票、变票、受票企业的违法经营行为及其深层原因进一步探究,从而就企业合规监管提出意见,还可以就税务部门在税务监管方面的履职不当行为制发诉前检察建议等。

问题六:如何拓展检察业务数据的应用场景?

主持人:《中共中央关于加强新时代检察机关法律监督工作的意见》提出加强对检察机关法律监督工作的支持保障,强调运用大数据、区块链等技术推进公安机关、检察机关、审判机关、司法行政机关等跨部门大数据协同办案。区块链是适合人类大规模协作的工具,如何借助于区块链等技术,打破内外部数据壁垒,拓展检察业务数据应用场景,实现智慧监督,推动解决法律监督难题?

刘品新:

智慧检务创新思维无禁地,智慧检务创新产品要落地。这是拓展检察业务数据应用场景的辩证法。从理想状态来看,现在有什么样的前沿智慧科技,检察业务数据的应用场景就可以藉此朝“检察+科技”的方向无限拓展。近年来我国已经形成以国家重点研发计划、重点专项等科研项目支撑智慧检务创新的惯例,这更为依靠大数据、人工智能、区块链等新技术丰富智慧检务运用场景提供了强力路径。与此同时,检察机关研发的智慧检务创新产品一定要有用。这就需要开展智慧检务创新的人员真正走到一线,寻找真正可以突破的场景进行发力。以区块链技术的检察业务应用场景为例,区块链技术可以用于各种案件电子数据及电子化证据的取证、存证,用于检察监督线索的同步发现与自动提取,用于涉及多方主体的认罪认罚从宽,用于解决涉众型犯罪案件的取证难题,等等。而具体落地则需要扎实地设计、研发、试用、改进等。我国检察机关可以推动建立检察机关、行政机关之间的联盟链系统,使得各项业务数据通过区块链系统节点实现链接,以自动运行共识机制和智能合约机制解决检察机关监督线索来源的痛点,实现监督模式从“事后取证”转变为“同步存证”。

申国军:

在信息社会,数据是至关重要的治理资源。国家治理体系和治理能力现代化、法治建设的落实、法律监督提质增效,都要运用大数据。“运用大数据、区块链等技术推进公安机关、检察机关、审判机关、司法行政机关等跨部门大数据协同办案”,是一个长期的过程,要经历以下几个阶段:第一步是尽早打破信息孤岛实现数据汇聚。我们国家的数据资源存在明显的“纵强横弱”的问题。目前一些地方执法司法机关之间,对数据开放的权限、范围、方式等存在一定的认识分歧。有的部门以缺乏政策依据、没有上级部门首肯或不符合保密规定为由,仅允许个案查询,在批量、实时共享数据上存有顾虑。实现大数据应用,需要政法机关之间、检察机关与行政执法机关之间信息互联互通,打破“数据壁垒”,实现数据共享,这是有效发挥数据监督作用的第一步。第二步是能够整理原始素材,实现数据到信息、信息到知识的转化。实现数据互联、汇聚,只是实现素材的原始积累。接下来要从各个系统包括检察业务应用系统中提取、整合有价值的数据,经过清洗整理变成有用的信息,然后再通过信息对比分析尤其是关联性分析,将信息变成知识,这时大数据的作用才能够发挥出来。第三步是拓宽检察监督管理途径、拓展监督线索来源。在前两个阶段的基础上,可以直接通过网络数据信息,发现更多司法人员职务犯罪案件线索,行政执法机关不移送刑事犯罪案件线索,对公安机关立案监督、侦查活动监督线索,对法院审判、执行活动监督线索,虚假诉讼案件线索,公益诉讼案件线索,等等,从而更好地履行法律监督职能。

对于拓展检察业务数据的应用场景,一方面要着眼未来,另一方面要立足当前。比如“案-件比”评价指标,目前“件”的集合中仅包含了反映检察机关办案质效的业务活动。如果我们继续扩容“件”的集合,就能够在一定程度上反映整个司法机关刑事诉讼工作质效。除了当前“件”集合中的15类业务活动,若加上延长侦查羁押期限的案件数,就能够从一个侧面反映公安机关的办案质效;若加上抗诉数、上诉数、法院发回重审数、法院自行再审数等,就能够从一个侧面反映法院办理刑事案件的质效。这样测算出的“案-件比”数值,可以观测刑事司法业务的工作质效。继续扩容“件”的集合,将一个时期的刑事申诉案件、控告案件以及检察机关的立案监督案件、侦查监督案件、审判监督案件纳入其中,这时得出的“案-件比”数值,就能够从一个侧面反映政法机关对一个时期发生的刑事案件投入多少司法资源。所以对于检察业务数据的应用场景,我们既要着眼未来做好准备,也要立足当前谋发展。

冯丽君:

区块链是记录和传递真实价值的技术,被称为价值互联网,它的去中心化特点和链式数据结构存储的分布式账本,可以在弱信用环境下,保障用户分布式地建立一套信任机制,保障用户业务数据难以被非法篡改,让事物的真实价值掌握在每个参与者手中。链上信息的可溯源性、不可篡改性都为司法执法行为被同步记录存证提供可能,因此完全可以让区块链技术赋能法律监督。以刑事案件为例,线索受理、立案、侦查、提请批准逮捕、审查起诉、提起公诉、审理、判决、执行等各环节信息全部被记录,不可篡改和造假,将破解以往的法律监督难题,遏制司法执法不规范行为。因为链上每个参与者手上都有一个独立账本,每次变化,所有人都确认后才能被记录到账中,这意味着任何不规范司法执法信息都会被同步记录,达到同步存证的效果。因此,司法执法者会自动放弃不规范司法执法或者违法行为。

文稿统筹:常 锋 制作:王新颖

本文刊发于2021年《人民检察》第17期

直接来源地址:https://mp.weixin.qq.com/s/-8jLPKAOnMxSGFpTB4o46g

申国军:检察业务数据管理的理论与实践探析

为进一步彰显检察机关案件管理工作的价值和功能,推动案件管理体系和管理能力现代化,为检察工作高质量发展提供坚强管理保障,从2021年第17期起,《中国检察官》司法实务版特增设“案件管理”栏目,刊发检察机关案件管理业务方面的文章。最高人民检察院案件管理办公室申国军主任特别为该栏目撰写首篇文章《检察业务数据管理的理论与实践探析》,探讨检察机关如何以《检察业务数据管理办法》的出台为契机,为检察工作高质量发展贡献更多数据力量,以飨读者。

检察业务数据管理的理论与实践探析

申国军

最高人民检察院案件管理办公室主任、一级高级检察官

摘 要:随着科学技术的日新月异,尤其大数据应用的快速发展,检察机关办案方式和数据统计方式都发生了较大变化。2017年全国检察业务应用系统统计子系统上线运行,实现了网上办案、管理、统计的一体化,检察业务数据量也出现了爆发式增长。这为深化数据应用提供了条件,也为数据管理提出了新的挑战。《检察业务数据管理办法》的出台解决了数据管理上的基本问题,接下来更需要进一步转变数据管理理念、更新数据管理方法、提升数据管理效果、释放数据管理价值,为检察工作高质量发展贡献更多数据力量。

关键词:数据 管理 治理 质量 价值

当今世界,数据被视为科学的度量、知识的来源,没有数据,无论是学术研究,还是政策制定,都寸步难行。[1]2019年,党的十九届四中全会将数据确定为与劳动、资本、土地、知识、技术、管理并列的第七大生产要素。2021年6月10日,《中华人民共和国数据安全法》经十三届全国人大常委会第二十九次会议通过,并于2021年9月1日正式施行。这说明数据的价值愈加凸显,已提升到国家战略层面予以考量和保护。检察业务数据作为我国数据海洋中的一个细微分支,不仅反映着检察机关的办案数量质量、效率效果,更反映着我国社会的治安状况甚至整个社会的运行态势,其价值和作用毋庸置疑。如何管理使用好这些数据可谓迫在眉睫。本文试着从理论和实践的角度谈一谈检察业务数据管理的有关问题。

一、检察业务数据管理的历史变革

谈检察业务数据管理就离不开检察业务数据统计这个话题。统计在我国自古有之,最早可追溯到上古时期的结绳记事,实际上就是一种统计。《周易·系辞下》曾有记述:“上古结绳而治,后世圣人易之以书契。”即根据事件的性质、规模或所涉数量的不同,系出不同的绳结。这表明当时已用“结绳”法来表现社会现象的数量,并产生了简单的分组。这可视为我国古代统计思想的萌芽,当然那个时候还不是用数字来记录统计结果。但是从这里也可以看出统计本身就是一种社会管理方式,只是对统计自身的管理尤其是统计数据管理就是后来甚至当代的事情了,远远晚于统计以及相关统计数据产生的阶段。检察机关对检察业务数据的管理随着数据统计方式的发展而发展,是一个逐步深入的过程,大致可以分为三个阶段:

(一)检察业务数据手工统计阶段[2]

时间为2003年之前,这一阶段为手工统计阶段,对检察业务数据的管理主要是形式上的管理。以1985年为界又可以分为两个小阶段。1985年以前,属于手工分散统计阶段。这个阶段,各级院均由各业务部门单独统计,按条线报送,最高人民检察院(以下简称“最高检”)各业务部门自行对下统计汇总。统计数据的形式没有规范要求,有的采取登记本式,有的采取卡片式,随意性比较大,相关数据很难去核查,报送的时间也很难保障。

1985年至2003年,属于手工集中统计阶段。这个阶段有三个明显特征。一是逐渐实行由专门的统计部门或者人员进行统计。1985年10月,最高检召开第一次全国检察统计工作座谈会,研究统计集中管理问题。座谈会前后,各省级院纷纷设立了统计科,有的在办公室,有的在研究室。1988年8月,最高检在办公厅正式设立统计处,负责业务数据统计管理工作。二是进入案卡时代。1992年,最高检正式印发第一套案卡,统计人员依据案卡填报数据报表,案卡是数据源头。案卡的作用在于有据可查,内容丰富,并为计算机化提供基础。目前检察业务应用系统的数据生成,仍然采用的是这一模式。三是开始推广使用计算机。单机录入案卡信息,数据与案卡相对应,各地向最高检报送磁盘,最高检汇总生成全国统计数据。

(二)检察业务数据计算机输入统计阶段

时间为2003年至2016年,这一阶段实现了计算机统计,对检察业务数据的管理由形式管理向实体管理过渡。2003年,随着检察工作的深入开展和计算机应用的进一步普及,最高检在全国检察机关推行检察机关案件管理系统,简称为AJ2003系统,实行以统计案卡信息填录为基础的数据收集、汇总、上报调查机制,即进入机器统计阶段。这个阶段的主要特征:一是实现了由纸面填报到计算机录入的转变;二是实现计算机上案卡生成数据报表;三是实现了远程点对点报送,尽管这个时期还是单机部署,但是AJ2003系统是检察信息化的里程碑,检察机关业务信息化建设,可以说是从统计开始的。

2012年,在AJ2003系统基础上,最高检组织力量重新研发了新的统计系统,简称AJ2013系统,并于2013年1月开始全面运行。2013至2016年底,进入AJ2013系统阶段,初步实现了统计与管理相结合。AJ2013系统也是探索统计系统与检察业务应用系统(2013年全国上线运行,实现了网上办案)相衔接的过渡系统。检察业务应用系统设想是融案件办理、管理、统计于一体,但是起初是没有实现统计功能。2014年开始,由4个省探索统计衔接问题,2016年打通了统计系统与业务应用系统的衔接问题。

(三)检察业务数据自动生成阶段

时间为2017年至今,检察业务数据进入自动生成阶段,这一阶段基本实现了对检察业务数据的实体管理,并逐步向数据治理方向发展。2017年,全国检察机关检察业务应用系统统计子系统上线运行,检察业务数据采集、生成和呈现方式发生根本变化。过去的AJ2003、AJ2013统计系统中,检察业务数据的生成与检察办案过程相互分离。统计子系统全面上线运行后,真正实现了办案、管理、统计于一体的设想,办案人员网上办案的过程,就是案件信息填录的过程,同时也是信息采集和检察业务数据(统计数据)生成的过程。业务数据由系统在办案和监督管理中采集的信息自动实时生成,每天汇总到最高检,由信息化系统实时呈现。这一重大变革带来的积极效果是:一是统计周期从月集中报送到可以按日统计的转变;二是从专人负责统计填录到全员填录的转变;三是报表数量海量增加,统计报表从原来的63张发展到现在的200多张,真正形成了检察业务大数据;四是数据可以溯源,通过数据反查系统,能够查看案卡项目填录的准确与否,实现了对数据质量的实质审查。

海量数据产生之后,为广泛、深入的数据应用提供了条件。最高检新一届党组高度重视检察业务数据应用工作,2018年6月,审议通过《最高人民检察院检察业务数据分析研判会商工作办法》,并于2020年6月对该办法作出修订,对业务数据会商工作作出规范,全国检察机关逐步形成了集业务数据提醒、业务数据分析、业务数据会商、会商意见部署与反馈、业务数据发布与解读等五位一体的业务数据分析研判会商机制。检察业务数据的价值和作用更加凸显,数据质量随之变得更为重要。最高检张军检察长在2018年7月13日主持召开的第一次业务数据分析研判会商会议上就专门强调,分析研判报告要做到数字准、情况明、责任清,才能做到督导工作决心大。最高检分管日常工作的童建明副检察长形象指出,如果数据不准,那么业务数据分析将成为“沙上之塔”。正是在这样的背景下,2020年底《检察业务数据管理办法》(以下简称《管理办法》)应运而生。目的就是进一步加强人民检察院检察业务数据管理,保证检察业务数据真实、准确、及时、安全,更好保障检察机关履职办案、科学决策与业务指导。

二、检察业务数据管理中的基本问题

《数据治理之论》一书中提到,数据管理是指为了实现或者放大数据资源价值而进行的规划、组织、配置、监督、控制、协调和保管料理的行为或过程;数据管理的功能就是放大数据资源价值实现的功能效用[3]。结合这一论述和《管理办法》6章32条具体内容,这里可以明确检察业务数据管理的几个核心问题:

(一)管理的对象涵盖各类检察业务数据

管理对象要解决管理什么的问题。不言而喻,检察业务数据管理的对象就是检察业务数据,所以谈检察业务数据管理首先要明确什么是检察业务数据。但是《管理办法》并没有给出一个明确定义,这主要是因为《管理办法》出台时各界对于“数据”定义尚无定论,为避免在尚无最终定论的领域过多争论,就没有对检察业务数据下一个明确的定义,而是采取直接规定检察业务数据范围的方式回避了这个问题。现在,我们不妨可以套用一下《数据安全法》中的数据概念,检察业务数据应该是指任何以电子或者其他方式对检察业务信息的记录。更具体一点也就是《管理办法》第2条规定的包括检察业务统计数据以及可产生该数据的相关案件信息,还有基于大数据理念和方法对统一业务应用系统以及检察机关其他相关信息化系统、平台的信息、数据等进行采集、加工后形成的检察业务数据。

(二)管理的直接目的是提升数据质量、确保数据安全

直接目的就是管理要达到的最表面、最浅层的目的。《管理办法》开宗明义第1条就是保证检察业务数据真实、准确、安全,通篇以数据为对象,在确保数据安全的前提下,理顺各方参与者在数据采集、加工、使用、提供、公开等活动中的权责关系,从数据的完整性、一致性、正确性、安全性等多个维度提升数据质量,确保数据安全。

(三)管理的根本目的是实现数据价值转化

根本目的是隐藏在直接目的后的更深层次目的,是最终目标。所有直接目的都是为了达到最终目的。数据质量是直接目的,是基础保证。检察业务数据管理的最终目标是通过系统化、规范化、标准化管理,促进对数据的深度挖掘和有效利用,从而将隐藏在数据背后的价值释放出来,实现用数据说话、用数据决策、用数据管理、用数据创新的最终目的。所以《管理办法》确立了优质高效、智能便捷、有序共享的原则,以及更好保障检察机关履职办案、科学决策与业务指导的目标。

(四)管理的首要原则为集中统一原则

原则是指管理所遵循的准则或规范。《管理办法》第3条专门明确了检察业务数据管理应当坚持集中统一、分级负责、安全保密、优质高效、智能便捷、有序共享的原则。其中集中统一为首要管理原则,也是最为重要的管理原则。所谓集中统一的原则就是指对于检察业务数据的采集、加工、使用、提供、公开等活动由一个部门集中管理,统一系统采集、统一汇总计算、统一标准使用等。

其他几个原则,即:分级负责原则是指最高检和地方各级人民检察院分别负责对全国和当地检察业务数据活动的集中管理;安全保密原则是指在数据管理活动中通过权限管理、数据加密等手段,使数据得到有效保护和合法利用,并使其持续处于安全状态,对于涉密数据,应严格遵守保密规定,确保数据安全;优质高效原则是指数据管理要做到科学统一、真实准确、及时高效;智能便捷原则是指采取方便的手段和途径获取数据;有序共享原则是指在符合保密规定的前提下,在不同部门之间及时、完整地共享数据,提升数据效能。

(五)管理的主体为案件管理部门,其他部门各司其职

管理主体是来解决一个单位谁来具体行使管理职能的问题。数据管理往往强调单一主体,以保障本单位数据有序、高效管理和运转,防止出现“九龙治水”的现象。《管理办法》将集中统一管理作为首要原则也是这个目的,并且在第4条中明确了各级人民检察院案件管理部门是检察业务数据的主管部门。

检察业务数据管理的主体是案件管理部门,并不是说其他部门就不负有管理责任。《管理办法》中除了规定案管部门作为主管部门之外,同时还明确了相关部门的职责,业务部门负责对数据质量的管理,明确提出检察官助理、书记员对录入的信息依据本人职责承担相应责任,检察官承担指导、审核责任和最终责任;保密部门负责对检察业务数据的保密管理和监督检查;技术信息部门负责组织检察业务数据需求的技术落实,并及时进行系统配置,对相关信息化系统进行运行维护等。

三、检察业务数据管理方面存在的主要问题

《管理办法》出台为业务数据管理提供了制度依据,但由于数据资源爆发式增长,检察人员思想准备不足,再加上检察业务数据采集主体的分散性、使用主体的多样性,在具体管理过程中还是存在不少问题,主要集中在以下几个方面。

(一)思想上缺乏数据观念、数据意识,对数据管理不够重视

尽管我们国家已将数据列为生产要素之一。但是我们很多同志包括一些领导同志,人进入了数据化时代,思想意识还停留在数据之外。从近几年开展的数据质量检查来看,很多地方根本不重视业务数据管理,甚至有的院领导认为数据质量管理就是案管部门或者技术人员的工作,与己无关,造成数据管理往往流于形式,对最高检下发的数据督查方案不作具体布置,对数据质量检查工作敷衍了事,蜻蜓点水,雨过地皮湿。随之而来对填录错误的追责上也失之于软,失之于宽,未能引起承办人的重视。

(二)实践中数据源头责任压得不实,数据失真、迟滞现象频频发生

数据质量是统计工作的生命线[4],也就是数据管理的生命线。真实准确、及时完整地提供检察业务数据是数据管理部门的永恒主题,也是检察机关数据管理者的终身命题。由于数据的生产端在一线检察官办案中同步填录的案卡项目;而数据使用端往往在上级检察院。这种生产者与使用者相分离的状态,造成数据生产者填录案卡信息的积极性不高,责任心不强,导致数据失真、失实的现象依然存在。有的在办案系统中瞒报、虚报有关案件,生成虚假数据信息;有的乱填案卡信息,造成数据与实际不符;有的案件已经办结,相关部门也反馈了相关后续办理信息,承办人却迟迟不填录相关案卡信息,造成相关数据不能实时生成,影响趋势判断。这是当前检察业务数据管理中的难点问题。

(三)管理上集中统一原则尚未落实,造成数出多门,数据矛盾甚至数据缺失

集中统一原则是《管理办法》的首要原则,但在实际工作中还未落实到位:首先在数据采集上,绝大部分数据实现了通过检察业务应用系统集中采集,但依然存在诸如控告申诉案件通过其他系统采集,个别数据通过人工采集,个别案件线下办理的做法,并未实现与检察业务应用系统的完全对接;其次在数据使用上,有的数据使用部门受限于对统计报表的熟悉程度,对一些数据指标的理解适用往往以偏概全,在对外宣传、对下指导中根据自己理解计算出来的数据也会出现与案件管理部门数据打架、矛盾的问题;最后在前段流程、案卡设计上,个别办案主体擅自决定修改办案流程以及前端案卡,由于未统筹考虑数据生成问题,直接导致原有统计数据的缺失。

四、加强检察业务数据管理的意见建议

《管理办法》在制度层面实现了数据收集与存储过程中的标准管理,数据处理过程中的质量管理,应用过程中的结构管理,使用过程中的安全管理;检察业务应用系统实现了办案、统计、管理一体化,检察业务数据管理的“四梁八柱”已基本搭建完成。加强检察业务数据管理,更重要的是从理念、认识、举措、人员上进一步改进,以适应新发展阶段检察工作高质量发展的需要。

(一)提高思想认识,在两个大局中审视加强检察业务数据管理工作的重要意义

习近平总书记指出,领导干部要胸怀两个大局,一个是中华民族伟大复兴的战略全局,一个是百年未有之大变局,这是我们谋划工作的基本出发点[5]。这一重要论述为我们做好业务数据管理工作、找准管理定位指明了方向,提供了行动指南。当前数据已经成为重要生成要素之一,成为世界各国争先抢夺的战略资源之一,大变局大调整大发展中有许多不确定性,风险、挑战、矛盾会接踵而来,数据分析是超前捕捉并敏锐发现大变局中矛盾隐患最有效的工具。[6]检察机关前接公安,后对法院,可以说掌握着最综合最全面最重要的司法办案“数据库”。利用检察业务数据资源通过定量分析检测和预警,可以透视出当前社会治安、社会运行状况,社会矛盾的聚集点,提前发现排查隐藏在数据背后的重大风险隐患,为推进国家治理体系和治理能力现代化贡献检察业务数据统计力量和智慧。这也是在更高层面上发挥检察机关的法律监督职能作用。

(二)夯实数据监督职能,在检察改革中思考加强检察业务数据管理的重要作用

党的十九大以来,最高检党组以改革创新的精神深入谋划推进检察业务工作。站在更高起点上深化司法责任制改革,使检察官享有更加充分的依法独立办案权和决定权;开展“捕诉一体”办案模式变革,使同一名检察官既负责审查逮捕又负责审查起诉;全力推动认罪认罚从宽制度,落实检察官在刑事诉讼中的主导责任。在当前司法责任之“放权”,捕诉一体之“集权”,认罪认罚之“协商”后,新的业务体系、工作模式运行得如何?办案质量怎么样?检察机关履行法律监督的效果如何?都会通过数据反映出来。这就要求数据统计项目聚焦检察改革,强化责任担当,完善已有的统计指标体系,建立健全新的统计指标体系。更重要的是发挥数据监督作用,党的十九届四中全会将统计监督作为党和国家监督体系的重要组成部分。检察机关可以充分发挥业务数据对内监督作用,通过开展数据质量核查并延伸核查触角,运用案卡信息与法律文书比对、线上文书与线下文书比对、流程文书创建留痕时间与落款时间比对、案件办理流程与时间次序比对、检察机关有关法律文书与公安、法院文书比对的“五个比对”工作法,发现问题数据以及问题案件,发挥数据监督“探照灯”作用。

(三)强化系统思维,在数据生成使用的全流程中着力解决影响数据质量的各类问题

习近平总书记深刻指出,“系统观念是具有基础性的思想和工作方法”[7]。马克思主义哲学告诉我们,认识世界和改造世界必须坚持普遍联系的观点,坚决防止用片面的、单一孤立的方法去观察和处理问题。业务数据管理也要注重系统观念,重点要把好“四关”:检察机关应引导一线办案检察官树立填录案卡信息就是办案的理念,熟悉案卡项目,清楚案卡含义,认真填录每一项案卡信息,把好数据源头关;应建立完善的业务数据核查制度,坚持日常核查与专项检查相结合,发现填录不实的案卡信息,及时修正,把紧数据出口关;应加强业务数据分析,通过分析发现与实际不符或者异常的业务数据,及时跟踪反馈,并积极听取业务部门意见,把实数据反馈关;要将数据质量纳入检察机关业绩考核和案件质量评查工作中进行评价,问题严重的,要分清责任,严肃问责,把严数据追责关。

(四)创新方式方法,在智能化采集、审核、分析中实现数据管理的科学化

每年面对百万以上的案件,千万级的数据信息,靠人工实现全覆盖的数据管理根本不现实,必须也只能依靠智能化管理,才能实现全程、全面、全方位管理。一是实现智能化采集案件信息,检察机关应探索建立案卡自动生成文书的办案方式,即承办人只填录案卡,通过案卡生成文书,将现在通过文书生成案卡的方式调整过来,真正改变案卡与文书“两张皮”的问题;二是应建立覆盖每一个案卡填录项目的逻辑验证规则,对互斥、异常数据,增加自动拦截、提醒、预警功能,通过技术手段实现数据核查的全覆盖;三是应建立智能化数据分析系统,实现对检察业务数据的自动分析,通过横向、纵向对比,发现异常数据,并且通过自动回溯性排查,找出变化异常的原因,提醒数据管理人员进行深入检查,真正让数据管理全过程插上“科技翅膀”。

(五)提升综合素养,在政治建设中融入业务数据管理能力建设

张军检察长强调,检察工作是一项政治性很强的业务工作,也是一项业务性很强的政治工作。业务数据管理工作是一项技术性很强的业务工作,也是业务性很强的技术工作。数据管理人员需要重点提升以下三种能力:一是政策把握能力,数据管理过程中的业务指标设定、数据分析、数据发布,无不要体现党和国家工作大局,体现以人民为中心的发展思想,必须要有较强的政策把握能力;二是法律综合适用能力,对业务数据采集、加工、使用、提供、公开的每一项管理,无不与现行实体法与程序法紧密相连,数据管理人员必须具备较强的法律综合适用能力;三是业务数据治理能力,这是当前检察数据管理中最薄弱却是最重要的一种能力,数据管理人员要懂得如何生成与存储数据,实现数据的聚拢;如何清洗和优化数据,实现数据到信息的提升;如何分析和应用数据,实现信息到知识的转化;如何自动作出判断和预测,实现数据到智慧的飞跃。同时在这一过程中要能够对接内外各方,贯通上下左右,实现整个业务数据治理体系高效有序运转,这就需要很强的数据治理能力。总之,管理使用好检察业务数据,深入挖掘、释放数据价值,急需培养讲政治懂业务会技术的复合型检察业务数据管理队伍。

注释:

[1]参见徐子沛:《大数据》,广西师范大学出版社2015年版,第61页。
[2]参见王拥政:《检察业务统计实务》,中国检察出版社2019年版,第7页。
[3]梅宏主编:《数据治理之论》,中国人民大学出版社2020年版,第166页。
[4]《领导干部统计知识问答》编写组:《领导干部统计知识问答》,中国统计出版社2021年版,第42页。
[5]习近平:《习近平谈治国理政》(第三卷),外文出版社2020年版,第77页。
[6]同前注[4],第41页。
[7]本书编写组:《〈中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议〉辅导读本》,人民出版社2020年版,第74页。

*本文刊登于《中国检察官》杂志2021年9月(司法实务版)

直接来源地址:https://mp.weixin.qq.com/s/10qWw3gHOzppn7EKUHKFgw

大数据12种职业简介

数据科学家 Data Scientist

职责:数据科学家负责利用自己的分析能力与技术能力从海量的数据中抽取出有意义的洞见与趋势。

数据工程师 Data Engineer

职责:数据工程师负责搭建物理层面的数据传输结构,保证大数据从服务器流畅地传输到使用者的终端上。

大数据工程师 Big Data Engineer

职责:大数据工程师搭建大数据方案架构师设计的大数据设计,开发、维护、测试、评估大数据方案。

机器学习科学家 Machine Learning Scientist

职责:机器学习科学家负责研究与开发算法,从而帮助自适应系统运转。他们让大数据自动运转从而产出分析能力。

商业分析专员 Business Analytics Specialist

职责:商业分析专员支持各种大数据技术研发团队,帮助他们测试与研发符合商业需求的项目,并且开发商业与资金层面具体可行的大数据商业解决方案。

数据可视化开发员 Data Visualization Developer

职责:数据可视化开发员负责设计提供视觉化的大数据交互应用方案,从美学角度设计具体项目中大数据的呈现方式。

商业智能工程师 Business Intelligence(BI)Engineer

职责:商业智能工程师具有大数据分析能力,也拥有维护大数据库的能力,他们职责是利用大数据的储备,随时调用大数据的潜在价值,帮助团队解决复杂的商业问题。

商业智能方案架构师BI solution architect

职责:商业智能方案架构师在一些时间紧迫的商业任务中,快速给出解决方案,他们拥有强大的沟通能力、数据分析能力,对数据可视化很擅长。

商业智能专员BI specialist

职责:商业智能专员负责为一项商业项目设计全局大数据智能框架,这个岗位要求拥有批判性思维、对细节的专注、强大的沟通能力。

大数据分析总监 Analytics Manager

职责:大数据分析总监负责调整、设计、操作公司的大数据解决方案与商业智能工具。他们需要分析从公司订单等交易行为中产生的巨量的数据信息,及时调整公司的大数据解决方案的机制与设置。

机器学习工程师 Machine Learning Engineer

职责:机器学习工程师负责打造软件,软件的受众可能是其他大数据支撑的人工智能软件,最终目的是让机器能做出类似人类的决定与互动能力。

统计专家 Statistician

职责:统计专家收集数据并且合理展示数据,帮助所在的公司发掘大数据中蕴藏的趋势并做出商业预判。

直接来源地址:https://www.toutiao.com/i6917188563708772875/

关于加快构建全国一体化大数据中心协同创新体系的指导意见

发改高技〔2020〕1922号

各省、自治区、直辖市及计划单列市人民政府,新疆生产建设兵团,国务院各部委、各直属机构:

数据是国家基础战略性资源和重要生产要素。加快构建全国一体化大数据中心协同创新体系,是贯彻落实党中央、国务院决策部署的具体举措。以深化数据要素市场化配置改革为核心,优化数据中心建设布局,推动算力、算法、数据、应用资源集约化和服务化创新,对于深化政企协同、行业协同、区域协同,全面支撑各行业数字化升级和产业数字化转型具有重要意义。为进一步促进新型基础设施高质量发展,深化大数据协同创新,经国务院同意,现提出以下意见。

一、总体要求

(一)指导思想。

以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,全面落实习近平总书记关于建设全国一体化大数据中心的重要讲话精神,按照国务院统一部署,以加快建设数据强国为目标,强化数据中心、数据资源的顶层统筹和要素流通,加快培育新业态新模式,引领我国数字经济高质量发展,助力国家治理体系和治理能力现代化。

(二)基本原则。

统筹规划,协同推进。坚持发展与安全并重。统筹数据中心、云服务、数据流通与治理、数据应用、数据安全等关键环节,协同设计大数据中心体系总体架构和发展路径。

科学求实,因地制宜。充分结合各部门、各行业、各地区实际,根据国际发展趋势,尊重产业和技术发展规律,科学论证,精准施策。

需求牵引,适度超前。以市场实际需求决定数据中心和服务资源供给。着眼引领全球云计算、大数据、人工智能、区块链发展的长远目标,适度超前布局,预留发展空间。

改革创新,完善生态。正确处理政府和市场关系,破除制约大数据中心协同创新体系发展的政策瓶颈,着力营造适应大数据发展的创新生态,发挥企业主体作用,引导市场有序发展。

(三)总体思路。

加强全国一体化大数据中心顶层设计。优化数据中心基础设施建设布局,加快实现数据中心集约化、规模化、绿色化发展,形成“数网”体系;加快建立完善云资源接入和一体化调度机制,降低算力使用成本和门槛,形成“数纽”体系;加强跨部门、跨区域、跨层级的数据流通与治理,打造数字供应链,形成“数链”体系;深化大数据在社会治理与公共服务、金融、能源、交通、商贸、工业制造、教育、医疗、文化旅游、农业、科研、空间、生物等领域协同创新,繁荣各行业数据智能应用,形成“数脑”体系;加快提升大数据安全水平,强化对算力和数据资源的安全防护,形成“数盾”体系。

二、发展目标

到2025年,全国范围内数据中心形成布局合理、绿色集约的基础设施一体化格局。东西部数据中心实现结构性平衡,大型、超大型数据中心运行电能利用效率降到1.3以下。数据中心集约化、规模化、绿色化水平显著提高,使用率明显提升。公共云服务体系初步形成,全社会算力获取成本显著降低。政府部门间、政企间数据壁垒进一步打破,数据资源流通活力明显增强。大数据协同应用效果凸显,全国范围内形成一批行业数据大脑、城市数据大脑,全社会算力资源、数据资源向智力资源高效转化的态势基本形成,数据安全保障能力稳步提升。

三、创新大数据中心体系构建

统筹围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,在京津冀、长三角、粤港澳大湾区、成渝等重点区域,以及部分能源丰富、气候适宜的地区布局大数据中心国家枢纽节点。节点内部优化网络、能源等配套资源,引导数据中心集群化发展;汇聚联通政府和社会化算力资源,构建一体化算力服务体系;完善数据流通共性支撑平台,优化数据要素流通环境;牵引带动数据加工分析、流通交易、软硬件研发制造等大数据产业生态集聚发展。节点之间建立高速数据传输网络,支持开展全国性算力资源调度,形成全国算力枢纽体系。(发展改革委、工业和信息化部、中央网信办牵头,各地区、各部门负责)

四、优化数据中心布局

(一)优化数据中心供给结构。发展区域数据中心集群,加强区域协同联动,优化政策环境,引导区域范围内数据中心集聚,促进规模化、集约化、绿色化发展。引导各省(自治区、直辖市)充分整合利用现有资源,以市场需求为导向,有序发展规模适中、集约绿色的数据中心,服务本地区算力资源需求。对于效益差、能耗高的小散数据中心,要加快改造升级,提升效能。(工业和信息化部、发展改革委牵头,各地区负责)

(二)推进网络互联互通。优化国家互联网骨干直连点布局,推进新型互联网交换中心建设,提升电信运营商和互联网企业互联互通质量,优化数据中心跨网、跨地域数据交互,实现更高质量数据传输服务。积极推动在区域数据中心集群间,以及集群和主要城市间建立数据中心直连网络。加大对数据中心网络质量和保障能力的监测,提高网络通信质量。推动降低国内省际数字专线电路、互联网接入带宽等主要通信成本。(工业和信息化部牵头,各地区负责)

(三)强化能源配套机制。探索建立电力网和数据网联动建设、协同运行机制,进一步降低数据中心用电成本。加快制定数据中心能源效率国家标准,推动完善绿色数据中心标准体系。引导清洁能源开发使用,加快推广应用先进节能技术。鼓励数据中心运营方加强内部能耗数据监测和管理,提高能源利用效率。鼓励各地区结合布局导向,探索优化能耗政策,在区域范围内探索跨省能耗和效益分担共享合作。推动绿色数据中心建设,加快数据中心节能和绿色化改造。(工业和信息化部、发展改革委、国家能源局牵头,各地区负责)

(四)拓展基础设施国际合作。持续加强数据中心建设与使用的国际交流合作。围绕“一带一路”建设,加快推动数据中心联通共用,提升全球化信息服务能力。加速“一带一路”国际关口局、边境站、跨境陆海缆建设,沿途积极开展国际数据中心建设或合作运营。整合算力和数据资源,加快提升产业链端到端交付能力和运营能力,促进开展高质量国际合作。(中央网信办、工业和信息化部、发展改革委牵头,各地区负责)

五、推动算力资源服务化

(一)构建一体化算力服务体系。加快建立完善云资源接入和一体化调度机制,以云服务方式提供算力资源,降低算力使用成本和门槛。支持建设高水平云服务平台,进一步提升资源调度能力。支持政企合作,打造集成基础算力资源和公共数据开发利用环境的公共算力服务,面向政府、企业和公众提供低成本、广覆盖、可靠安全的算力服务。支持企业发挥市场化主体作用,创新技术模式和服务体验,打造集成专业算力资源和行业数据开发利用环境的行业算力服务,支撑行业数字化转型和新业态新模式培育。(发展改革委、工业和信息化部牵头,各地区、各部门按职责分工负责)

(二)优化算力资源需求结构。以应用为导向,充分发挥云集约调度优势,引导各行业合理使用算力资源,提升基础设施利用效能。对于需后台加工存储、对网络时延要求不高的业务,支持向能源丰富、气候适宜地区的数据中心集群调度;对于面向高频次业务调用、对网络时延要求极高的业务,支持向城市级高性能、边缘数据中心调度;对于其它算力需求,支持向本区域内数据中心集群调度。(各地区、各部门按职责分别负责)

六、加速数据流通融合

(一)健全数据流通体制机制。加快完善数据资源采集、处理、确权、使用、流通、交易等环节的制度法规和机制化运营流程。建立完善数据资源质量评估与价格形成机制。完善覆盖原始数据、脱敏处理数据、模型化数据和人工智能化数据等不同数据开发层级的新型大数据综合交易机制。探索有利于超大规模数据要素市场形成的财税金融政策体系。开展数据管理能力评估贯标,引导各行业、各领域提升数据管理能力。(发展改革委、中央网信办、工业和信息化部牵头,各有关部门按职责分工负责)

(二)促进政企数据对接融合。通过开放数据集、提供数据接口、数据沙箱等多种方式,鼓励开放对于民生服务、社会治理和产业发展具有重要价值的数据。探索形成政企数据融合的标准规范和对接机制,支持政企双方数据联合校验和模型对接,有效满足政府社会治理、公共服务和市场化增值服务需求。(中央网信办、发展改革委牵头,各地区、各部门按职能分工负责)

(三)深化政务数据共享共用。充分依托全国一体化政务服务平台,发挥国家数据共享交换平台数据交换通道的支撑作用,建立健全政务数据共享责任清单机制,拓展政务数据共享范围。加快建设完善数据共享标准体系,解决跨部门、跨地区、跨层级数据标准不一、数据理解难、机器可读性差、语义分歧等问题,进一步打破部门数据壁垒。(国务院办公厅、发展改革委牵头,各地区、各部门按职责分工负责)

七、深化大数据应用创新

(一)提升政务大数据综合治理能力。围绕国家重大战略布局,推动开展大数据综合应用。依托全国一体化政务服务平台和国家“互联网+监管”系统,深化政务服务和监管大数据分析应用。支持各部门利用行业和监管数据,建设面向公共卫生、自然灾害等重大突发事件处置的“数据靶场”,定期开展“数据演习”,为重大突发事件期间开展决策研判和调度指挥提供数据支撑。(国务院办公厅、发展改革委牵头,各部门、各地区按职能分工负责)

(二)加强大数据公共服务支撑。聚焦大数据应用共性需求,鼓励构建集成自然语言处理、视频图像解析、数据可视化、语音智能问答、多语言机器翻译、数据挖掘分析等功能的大数据通用算法模型和控件库,提供规范统一的大数据服务支持。(各地区、各部门负责)

(三)推动行业数字化转型升级。支持打造“行业数据大脑”,推动大数据在各行业领域的融合应用。引导支持各行业上云用云,丰富云上应用供给,加快数字化转型步伐。推动以大数据、云服务促进新业态新模式发展,支持企业线上线下业务融合,培育数据驱动型企业。(各地区、各部门负责)

(四)推进工业大数据平台建设。支持工业互联网大数据中心标准建设,加强工业互联网数据汇聚、共享和创新应用,赋能制造业高质量发展。鼓励构建重点产业、重大工程数据库,为工业发展态势监测分析和预警预判提供数据支撑。(工业和信息化部牵头,各地区、各部门按职能分工负责)

(五)加快城市大数据创新应用。支持打造“城市数据大脑”,健全政府社会协同共治机制,加快形成统一规范、互联互通、安全可靠的城市数据供应链,面向城市治理、公共服务、产业发展等提供数据支撑。加快构建城市级大数据综合应用平台,打通城市数据感知、分析、决策和执行环节,促进提升城市治理水平和服务能力。(各地区负责)

八、强化大数据安全防护

(一)推动核心技术突破及应用。围绕服务器芯片、云操作系统、云数据库、中间件、分布式计算与存储、数据流通模型等环节,加强对关键技术产品的研发支持。鼓励IT设备制造商、数据中心和云服务提供商、数字化转型企业等产业力量联合攻关,加快科技创新突破和安全可靠产品应用。(发展改革委、工业和信息化部、中央网信办牵头,各地区负责)

(二)强化大数据安全保障。加快构建贯穿基础网络、数据中心、云平台、数据、应用等一体协同安全保障体系,提高大数据安全可靠水平。基础网络、数据中心、云服务平台等严格落实网络安全法律法规和政策标准要求,开展通信网络安全防护工作,同步规划、同步建设和同步运行网络安全设施,提升应对高级威胁攻击能力。加快研究完善海量数据汇聚融合的风险识别与防护技术、数据脱敏技术、数据安全合规性评估认证、数据加密保护机制及相关技术监测手段等。各行业加强上云应用的安全防护,保障业务在线安全运行。(中央网信办、发展改革委、工业和信息化部牵头,各地区、各部门负责)

九、保障措施

(一)完善工作机制。各地区、各部门要提高认识,加强跨地区、跨部门、跨层级协同联动。依托促进大数据发展部际联席会议制度,发展改革委、工业和信息化部、中央网信办会同有关部门建立一体化大数据中心协同创新体系工作机制,充分发挥专家决策咨询的作用。各地区要建立工作协调机制,统筹相关力量,积极推动大数据中心体系建设。(各地区、各部门负责)

(二)抓好任务落实。各地区、各部门要结合实际,坚持小切口大带动,在大数据机制管理、产业布局、技术创新、安全评估、标准制定、应用协同等方面积极探索,积累和推广先进经验。鼓励各地区创新相关配套政策,制定符合自身特点的一体化大数据中心建设规划和协同创新实施方案,并加快推进落实。(各地区、各部门负责)

 

国家发展改革委

中 央 网 信 办

工业和信息化部

国 家 能 源 局

2020年12月23日

 

直接来源地址:https://mp.weixin.qq.com/s/HC389_7OqCcCuEKTmpkwfA

数据分析师要去数据部门还是业务部门?

在企业中数据分析师岗位一般归属于两个部门,一个是数据部门,一个是业务部门,而在招聘的时候,统称都叫数据分析师,从岗位JD中很难看出这个岗位的归属部门,需要我们在面试中需要去沟通确认的。由于我比较“有幸”两种架构都待过,分享下自己的拙见。

数据组vs业务组之间的差异

数据组是由一些数据分析师组成的专门组织,而业务组是长在业务部门里的数据分析师。我自己根据我经历过的两种组织的差异性,做了个简单的对比。

数据组也有是随着业务的发展,需求的增长,由数据分析师独立壮大出来的组。专门的数据组最大的好处是有高级数据分析可以学习与指导,然后接触数据面比较广,缺点是离业务较远。

目前造成业务部门内自己招数据分析师而不是用数据组,业务的老板觉得手下用的更顺手,不用等待别人的需求排期,有时也是排外心理不愿意让别的部门插手自己部门的事情。业务部门最大的优点是接地气。缺点就是多数情况下,没有高级的数据分析师指导你,只能自己摸索着发展。

面试中需要确认的问题

关于数据分析师,很多时候可能是Excel或者SQL取数的人资源不够,来招个人做取数机,以及业务领导看很多部门都有数据分析师,没想清楚为什么要招这个分析师。所有这些需要大家在面试中进行确认。

首先跟面试官确认这个岗位汇报的对象是谁,业务老大还是数据的老大,然后就能判断出来组织架构。

——数据组,需要确认的问题是否大部分时间是在取数和对接报表需求,是自己取数还是也有IT(数仓)支持?有无更多接触业务的场景与机会。

——业务组,可以确认是否可以自己取数或者服务对象,决定自己获取数据是否受制于他人;老大中的分析具体是解决问题的场景是什么,确认老板是否只是头脑发热。

数据组与业务组

数据组和业务组各有利弊,那么如果有机会可以给你选择,你可能会困惑。曾经的我在数据组面临转岗机会时候,也犹豫了很久,最后决定试下新的机会。最终我的体验的结论是倾向于长在业务组里的数据分析师。

真正在业务部门,你才对这些数据更敏感,才能知道更多数字背后的故事。说白了,就是你和业务部门同事‘混’在一起。

在业务部门,业务结果为导向,建立更多的合作机会。

其实在业务部门,大部分是实际应用场景的分析,如果给出一个浅显的结论,是很容易被老板diss的。当然随着跟业务接触时间长了,你可以知道业务目前现阶段关注的重点以及目前遇到的问题,主动出击与业务人员合作,容易出成果。

注意点:避免成为新的取数机,自己闯出一片天

由于你是业务里的数据分析师,业务里的很多需求就会砸向你,我觉得首先得跟业务老板协商好自己的主要工作职责,首先是过滤掉单纯的取数需求,精力集中于能产生行动的分析上,靠自己努力成为业务的分析专家,打造竞争壁垒。

数据组同学怎么办

那么现在在数据组的同学,可能会说,我已经在数据组怎么办呢。

我觉得在数据组的缺点是远离业务,所以就是要跳出自己的舒适区,和自己老板协商,对接具体业务产线,参加业务的会议,知道业务关注什么,寻觅合作机会。

文源:数据氧气

直接来源地址:https://www.wukong.com/question/6899633546828185864/

数据分析不只是一个岗位,更是一种职场必备能力

从事数据分析十年以来,我越来越感知到数据分析的学习与成长从来都不是纸上谈兵,不是理论空谈,也不是拿工具说事,而是不断在实践中迭代理论、磨炼经验。

近十年来,我先后在零售、电商等行业工作,一直专注钻研数据分析,包括数据分析技术、业务赋能、数据分析平台建设,以及数据分析团队的组建与管理等。

在整个过程中,我主导搭建过企业数据底层架构,通过统一化业务系统数据资源,从数据提取、集成,到数据清洗、加工、可视化,实现了一站式分析,帮助公司解决了数据混乱、业务系统孤岛等“老大难”问题。我也曾主导搭建上层 BI 项目级应用,让企业实现了营销模式全覆盖和数据流通。

实践的过程,就是我个人历练成长的过程。这一路走来,我在数据分析领域积累了丰富的业务经验和踩坑经历,并越来越深刻地感知到数据分析的重要性。

数据分析能力在不断“破圈”

任何岗位都要体现自身价值,数据分析最重要的就是给企业和业务带来价值。不过事实上,从我接触的数据相关的同学来看,大部分却专职做着利用 SQL 取数、写数据报告等枯燥、机械、低价值感的工作,导致自己越做越没动力。深究其原因,很重要的一点是:只是被动完成需求。

我刚开始做数据分析的时候,也是完全被动地接受来自业务和 IT 部门的需求。比如帮业务人员取一些零售数据等,但是怎么从客户维度、销售维度、门店维度去分析差异数据,该怎么做客户画像、产品规划、投入预算等,却不是随便跑跑 SQL、做几张 Excel 报告就能够完成的。只有真正挖掘数据背后隐藏的价值,才能够帮助你脱离低价值感的机械数据岗位。

如果你在分析业务需求时具有了这样的思维,那么恭喜你,你成功找到了普通数据工作与数据分析的分水岭——主动寻找数据价值,这也是数据分析会大火的原因之一。

如今,各企业都在数据化进程加快的激流中,谋求突破用户增长瓶颈、开展精细化管理的方法,数字化转型的大潮让数据分析人才供不应求。

无论是专业的数据分析岗位,还是运营、产品、财务、人力、销售等岗位,都开始关注从业者的数据分析能力:运营需要通过数据分析来解决流量、用户增长问题,产品需要利用数据分析解决业务增长需求,财务更要通过数据分析支持业务分析与管理……数据分析技能“不断破圈”。

无论你处于什么岗位,具备数据分析思维、懂得利用数据挖掘价值,便可以更客观地审视公司业务并优化流程,创造更高的企业与个人价值,成为职场的佼佼者。特别是在互联网公司中,反观对数据分析还没有丝毫概念的人,往往很快就遭遇瓶颈,在职业发展的道路上停滞不前,甚至被边缘化!

怎样才能学好数据分析?

跃跃欲试者众,但学好、用好一门技术并不简单。

我是一名典型的转行者,最初学习数据分析完全是个人兴趣推动,但问题和困惑也随之出现。自学的过程中,我发现一些知识开始越学越乱,明明看了很多资料,却还是很难搞懂实际业务场景,处于盲人猜象的迷茫阶段。在后来面试招人、搭建团队的过程中,我也深切感受到这是很多入门数据分析的初学者必然会遇到的问题。

于是,我决定深入行业去体会实际场景。在掌握了一些简单的数据分析基础技能(如利用 Excel 进行数据分析)的情况下,我毅然转行进入了电商行业,做一名数据分析专员,从最简单的报表、取数等工作开始了我的数据分析从业生涯。

再后来,我在业务工作中又不断掌握了 Python、SPSS、Hadoop 和各种 BI 工具等技能,能够利用各种工具或者编程语言对数据分析进行清洗、加工和可视化处理等操作。这时我开始尝试分析业务,想要进阶高级数据分析师。

但此时,我发现自己对业务的了解只浮于表面,脑海中没有具体场景,很难突破瓶颈,于是一直无法摆脱“工具人”的定位。这一点,我想大部分数据分析师都有切实的感受:盯着满屏的数据,半天分析不出一点结论和建议,只能做着低价值感的工作。职业生涯的天花板触手可及,这不是我选择这条路的初衷!

后来,我专门拿出时间学习业务部门的知识,包括流程梳理、业务模型、指标体系建立等。再后来,又逐渐承接业务部门的数据项目分析需求。比如采集人力数据做销售人员绩效分析,为此我专门学习了 HRDA(人力资源数据分析)中关于绩效管理、TOP 模型等知识,最终依靠数据模型优化了公司销售人员的绩效算法,提升了业务流程。

就这样一步步经历挫折、误区与摸索之后,我也终于从一个一无所知的纯小白,成长为一名略有成就的数据分析师。在这个过程中,我愈发感知到数据分析对于全行业的重要性,因为任何一家企业都需要利用数据资源创造利益价值,而我们数据分析从业人员就是为了挖掘数据价值而存在的。

(略,见原文)

我建议你多去了解业务、熟悉业务、解剖业务,只有以长时间积累的业务经验作为赋能基础,数据分析工作才能长远地发展下去。

最后请记住一句话:学习任何一种知识,坚持到底可以打败 99% 的人!

直接来源地址:https://www.toutiao.com/i6893406066017567240/

论数据分析师的职业技能

笔者作为一个有幸在数据分析与建模领域摸索过的数据从业者,有一些总结与思考。成为优秀数据分析师的道路千万条,其中比较扎实的一条便是从最底层的数据开始做起,积累对数据的认识,了解整个数据生命周期的全貌以及数据生态链都有哪些环节。

当理解了数据是如何产生、存储、使用和销毁的,就会知道为什么公司的数据会有一定的存储周期,为什么有价值、高质量的数据会这么稀缺,为什么数据处理环节如此耗时却又至关重要等等。而这些,恰恰是一名优秀的数据分析师需要懂得的。

以下就抛砖引玉,简单分享一下我所理解的数据分析师成长之路和必备知识技能。先上一份数据分析师成长的路线图,看看在不同阶段的数据分析师都应做到什么。

那么从数据分析的菜鸟,一路升级到优秀的数据分析师,需要哪些知识和技能呢?

知业务
数据分析不是无源之水,具体的业务场景才是数据分析的初始目标和最终归宿。要做到从业务中来,到业务中去,就要求数据分析师熟悉行业知识、公司业务及流程。

比如做一个信贷相关的数据分析项目,如果对相关信贷产品的设计,贷款的申报、审批、发放、风控等业务流程,以及流程内诸如客户经理、审批人员、放款人员、贷后监督人员的职责分工和工作内容有一定的了解,便可以从庞杂的业务信息流中有的放矢地选取分析目标和有用数据,产出真正业务人员用得上、用得好的数据分析模型、策略和产品。

会分析
需要掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。在知识库中提前储备一些如对比分析法、交叉分析法、综合评价分析法等基本的分析方法,以及回归分析法、聚类分析法、其他机器学习与人工智能算法等高级的分析方法,做到心中有数,随时可用。

而想要在数据分析之路上走得更远,成为专家乃至数据科学家,对各类方法的理解不仅要知其然,更要知其所以然。比如,构建评分卡常用到的逻辑回归模型,可以了解它的基本假设、损失函数、优化方法是什么,如何处理数据才能提高该类模型的稳定性和准确率,与其他可替代方法相比的优缺点等。

用工具
数据分析方法是理论基础,数据分析工具就是实现数据分析方法理论的抓手。面对越来越庞大的数据,仅仅依靠Excel等基础工具已无法满足需求,掌握更强大、专业的数据分析工具或编程语言(如BI、SQL、SAS、Python等)以及常用的数据分析库(如Python中的Pandas和Scikit_learn等),辅助完成数据分析工作,可以达到事半功倍的效果。

擅表达
虽然常常被忽略,但这可能是最为关键的一部分。一方面,多数分析成效不佳的问题都和前期同业务与开发人员沟通不足、理解不够有关。和相关业务人员、开发人员的沟通涉及业务术语与技术术语的翻译与转化,不同角色间思维方式和表达习惯的差异对数据分析师的沟通表达能力提出了很高的要求。

另一方面,撰写分析报告,将数据分析的结果和得出的观点借助文字、图表甚至影像简明而高效地传递给目标受众(经理、客户等),也是优秀数据分析师的必备能力。

懂管理
从一个数据分析项目的规划和启动,到中间的执行和监控,直至项目的报告和收尾,每一个环节都需要一定的管理协调能力。比如,在项目规划启动阶段,需要协调业务人员对需求进行分析,对现状进行评估,也需要组织分析人员对项目进行可行性分析,形成计划书,还需要协调开发人员进行数据完备性调研。在合适的时间、以恰当的方式将有限的资源调配到各项工作上,持续推进项目直至按时保质保量完成,无不考验着管理能力。

知业务、会分析、用工具、擅表达、懂管理,这些技能的磨练难以一蹴而就,最为直接的途径就是多参与项目,可以是手头正在参与的各种数据分析类工作,可以是Kaggle竞赛上的项目,甚至可以“无中生有”,就一些日常工作生活中的小事做一点探索,比如研究一下车牌拍卖数据来做一个竞拍策略,或利用Excel的宏模块做一些数据的自动化可视化展示。总之,get your hands dirty,行动起来,踏上成为一名优秀数据分析师的道路。

文源:数据治理周周谈

直接来源地址:https://www.wukong.com/question/6903334291250495752/

大数据从业10年,从一个BI项目的失败,看到数据治理的重要性

很多企业在做BI项目时,一开始的目标都是想通过梳理管理逻辑,帮助企业搭建可视化管理模型与深化管理的精细度,及时发现企业经营管理中的问题。

但在项目实施和验收时,BI却变成了报表开发项目,而报表的需求往往和个人习惯有关,一旦人员发生变动,尤其是新入职的高层,会把前公司的内容搬过来,这就需要重新开发一大堆报表。

如果不从源头进行控制,被动服务模式下的IT不可能满足所有人的报表需求。接下来我们要讲的这个案例就真实反应了这个过程,同时也为大家解析问题产生的原因并找到解决问题的方法,建议所有有计划或已经实施BI项目的企业,认真阅读本文。


一、2011年底至2012年初,笔者在某女装公司组织实施BI系统,项目第一期就花了100多万,长达6个月的周期,经历了业务需求调研、数据清理、指标体系梳理、数据模型构建等等一系列中规中矩的项目实施过程。

从业务个性化需求报表到以经营指标为导向的数据模型、数据驾驶舱等等,在项目组看来,除移动化展现,几乎覆盖了当前所有业务需求。在多次宣导并召开上线动员大会后,BI终于正式运行了。

然而现实却给了项目组一个响亮的耳光,在BI系统上线后,3个月内不仅使用次数屈指可数,就连最初要求的月度经营分析和绩效考核必须从BI中取值这两点都没有实现,依然需要业务部门从各个系统中导出数据再自行计算统计。

第一期项目很快就被宣判失败,这让整个项目组深受打击,实施方法论是没有问题的,也针对上述状态的可能性做了很多短期过渡的报表,还有最大自由定义的万能报表,但最后用户们依然不满意。这究竟是什么原因呢?

二、项目组进行反思,并用一周时间去做了用户调研,进行深入地讨论总结。

1、大部分用户反馈BI系统操作缺乏便利性,使用起来特别麻烦。因为每个用户只需查看自己日常工作的数据即可,这第一期BI系统实施把所有业务特性进行了归纳,按照其基础职能设置指标组合与自主选择的时间跨度栏位。

用户因此产生一个印象就是需要的报表全部堆砌在一起,你需求什么自己去找,而且部分派生指标取值需要重新计算后产生,报表展现的效率低下,BI操作起来就很痛苦。

其实每一项体系既要有决策层的视角,也要有管理层的视角,虽然按照操作层的指标体系与时间自定义几乎涵盖一切,但这样并没有针对每一个岗位进行相应的配置,要想得到用户认可,首要要素需要满足各层级用户在某一时间周期内的数据所见即所得

2、指标体系的管理逻辑梳理不清晰,需要用户凭经验去寻找数据背后的逻辑。BI的价值是提升管理的精准度,通过数据构筑一个企业管理模型。

BI系统实施的最大能力就体现在如何梳理管理逻辑,帮助企业可视化展现管理模型与管理的精细度。

3、主数据定义的一致性问题,用户经常反馈业务系统与BI数据报表中相同维度的数据会出现的一些差异,导致大家对BI数据的信任度严重下降。

综合上述调研的问题,项目组征得公司信息决策委员会的同意,于2012年8月启动了第二期的BI系统实施,项目组经过商讨决定改变实施思路,先暂停技术性工作,首要任务是进行公司的数据治理。

三、那么数据治理要怎么开展呢?

第一个就是主数据的治理,也就是说企业经营管理过程会用到哪些主数据?这些主数据是如何产生、如何进行分发、会标记哪些维度形成派生主数据?随后在BI中单独搭建一个主数据中心库,抽取业务系统的主数据按照分类原则存放,并开发主数据一致性校验程序与主数据分发日志表。

第二个是指标的梳理,建立指标体系,定义每个分析过程中的使用的业务指标,建立评价标准,以及计算方法,将业务管理逻辑进行更加直观的呈现,销售环节出现了数据波动就可以直观的呈现出来,通过指标的呈现,可以追踪哪部分业务发生的问题。

第三个就是规范数据产生的入口,以及数据取值的出口的标准。明确所有数据的录入产生的作业标准,建立各个系统到BI的接口规范,企业经营活动中产生的几乎所有数据都要进数据仓库,并由BI系统统一进行数据抽取与数据加工;

另外针对所有业务部、职能部提交的月度经营分析、月度绩效考核、年度关键考核指标、日常管理分析的全部数据需求进行综合评估分析,搭建相应的数据模型,要求任何所有应用数据都从BI系统取值,有了入口与出口的规范才能保证数据的一致性与唯一性。

四、完成上述三个动作后由项目组协同企管部门编撰公司数据管理制度,进行全公司范围的发文,数据管理制度定义了主数据产生、指标体系的结构与算法、数据录入与输出的标准等,是一项公司完整数据管理规范。

发文同时还明确了公司数据治理小组的组织架构与职能,治理数据小组有4种角色:

第一个是数据操作员,是业务部门的操作人员,主要发起主数据的调整、BI系统的维护、指标体系的修改申请等等;
第二个是数据审核主管,往往是部门领导。每个数据是由不同部门负责的,首先由数据操作员提出第一级的申请,其次是数据负责的部门进行审核。
第三个角色是数据的分析员,他对数据审核主管的审核进行分析,看修订的要求是否合理?是否影响其他主数据、指标和数据模型。
第四个角色是BI系统的管理员,经过审批审核后修订要求必须由系统管理员操作才能进行调整。即使这样每隔一个时段还是会有很多业务指标需要调整,比如新的业务出现或是新业务发生变化,甚至要调整公司组织架构,这个流程申请就是项目管理形式进行。
公司OA中也配置相应的三个流程,一是主数据的修订流程、二是管理指标和KPI指标调整的流程、三是报表优化的流程。通过数据治理实施过程,IT团队的数据中心部门基本实现公司数据的统筹工作,整体上也形成了PDCA的循环。

五、数据治理进行了一个月时间后,项目组又重新针对BI系统进行了优化,关键点有以下几个:

梳理业务分析体系:先从纯业务角度总结和梳理,分析各个业务中的流程和思路、常用角度、导向、评价标准,以及业务背后的原因。此体系的建立,是业务分析的总览,也是业务流程环节的真实需求,为后续的指标体系、系统实现打下基础,同时在业务分析体系建立的过程中,收集分析业务、数据的痛点和需求。

重新整理分析需求:根据收集的需求,业务分析的流程和思路,以及系统中的报表进行匹配和提炼,形成新的分析需求。

针对公司零售业务的变化特性,以月度为单位记录业务调整导致的指标比重系数发生调整和变化的历史数据,比如新店变成次新店、次新店升级为老店的时间维度差异。

将指标体系的业务管理逻辑进行更加直观的呈现,销售环节出现了数据波动就可以直观的呈现出来,清楚的知道到底是哪部分业务发生的问题。

更加细致精准划分管理层级的数据展现,针对业务操作层的用户也可在日常应用、周度汇报、月度绩效、年度关键指标上进行数据的直观呈现,所见即所得,虽然开发工作量增加,但是用户体验直线上升。

六、公司的管理理念也发生了深刻的变化,从上至下不再用定性的语言表达,形成了用数据说话习惯。当管理维度与经营业务发生变化的时候,也形成了通过数据治理体系来进行相应修订调整的习惯。

IT团队的数据中心部门设置5个岗位,数据中心经理负责管理工作,数据分析师负责数据模型的设计以及指标的分析,有两个BI系统开发师负责数据仓库维护与数据模型开发,一个H5开发工程师负责移动端开发。

七、从整个BI项目的实施价值上来讲,有这样几点内容可以分享:

从公司经营决策者角度来讲,通过驾驶舱可以快速看到企业的业务全局,及时掌握公司的经营状况,通过数据钻取透视看到整体业务的变化过程。经营层面出现的任何问题,都能透过数据预警反馈到业务管理逻辑上,也非常容易找到关联的业务动作,也就是哪些业务出现了问题。

管理者透过驾驶舱与关键考核指标组合报表可以快速阅读自己的KPI指标以及关注和的经营指标的变化,因为每个管理岗位应该关注的什么内容在体系上梳理很清晰了。

数据仓库,通过建立数据仓库,进行企业的数据治理,将企业的数据打通,形成可以分析和复用的数据资产。

整个操作层用户的工作效率提高了很多,大家都在一个频道,用同一种数据来源做汇报,再也不需要像过去需要临时加工一些乱七八糟的报表了。

BI系统第2期的实施大大丰富了IT团队的知识结构,尤其是数据中心团队的归纳总结、分析问题以及对公司主营业务的认知和理解能力有很大进步。

也让业务部门清楚地认识到IT对企业管理的价值,更加配合今后信息系统的实施与部署,IT部门的影响力得到了直观体现。

直接来源地址:https://www.toutiao.com/i6894172975424078340/