请升级浏览器版本

你正在使用旧版本浏览器。请升级浏览器以获得更好的体验。

吉林大学司法数据应用研究中心
研究成果 reseach
您现在的位置: 首页 > 前沿资讯 > 正文

  • 《最高人民法院关于规范和加强人工智能司法应用的意见》全文(中英文版)
    《最高人民法院关于规...

    《最高人民法院关于规范和加强人工智能司法应用的意见》全文(中英文版)文章来源:最高人民法院官网法发〔2022〕33号最高人民法院关于规范和加强人工智...

  • 中心主任蔡立东教授一行赴内蒙古自治区高级人民法院调研
    中心主任蔡立东教授一...

    中心主任蔡立东教授一行赴内蒙古自治区高级人民法院调研 8月1日上午,吉林大学司法数据应用研究中心主任蔡立东教授、侯德斌副教授、中心秘书郝乐一行三人...

  • 蔡立东教授组织学生召开线上疫情防控交流会
    蔡立东教授组织学生召...

    蔡立东教授组织学生召开线上疫情防控交流会 2022年3月13日晚6点,蔡立东教授组织学生召开线上疫情防控交流会,李晓倩副教授、姜楠副教授、龚浩川老师、齐...

  • 中心获批吉林省高校哲学社会科学实验室!
    中心获批吉林省高校哲...

    中心获批吉林省高校哲学社会科学实验室2022 年2月11日,吉林省教育厅发布了《关于公布首批吉林省高校哲学社会科学实验室名单的通知》,通过自主申报、专...

  • 吉林省委常委、省委政法委书记范锐平到吉林大学调研  对中心法律人工智能实验室未来发展作出重要指示
    吉林省委常委、省委政...

    文章来源:吉林大学官网        原文标题:吉林省委常委、省委政法委书记范锐平到吉林大学调研 作者:记者 张宏伟 郭倩君      编辑:陈钊     摄影: 记...

  • 中心正式成为吉林大学哲学社会科学重点实验室B类试点实验室
    中心正式成为吉林大学...

    2021年8月,经机构申报、学院推荐、学校专家组评审,中心正式成为吉林大学哲学社会科学重点实验室B类试点实验室。

  • 中心主任蔡立东教授受邀参加 2021中国网络诚信大会
    中心主任蔡立东教授受...

    7月15日,2021年中国网络诚信大会·网络诚信法治建设论坛在湖南长沙举办。论坛由国家互联网信息办公室网络法治局主办,中国法学会网络与信息法学研究会承...

白建军:基于法官集体经验的量刑预测研究

发布时间:2017/01/14 前沿资讯 浏览:

本文经白建军教授授权发布

作者简介

白建军,北京大学法学院教授。北京大学实证法务研究所主任、北京大学金融法研究中心副主任。研究领域为法律实证分析方法、犯罪学、刑法学、金融犯罪等。

内容提要  

各种法定量刑情节在具体个案中有各种可能的组合,但对于多情节案件如何量刑却无明确的法律规定,导致此类案件的量刑结果不确定。以十四万余交通肇事罪案件为样本,对其量刑进行确定性检验发现: 通过限缩量刑情节的裁量幅度,可以将此类案件的量刑确定性由原来的30.5% 提高到51.1%;在此基础上控制样本离散性程度,可以将量刑确定性由51.1% 进一步提高到73.4% 。据此建立的量刑模型可用于量刑预测,促进司法公正,提高审判管理水平。归纳法官的集体经验用以指导量刑实践,是提高量刑确定性的有效方法。

关键词:多情节组合  量刑确定性  量刑模型  量刑预测
1.量刑规则真空与量刑结果不确定

法的确定性、行为后果的可预期性,是法治社会的基本特征。 然而,尽管刑法总则、分则对刑罚裁量都有规定,量刑过程中还是存在一个规则真空:实践中当一个案件有数个量刑情节时,数个情节便有多种可能的组合,而法律只能对单个情节应当从轻、减轻或者从重、加重处罚及其幅度、范围作出规定,却不可能对每种情节组合如何量刑作出具体规定。以交通肇事罪为例,相关的法定量刑情节至少有:致死人数、重伤人数、负事故全部责任、主要责任还是同等责任、财产损失大小、行为人是否逃逸,以及有关的总则性情节。于是,多种可能的情节组合便有:全部责任+致死一人+自首,或者主要责任+重伤二人+逃逸,或者主要责任+重伤二人+无证驾驶+严重超载等。按照排列组合的计算方法连乘所有情节的取值,理论上交通肇事罪案件的法定量刑情节可以有二十多万种可能的组合。即使在本研究的十四万余样本案例中,实际发生的情节组合也有八千多种。对于这些组合,法官只能充分发挥主观能动性,对各个单项量刑规则“打包处理”。实践中,上述规则真空较为常见,法官的量刑活动因此具有不小的回旋空间。于是,人们有理由担心,既然法律无法明确规定,便或多或少可能存在量刑擅断,使得量刑结果具有过大的不确定性。而不确定性越大,越可能动摇人们对法律适用结果的稳定预期,以致降低司法公信力。其实,多情节案件量刑规则真空,并不是导致量刑结果不确定的唯一原因。即使涉及的法定量刑情节很少,案件的量刑过程也还是不可避免地会受到规则以外非法律因素的影响。这是因为定罪与量刑所遵循的逻辑不同,用公式表达这个区别便是:

ŷ(某罪的成立)=(该当构成要件)×(违法)×(有责)                
或者=(客体)×(客观)×(主体)×(主观)ŷ(某罪刑期)=(情节1,如酒后驾驶)+(情节2,如累犯)+(情节3,如行为人逃逸)+(情节 4,如财产损失数额)+(情节 5, 如致死人数)-(情节 6,如自首)-(情节7,如同等责任) ……

不难看出, 定罪是做乘法 —— 如果不具备某个条件,就不构成某罪 —— 定罪结果不是0就是1。相比而言,量刑是做加法,最终会得到大于0的许多个可能的结果。而且,得到多个可能结果的原因又十分复杂,除了不同性质量刑情节的权重以及之间的叠加、冲抵,最终的量刑结果还不可避免地与酌定情节、法官的价值取向、舆论、政策、外部干预等诸多未能写进判决书的复杂因素有关。也就是说,非法律因素的影响很可能隐身于量刑活动的过程和结果中。而且,量刑结果是否得当难以检验,因而更具不确定性。总之,刑事司法中多情节并存量刑规则的缺失、法定量刑规则与非法律因素的并存,或多或少都影响着量刑结果的确定性。

为此,本研究试图回答的问题将围绕量刑的确定性展开:怎样描述量刑结果,尤其是多情节案件量刑结果(不)确定性的具体程度?怎样将量刑结果的不确定性控制在最小范围内?目前,法院系统解决量刑结果不确定的思路之一,就是通过细化每种具体量刑情节的适用条件、限缩刑罚裁量的幅度,提高整体上的量刑确定性。2014年《 最高人民法院关于常见犯罪的量刑指导意见》(以下简称“ 量刑指导意见”)的出台,就是这一思路的一个尝试。但是,对多情节案件来说,其效果如何尚无大规模实证检验。

作为刑法问题,多情节案件可以有各种分类。一种划分是将其分为同向趋轻情节、同向趋重情节及逆向冲突情节。有学者将其分为作用相同的多情节与作用不同的多情节,并讨论了各自的适用原则。也有学者将其区分为多个同向量刑情节并存与多个逆向量刑情节并存的刑罚裁量问题,并讨论了多情节量刑中的几个具体技术问题,如“ 应当”情节优于“ 可以”情节、法定情节优于酌定情节、犯中情节优于犯后情节等。还有学者对复数量刑情节之间的关系进行了划分,将其分为结合关系、包容关系和竞合关系三种。围绕如何进行多情节量刑,有学者概括了三种基本方法,即综合判断说、抵消说和优势情节适用说;并在分别评论各说的基础上,着重分析了抵消说的合理性。值得注意的是,来自实践一线的法官也积极参与讨论,认为各种不同量刑情节对量刑的影响力大小应当以比率高低的方式体现;在具体运算中,应对所有量刑情节的影响力同步采用同向相加、逆向相减的方法进行运算,再综合运用于基准刑。不难看出,上述学术讨论都试图回答应该如何进行多情节量刑的原则和方法问题。但是,这些讨论主要是基于对量刑不确定的合理担心而寻求应对之策,却并未说明量刑实践到底有多不确定。

这个问题看似具体细小,却可能牵扯出许多理论思考。首先,不论是规则真空,还是非法律因素的影响,都与司法自由裁量权有关。进一步看,如果自由裁量权行使失控,一个直接后果便是同案不同判。再进一步,不论自由裁量权问题,还是同案同判问题,在多情节量刑实践中都可以归结为法律适用的稳定性和可预期性问题。而稳定性、可预期性,说到底又可以归结为法的确定性。可见,多情节案件量刑是个小中见大、以一见多的问题。通常,对于这些理论问题的探讨路径是自上而下的涵摄,回答的是应当如何的问题,不一定会具象到量刑确定性这一具体问题。而本研究将沿着自下而上的方向,从实践和实然的视角反思上述理论问题。

2.量刑确定性检验
(1)设计思想

作为经验研究, 本研究将体现两个设计要求:

一是基于经验而非规则
二是立足多维关系分析而非案件信息检索与描述

首先, 由于法律不可能对每种多情节案件的刑罚适用一一作出详尽具体的规定, 本研究只能基于量刑实践经验而非规则本身。 所谓基于经验并不是撇开法律规定, 而是更加着眼于法律规定如何涵摄具体适用对象的实践经验。 所以,支撑本研究的材料应该是, 由各地各级法院审理并依法公开的真实判决所构成的量刑大样本。 从这个意义上说, 作为大量个案处理结果的归纳, 本研究试图与大规模司法实践建立起某种会学习、 可成长的动态响应机制, 能动地反映司法实践的变化。

进一步看, 既然基于经验, 而实践经验又在不断变动, 本研究就不应满足于对经验材料的存储、 检索和简单描述, 而应能够对大量经验元素及其之间的关系进行分析、 评估和预测。 自从中国裁判文书网以及多个强大的法律案例数据检索系统开通以来, 我们已经能够很方便地进行多条件检索, 找到数个同时满足多个量刑情节的案件, 并计算出该组案件的平均量刑水平、 量刑最大值、 最小值等数据。 我们甚至可以采用现代人工智能技术, 对检索结果进行案件相似性比较。

但是, 如果据此预测当下案件的量刑结果, 以为这样就能实现同案同判, 其实也并不可靠。 这是因为, 基于检索结果的观察描述, 只能说明这组案件量刑结果的集中趋势, 而不能区分并显示这些实然结果在多大程度上是法律因素所致的结果, 以及非法律因素有多大影响。 根据这类检索结果, 人们还是不敢确信, 法定条件到底能在多大程度上解释、 预测量刑结果。 因为对于同类案件, “ 别人是怎么判的” 和 “ 依法应该怎么判” 毕竟是两回事。 极而言之, 如果检索到的一组所谓同类案件都出于种种原因而没有依法判决, 即使当下案件与其极为相似, 显然也不应照此同判。 可见, 仅仅迅速高效地查找、 归纳有关案件信息, 对量刑确定性的控制来说并无大用。 只有借助关系透视、 分析的科学方法, 确切说明法律因素到底能在多大程度上决定量刑结果, 尽可能压缩、 控制非法律因素的影响, 才能有效提高量刑确定性。 为此, 本研究将不满足于对量刑大样本的简单描述, 而是设法呈现罪刑之间的关系分析和多个因素的综合作用。

(2)样本

由于罪名众多, 实践中案件数量巨大, 不可能也没有必要对所有罪名的所有案件逐一进行研究。 但是, 本研究的样本至少应该满足两个条件:

第一, 为了保证研究的效度和意义, 作为样本的犯罪类型应该与其他各种犯罪具有足够的同质性, 即都是同时存在多个量刑情节的犯罪, 量刑过程都会受到非法律因素的影响。
第二, 为了保证研究结论的信度和可靠性, 作为样本的案件应该具有足够的异质性和多样性, 即各种量刑情节和影响因素应该尽可能多地出现在样本中, 以供观察和分析。

如果选用的样本罪名恰恰是所有犯罪中仅有的多情节犯罪, 或者样本案件中的量刑情节过于单一, 那么, 所得出的研究结论很难推论到其他犯罪。 另外, 本研究的目的并非发现特定犯罪的特定罪刑关系内容, 如故意杀人罪的死刑适用与贪腐犯罪的死刑适用有何差异, 而是为了找到对多情节案件量刑确定性的描述和控制方法。 所以, 重要的是方法的可重复性, 而非实体理论本身的普适性。

基于上述考虑, 本研究将中国裁判文书网公开的全部交通肇事罪判决书 ( 十四万余件)确定为研究样本。交通肇事罪既涉及若干总则性量刑情节, 如自首、 累犯, 又包括若干分则性量刑情节, 如致死人数、 重伤人数、 行为人是否逃逸等, 是典型的多情节犯罪。十四万余样本总数保证了样本内部的多维度和各个维度自身的样本规模。 其中,31个省级行政区划皆有一定数量的案件; 样本最多的是山东, 占比 12.2%;最少的是西藏, 占比0.1%。 按经济发展程度划分, 东部省份的案件占比 54.8%,中部占比 30.0%,西部占比15.2% 。 样本的时间跨度基本上从 2000 年起, 到 2016 年本研究着手时为止。这组样本不仅是典型的多情节案件, 而且集人身损害与财产损失于一身,同时包括了故意违法和过失损害等复杂因素, 基本满足方法论上的可推论性和效度、信度要求。

(3)假设和检验逻辑

本研究的工作假设是,交通肇事罪的法定量刑情节应该是其量刑结果的主要解释因素。假设中的因变量是交通肇事罪案件的量刑结果,包括有期徒刑刑期、拘役刑期、有期徒刑及拘役的缓刑。 自变量为交通肇事罪的相关法定量刑情节, 其中, 常见的总则性情节为自首、 累犯。 按照刑法第133条和2000年《最高人民法院关于审理交通肇事刑事案件具体应用法律若干问题的解释》第2条的规定,本罪的分则性量刑情节至少有:死亡人数、重伤人数、事故责任、财产损失、酒驾、毒驾、无证驾驶、安全装置不全、无牌证驾驶、严重超载、肇事逃逸等。其中,有些变量属于定罪情节与量刑情节双重身份的事实,如致人死亡、重伤、事故责任等。一般认为, 双重身份情节的适用不存在双重评价问题。还应当承认,实践中各种酌定情节以及非法律因素不可避免地会对量刑结果构成影响,如行为人的悔罪态度、身份地位等。之所以不将这些列为自变量,是因为本研究的潜在理论前提是,量刑结果的确定性和可预期性应当主要来自法定情节等法律因素的影响。 因此, 本研究需要证明的正是, 法定量刑情节到底能在多大程度上解释量刑结果。 如果连法定情节对量刑结果都没能构成显著影响, 又谈何酌定情节的作用? 换句话说, 本研究希望检验的是量刑确定性的底线,而非量刑公正的全部内容或最高境界。 也正是从这个意义上说, 本研究的结论并非直接用于刑罚裁量的工具。 因而, 这也不意味着排除酌定情节、 其他社会因素对量刑实践的影响, 更不存在与量刑规律的冲突。 其实, 总结归纳大样本法官群体量刑实践中法定情节的影响力, 正是对依法量刑规律的尊重。

经统计检验, 本研究样本中的罪刑关系符合正态要求, 可以选用多元线性回归方法分析并存的多个法定量刑情节与量刑结果之间的关系,因此本研究假设的检验逻辑为:

第一,回归确定系数 R²越高越好。模型中的自变量全部为法定量刑情节, 所以, 如果多元线性回归结果的确定系数R²为0或接近0,就意味着法定量刑情节基本上无法解释量刑结果的轻重差异; 如果得到的确定系数R²为1或接近1, 就意味着法定量刑情节是量刑结果的主要解释, 且量刑的合法性、 确定性程度较高, 非法律因素的影响得到了控制。
第二, 在影响量刑结果的法定情节中, 满足统计显著性要求的情节越多越好, 解释力越大越好。多元线性回归分析过程是在对各个自变量的影响加以控制的情况下, 描述各个自变量对因变量的共同作用, 所以, 单独看有显著影响的情节未必真有显著影响。而且,多情节并存时,不同法定情节的影响有大有小。 经过检验, 我们可以通过比较各个自变量的标准化回归系数, 看到哪些情节的作用相对更大。
第三, 实际刑期与预测刑期之间的残差越小越好。 每个案件无论有哪些情节组合, 都可能存在实际量刑结果与模型预测的应然量刑结果之间的差距, 这一差距被表示为回归结果中的残差。 这里的应然量刑结果, 便是基于十四万余案件中法官的普遍量刑实践, 在控制了每个相关量刑情节平均量刑水平的基础上推算出来的结果。 它离不开法律规定对法官量刑活动的约束, 也是一个个具体案情事实的反映, 还是控制了每个自变量后多个法定情节共同影响的综合反映。 所以, 与其差距越大的个案, 该案量刑结果的确定性就越小; 差距较大的个案越多, 一组样本的量刑确定性就越小。

总之, 回归确定系数R²、 各个自变量的标准化回归系数、 实际刑期与预测刑期的残差,是本研究假设检验的三个核心指标。

3.量刑确定性的量化分析与控制
(1)“ 量刑指导意见” 的实施效果显著

以数据库中交通肇事罪全部共 147229个案件为样本, 运行多元线性回归程序来观察全部法定量刑情节对有期徒刑刑期的影响, 结果如表 1 所示, 回归确定系数 R²为 0.305。 我国法院系统自2014 年1月1日起实施 “ 量刑指导意见” 以来, 细化并限缩了各个法定量刑情节的适用条件和裁量幅度。 其效果如何, 一直以来备受各方关注。 为此, 我们对样本进行了裁剪, 去掉了2014年1月1日以前的案件, 只保留 2014年和2015年两年的全部案件共92390个。 再次运行上述回归分析程序, 得到的结果如表2所示, 回归确定系数R²由原来的0.305提高到0.511。 这说明, 对2014年前后的全部样本来说,法定量刑情节只能解释大约30%的有期徒刑长短变化。 而自从全面实施“ 量刑指导意见” 以后, 同样的法定量刑情节就能解释大约51% 的有期徒刑长短变化。对于人文与社会科学的定量研究来说,这个结果十分可观。 由于本研究样本是近两年我国法院审理的交通肇事罪案件全样本, 按照上述检验逻辑可以认为,“ 量刑指导意见” 的确有效提高了交通肇事罪量刑的合法性和确定性程度,法定量刑情节的确可以在很大程度上解释、 预测两年来交通肇事罪有期徒刑刑期的变化。除了交通肇事罪,“ 量刑指导意见” 还对其他若干常见犯罪的量刑作了细化规定。 有理由相信, 这种显著效果可能并不限于交通肇事罪案件的量刑。


(2)绝大多数法定情节对实际刑期的影响都满足统计显著性要求, 但各个情节的作用有所不同

其中, 行为人是否逃逸的影响力最大, 标准回归系数高达0.627。 只有 “ 安全装置不全” 的显著值大于0.05, 不符合统计显著性要求。 从表3 所示结果可见, 其余各自变量的影响力由大到小依次为 “ 法定致死人数”、 “ 法定重伤人数”、 “ 被害过错”、“ 自首”、“ 醉驾”、“ 无证驾驶”、 “ 涉案损失”、 “ 累犯”、 “ 超载”、 “ 毒驾”、 “ 驾驶报废车辆”、“ 驾驶无牌号车辆” 、 “ 驾驶与准驾车型不符车辆”。对此,通常会解释说法官量刑时首先看有没有逃逸情节,其次看致死几人、重伤几人,以及被害人在案件中是否负有一定责任,然后才看是否自首、醉驾以及财产损失大小等等。其实,更准确的理解是,标准化回归系数是指在控制其他变量的情况下,自变量每变化一个单位,因变量变化多少个单位。标准化回归系数用于比较自变量作用的大小,系数越大,自变量对因变量的影响越大。比如,在表3中逃逸情节的标准化回归系数高达0.627,而醉驾的该系数仅为0.064,前者是后者的 9.8 倍。这时可以说, 逃逸对量的影响是醉驾的9.8倍。要注意的是,这里的单位不能被解释为如果醉驾所致刑期为1年,逃逸所致刑期便是9.8年。因为标准化回归系数的单位是标准差, 取值范围是0到1之间,不能直接对应刑期。这个结果显然只适用于交通肇事罪,但由于其他犯罪的量刑结果也应当受相应法定情节的影响,所以,这里描述的交通肇事罪罪刑关系的回归分析方法,同样适用于其他犯罪。不同的只是,将模型中交通肇事罪特有的情节,置换成其他相应犯罪特有的情节。


a. 因变量: 有期徒刑刑期

(3)部分案件的量刑结果远离多数案件的平均量刑水平, 表现为实际刑期与预测刑期之间的残差较大, 拉低了整体的量刑确定性程度

运行上述回归过程, 还可以看到样本中每个具体案件的实际刑期与应然刑期之间的原始残差 (两个刑期之差) 以及标准化残差。2014-2015年样本的标准化残差的范围为-6.3 到14.5之间。 这表明, 即使全国范围内已经推行 “ 量刑指导意见”, 还是存在一定数量的极端值过大的个案, 也就是量刑过于偏轻或偏重的个案。 如果将这些个案裁剪掉,有可能整体提高量刑确定性程度, 为样本以外其他案件预测应然刑期提供高质量的计量工具。 为此, 我们运行回归分析中的个案诊断过程, 将标准化残差的范围限缩为-2到2之间。这个运行的结果是, 大约10%的离散程度较大的个案被裁剪掉, 预测样本得到了净化。 对净化后的样本重新运行回归过程, 其回归确定系数R²达到 0.734, 比原有的0.511又有较大的提高。 这意味着, 控制了样本离散程度以后, 罪刑关系模型得到了优化。其实践意义是, 用优化后的量刑模型引导交通肇事罪的量刑实践, 法定量刑情节对量刑结果的影响将变得更加确定。

残差过大的样本有几种情况:

其一, 判决书本身的表述问题导致计算机抓取数据时结果出错。
其二, 计算机数据抓取程序的命中率有待提高。
其三, 尽管是否得到被害人谅解、行为人一方赔偿力度等因素实际上对法官量刑有影响, 且的确属于合理影响, 但因大量判决书并未显示相应说理内容而未能记入数据库。
其四, 不能排除其他各种非法律因素的影响导致量刑的确偏轻偏重。

可见, 造成残差较大的原因复杂, 不一定都可以归结为适用法律不当。 但是, 可以说, 若用未经优化的模型进行量刑预测, 则因可靠性难以控制而有较
大风险。 这一点, 对其他犯罪的量刑预测也有推论意义。

(4)有期徒刑、 拘役及其缓刑的选择适用

虽然有期徒刑最为常用, 但对大多数案件来说, 法官都面临适用有期徒刑还是拘役、是否判处缓刑以及缓刑考验期长短等各种选择。 关于有期徒刑还是拘役的选择, 二元 logistic 回归分析结果显示, 法定情节的共同影响可以解释96.4%的因变量的变化, 但各情节的影响力各有不同。 从表4可见, 统计上显著影响是否适用拘役的因素, 只有法定致死人数、 被害过错、 驾驶无牌号车辆、 超载、 逃逸、 自首等情节。 其中,Exp(B) 即“ 发生比” 是指自变量每上升一个单位, 因变量 ( 判处有期徒刑而非拘役) 结果出现的机会将是原来的多少倍。 比如, 如果有逃逸情节, 判处有期徒刑的机会就是无逃逸情节案件选择有期徒刑的机会的5.189倍;案件中每多死亡一人, 判处有期徒刑的机会就是原来的2.561倍;只要被告人不是负事故全部责任, 被害人不同程度地有过错, 判处有期徒刑的机会就是无任何被害过错情形的0.638倍,即判处有期徒刑的机会小于判处拘役的机会。

关于是否判处缓刑以及缓刑考验期的长短, 本研究发现, 交通肇事罪的有期徒刑缓刑率约为83%,拘役的缓刑率约为48%; 有期徒刑刑期与有期徒刑缓刑考验期之间的皮尔逊相关系数为0.909, 拘役刑期与拘役缓刑考验期之间的皮尔逊相关系数仅为0.491, 这说明有期徒刑刑期与其缓刑考验期之间的相依性, 高于拘役刑期与其缓刑考验期之间的相依性。另外, 以有期徒刑是否判处缓刑为因变量, 以法定情节为自变量, 运行 logistic 回归分析过程后发现, 绝大部分法定情节对是否判处缓刑的判断都有程度不同的显著影响:致死或重伤人数越多,缓刑的机会越小;如果被害人有责,缓刑的机会增大,等等。


以上发现可以大致归纳为: 通过 “ 量刑指导意见” 限缩量刑情节的裁量幅度, 可以将交通肇事罪案件的量刑确定性由原来的30.5% 提高到51.1% ; 在此基础上控制样本实际刑期与预测刑期的残差, 降低其离散程度, 可以将量刑确定性由51.1% 进一步提高到73.4% 。回到本研究最初的问题和假设, 现在可以确信的是, 通过立法或者司法解释等规范性文件限缩法定量刑情节适用上的裁量幅度, 并在此基础上进一步控制司法上量刑的离散程度,优化量刑模型, 可以有效加强法律规范对交通肇事罪案件量刑过程的影响, 提高量刑结果的确定性。 和交通肇事罪相似, 其他许多犯罪都存在多情节并存的情况, 因此, 上述研究方法很可能程度不同地适用于其他若干常见犯罪。

4. 应用量刑模型进行量刑预测

描述一种犯罪的实然罪刑关系并非本研究的全部意义所在, 更重要的是如何将其应用于司法实践。 对量刑实践来说, 本研究的主要应用价值在于可以借助优化后的量刑模型进行量刑预测。 这个意义上的量刑预测不是基于个体法律知识和主观感觉预估个案的大致刑罚及刑期, 而是以大量案件量刑结果的集中趋势为参照依据的量刑结果预测。 量刑预测的实现包括建模、 预测、 再优化共三个步骤的循环往复。

第一步:建模

以法定情节为自变量, 以刑期为因变量, 对量刑大样本进行回归分析,并将其离散水平加以优化控制后, 得到交通肇事罪刑期与法定情节之间关系的统计模型:

ŷ( 交通肇事罪量刑结果) =115.786+ 法定死亡人数 × 329.692+ 重伤人数× 165.221- 被害过错 × 64.227+ 涉案损失 × 6.747E-  005 + 醉驾 × 51.159 + 毒驾 × 58.442 + 无证驾驶 × 28.812 + 安全装置不全× 11.427+ 驾驶无牌号车辆 × 12.352+ 驾驶报废车辆 × 41.187+ 超载 × 43.991+ 驾驶与准驾车型不符车辆 × 24.180 + 逃逸 × 591.322- 自首 × 63.856 + 累犯 × 248.532                
   

此即交通肇事罪的优化量刑模型, 是之前所有分析过程的结晶。 正是这个模型的运行结果得到的回归确定系数R²达0.734。与每个法定情节的实际值 ( 如致死几人、 是否逃逸等) 相乘的数字是相应法定情节的非标准化回归系数, 其单位是有期徒刑天数。 二者的乘积表示: 在其他自变量固定时, 本自变量每增加一个单位对刑期的影响。

第二步:预测

将任何一个未决案件的实际情节依次代入上述模型, 将得到的每个实有乘积相加, 便可得到该案的预测刑期。 比如, 某案有逃逸、 负事故全部责任、 致死一人等三个情节, 带入模型后得到预测值为有期徒刑1036天, 而优化样本库中符合这个条件的案件的平均刑期为1015天, 最小值510天, 最大值1530天。 可以认为, 这个预测结果就是与上述交通肇事罪案件大样本的量刑实践最为接近的结果。 所以, 哪怕某几个情节的组合在样本库中数量很少, 也可分享更大范围的实践经验及其集中趋势, 从而得到相对确定的刑期预测。 当然, 这个结果仅仅是某种参考, 最终量刑结果还需具体办案人员考虑其他因素后加以修正。

第三步:再优化

不断充实样本库, 继续优化量刑模型, 用更新后的模型返回量刑预测实践。 也就是说, 量刑模型不是一个一成不变的公式, 而是自身会学习、 可成长的动态预测工具。 也许我们永远不会看到量刑结果实现百分之百的确定, 即模型的R²达到1, 但是, 不断重复这三个步骤应该是一个良性循环。

交通肇事罪案件并非仅有的多情节案件, 既然交通肇事罪可以实现量刑确定性的量化描述与预测, 对于其他多情节犯罪也应当可以尝试类似研究。 实际上, 如果将上述模型中交通肇事罪的特有情节替换为其他某种犯罪的法定情节, 如是否入户抢劫、 盗窃数额、 是否故意杀人既遂等等, 便可基于相应犯罪的量刑大样本进行建模和量刑预测。 量刑预测的法治意义绝不仅限于提高办案效率。 仍以交通肇事罪的量刑为例, 量刑预测在微观层面可以促进司法公正, 在宏观层面可以丰富各级法院审判管理的手段。

(1)个案预测, 促进司法公正

量刑预测不仅是前瞻, 还可以是回顾。 除了上述未决个案的量刑预测, 对尚未生效的一审的各方当事人、 二审的司法人员乃至所有生效判决的评估者而言, 已决案件也存在量刑是否得当的问题。 此前, 人们主要凭借有关法律知识、 对案件事实的了解以及各种主观因素参与对某案量刑是否公正的评判。 其中, 难免某些认知局限、 情感性或立场性因素等的影响。 而借助量刑模型, 我们可以将已决个案实际量刑结果与优化样本后预测的量刑结果进行比对, 残差越大, 说明实际刑期可能越远离应然刑期。

在本研究的数据库中, 每个样本都可以看到实际刑期、 预测刑期和两者的残差这三个值。 残差越大的个案, 偏离集中趋势的程度越大, 残差的正负值还显示偏离的方向是偏轻还是偏重。 比如, 样本库中某个已决案件的情节包括无证驾驶、 负事故全部责任、 逃逸、重伤一人, 实际量刑为有期徒刑1260天 (三年半) , 而优化预测值为有期徒刑837 天 (2.3年) , 这说明该案件的实际量刑有可能偏重。 但是, 需要强调的是, 量刑预测的结果只是提高法律适用确定性的参考信息, 还不可以拿来直接替代刑罚裁量。 而且, 谈到应用, 还不能不考虑犯罪现象的复杂性。 比如, 本研究选用的交通肇事罪与其他许多犯罪在犯罪性质、加害被害关系、 犯罪事实情节读取精确度等方面都有所不同。 不过, 本研究只是多情节量化分析方法的一种探索, 其结果证实了这种探索的价值, 为分别研究不同犯罪的量刑预测提供了某种进路或可能性, 而距其推广应用仍有一定距离。

不论对未决案件还是已决案件, 如果人们可以在一个相对确定且透明的参照范围内考虑或评判某具体个案的量刑, 这其实就是在利用大样本经验挤压法定条件以外其他因素的介入和影响。 试想, 如果人们对某个法律行为一般会导致何等法律后果的判断大体相近,就会对那些借法律的不确定性来损害司法公正的人更为不利。 这意味着, 量刑预测为量刑确定性乃至司法公正的推进, 提供了某种促进机制—— 除非具有拿得上台面的理由, 常规量刑活动及其结果一般应尽可能符合或接近模型预测的结果。 这种机制的设计与法律适用的确定性有关: 法律适用越不确定, 适用法律的人便在越大的程度上对法律资源的利用拥有定价空间, 社会因此而负担的交易成本也越大。 所以, 法律再庞杂, 法学再精美, 如果没有法律适用的透明、 确定和可预期, 仍然可能远离真正意义上的法治。 当然, 由于量刑模型的自变量仅限于法定量刑情节, 所以, 如果某个非法律因素的影响的确合理, 足以影响量刑结果, 法官当然有权偏离预测值进行量刑。 只不过, 主张这种合理偏离的一方需要为此负担更多的论证成本, 谁都没有理由拒绝这种负责任的付出。

(2)群案测量, 加强审判管理

量刑模型除了可以用于个案量刑预测, 还可以为上级法院或有关方面对各级法院的量刑质量进行法律监督, 提供新的手段和依据。 对法律监督而言, 信息公开是前提, 没有信息公开就没有真正意义上的法律监督。 此前, 对监督者来说, 被监督者往往拥有某种信息优势: 公开哪些信息, 在多大程度上公开, 往往由被监督者说了算, 监督者只能根据有限的信息行使监督权。 然而目前, 法院系统已经要求全面公开裁判信息, 为实现法律监督提供了相对广阔的信息渠道。 借助大量已公开的审判信息以及上述量化分析手段, 最高人民法院或者社会公众都可能看到一些意想不到的事实, 并据此开展监督。

从表 5 显示的信息可以看出:

第一, 各省交通肇事罪案件有期徒刑的平均天数;
第二,各省的最高刑期;
第三, 省内量刑的中间水平;
第四, 各省有期徒刑适用的离散水平, 标准差越大表明该省有越多的案件量刑结果远离平均水平;
第五, 各省案件数量在样本总数中的占比;
第六, 各省有期徒刑的缓刑适用率;
第七, 各省法定量刑情节对量刑结果的解释率, 即量刑模型的R², 以及省间该指标的排序。

其中, 某些描述性指标已经很有意义, 它们不是靠各级法院统计部门人工填报获取,而是直接从判决书中提取信息并科学汇总而成。 更有价值的是, 像解释率、 标准差等信息,已经是对各省法院量刑质量进行深度分析的结果。 这种分析结果是以各省案件为样本, 运行同一量刑模型得出的结果, 各省量刑质量由此获得了客观的可比性。 R² 越高, 表明该省法院量刑的确定性越高, 量刑质量越好。 这显然比单变量描述更接近真实世界, 也不大可能通过人为操作进行修饰美化, 从而可以成为法律监督和评估管理的新型事实依据。

据此, 我建议最高人民法院建立相应的审判管理信息系统, 显示不同地区、 不同时段、不同常见犯罪案件大 (全) 样本的量刑 R² 值, 并阶段性地依法向社会公开。 这样, 任何法律监督主体都可能据此要求有关方面解释: 为什么某些案件的量刑偏轻或偏重, 或者 R² 值偏低, 过于偏离总体集中趋势。 我们可以借助这种审判管理信息系统观察司法实践的地方性差异, 研究为什么法律适用在各地会有所不同。 而且, 围绕某些受到广泛关注的案件量刑结果, 公众舆论可能会反映出各种非法律因素的影响。对此, 通过运行量刑模型便可得知热点案件的问题到底何在。


5.集体经验为什么重要

量刑预测之所以可能, 在于它背后强大的司法集体经验。 所谓集体经验是司法案件大样本中实际法律问题与法律实践之间实然联系的科学综合与归纳。 集体经验不是基于对小样本疑难非典型案件的提炼而形成的指导意见, 也不是应然性规则逻辑本身的展示, 更不是案件信息的简单检索结果和一般描述。 基于这种集体经验的量刑预测, 意味着司法人员的彼此认同和信赖, 因而也意味着司法实践良性的整体延展。 基于这种认同和信赖, 法官作为集体经验的主体, 在相互补充、 借鉴的过程中共同推进司法公正。 当然, 这个意义上的量刑预测毕竟是一个全新的事物, 仅仅贴上集体经验的标签, 并不足以消除各种可能的顾虑。

首先, 如果将量刑情节代入上述量刑模型便可迅速计算出一个具体的预测刑期, 这与所谓的 “ 法律自动售货机” 有何两样? 若果真如此, 还要法官干什么? 可以说, 在马克斯·韦伯那里, “ 自动售货机” 其实是对法律形式主义的一个形象比喻, 是批评那种将法官仅仅看作一部加工机器的做法。即不论谁操作这部机器, 都无需操作者特有的能动的、 创造性的法律实践。 在这个意义上的 “ 自动售货机” 中, 只有法律概念的机械运算, 没有伦理的、 社会的、 功利的考量。 也就是说, 应予否定的不是 “ 自动售货机” 的高效、 精确和确定, 而是对具体案件中具体法律实践者能动适用法律的忽视。

在上述背景下回看上述质疑便不难想到, 如果一定要说可以进行量刑预测的量刑模型是一种 “ 量刑机器”, 那么, 驱动这部机器的已经不仅是法定量刑规则形式上的逻辑推演,而且也是对法官集体基于巨量具体案件中的具体问题而适用法律的经验归纳。 在这个意义上的 “ 机器” 中, 法官不是可有可无的, 反而是必不可少的; 法官不是完全被动地进行量刑规则的机械运算, 而是运用法律能动地解决每个案件中的具体问题。 的确, 与定罪过程相比, 法官自由裁量更多涉及的是量刑活动, 而量刑中的自由裁量更多体现在多情节量刑规则的选用中。 正因为没有明确的适用规则, 量刑活动才难免各种来自外部、 内部、 社会、伦理、 心理的影响, 从而导致程度不等的量刑失衡, 所以, 人们提出了对司法自由裁量权的各种法律控制措施和非法律控制途径。但遗憾的是, 相关研究尚未精细到多情节案件的量刑规则适用问题。 在本研究所说的量刑预测中, 没有每个法官的自由裁量实践, 便无法得到量刑模型中各个法定量刑情节的实际参数; 而基于不同法官群体的量刑实践, 便会得到不同的量刑参数; 对任何具体个案的预测, 都显示了法官群体以往类似实践的共同选择。 而且, 这里的集体共同选择显然不同于那种实际上无人负责的集体负责。 可见, 集体经验不仅不是对法官自由裁量权的否定, 反而是每个具体、 能动的法律实践的概括、 综合。以此为基础的量刑预测, 完全不同于法律规则形式上的自动运算, 而是法官集体智慧对当下具体问题的建议性自动回答。

其次, 人们还可能怀疑, 要求法官判案参照集体经验, 暗含的理论假定应该是同案同判, 而如果同案本身就不可能, 又何来同判? 就好像天下没有两片一样的树叶, 也不存在两个一样的案件, 即所谓同案。 有学者断言, 当我们试图寻找 “ 同案” 时, 发现的却总是“ 异案”; 由于严格意义上的同案并不存在, 同判也就不再那般庄严神圣; 因而, 对于认定的 “ 同案”, 在 “ 类似处理” 意义上的 “ 异判” 并非全不合理。的确, 其中的关键在于找到何谓同案的判断标准。 所幸有学者已经指出, 是否同案, 要看所关涉的法律问题是否相同。 如果不同案件的法律问题在抽象意义上的层级类别越小, 具体意义上的可比性或趋同性就越大。这意味着, 在不同案件之间寻找法律上的同与不同, 不仅可能而且正是司法活动的本分。 而且, 所谓法律上的同与不同, 也是个相对的程度概念, 而不是非此即彼。 以本研究聚焦的交通肇事罪案件为例, 在十四万余样本中, 就出现了八千多种组情节组合。 其中每种组合之间的法律问题的确有所不同, 但同种组合内部的不同个案在法律上还是具有一定的共性。至少, 对多情节量刑而言, 案件之间在法律上的共性或差异, 便是其同判或异判的合理性确证。 可见, 所谓集体经验正是法官群体适用法律活动的经验。 正是基于这个限定, 量刑模型的自变量才仅限于法定量刑情节。 根据这个意义上的量刑模型进行量刑预测, 体现的是相同法律问题适用相同法律规则的原则。 除此之外, 再无更具法治意义的所谓同案同判。

最后, 与规则相比, 经验意味着某种可能性; 与演绎逻辑相比, 经验归纳意味着某种或然性, 所以, 强调集体经验是否反倒给法律适用带来不确定性? 的确, 法治最忌不确定、 不稳定和行为法律后果的不可预期。 在法的确定性问题上, 历来存在肯定和否定两说。 德沃金的“唯一正解” 说, 可以被视为强调法律确定性的代表。 在德沃金看来, 法律是一张无缝之网,总有正确的答案存在于其中。 但随着对法律运行中多种不确定性的强调, 如法律标准的不确定性、 事实认定的不确定性、 司法人员个性的不确定性以及其他社会因素的不确定性,不少西方学者开始侧重于强调法律的不确定性。这两种看似针锋相对的理论其实并不矛盾, 它们都在应然层面承认法应当具有确定性的品格, 也都在实然层面承认法实际上存在一定程度的不确定性, 只是各自站在同一事物的两端陈述各自看到的事实。 所以, 卡多佐认为, 法律发展的逻辑不是寻求 “ 确定性”, 而是寻求一种 “ 可能性”。既然如此, 真正的问题便应该是法律确定性的程度问题, 即法在多大程度上实现了对社会的规范。

回到当下, 对多情节案件的量刑而言, 确定性是应然, 不确定性是实然。 也许有人会认为, 定罪过程中演绎逻辑的形式保证了结果正确, 所以, 量刑结果无需检验。 如果认为量刑结果无需检验, 实际上就是对不确定性的默许。 因为相对定罪条件而言, 法定量刑条件之间的组合有太多的偶然性, 加之非法律因素的影响普遍存在, 量刑结果可轻可重其实是个公开的秘密。 正是因为量刑不确定几乎必然大于定罪不确定, 所以, 实践中表现为普遍重定性、 轻定量, 甚至误以为量刑无错案。 从这个意义上说, 需要某种量刑公正的检验机制, 在客观上限制量刑过程的随意性和不确定性, 集体经验就为这种检验机制提供了可能 —— 基于量刑大样本的量刑预测。 虽然不能直接说明哪些过于离散的量刑结果一定有问题, 但至少应要求相关司法人员对为什么如此裁量作出更为详尽的论证。 可见, 集体经验的思想意味着, 用经验去校准经验, 用自由裁量规范自由裁量, 用独立审判制约独立审判。总之, 看似确定的规范演绎, 有时会给不确定腾挪出赖以生存的空间; 而看似不确定的集体经验, 反倒可能引导我们不断接近确定。

原文载于《法学研究》2016年第6期