重点说明,此篇人工智能方案设计已获奖,如要转载,必须说明出处,谢谢合作。
基于事件图谱的类案同判
- 项目简介:
意义:
- 现今,针对现有的案多法官少的情况,我们采用基于事件图谱的类案同判以期望给法官提供辅助量刑或判案的方案。同时也为司法与人工智能相结合奠定了基础。
如何做:
- 数据爬取:通过python的scrapy框架从中国裁判文书网爬取想要的文章。
- 数据处理:根据案由为顶点,其中相关元素为有向关系边,来处理数据。
- 构建:从知识库中找出案由,从事件及其要素,事件类及其要素,多种事件类关系,事件本体,事理图谱,等各个方面,构建我们的事件图谱。
目的:
1. 目标是通过构建类案同判系统,辅助法官对同类的案件,进行量刑或者是判决。
二、背景及意义
现如今,人工智能已经不再是天方夜谭,工厂生产、医学治疗、以及军事战斗方面,人工智能都扮演着重要的角色。甚至部分法院尝试开发了人工智能办案系统,在公检法共享办案平台上初步实现了证据标准和证据规则统一、单一证据合法性校验、证据链逻辑性判断和比对、类案推送、量刑参考和文书自动生成等方面的智能化。
目前,随着立案登记制的改革,案件数量大幅度提升,“案多人少”矛盾突出。以2015年和2016年为例,全国各级法院审结一审刑事案件分别为109.9万件和111.6万件,比上年增加了7.5%和1.5%,基层法院刑事法官人均年结案数量为200件以上,如此庞大的工作量使法官精力难以持续为继,导致入额法官不断流失。法院现有的审判体系、审判能力、司法服务能力已经难以与之适应,迫切需要进一步提升人民法院信息化水平,深化司法公开力度,促进审判流程再造,破解人民法院“案多人少”难题。当前的类案推送系统以知识图谱、自然语言处理技术为支撑,结合技术服务商的人工建模和标注,能够实现一定程度的自动推送或自主检索,但也存在类案推送“有效性”“全面性”“有序性”不足的三重现实困境。而为了更好地辅助法官判案,我们构建了基于事件图谱的类案同判的方案。
传统的审判流程管理系统,基本实现了审判工作的程序化管理、时限管理及规范化管理;而在审判实体(卷宗)的管理方式和手段上,缺少对法官的有效办案辅助支持。比如针对一个案件,它属于某一大类,但是在被告人作案之后其可能会有不可预知的行为,而且被告人的自身条件也会给其法律上的判刑造成影响。但是如果我们对被告人作案后的一些可能发生的一系列事件作出预先的分类总结,再有与分类总结后的类似情况的案件发生时,我们就可把它们归并到一起,提高了法官判案的准确率与效率。而且人民群众朴素的正义观认为,他的案件的情况和我的案件的情况相同,那法官判定的结果也必然是相同的。近年来的舆论热点案件中,大多出现了公众通过自发对比类案来表达观点和情绪的现象。因此,类案不同判,当事人很难息诉服判;类案同判,则可以提高司法公信力、使人民群众获得更多公正感受。 这也是我们构建基于图谱的类案同判事件的原因。虽然人工智能具有防范冤假错案、提高司法效率、预防司法腐败的显著客观作用和价值,但对人工智能需有清醒认识,它不可能取代或代替法官办案,人工智能在法院的定位只能也必须是法官办案辅助工具,所以我们应合理运用它以达到事半功倍的作用,为人民群众谋福祉。
三、相关概念及工作
类案同判是指法官正在审理的案件,应当与其所在法院和上一级法院已经审结的或者其他具有指导意义的同类案件裁判尺度一致。类案同判的核心是“类”,即:两个案件如何才能被视为是同类案件,应当以什么样的标准来判断。建立类案标准,不能脱离类案同判的目的,否则类案标准将无法真正实现该司法政策的价值目标。
类案同判的目的由表及里可以分为三个层次,第一层目的是实现法律的统一适用。类案同判是案例指导制度在具体和微观层面的体现,类案同判应与公报案例、指导性案例、典型案例等不同层次的案例互相配合、共同发挥案例指导的积极作用;第二层目的是体现完善司法责任制的要求,司法责任制改革对法官审理案件过程中的监督机制进行了深入探索,一方面要求“让审理者裁判”,为此取消了与司法规律不符的案件签发模式;另一方面要求“由裁判者负责”,由此需要建立起新的更符合司法规律监督机制,类案同判即发挥了此作用。可以说,类案同判承载着审理监督管理机制改革的厚望;第三层目的是让人民群众在每个司法案件中感受到公平正义。
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,如表1。
通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示科学的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。
表1 不同的知识组织形式比较
如今市场上已有的产品,如南京通达海信息技术有限公司,此公司采用的是智慧审判来对案件进行推荐,解决的是简单案件文书自动生成问题,但是局限于简单的文书,比如道路交通、信用卡纠纷、小额金融借款等简单案件,自动提取案件要素信息,归纳争议焦点,形成庭审提纲,自动生成法律文书。而自动提取案件要素信息需要采取众多技术,包括需要利用词义近似算法来计算某些要素之间的相似性。目前计算词语之间的相似性,最简单的词向量方式是one-hot方式。但这种词表示有两个缺点:(1)容易产生维数灾难,尤其是作为深度学习算法的输入时,算法性能受到严重影响;(2)存在“词汇鸿沟”现象,也就是说不能很好地刻画词与词之间的相似性。除此之外还有无讼,无讼公司的中文是世界高效、易用、智能的案例检索工具,通过自有的关键词系统提供精准、快速、全面的案例搜索体验;无讼名片-将律师与案例数据关联匹配,呈现律师与案件的融合度。所谓案例检索,是指当法官对系统自动推送的案例不满意时,自主选取系统中事先罗列出的法律标签,并且在此基础上输入关键词,通过这一整套的菜单式标签选取与自主搜索,在数据库中比对类似标签,最终获取类案。
那么这种系统呢,法律推荐系统在司法实践中并未受到普遍欢迎,许多地方或者法院都没有建立法律系统或者没有使用这种系统,这是为什么呢?原因是推送的案件不符合法官要求,对于复杂案件的推送准确性不够,而对于简单的案件推送往往并非基层法官的痛点所在,由此降低了法官的用户体验。主要原因,大部分公司所做的系统还是基于规则化,关键字匹配,这往往很难达到预期的效果了。
四、要做的相关内容
我们所做的是以事件为核心。需要进行以下三部分的主要工作,一是事件抽取,二是构建事件图谱知识库,三是基于事件图谱知识库,根据案件情况,给出量刑辅助结果。以下,我们以盗窃案由为例。
- 事件抽取
在事件抽取过程中,我们首先要判断裁判文书中的事件进行识别,然后再抽取事件的对象,动作,时间,地点,涉案物品,量刑结果以及事件的关系等信息。
比如说一个人他入室盗窃了,其中盗窃是案由,接下来我需要对其展开一系列案件事件基本元素进行抽取。这个人可能包括以下几种关系:1、携带凶器盗窃,2、可能未携带凶器盗窃,并且二者中3、是否伤人,4、伤人过后程度达到如何,5、并且是否成功逃跑,6、是否自首,7然后根据年龄,盗窃金额,受害人的损失程度,8、嫌疑人自身状况来进行量刑。
而且作案人所盗取的金额在不同的范围中所判的审判结果也是不同的。盗窃公私财物价值2000元以上不满2万元,入户盗窃财物价值1000元以上不满1万元,或者扒窃公私财物价值800元以上不满8000元,为“数额较大”,盗窃公私财物价值2万元以上不满10万元,入户盗窃财物价值1万元以上不满5万元,或者扒窃财物价值8000元以上不满4万元,为“数额巨大”,盗窃公私财物价值10万元以上的,入户盗窃财物价值5万元以上,或者扒窃财物价值4万元以上的,为“数额特别巨大”。我们通过抽取案件中的具体财务价值根据这个范围来对作案人员进行审判,但是作案人的年龄以及个人身体情况又将影响审判结果,假如作案人未成年,或者其有精神方面的疾病,都将影响最终的审判结果。还有如果其主动自首,或者是被捕后行为表现良好也将影响最终的审判结果。我们就需要把这些可能发生的不同情况进行归纳总结,比如盗窃后作案人逃跑之后被捕无伤人事件发生这归为一类,盗窃后作案人主动自首,这又是一类情况,等等。进行类别的归纳整理。最后分类归纳入库。
- 构建事件图谱知识库
事件图谱知识库是一种有向的格结构形式,其中,以事件类作为格结构中的节点,事件类与事件类之间的关系作为边,并带有一定的权重,表示两事件类之间发生的概率。
根据案由为顶点,其中相关元素为有向关系边,凶器,伤人,伤人程度,盗窃金额,成功逃跑,自首,最后量刑,归纳进库。
两个相关实例,第一:某年某月某日,张三,携带凶器入室盗窃,并且使害人重度昏迷,盗取金额5万元以上,并且无自首情节,年龄满足18岁以上,精神状况良好。
这时候我可以进行知识图谱搜索,先找案由为盗窃,其次,携凶器,伤人,盗取金额5万以上,无自首情节,精神状况良好,进行多重以事件为核心的基本元素进行匹配。
- 判断量刑结果
以事件图谱知识库作为背景知识,对某个具体的案件,首先进行案由类型的判断,如果属于知识库中的某个案由,则可以进行后续的量刑结果判断,否则,不能处理。在量刑结果判断过程中,首先对案件进行分析,识别案件中的一些事件、事件要素以及事件关系,针对某一个具体的案件,可以构成一个以事件为节点,关系为边的网络结构,然后再与事件图谱进行匹配,并最终给出该案件的量刑解雇。
某年某月某日,李四,未携带凶器,入室盗窃,盗取金额10万元以上,年龄未满18岁,且有精神疾病。同样我们可以进行知识图谱的搜索,案由盗窃,盗窃下面的类别为未携带凶器未伤人,并且为满18岁,其次有精神疾病。这时候进行多重基本元素匹配。
匹配成功率达到80%以上可进行推荐,这样以事件为核心的多重基本元素的匹配,以保证类案同判的准确度。
五、可行性分析
- 事件抽取可行性分析
对于事件抽取,我们需要用到信息抽取,而信息抽取需要用到模式匹配,和机器学习的技术。而这几个技术现在市场基本已经成熟,事件抽取作为信息抽取领域重要的研究方向,其将事件作为信息表示的基本单元和组织手段,把含有事件信息的非结构化文本以结构化或者半结构化的形式从不同的信息源中抽取并以呈不同层次和粒度现出来,分别使用Winnow算法和SVM模型进行了训练,实体关系抽取F值都达到了73%。并且以机器学习的技术来辅助抽取信息,从而达到抽取的准确率更加精准。模式匹配方法仍然是事件信息抽取的主流,其中Roman Yangarber,用正则表达式描述抽取模式,实现了事件信息抽取系统ExDisco是模式匹配的典范之一。
图1 、事件类归纳方式
- 构建事件图谱知识库可行性分析
以人工或者人工智能的方式来对事件类进行一个归纳,如图1所示,大致流程如下,比如以盗窃为列来说,首先需要判断案由,也就是把案件的由来进行一个大类。盗窃又可分为,入室盗窃,而入室盗窃又可分为以下几类,携带凶器未伤害受害人,携带凶器使被害人受到伤害。其次是扒窃,拎包盗窃,并且盗窃案。并且对受害人做出的相应的惩罚,会根据受害人的年龄,犯罪的程度,有无精神疾病,盗窃金额的大小,做出相应的量刑,最终把案件类别归纳总结进入知识库。
- 判断量刑结果可行性分析
如何对案类进行推荐,对知识库进行比较。从知识库中找出案由,从事件及其要素,事件类及其要素,多种事件类关系,事件类链接强度,事件本体,事理图谱,知识库等各个方面,来对案件进行匹配搜素。
六、系统方案设计
- 总体系统结构:
图2、总体系统结构图
2.系统功能设计:
3、系统功能图
进入知识图谱类案同判系统,下方导航条有七个版块:a、首页、b、上传文档、c、文档信息抽取,d、文档类别归类e、实时计算相似度,f、输出相似度高达80%以上案件,g个人信息页面。在我页面,用户登录后,可以修改头像、添加联系人、修改个人信息。
3.注册/登录
用例名称 | 注册用例 |
前提条件 | APP可以正常使用 |
基本路径 | 用户点击我页面里的请先登录/注册链接 用户可以使用短信、QQ、微信进行登录 |
后置条件 | 系统保存用户注册信息 |
4、登录注册图
4.入库功能设计:
具体实现分为三大类如图5所示:
5、入库功能图、
- 分类概念模型设计:
以案件性质为参数,构建分类库,如图6所示:
6、分类概念模型
6.案件匹配输出功能设计:
以当前案件作为细节输入案件,提取案由,分析案件性质为参数,自动匹配,找相似度高达百分之八十以上进行推荐,结果产出:条件相似结果历史案件(实时计算相似度)。如图7所示:
7、输出结果图
- 知识图谱的架构(如图8):
逻辑架构和技术架构,逻辑架构需要数据和模式,数据层面是有案由和案由关系事件类,事件元素分支所组成,根据知识获取的逻辑包括:信息抽取,知识分类,归纳入库。知识抽取所包含的技术包括:实体关系和属性抽取。
8、图谱的架构
关系抽取所包含的技术(如图9):
人工构造语法和语义规则(模式匹配)
统计机器学习方法
基于特征向量或核函数的有监督学习方法
研究重点转向半监督和无监督
开始研究面向开放域的信息抽取方法
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
9、抽取技术图
8.系统整体方案
半结构化文书和结构化文书的构建,由半结构化文书和非半结构化文书和事件的关系,对事件进行抽取,抽取的流程有,事件的识别,要素抽取,关系抽取,然后是对事件类进行归纳总结,对事件类进行抽取,事件类属性抽取,关系抽取,其次对事件本体/事件图谱的构建根据法律文献以及规则库,最后搜索匹配案由与事件之间的关系,最终量刑入库。总体方案流程图:如图10。
图10、总体方案流程
- 功能演示:
首页
我的页面
案件相似度
个人信息页面
七、总结展望
随着科技的飞速发展,人工智能在未来也必将越来越成熟,所涉及的领域也必将越来越广,技术也必将越来越完善。虽然现阶段我们还没有足够的能力来完全实现它,但是我们相信我们所构建的基于事件图谱的案例同判方案在未来也必将得到不断完善,而我们也会积极努力地去总结前辈们的经验和方法,努力将其实现。同时我们相信,在未来的法律案件判决中,它也将充分发挥它的作用,造福人民,造福社会。