人工智能方案设计——基于事件图谱的类案同判

重点说明,此篇人工智能方案设计已获奖,如要转载,必须说明出处,谢谢合作。

基于事件图谱的类案同判

  • 项目简介:

意义:

  1. 现今,针对现有的案多法官少的情况,我们采用基于事件图谱的类案同判以期望给法官提供辅助量刑或判案的方案。同时也为司法与人工智能相结合奠定了基础。

如何做:

  1. 数据爬取:通过python的scrapy框架从中国裁判文书网爬取想要的文章。
  2. 数据处理:根据案由为顶点,其中相关元素为有向关系边,来处理数据。
  3. 构建:从知识库中找出案由,从事件及其要素,事件类及其要素,多种事件类关系,事件本体,事理图谱,等各个方面,构建我们的事件图谱。

目的:

1.    目标是通过构建类案同判系统,辅助法官对同类的案件,进行量刑或者是判决。

二、背景及意义

现如今,人工智能已经不再是天方夜谭,工厂生产、医学治疗、以及军事战斗方面,人工智能都扮演着重要的角色。甚至部分法院尝试开发了人工智能办案系统,在公检法共享办案平台上初步实现了证据标准和证据规则统一、单一证据合法性校验、证据链逻辑性判断和比对、类案推送、量刑参考和文书自动生成等方面的智能化。

目前,随着立案登记制的改革,案件数量大幅度提升,“案多人少”矛盾突出。以2015年和2016年为例,全国各级法院审结一审刑事案件分别为109.9万件和111.6万件,比上年增加了7.5%和1.5%,基层法院刑事法官人均年结案数量为200件以上,如此庞大的工作量使法官精力难以持续为继,导致入额法官不断流失。法院现有的审判体系、审判能力、司法服务能力已经难以与之适应,迫切需要进一步提升人民法院信息化水平,深化司法公开力度,促进审判流程再造,破解人民法院“案多人少”难题。当前的类案推送系统以知识图谱、自然语言处理技术为支撑,结合技术服务商的人工建模和标注,能够实现一定程度的自动推送或自主检索,但也存在类案推送“有效性”“全面性”“有序性”不足的三重现实困境。而为了更好地辅助法官判案,我们构建了基于事件图谱的类案同判的方案。

传统的审判流程管理系统,基本实现了审判工作的程序化管理、时限管理及规范化管理;而在审判实体(卷宗)的管理方式和手段上,缺少对法官的有效办案辅助支持。比如针对一个案件,它属于某一大类,但是在被告人作案之后其可能会有不可预知的行为,而且被告人的自身条件也会给其法律上的判刑造成影响。但是如果我们对被告人作案后的一些可能发生的一系列事件作出预先的分类总结,再有与分类总结后的类似情况的案件发生时,我们就可把它们归并到一起,提高了法官判案的准确率与效率。而且人民群众朴素的正义观认为,他的案件的情况和我的案件的情况相同,那法官判定的结果也必然是相同的。近年来的舆论热点案件中,大多出现了公众通过自发对比类案来表达观点和情绪的现象。因此,类案不同判,当事人很难息诉服判;类案同判,则可以提高司法公信力、使人民群众获得更多公正感受。     这也是我们构建基于图谱的类案同判事件的原因。虽然人工智能具有防范冤假错案、提高司法效率、预防司法腐败的显著客观作用和价值,但对人工智能需有清醒认识,它不可能取代或代替法官办案,人工智能在法院的定位只能也必须是法官办案辅助工具,所以我们应合理运用它以达到事半功倍的作用,为人民群众谋福祉。

三、相关概念及工作

类案同判是指法官正在审理的案件,应当与其所在法院和上一级法院已经审结的或者其他具有指导意义的同类案件裁判尺度一致。类案同判的核心是“类”,即:两个案件如何才能被视为是同类案件,应当以什么样的标准来判断。建立类案标准,不能脱离类案同判的目的,否则类案标准将无法真正实现该司法政策的价值目标。

类案同判的目的由表及里可以分为三个层次,第一层目的是实现法律的统一适用。类案同判是案例指导制度在具体和微观层面的体现,类案同判应与公报案例、指导性案例、典型案例等不同层次的案例互相配合、共同发挥案例指导的积极作用;第二层目的是体现完善司法责任制的要求,司法责任制改革对法官审理案件过程中的监督机制进行了深入探索,一方面要求“让审理者裁判”,为此取消了与司法规律不符的案件签发模式;另一方面要求“由裁判者负责”,由此需要建立起新的更符合司法规律监督机制,类案同判即发挥了此作用。可以说,类案同判承载着审理监督管理机制改革的厚望;第三层目的是让人民群众在每个司法案件中感受到公平正义。

知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,如表1。

通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示科学的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。

表1 不同的知识组织形式比较

 

 

如今市场上已有的产品,如南京通达海信息技术有限公司,此公司采用的是智慧审判来对案件进行推荐,解决的是简单案件文书自动生成问题,但是局限于简单的文书,比如道路交通、信用卡纠纷、小额金融借款等简单案件,自动提取案件要素信息,归纳争议焦点,形成庭审提纲,自动生成法律文书。而自动提取案件要素信息需要采取众多技术,包括需要利用词义近似算法来计算某些要素之间的相似性。目前计算词语之间的相似性,最简单的词向量方式是one-hot方式。但这种词表示有两个缺点:(1)容易产生维数灾难,尤其是作为深度学习算法的输入时,算法性能受到严重影响;(2)存在“词汇鸿沟”现象,也就是说不能很好地刻画词与词之间的相似性。除此之外还有无讼,无讼公司的中文是世界高效、易用、智能的案例检索工具,通过自有的关键词系统提供精准、快速、全面的案例搜索体验;无讼名片-将律师与案例数据关联匹配,呈现律师与案件的融合度。所谓案例检索,是指当法官对系统自动推送的案例不满意时,自主选取系统中事先罗列出的法律标签,并且在此基础上输入关键词,通过这一整套的菜单式标签选取与自主搜索,在数据库中比对类似标签,最终获取类案。

那么这种系统呢,法律推荐系统在司法实践中并未受到普遍欢迎,许多地方或者法院都没有建立法律系统或者没有使用这种系统,这是为什么呢?原因是推送的案件不符合法官要求,对于复杂案件的推送准确性不够,而对于简单的案件推送往往并非基层法官的痛点所在,由此降低了法官的用户体验。主要原因,大部分公司所做的系统还是基于规则化,关键字匹配,这往往很难达到预期的效果了。

四、要做的相关内容

我们所做的是以事件为核心。需要进行以下三部分的主要工作,一是事件抽取,二是构建事件图谱知识库,三是基于事件图谱知识库,根据案件情况,给出量刑辅助结果。以下,我们以盗窃案由为例。

  1. 事件抽取

在事件抽取过程中,我们首先要判断裁判文书中的事件进行识别,然后再抽取事件的对象,动作,时间,地点,涉案物品,量刑结果以及事件的关系等信息。

比如说一个人他入室盗窃了,其中盗窃是案由,接下来我需要对其展开一系列案件事件基本元素进行抽取。这个人可能包括以下几种关系:1、携带凶器盗窃,2、可能未携带凶器盗窃,并且二者中3、是否伤人,4、伤人过后程度达到如何,5、并且是否成功逃跑,6、是否自首,7然后根据年龄,盗窃金额,受害人的损失程度,8、嫌疑人自身状况来进行量刑。

而且作案人所盗取的金额在不同的范围中所判的审判结果也是不同的。盗窃公私财物价值2000元以上不满2万元,入户盗窃财物价值1000元以上不满1万元,或者扒窃公私财物价值800元以上不满8000元,为“数额较大”,盗窃公私财物价值2万元以上不满10万元,入户盗窃财物价值1万元以上不满5万元,或者扒窃财物价值8000元以上不满4万元,为“数额巨大”,盗窃公私财物价值10万元以上的,入户盗窃财物价值5万元以上,或者扒窃财物价值4万元以上的,为“数额特别巨大”。我们通过抽取案件中的具体财务价值根据这个范围来对作案人员进行审判,但是作案人的年龄以及个人身体情况又将影响审判结果,假如作案人未成年,或者其有精神方面的疾病,都将影响最终的审判结果。还有如果其主动自首,或者是被捕后行为表现良好也将影响最终的审判结果。我们就需要把这些可能发生的不同情况进行归纳总结,比如盗窃后作案人逃跑之后被捕无伤人事件发生这归为一类,盗窃后作案人主动自首,这又是一类情况,等等。进行类别的归纳整理。最后分类归纳入库。

  1. 构建事件图谱知识库

事件图谱知识库是一种有向的格结构形式,其中,以事件类作为格结构中的节点,事件类与事件类之间的关系作为边,并带有一定的权重,表示两事件类之间发生的概率。

根据案由为顶点,其中相关元素为有向关系边,凶器,伤人,伤人程度,盗窃金额,成功逃跑,自首,最后量刑,归纳进库。

两个相关实例,第一:某年某月某日,张三,携带凶器入室盗窃,并且使害人重度昏迷,盗取金额5万元以上,并且无自首情节,年龄满足18岁以上,精神状况良好。

这时候我可以进行知识图谱搜索,先找案由为盗窃,其次,携凶器,伤人,盗取金额5万以上,无自首情节,精神状况良好,进行多重以事件为核心的基本元素进行匹配。

  1. 判断量刑结果

    以事件图谱知识库作为背景知识,对某个具体的案件,首先进行案由类型的判断,如果属于知识库中的某个案由,则可以进行后续的量刑结果判断,否则,不能处理。在量刑结果判断过程中,首先对案件进行分析,识别案件中的一些事件、事件要素以及事件关系,针对某一个具体的案件,可以构成一个以事件为节点,关系为边的网络结构,然后再与事件图谱进行匹配,并最终给出该案件的量刑解雇。

某年某月某日,李四,未携带凶器,入室盗窃,盗取金额10万元以上,年龄未满18岁,且有精神疾病。同样我们可以进行知识图谱的搜索,案由盗窃,盗窃下面的类别为未携带凶器未伤人,并且为满18岁,其次有精神疾病。这时候进行多重基本元素匹配。

匹配成功率达到80%以上可进行推荐,这样以事件为核心的多重基本元素的匹配,以保证类案同判的准确度。

五、可行性分析

  1. 事件抽取可行性分析

对于事件抽取,我们需要用到信息抽取,而信息抽取需要用到模式匹配,和机器学习的技术。而这几个技术现在市场基本已经成熟,事件抽取作为信息抽取领域重要的研究方向,其将事件作为信息表示的基本单元和组织手段,把含有事件信息的非结构化文本以结构化或者半结构化的形式从不同的信息源中抽取并以呈不同层次和粒度现出来,分别使用Winnow算法和SVM模型进行了训练,实体关系抽取F值都达到了73%。并且以机器学习的技术来辅助抽取信息,从而达到抽取的准确率更加精准。模式匹配方法仍然是事件信息抽取的主流,其中Roman Yangarber,用正则表达式描述抽取模式,实现了事件信息抽取系统ExDisco是模式匹配的典范之一。

 

 

                               图1 、事件类归纳方式

 

 

  1. 构建事件图谱知识库可行性分析

以人工或者人工智能的方式来对事件类进行一个归纳,如图1所示,大致流程如下,比如以盗窃为列来说,首先需要判断案由,也就是把案件的由来进行一个大类。盗窃又可分为,入室盗窃,而入室盗窃又可分为以下几类,携带凶器未伤害受害人,携带凶器使被害人受到伤害。其次是扒窃,拎包盗窃,并且盗窃案。并且对受害人做出的相应的惩罚,会根据受害人的年龄,犯罪的程度,有无精神疾病,盗窃金额的大小,做出相应的量刑,最终把案件类别归纳总结进入知识库。

  1. 判断量刑结果可行性分析

如何对案类进行推荐,对知识库进行比较。从知识库中找出案由,从事件及其要素,事件类及其要素,多种事件类关系,事件类链接强度,事件本体,事理图谱,知识库等各个方面,来对案件进行匹配搜素。

六、系统方案设计

  1. 总体系统结构:

 

图2、总体系统结构图 

2.系统功能设计:

                                                        3、系统功能图

 

进入知识图谱类案同判系统,下方导航条有七个版块:a、首页、b、上传文档、c、文档信息抽取,d、文档类别归类e、实时计算相似度,f、输出相似度高达80%以上案件,g个人信息页面。在我页面,用户登录后,可以修改头像、添加联系人、修改个人信息。

 

3.注册/登录

 

  1.  

用例名称

注册用例

前提条件

APP可以正常使用

基本路径

用户点击我页面里的请先登录/注册链接

用户可以使用短信、QQ、微信进行登录

后置条件

系统保存用户注册信息

 

搜狗截图20180926121713

 

                                                 4、登录注册图

 

4.入库功能设计:

具体实现分为三大类如图5所示:

 

                                          5、入库功能图、

 

  1. 分类概念模型设计:

以案件性质为参数,构建分类库,如图6所示:

                                                 6、分类概念模型

6.案件匹配输出功能设计:

以当前案件作为细节输入案件,提取案由,分析案件性质为参数,自动匹配,找相似度高达百分之八十以上进行推荐,结果产出:条件相似结果历史案件(实时计算相似度)。如图7所示:

                                                 7、输出结果图

  1. 知识图谱的架构(如图8)

逻辑架构和技术架构,逻辑架构需要数据和模式,数据层面是有案由和案由关系事件类,事件元素分支所组成,根据知识获取的逻辑包括:信息抽取,知识分类,归纳入库。知识抽取所包含的技术包括:实体关系和属性抽取。

                                                 8、图谱的架构

关系抽取所包含的技术(如图9):

人工构造语法和语义规则(模式匹配)

统计机器学习方法

基于特征向量或核函数的有监督学习方法

研究重点转向半监督和无监督

开始研究面向开放域的信息抽取方法

将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

                                                        9、抽取技术图

8.系统整体方案

半结构化文书和结构化文书的构建,由半结构化文书和非半结构化文书和事件的关系,对事件进行抽取,抽取的流程有,事件的识别,要素抽取,关系抽取,然后是对事件类进行归纳总结,对事件类进行抽取,事件类属性抽取,关系抽取,其次对事件本体/事件图谱的构建根据法律文献以及规则库,最后搜索匹配案由与事件之间的关系,最终量刑入库。总体方案流程图:如图10。

图10、总体方案流程

  1. 功能演示:

   

                                               首页    

                                      我的页面

 

     

                                            案件相似度  

                                      个人信息页面

七、总结展望

随着科技的飞速发展,人工智能在未来也必将越来越成熟,所涉及的领域也必将越来越广,技术也必将越来越完善。虽然现阶段我们还没有足够的能力来完全实现它,但是我们相信我们所构建的基于事件图谱的案例同判方案在未来也必将得到不断完善,而我们也会积极努力地去总结前辈们的经验和方法,努力将其实现。同时我们相信,在未来的法律案件判决中,它也将充分发挥它的作用,造福人民,造福社会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50528.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科大讯飞市值腰斩背后,AI产业集体思考如何落地?

作者丨郭敏 本文经授权转载自钛媒体(ID:taimeiti) 【导语】在过去的一年里,科大讯飞受到了多方质疑,质疑的声音不外乎盈利疲软、靠政府补助、技术优势逐渐变弱等,种种质疑背后,其实整个 AI 产业…

FTP上传网页显示不了图片

FTP上传网页显示不了图片 刚上班不久,昨天用FTP上传了一个网页,可是图片显示不出来 检查了图片地址 针对图片的地址做了仔细的检查,并没有错误,一时让我摸不着头脑图片不是绝对地址 ;图片为png,jpg格式; 1.图片名没有中文命名;图片没有破损; 2.图片大小符合网站规定…

数据中台、标签、数据资产相关的15个名词解释(文末赠书)

公众号后台回复“图书“,了解更多号主新书内容导读:本文将对数据中台、数据、标签相关的关键名词术语进行定义和解释。 作者:任寅姿 季乐乐 来源:大数据DT(ID:hzdashuju) 01 数据 数据是指对客观…

详解数据资产的8大重要特征

导读:原始数据加工成标签,即可认为是简单意义上的数据资产化过程。 数据不再是业务、信息系统的记录或存储,而是转化成带有商业价值的标签,标签是具有业务含义或对业务有指导意义的数据定义,可以说,完成了标…

什么是标签?跟数据中台有什么关系?终于有人讲明白了

导读:本文带你了解标签在数据中台中的位置。 作者:任寅姿 季乐乐 来源:大数据DT(ID:hzdashuju) 01 什么是标签 标签指从原数据加工而来,能够直接为业务所用并产生业务价值的数据载体。从本质上讲…

数据中台:前台调用能快速响应、数据口径一致

标签类目体系方法有什么用处? 标签类目体系方法有什么用处?对企业来说究竟有什么好处?企业数据部门人员经常会对标签类目体系存在的意义产生疑问。如果不建设标签类目体系,用传统的数仓建模是否也可以?数据部门负责人在…

数据中台、标签、数据资产相关的15个名词解释

导读:本文将对数据中台、数据、标签相关的关键名词术语进行定义和解释。 作者:任寅姿 季乐乐 来源:大数据DT(ID:hzdashuju) 01 数据 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的…

关于XML解析报错问题(LF、CRLF)

报错内容的主要部分: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 123: illegal multibyte sequence 问题产生 在做目标检测时,使用的数据集来自网络,在将xml和图片转换到特定格式时,有些xml文件解析…

《扬帆优配》新增21亿订单,海风龙头获多路资金抢筹!

今天仅三个职业获主力资金净流入。 证券时报数据宝计算,今天沪深两市主力资金净流出295.18亿元,其间创业板净流出76.61亿元,沪深300成份股净流出92.15亿元。 申万一级职业中,今天传媒、电子、有色金属等6个职业上涨。25个跌落职业…

通达海深交所上市:市值51亿 2022年净利降8%

雷递网 雷建平 3月20日 南京通达海科技股份有限公司(简称:“通达海”,证券代码:301378)今日在深交所创业板上市。 通达海本次发行1150万股,发行价为95元,募集资金10.93亿元。 通达海开盘价为110…

通达海:一直推进人工智能在法院具体业务场景应用方面的研究

导读:通达海近期接受投资者调研时称,公司也一直在推进人工智能在法院具体业务场景应用方面的研究,包括立案风险预警、要素信息抓… 通达海近期接受投资者调研时称,公司也一直在推进人工智能在法院具体业务场景应用方面的研究&…

马斯克“翻车”现场:“甩”不掉的推特

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 自上周五宣布终止对推特的收购以来,马斯克再次成为科技网站的首页“常驻嘉宾”。 面对马斯克意欲违约并想把责任推得干干净净后,推特显然也不是“吃素的”:仍将致力…

用nltk模仿海子写中文现代诗

文章目录 前言开始编程寻找素材处理语料一些类似的步骤 运行结果 前言 仅仅写英文诗还不够,我们又把主意打到了中文诗头上。不过要写古体诗还有一些困难,我们先尝试一下现代诗。 写中文现代诗的代码与英文诗类似,区别主要在语料的处理上&am…

OpenAI的ChatGPT、微软的New Bing、百度的文心一言、Google的Bard、阿里云的通义千问

随着 ChatGPT 热潮卷起来,微软发布New Bing、百度发布了文心一言、Google 发布了 Bard,阿里云官方终于也宣布了,旗下的 AI 大模型“通义千问”也正式开启测试! ChatGPT ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于…

ControlNet仅靠一张照片完成“旧房改造” | GitHub热榜第一

Alex 发自 凹非寺量子位 | 公众号 QbitAI 这是同一个房间改装前后的样子: 一下子质感Up,从凌乱过时变成了有腔有调的现代风。 至于设计费嘛,其实是…一分钱都没花! 因为这并不是专业设计师做的方案,而全靠一只AI完成。…

chatgpt赋能python:Python怎么抢优惠券?优惠不再是梦想!

Python怎么抢优惠券?优惠不再是梦想! 在如今的消费社会,优惠券已成为人们购物时追逐的目标。而优惠券的数量有限且抢手,往往仅能在短时间内领取,因此初次抢到心仪的优惠券可谓令人欣喜不已。而对于程序员们而言&#…

第十八届全国大学生智能汽车竞赛-竞速比赛完全模型组规则

01 完全模型组 一、比赛构成 百度完全模型竞速赛分为线上资格赛、线下分区赛和全国总决赛三个阶段,组委会将综合考虑线上资格赛和线下分区赛成绩来进行全国总决赛名额的选拔,其中线上成绩占10%,线下成绩占90%。组委会将从报名参加线上资格赛的…

国赛来咯!第十八届全国大学生智能汽车竞赛百度竞速赛正式开启

「第十八届全国大学生智能汽车竞赛—百度完全模型组竞速赛」将于1月7日(本周六19:00)全面启航!大赛组委会秘书长、清华大学卓晴教授届时将亲临百度飞桨B站直播间,和同学们一起聊备赛,话今年。 竞赛介绍 「全国大学生智…

【智能汽车竞赛】极速越野组参赛总结

目录 第一章 引 言 第二章 机械结构的调整与优化 2.1 主板和驱动板板的固定及连接 2.2 模型车机械部分安装及改造 2.2.1 优化车身强度 2.2.2 前轮定位 2.3 传感器的设计安装 2.3.1 ICM-20602 安装 2.3.2 gps 传感器的安装 第三章:硬件电路设计 3.1 主控板模块 3.…

史上最强模型 GPT-4 上线:一张手绘草图能生一个网站、60 秒搞定一个游戏开发!...

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 平地一声雷,GPT-4 重磅来袭。 3 月 14 日,OpenAI 正式上线新一代人工智能大模型 GPT-4,它是一个大型多模态模型,可以接受图像和文本输入,同时…