在中小微企业的大数据风控体系中,工商数据与司法数据是最基本也是最常见的两类信息维度,在企业大数据体系的应用场景中扮演着重要角色。由于企业工商与司法数据的多部分内容属于社会公开化信息,因此在行业市场内也是非常容易获取的,可以通过国家或地方相关的工商司法公共服务系统,或者企查查、天眼查、启信宝等商用平台,直接查询了解企业的基本信息与风险状况。若作为数据需求方的公司单位有一定资质,可以与工商或司法数据相关机构或平台进行合作,引入工商司法更为详细的底层数据,以便加工得到更丰富的特征指标,从而为企业风控的架构与完善赋予更多的效能。
1、工商与司法数据的应用背景
企业工商与司法数据在实际业务中的重要性不言而喻,对于银行、小贷等金融机构开展企业信贷业务的审批环节必然不可或缺,同时对于企业融资的助贷机构也是金融科技的重要元素。无论是产品风控的策略应用,还是业务运营的信息周转,企业工商数据可以认为最基础的信息体系,在风控准入策略、风控评估报告、客户画像分析等方面,必然会有工商与司法数据的展示及其信息描述的体现,在实际场景应用中发挥着非常重要的数据参考价值。
企业工商数据从细化维度来区分,可以包括照面信息、股东信息、对外投资信息、分支机构、变更信息、主营业务、社保信息、网址信息、主要人员对外投资信息、联系方式信息、社会组织信息、司法信息等。其中,工商照面信息是企业的基本数据,可以理解为企业的一张“名片”,由此提取或加工出的特征字段,往往可以作为客户画像或风控准入等场景的分析指标。
企业司法数据包括开庭公告、法院公告、裁判文书、执行公告、案件流程、执行公告、拍卖公告、曝光台等维度。司法数据作为企业风险评估的重要组成部分,可以详细地展示企业经营涉诉等信息,能够很直观地量化企业的整体风险状况,不仅可以将司法统计指标用于产品准入条件,而且为企业风险模型提供了较多的特征维度。
为了便于大家对企业的工商照面信息、司法涉诉信息有更全面的理解与熟悉,本文将结合具体的报文数据实例,依次来介绍下企业这两类重要数据在企业风控体系中的应用思路与实现方法。
2、工商照面信息的数据分析
2.1 工商照面信息的报文样例
企业的工商照面信息数据,可以在某些工商数据提供平台,根据企业全名、社会信用代码、注册号其中之一作为查询ID,通过API接口精确获取企业相关的工商信息。这里以“小米科技有限责任公司”为例,调用并返回对应的工商照面信息报文样例如图1所示。从实例数据结果中可以大体了解到,返回的企业照面数据都是企业的最基本信息,似乎与OCR识别企业营业执照获取的信息非常类似,但此处需要注意的是,这里获取的企业照面数据比营业执照的信息更为全面。
图1 企业工商照面信息
2.2 工商照面信息的数据挖掘
通过图1展示的数据报文样例,可以很清晰的了解到企业工商照面信息的指标结构,接下来我们按照指标顺序,来依次介绍下各字段的业务含义,以及部分特征在风控流程中的应用逻辑。
(1)id:企业主键的加密id,非企业工商数据,仅为数据机构方的内部标识。
(2)name:企业名称,与“社会信用代码(creditNo)”组合可用于“企业二要素”信息核验,一般作为产品风控的准入条件,若“企业名称”与“社会信用代码”信息不对应则拒绝。
(3)econKind:企业类型,常见的可以分为有限责任公司、股份有限公司、无限公司、两合公司、股份两合公司,本例为“有限责任公司”类型的细分维度“自然人投资或控股”。
(4)econKindCode:企业类型代码,这里以常见的“有限责任公司”类型为例,列出企业类型代码的对应含义,具体如图2所示。
图2 企业类型代码含义
(1)registCapi:注册资本,一般情况下公司的注册资金越高有利于外部对企业实力的认可,但同时需要承担的风险也越大;对于一定规模的中小微企业,注册资金在合理范围内较高可以初步认为较好。
(2)historyNames:历史名称,是一个数组形式,可以有多个名称;名称较多在一定程度可反映出企业历史的不稳定性。
(3)address:详细地址,可重点解析省、市、区的具体名称,对于企业融资产品,往往适用于线上产品的准入条件;若企业的地址不在定义区域范围内则拒绝。
(4)regNo:企业注册号。
(5)scope:经营范围,可了解企业的主营业务情况,主要用于企业征信报告中对公司的基本信息介绍。
(6)termStart:营业开始时间,与“当前时间”加工出“经营年限”,可用于产品风控的准入条件,当企业“经营年限”小于产品的年限标准则拒绝。
(7)termEnd:营业结束时间,与“当前时间”加工出“剩余年限”,可用于产品风控的准入条件;当企业“剩余年限”小于产品的年限标准则拒绝;若“营业结束时间”的值为“长期”时则无需加工新指标。
(8)belongOrg:所属工商局,可与企业“详细地址”的省市区进行对比,验证企业所属工商所辖区域是否异常;例如本例的企业地址(北京市海淀区)与工商局地址(北京市海淀分局)是对应的。
(9)operName:企业法定代表人,与“企业名称(name)”、“统一社会信用代码(creditNo)”组合,可用于“企业三要素”信息核验,一般作为产品风控的准入条件,若三者信息不对应则拒绝。
(10)startDate:成立日期,与“当前时间”加工出“成立年限”,可用于产品风控的准入条件,当企业“成立年限”小于产品的年限标准则拒绝,与上文的“经营年限”逻辑类似,实际情况通常二者相同。
(11)endDate:注销日期,若取值有具体时间则说明企业当前未正常营业。
(12)checkDate:核准日期,若具体时间距当前时间较近,说明企业近期存在法定登记信息的变更,例如法人、股权、经营范围等信息,可进一步根据历史变更信息了解详情。
(13)status:经营状态,可分为8种状态,分别为“续存、在业、吊销、注销、迁入、迁出、停业、清算”,其中“在业、续存”等状态属于正常情况,若取值为“吊销、注销、停业、清算”等情况,在风控准入条件中直接拒绝。
(14)orgNo:组织机构号。
(15)creditNo:统一社会信用代码,作为企业通用的主键标签,类似自然人的身份证号,与“企业名称”、“法定代表人”组合,可用于“企业二、三要素”信息核验。
(16)districtCode:地区代码,由6位数字表示具体省市区(县),其中第1-2位是省级编码,第3-4位是地级编码,第5-6位是县级编码;可通过国家统计局进行查询,这里以北京市为例,具体地区代码与含义如图3所示。
图3 企业地区代码含义
(1)actualCapi:实缴金额,可与“注册资本(registCapi)”进行对比,通常情况若“实缴金额”占“注册资本”的比例越高,体现出的企业风险越低。
(2)domain:四级行业,可通过国家统计局的“国民经济行业分类”标准进行查询,行业四级组合依次指门类、大类、中类、小类;以本例“M7590”说明,M指门类,表示“科学研究和技术服务业”;75指大类,表示“科技推广和应用服务业”;759指中类,7590指小类,表示“其他科技推广服务业”。此外,这里以M75大类为例,介绍下内含的中小类型,具体如图4所示。
图4 企业四级行业(M75)
(1)tags:企业资质,取值是一个数组结构,可以取多个值,例如为高新企业、上市公司等;此特征的取值越多,说明企业的资质能力越好。
2.3 工商照面信息的风控应用
围绕以上对企业工商照面信息的指标解读,大体熟悉了各字段的业务含义与应用方向,也可以看出多数字段是对企业整体情况的介绍,而对其风控应用主要集中在其中部分指标,下面我们以图1报文数据作为样例,来进一步描述下重要特征的实际场景应用。
(1)企业要素二要素核验:企业名称(name)、统一社会信用代码(creditNo),判断二者是否对应,返回布尔型值(例1/0);当企业主体“小米科技有限责任公司”与“91110108551385082Q”相对应则信息验证通过。
(2)企业要素三要素核验:企业名称(name)、统一社会信用代码(creditNo)、企业法定代表人(operName),判断三者是否对应,返回布尔型值(例1/0);当企业主体“小米科技有限责任公司”、“91110108551385082Q”、“雷军”相对应则信息验证通过。
(3)企业经营时长(duration):当前时间(currTime)-营业开始时间(termStart),以年为单位;本例2022-2010=12(年),与产品准入经营年限years进行比较,当前者大于等于后者则通过。
(4)企业成立时长(estabTime):当前时间(currTime)-成立时间(startDate),以年为单位;本例2022-2010=12(年),与产品准入成立年限years进行比较,当前者大于等于后者则通过。
(5)企业经营状态(status):作为风控准入核验企业当前的经营状态,当取值为“在业、续存”则通过,当取值为“吊销、注销、停业、清算”则拒绝,当取值为“迁入、迁出”则待定。
(6)企业地址-省(province):根据企业详细地址(belongOrg)提取省级名称(含直辖市),可通过关键词“省/市”实现指标加工,指标用于产品适用地区范围(省级)的准入校验。
(7)企业地址-市(city):根据企业详细地址(belongOrg)提取市级名称(含直辖市所辖区),可通过关键词“市/区”实现指标加工,指标用于产品适用地区范围(市级)的准入校验。
(8)实缴资本比例(capiPct):实缴金额(actualCapi)/注册资本(registCapi),通常情况下比例值越大越好,可作为企业评分卡模型“企业资本”维度的模型指标。
以上各指标均为企业工商照面信息的常见应用思路,在实际场景中可以根据情况综合考虑。此外,对于企业类型(econKind)、经营范围(scope)、企业资质(tags)、历史名称(historyNames)、四级行业(domain)、注册资本(registCapi)等信息,往往作为企业数据征信或风控评估报告的描述内容,便于对企业进行全面多方位的了解,作为信审人员的信息参考。
2.4 企业地址信息的省市提取
在企业工商照面信息中,“企业地址address”是一个可深入探索的特征字段,尤其是根据详细地址信息提取出“省、市”名称,可以便于我们进一步加工出“城市发展等级”、“区域经济指数”等特征,从而为产品适用地区范围的准入条件、企业风控模型的环境影响评价等方面,提供相关的特征标签或字段来源。
为了便于大家对地址信息有更好的理解与应用,我们结合具体的数据样例,来实现围绕地址来提取省市名称的过程,我们通过图5所示python代码来构造一份数据,得到的样本数据如图6所示,包含企业序列号(id)、企业名称(name)、企业地址(address)共3个字段。
图5 企业地址数据构建
图6 企业地址数据样例
围绕以上样本数据,我们需要对企业地址(address)进行详细信息的提取,包括省、市、区的具体名称。在实际场景的Python语言环境中,本次在知识星球中介绍的工具,可以智能解析出地址信息的省市区地址,还可以同步输出地址对应的地区代码,应用较为方便且广泛,具体实现过程详见知识星球代码详情。。按照这种方法对图6的地址数据进行批量解析,最终输出结果如图7所示。
图7 企业地址解析结果
当然在常规的地址信息的清洗过程中,我们更多的依赖地址中划分的信息进行划分,比如参考下此份的地址汇总信息:
此份相关内容也一起同步至知识星球平台,可以一起前往下载查阅。
3、司法涉诉信息的数据分析
企业的司法诉讼信息数据,可以根据企业全名或社会信用代码,通过相关系统或平台进行查询。企业司法信息虽然包含了多个细化,常见的有开庭公告、法院公告、裁判文书、司法拍卖等,但数据信息结构与司法属性理解都是比较类似的,因此本文将选取裁判文书、开庭公告这两个维度作为样例来进行描述。
3.1 裁判文书信息的风控应用
裁判文书是记录人民法院对案件的审理过程和结果,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。图8为某企业涉诉的实际裁判文书案例,现按照前边开庭公告、法院公告的解析思路,对裁判文书的分析进行简单介绍。
图8 企业裁判文书样例
本例涉及企业主体名称为“重庆越通贸易有限公司”,解析指标如下:
(1)文书类型:“执行裁定书”。根据裁判文书常见类型,可以分为民事调解书、民事裁定书、行政裁定书、行政判决书、执行裁定书、刑事裁定书等。一般情况下,当裁判文书属于民事调解书时,说明案件风险系数较小,而执行裁定书相对来说,有一定风险属性;具体风险定义是相对来讲,若主体企业是原告且胜诉,则此裁判文书是风险较低类别;
(2)距今时长:“8年”。根据立案时间“2014年09月11日”,以及当前日期年份2022,可以算出相隔年份数为8年,事件发生时间窗距今较长,风险系数较低;
(3)法院类型:“中级法院”。示例中的“重庆市第四中级人民法院”,属于中级法院,从案件属性与发展形态方面分析,事件有一定风险;
(4)审理结果:“执行异议”。具体状态包括一审、二审、执行等,若此案件状态为执行,说明案件审理已结束,而二审状态相比一审状态,更能体现出案件的风险。
综合以上指标分析,若以此例裁判对企业进行描述可以概括为:企业主体在此执行案件中,身份为申请执行人,审理结果为胜诉,同时事件发生时隔较久,风险程度表现很低。
3.2 法院公告信息的风控应用
法院公告是指由独立行使审判权的国家机关向社会公众公布的法律文书,按程序可分为诉讼公告和非诉讼公告。现以某企业涉诉的实际法院公告案件为例(如图9),来介绍如何解析法院公告具体的数据报文内容,并将挖掘生成的相关指标应用于风控决策流程中,以及实现的效果。
图9 企业法院公告样例
本例涉及企业主体名称为“华易租赁股份有限公司”,与“开庭公告”案例类似,可以重点分析以下几个指标:
(1)案件身份:“原告”。这是案件需要优先关注的一个属性指标,主体“原告”身份相对“被告”来讲,往往可以体现风险程度较低;
(2)距今时长:“4年”。根据立案时间“2018年07月24日”,以及当前日期年份2022,可以算出相隔年份数为4年;一般情况下,当案件发生的时间在3年内,可以认为具有一定风险,若涉诉事件在1年内发生,则风险系数更大;
(3)法院类型:“基层法院”。示例中的“杭州市西湖区人民法院”,属于基层法院,相对中高级法院来讲,在案件发展形态方面来讲,初步可以认为此案例的风险程度较低。
(4)案由类型:“普通民事风险”。从法院对案件处理的类型角度出发,可以判定案件的风险程度一般。
结合以上各指标的分析,若以此样例的法院公告信息对企业进行描述可以概括为:企业主体涉及的法院公告为普通民事案件,原告身份,法院为基层人民法院,且案件发生在三年以前,风险程度很低。
当企业涉及多个法院公告案件时,可以根据相关指标进行统计汇总,如近1年法院公告案件数量、近3年法院公告案件数量、历史法院公告案件数量、历史法院公告案件身份为被告的数量、历史法院公告中级以上法院审理案件数量等,这些指标展示在企业风险评估报告中,可以很直观地体现出企业司法涉诉风险的高低,同时部分指标也可作为企业评分模型的字段。
以上对“开庭公告”、“法院公告”、“裁判文书”案件类型的分析思路,都是通过解析案件内容加工出“案件身份”、“距今时长”、“法院类型”、“案由类型”等指标,然后进一步将所有涉诉案件的指标进行统计汇总,便可以得到每个司法涉诉维度下的综合指标,并最终用于企业信用评分模型的字段,或者展示在企业信用风险评估报告中。除了以上司法维度的举例说明,其他几个司法涉诉类型原理逻辑类似,如“执行公告”、“拍卖公告”、“案件流程”等。
综合以上内容,我们围绕企业的工商照面信息与司法涉诉信息,先后通过具体的数据报文样例,介绍了各维度下的特征提取逻辑、风控应用思路、企业风险评价等,并在现有字段的基础上衍生部分风控指标,以及对企业风险信息的概况总结,从而为企业的风控准入与征信描述提供必要的数据应用价值。为了便于大家对企业工商照面与司法涉诉信息的进一步了解与熟悉,本文额外附带了企业工商司法信息更多维度的报文数据样例,详情请移至知识星球查看相关内容。
【企业工商司法信息示例】
【地址清洗代码示例与地址库信息汇总】
【知识星球相关资料预览】
另外关于中小微财税票中的模型内容,有兴趣的童鞋可关注:
…
~原创文章