玩“爬虫”可能触犯的三宗罪

最近网上流传一个顺口溜:爬虫玩得好,监狱进得早。数据玩得溜,牢饭吃个够。

自2019年9月以来,多家知名公司相关人员被抓或被调查,这些机构均涉及大数据风控业务和爬虫技术的应用。由此,大数据业务的合规合法问题、爬虫技术的合理应用问题,引起了大数据和金融科技行业的特别重视。

爬虫技术违规吗?开展业务到底存在哪些风险点?

近日,在一本学院的风控与助贷业务课堂上,上海瀛东律师事务所的高级合伙人及管理委员会成员冉晋律师,特别就大数据行业的合规合法问题进行了深入解读。以下为部分内容整理。

01 “爬虫”本中立,数据应保护

一、公民个人信息不可侵犯

现在国家对数据行业和数据相关业务的整顿非常严厉。

最近有这样一个案例:X公司是某快递公司的分包服务商,可以登录该快递公司的后台查询快递信息。X公司的一名员工自行开发了一个爬虫软件,利用这家快递公司给的权限密码登录后台系统,抓取了后台25万条用户信息。

这个案件被发现后,开发爬虫软件的员工被定为主犯抓捕,公司法人被定为从犯一起抓捕。公司法人没有参与这件事,不是第一责任人,但仍然是责任关系方。从判刑上来看,主犯是3-7年量刑,从犯是1-2年量刑。可见,数据安全的问题是涉及全行业的,不仅限于金融科技领域。

二、爬虫技术只是中立的工具

最近被查的大数据风控机构,都涉及爬虫技术。一时间,网络爬虫技术被推到了风口浪尖。

在大数据行业内被广泛使用的网络爬虫技术,到底是什么呢?

其实,网络爬虫,是互联网时代被普遍运用的一项网络信息搜集技术。该项技术最早应用于搜索引擎领域,是搜索引擎获取数据来源的支撑性技术之一。简单来说,它包含三个步骤:采集信息、数据存储和信息提取。

“爬虫”作为一种计算机技术,理论上来说具有技术中立性,在法律上也从未被明令禁止。它不像计算机病毒,计算机病毒本身就是负面的、破坏性的,而爬虫是中立的。

那么使用爬虫技术有什么风险呢?

如果在获取数据的过程中,无法甄别哪些数据可以爬取,哪些数据禁止爬取,甚至为爬取数据而破解被爬服务器的防护措施,或者破坏被爬服务器的信息系统,就会触及监管红线。

02 数据爬虫主要涉及的三类罪名

对爬虫技术应用不当的企业,可能涉及的罪名有三个:

一、侵犯公民个人信息罪

1.爬取的数据信息属于公民个人信息范畴

公民个人信息,是指以电子或者其他方式记录的,能够单独或者与其他信息结合识别特定自然人身份,或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。

2.利用爬虫技术获取的公民个人信息为非法获取的

利用爬虫技术收集公民个人信息数据,应当获得被收集人的同意,尤其是在数据中包含身份证号、信用信息等敏感数据的情况下,还需要获得明示同意。同时,利用网络漏洞非法下载、非法购买等行为,都属于“非法获取”公民个人信息。

3.非法获取公民个人信息达到“情节严重”以上的标准

非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上,非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上,非法获取、出售或者提供上述规定以外的公民个人信息五千条以上,都属于“情节严重”。

4.相关法律依据:《刑法》第253条

【侵犯公民个人信息罪】违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。

窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照该款的规定处罚。

合规建议:

利用爬虫技术获取公民个人信息的,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。

此外,关于在公民个人信息已合法公开的情况下,利用爬虫技术对其进行抓取是否构成非法获取这一问题,暂时没有明确答案,但《民法典人格权编》(草案三次审议稿)第816条写到:行为人收集、处理自然人自行公开的或者其他已经合法公开的信息不承担民事责任,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外。

从立法走向上来判断,收集已合法公开的个人信息应不属于违法,但在立法尚不完善的阶段,仍建议谨慎使用爬虫技术抓取公开的个人信息。

二、构成非法获取计算机信息系统数据罪

1.利用爬虫技术侵入计算机信息系统获取数据,或采用其他技术手段获取计算机信息系统数据

任何组织或个人不得危害计算机信息系统安全;不得破坏计算机及其相关的配套的设备、设施(含网络)安全,破坏其运行环境安全、信息安全,影响其功能正常发挥。

因此企业若在爬取数据时,存在危害计算机信息系统安全的行为,包括破解被爬企业的防抓取措施、加密算法、技术保护措施等,则很有可能被认定为“侵入或以其他技术手段获取计算机信息系统数据”。

2.非法获取计算机信息系统数据达到“情节严重”以上的标准

获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上,或获取其他的身份认证信息五百组以上的,均属于“情节严重”。

3. 相关法律依据:《刑法》第285条

【非法侵入计算机信息系统罪】违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

非法获取计算机信息系统数据、非法控制计算机信息系统罪】违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

提供侵入、非法控制计算机信息系统程序、工具罪】提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为,而为其提供程序、工具,情节严重的,依照前款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照该款的规定处罚。

合规建议:

严格禁止通过技术手段绕过服务器的访问限制,或破解被爬网站为保护数据而采取的加密算法及技术保护措施,从而对被爬网站受保护的计算机信息系统中的数据进行爬取。

若被爬网站设定了获取数据信息的措施(包括实名认证、账号密码、内部权限等),爬虫企业应避免通过伪造实名认证或窃取账号密码、内部权限的形式获取数据。

避免或谨慎抓取身份认证信息(网络金融服务的身份信息10组/其他身份认证信息500组)。

三、非法侵入计算机信息系统罪

1.提供数据信息的网站为国家事务、国防建设、尖端科学技术领域的计算机信息系统;

高频使用的网站,如“国家企业信用信息公示系统”“中国裁判文书网”“中国执行信息公开网”以及各地政府网站等,都属于“国家事务”网站的法律范畴内。

2.对计算机信息系统具有侵入行为

(1)只要有侵入行为,而不论侵入行为的结果。

(2)目前司法解释未对“侵入”进行具体的定义,但一般法院在认定上主要有两种方式:1)以非法手段登录网站,获取原本不该有权限获取的数据信息;2)将恶意程序、非法文件等发送至网站,对网站的正常运行产生影响。

(3)在爬取此类网站的公开数据时,不存在“侵入”计算机信息系统的情形。但当批量爬取数据信息时,需特别关注是否会对网站的正常运行产生影响,切不可逾越红线。

今年曾有报道称,裁判文书网数据被爬取后标价售卖。由于裁判文书网被很多技术公司通过爬虫系统无限制并发访问获取数据,造成网站负荷过大,正常用户无法访问。最高人民法院发文称,为了对抗爬虫技术,更好地确保正常用户访问性能,相关方面已采取多种方式,包括验证码技术等,防止爬虫功能。

合规建议:

对大数据公司,特别是大数据风控企业来说,获取“裁判文书网”“执行信息公开网”的数据非常普遍且重要,但爬取这类国家事务网站的信息时应当尤为审慎,特别是在网站已采取相关“反爬措施”的情况下,仍强行恶意突破防护措施爬取数据,对网站运行造成影响的,均可能构成本罪。

除上述法律风险以外,利用爬虫技术手段还可能产生构成不正当竞争、侵犯信息网络传播权等法律风险。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

 三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

 最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21332.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

偷偷曝光下国内软件外包公司!(2023 最新版,很全!)

点击关注公众号,Java干货及时送达 推荐阅读: 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 欢迎大家加入《ChatGPT 小密圈》知识星球,现在加入,免费送一个手工注册的 ChatGP…

孙子漏洞!ChatGPT又百依百顺了;程序员的LLM世界生存技巧;UI+MJ入门必读手册;吴恩达LangChain实践课 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 继「奶奶漏洞」之后再现「孙子漏洞」,装成孩子让 ChatGPT 千依百顺 前几天,网友发现了 ChatGPT 的新鲜玩法&am…

使用Python实现微信自动回复,操作简单,小白也会使用!秒回女朋友消息 泰裤辣!

文章目录 一、安装itchat库二、登录微信三、实现自动回复四、实现关键词回复五、实现图灵机器人回复总结 Python精品助学大礼包 一、安装itchat库 首先,我们需要安装itchat库,它是一个用于微信个人号的微信Python API,可以用于实现微信自动回…

超火的chartGPT到底是什么?没有账号我能使用吗

什么是OpenAI? OpenAl是一家人工智能研究公司,成立于2015年,总部位于美国加利福尼亚州旧金山。公司的目标是建立一种通用人工智能技术,并将其让普通人能够轻松使用。OpenAl的研究领域包括机器学习、自然语言处理和强化学习等。其中,GPT-3是OpenAl开发的一种大型语言…

ChatGPT外挂,Link Reader 快速阅读网页、PDF内容还能翻译

在现今什么都讲求快速的时代里,很多人都没有耐心一字一句阅读落落长的文章了,所以今天我们就要跟大家分享一个好用的ChatGPT Plugins 外挂,可以帮你阅读网站的内容,并且告诉你文章到底在讲什么。 先要拥有 ChatGPT Plus 帐号&…

史上最小 x86 Linux 模拟器「GitHub 热点速览 v.22.50」

作者:HelloGitHub-小鱼干 本周 GitHub Trending 略显冷清,大概是国内的人们开始在养病,而国外的人们开始过圣诞、元旦双节。热度不减的 ChatGPT 依旧占据了本周大半的 GitHub 热点项目,不过本周的特推和周榜并未重复收录这些。不过…

德勤:2023技术趋势报告(附下载链接)

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告盘点 罗振宇2023年跨年演讲PPT原稿 吴晓波2022年年终秀演讲PPT原稿 《底层逻辑》高清配图 华为2021数字化转型:从战略到执行.pdf华为项目管理…

图解NLP模型发展:从RNN到Transformer

图解NLP模型发展:从RNN到Transformer 自然语言处理 (NLP) 是深度学习中一个颇具挑战的问题,与图像识别和计算机视觉问题不同,自然语言本身没有良好的向量或矩阵结构,且原始单词的含义也不像像素值那么确定和容易表示。一般我们需…

一图看懂 openai 模块:ChatGPT的API python库, 资料整理+笔记(大全)

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 一图看懂 openai 模块:ChatGPT的API python库, 资料整理笔记(大全) 摘要模块图类关系图结束 摘要 全文介绍系统内置 openai ——ChatGPT的API pyt…

chatgpt赋能python:Python在量化交易中的应用

Python在量化交易中的应用 Python是一个高级的、动态类型的解释型编程语言,是量化金融领域中最常用的编程语言。Python语言易读易写、易学易用,丰富的第三方库支持使得Python在量化交易领域中有着广泛的应用和深远的影响。本文将介绍Python在量化交易中…

chatgpt赋能python:入门Python编程指南

入门Python编程指南 Python作为一门流行的编程语言,不仅在科学计算和数据分析方面非常有用,同时也是Web开发、人工智能和机器学习的热门选择。对于初学者来说,了解如何入门Python编程至关重要。在这篇文章中,我们将探讨如何入门P…

chatgpt赋能python:Python编程好帮手——SublimeText

Python编程好帮手——Sublime Text 作为一名有着10年Python编程经验的工程师,我总结出来一个重要的程序员工具——Sublime Text,下面我将介绍如何使用Sublime Text优化你的Python编程流程,并且为你的SEO工作提供便利。 界面 Sublime Text有…

chatgpt赋能python:Python量化金融编程从入门到精通

Python量化金融编程从入门到精通 什么是量化金融? 量化金融是一种将数学、统计学和计算机科学应用于金融领域的方法。量化金融的目的是利用计算机分析海量数据,以帮助投资者更好地投资和风险控制。 Python在量化金融中的优势 Python在量化金融中有很…

chatgpt赋能python:如何学习Python并赚取外快?-一位有10年Python编程经验的工程师分享

如何学习Python并赚取外快? - 一位有10年Python编程经验的工程师分享 Python是什么? Python是一种高级编程语言,它受到了众多程序员和科学家的喜爱。Python是一种高度可读性的编程语言,语法简单易懂,没有繁琐的语句。…

Stack Overflow 遭到 ChatGPT 的 “暴击”,被迫裁员

大家好,我是校长。 今天早上我看到 CSDN 公众号发布的文章,感受到我之前的一个担忧正在变得成为现实。 据网络流量分析公司 SimilarWeb 的数据显示,Stack Overflow 的流量 “自 2022 年 1 月以来平均每月下降 6%,3 月份下降了 13.…

C知道是ChatGPT套壳?

在网上,大家有传言C知道是ChatGPT套壳。那么是否属实呢?虽然目前未下结论,但是小编带大家来分析一下。 虽然用中文问它它会说是csdn训练的,但是只要问它“Who are you?”,它就会回答: I am an AI langua…

博士大论文匿名送审

目录 前言 盲审解释 盲审时间 博士论文盲审疑问解答 第一:博士学位论文盲审好过吗? 第二:盲审论文实证数据要不要一起交过去? 第三:盲审的专家会不会验证数据的真假? 第四:盲审的时候专家会不会在软件上重新运行数据&a…

年薪6万美元/应届医学博士赴加州大学圣迭戈分校博士后就职

W博士的要求比较严苛,我们为其提供了多次机会,尽量满足其需求,但由于疫情原因,有些落实的职位与之擦肩而过,如哈佛、耶鲁等。最终其选择了加州大学圣迭戈分校的博士后职位,年薪6万美元,研究方向…

作为程序员,你离拿offer就差这个免费且好用的简历制作工具

为什么你的简历总是石沉大海?为什么你投递的岗位迟迟得不到回应?除了岗位招满、HR没看到以及竞争太激烈等客观因素外,最重要的是——“简历”出现了问题。 “简历”就像名片一样,在面试和求职的过程中,一份优质的简历…

辞退了一位简历造假的程序员

公众号关注 “前端开发博客” 设为 “星标”,每天分享一个前端知识点! 【编者按】这个社会的竞争越来越激烈,为了能让自己得到一份高薪的工作,很多人都选择了走捷径,弄一份假的简历去面试,觉得这样更容易通…