这个真的得热乎乎的了抢个热点,老于还有一个经济法学的学位,虽然说不是主专业,也算是略微知道一些法律常识。为了各位朋友从业者少踩坑,我把法条逐条解读一下,当然这里面会有技术的成分。希望大家一起遵守法律,尊重主管部门的良苦用心。
图片由SD生成(prompt:Legal Policy, Regulatory Generative AI, Robotics, Doubt)
第一条 为促进生成式人工智能健康发展和规范应用,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规,制定本办法。
法律法规的第一条,都是大帽子的规定,就是说是任何的法律条款,都是遵照于大法条来规范约束的。而且从行文顺序上,网安法>数安法>个保法。各位从业者需要注意的是,这几个法条都和刑法挂钩,也就是说违法行为会衍生成为犯罪行为,是要入刑的。
第二条 研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。
本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。
第二条, 适用范围、规范内容。把生成式AI 的范畴做了一个规范。这里规范的范围,都是物理属性的,不分行业,只要是生成式AI,生成的东西,都在法条的规范范围内。比如:AI预测蛋白质结构,如果是以图片和文字的形式输出,也应该在监管范围内。
第三条 国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。
主管部门还是对这个支持的,鼓励的。持开放态度,合作诚可贵,自主价更高,鼓励大家使用“安全”的方式进行研究。
第四条 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:
(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。
(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。
(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。
(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。
(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。
最重要的一条,已经说得非常详细了,一般的法条,前面的几条都是制式,这个法条,这条就是提纲挈领:人工智能不是法外之地、也要遵守国家的法律规定。法条说的很清楚,我不累述,其中非常重要的一点:“采取措施防止生成虚假信息”,如果参照上面的生成式AI的范围,这个“信息”应该包括:“文本、图片、声音、视频、代码等内容”。也就说,AI的从业者,必须遵从于道德和法律规范,对于AI的生成的内容,要尽量用技术手段去规避“幻觉”和“毒性”。这也是AI在发展过程中的必然,GPT4也是用了好几个月的时间去调整这个部分。本身从工具上, 也是模型工作者一直努力的方向。
另外上面一条的内容,大部分其实也在网络安全法、数据安全法的范围之内,这个只是做了详细的解释。
第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。
这个部分主要对个保法的适用范围做了解释,特意强调了API 也是范围之内的服务。
第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
这个两个是规定要重新研究一下的,有一个我也是第一次听说,就是说以后任何的产品发布,之前要按照“两个规定”对于主管部门备案。但是这里有一个稍微松散的管理方式:“规定属于政策性文件,不属于行政许可事项,不设立行政处罚措施。” 由于这个只是征求意见稿,不知道这个真的颁布前,会不会成为各种AIGC工具发布之前必然要去申请的手续。
第七条 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。
用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:
(一)符合《中华人民共和国网络安全法》等法律法规的要求;
(二)不含有侵犯知识产权的内容;
(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;
(四)能够保证数据的真实性、准确性、客观性、多样性;
(五)国家网信部门关于生成式人工智能服务的其他监管要求。
这条直接规范的是数据来源,数据内容,就是说,训练和预训练的数据都要保证在国家规定的合法范围内,不能随意去获取非国家规定的数据。这里面就有很多技术上需要关注点,比如国外互联网的数据是否可以使用?能否在训练前筛选并且保证数据的真实可靠?相比起之前的问题,这个问题其实对于AIGC的要求趋向的严格,这个要求在训练之前就要对所有的数据进行筛选和去噪。还要保证数据的合法性。
第八条 生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。
这条也没啥好说的,就是标注员出现的问题,服务提供者一样是连带责任。服务提供者需要对人工标注的工作做规范。
第九条 提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定,要求用户提供真实身份信息。
这个应该是规范使用者,按照实名制使用AIGC的服务,这条出来,好像市场上大部分的AIGC 都得改一下认证流程 。
第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。
这条其实和网游的防沉迷类似,主要是为了保护青少年。这里面也很宽泛,并没有像网游一样具体到一天几个小时。可能法条后续还需要根据实际情况进行更新。
第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。
这一条是我最不解的一条。如果圈子里面有法律的大神还请解读一下,如果服务提供者,一定要遵守第9条的规定,实名制,就势必会关联出对于用户输入信息的身份信息。再往下走,画像都不需要,都有实名信息了,画像也就是一个轻松的行为,另外本身一些应用就是在做共享用户的prompt,代码、图片都要重新考量是否试用,这条这么限制,不知道这些业务要怎么做?并且明显和第9条冲突。
第十二条 提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。
很清晰,没啥好说的, 也是AI必须做的事情。
第十三条 提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。
侵权处理,这个事情对于大模型来说,还是比较难的,因为是预训练过程,持续时间比较长,我们目前有些名人其实周期比较短,很难模型数据能够了解并且纠偏,这个就需要在大模型的体系下,有一个专门针对于个人信息的外挂方式,从而能快速的在知识图谱中纠偏,或者停止部分内容。
第十四条 提供者应当在生命周期内,提供安全、稳健、持续的服务,保障用户正常使用。
服务提供要有延续性,要保证用户协议签署的内容,如果暴雷了,要有补救措施。
第十五条 对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。
这条适用于大模型,不但要过滤,还要想办法在模型内纠偏。就是说,以后的模型训练中,必然要做到最少3个月一发版。也就说,我们的显卡数量要能支持提供服务的同时,并行训练我们模型。并且,必须在3个月内跑完模型训练,以解决掉之前的不合规内容。嗯,显卡本来就不够,请大家不要恶性竞争,相互举报。
第十六条 提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。
主管部门早就高瞻远瞩的要求对于深度合成内容,进行标识。并且不能删除标识。类似要把数据形成数字水印。那这个是否和个人信息收集冲突?
第十七条 提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。
!!!!!!法律要求AI的可解释性!我不知道我是不是要这么理解?看来openAI至今无法破解的难题,国人的智慧要想办法解决了!hooray!!!
第十八条 提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。
用户发现生成内容不符合本办法要求时,有权向网信部门或者有关主管部门举报。
这个也是生成式AI一定要在最后辅以国家法律、指导文件的要求必然。也是AI要走入普罗大众的必经之路。
第十九条 提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。
履行社会职责,违法从严处罚,依法暂停关闭服务。
第二十条 提供者违反本办法规定的,由网信部门和有关主管部门按照《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的规定予以处罚。
法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。
这个已经不只是规定了,不是行政命令,是可以按照法律进行处罚的。这几个法律可是都和刑法挂钩。另外由于是新生事物,可能在部分内容没有规定,如果被认定违规了,最低也要给予治安处罚、严重追刑事责任。
第二十一条 本办法自2023年 月 日起实施。
嗯,期待早日颁布,期待有法可依。
既然来了,没关注的同学关注一下再走呗
老于的技术文章推荐阅读:
从0开始学AI,深扒ChatGPT技术原理。
ChatGPT前辈:InstructGPT 论文整理
好思路!MathPrompter:使用大型语言模型进行数学推理
论文解读:也许是chatGPT plugins的技术实现类似方案,一个新的语言模型Toolformer。
论文解读:GPT-4 在医学挑战问题上的能力。有可能是目前最权威的GPT-4在医疗上应用能力的报告。
老于的公号大部分以技术、产业为主,喜欢老于别控制,戳一下: