从“数据”与“信息”的概念之差看 AIGC 工具衍生数据对人类社会的影响

    今天看到“腾讯科技”昨晚发表的“陆奇最新演讲实录:我的大模型世界观”,其中对“信息”及“信息搬运”的说法促使笔者撰写本文。

    陆奇先生在展示“三位一体结构演化模式”时说明,“任何复杂体系,包括一个人、一家公司、一个社会,甚至数字化本身的数字化体系,都是复杂体系。“三位一体”包括:“信息”系统(subsystem of information),从环境当中获得信息;“模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;“行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。” [1] 关于复杂系统及其三个子系统,怎么定义是陆奇的自由,不在本文讨论范围之内。但是,陆奇接着说道,“基于此,我们可以得出一个简单结论。今天大部分数字化产品和公司,包括 Google、微软、阿里、字节,本质是信息搬运公司。一定要记住,我们所做的一切,一切的一切,包括在座的大部分企业都在搬运信息。Nothing more than that,You just move bytes(仅此而已,你只是移动字节)。” [1] 陆奇的这个说法似乎就有问题了,“信息”和“数据”在概念上应该是不同的,数字化产品和公司所搬运的到底是什么?是“信息”?还是仅仅是“数据”?实际上,因为“字节”并非“信息”,所以,陆奇的说法自身在逻辑上就有不一致之处。

    笔者多少年来在给学生们上计算机科学引论尤其是信息安全性课程时,首先要让学生们理解的就是“数据”和“信息”在概念上的本质不同。

ed33d44b5cd60a21d7365e80c5c2272d.jpeg

6f5b2c25b81198ee4597d141bde132a8.jpeg

e07583b6529fb9aa1ce5c4765860adee.jpeg

b6ff6f04baf4a1994728fea92edab3e7.jpeg

    “数据”是记录事物的符号的集合,只有当它们被解释之后,才能代表某些意义(信息)。

    “信息”是一个只有在有接收者的情况下才成立的概念,即以接收者的存在为前提的概念。“信息”对接收者有某些确定的意义,因此,它是一个与接收者的价值观密切相关并依赖于接收者价值观的概念。

    “数据”与“信息”在概念上的本质不同在于,接收者的存在与否以及具体解释。“信息”要求接收者存在,并且依赖于接收者的价值观,而“数据”则可以不需要接收者而客观存在。“信息”的含义取决于接受者的价值观,如果接受者不能理解它,它就没有任何意义;“数据”如果不进行解释,则没有意义,并且同样的“数据”通过不同的解释可能具有不同的含义(对不同的接受者形成不同的“信息”)。

    典型事例:加密通信将试图传送给合法接收者的信息(以数据为载体)加密成为数据后传输给合法接收者,合法接受者将收到的数据解密后获得信息,数据盗窃者如果没有解密手段,则无法获得信息。

    伴随着 AIGC 工具们持续地生成大量输出,如何正确地预测及评估它们以及它们的输出(输出的究竟是什么?这是本文的要点)对于人类社会的影响已经是一个相当紧迫的问题。(请参阅笔者前文:“以 ChatGPT 为代表的无偿式概率式自动生成工具之滥用将给人类社会带来什么后果?”以及“论‘创造/创作/创新’及 AIGC 工具的‘创造性’”)

    笔者把我们人类社会文化中历史上、现今以及今后产生的一切原生数据及知识通过数字化方法(包括各种标注方法)输入到互联网上的数据统称为“原始数据”,把以原始数据为资源使用 AIGC 工具自动生成的数据统称为“衍生数据”。 [2]

    显然,无论是原始数据还是衍生数据,对于人类社会中每个个体或者群体,未必都能够成为有用的信息。

    上个世纪50年代前的前计算机时代,人类必须从以文字、图像、声音等方式所表达的原始数据中费力搜寻出对自己有用的信息;尽管原始数据中也掺杂有虚假数据,但是似乎在数量级上还在人类可以驾驭的数量级范围之内。到了计算机时代,大量原始数据已经被数字化(当然也会包含虚假或者错误),尤其是搜索引擎等自动化工具的出现,使得当今时代的人类几乎都是通过使用自动化工具来从原始数据中搜寻信息了。计算机科学(人工智能)的一个子领域,“信息检索(information retrieval)”(并非“数据检索”!),就是研究这方面的理论、方法论以及工具的。数字化产品和公司搬运的都是数据而不是信息,它们不过是在帮助人类更便捷地从数据中获取信息。

    我们权且认为人类社会已经进入了 AIGC 工具时代,那么我们面临着什么问题?

    毋庸置疑,尽管今后原始数据还会不断地增加,但是伴随着计算机硬件技术的发展,超大规模数据的存储和加工,超大规模的算力,超大模型的研发,AIGC 工具的超大规模使用,迟早有一个时间点(或许眼下的现在已经过了此时间点也未可知),衍生数据量将超越原始数据量,并且在超越之后两者间的数量差距更会急速增大,直到原始数据量和衍生数据量相比显得微乎其微。[2] 

    问题一,人类社会的认知逻辑准则何在?[2]

    问题二,由于 AIGC 工具(及其使用者)即便不是有意,也会输出大量并非确凿的衍生数据。当从衍生数据中获取的信息有误造成损失时,其经济、法律、道义责任何在?

    问题三,任何工具都是双刃剑,AIGC 工具们也不会是例外。AIGC 工具一定会使得数据造假甚至数据攻击也进入高度自动化时代,造成衍生数据的污染,并且污染的传播速度将非常快。人类如何对处这种新的信息真实性/安全性问题?

    问题四,AIGC 工具们把无偿地使用属于全人类的原始数据生成的衍生数据有偿地提供给终端客户,是否会造成人类社会群体之间在信息获取机会上的不平等(在搜索引擎时代,世界上已经有人提出过此类公平性问题)?

    问题五,到目前为止,搜索引擎给人类带来的是信息检索的便捷(笔者认为如此)。AIGC工具呢?它们最终给人类带来的是便捷多余麻烦,还是相反?就算是便捷多余麻烦,利大于弊,如果某些“麻烦”或者“弊”对人类社会是严重的,是否需要在 AIGC 工具的生成内容和使用方法上施与法律性节制?

    (2023年4月24日记)

参考文献

[1] 张小珺,“陆奇最新演讲实录:我的大模型世界观”,腾讯新闻《潜望》,微信公众号“腾讯科技”,2023年4月23日。

[2] 程京德,“以ChatGPT为代表的无偿式概率式自动生成工具的滥用将给人类社会带来什么后果?”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月6日。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27454.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

原文: 目录 引言 近期,ChatGPT 火遍圈内外,连微博热搜都出现了它的身影。突然之间,好多许久未联系的各行各业的同学好友都发来“问候”:ChatGPT 是什么? 其实,ChatGPT 的成功并非一朝一夕&…

Paperreading:ChatGPT is not all you need. A State of the Art Review of large Generative AI models

ChatGPT is not all you need. A State of the Art Review of large Generative AI models 最先进的大型AI生成模型综述 原文链接 Abstract 在过去两年中,已经发布了大量大型生成模型,例如 ChatGPT 或 Stable Diffusion。具体而言,这些模型…

Power BI调用飞书API,抓取多维表格中的数据

第一步:收集相关参数 首先,我们打开飞书开放平台的开发文档,链接地址是 https://open.feishu.cn/document/server-docs/docs/bitable-v1/notification 我们清楚我们的目的是读取数据而已,所以我们直奔主题。 获得API的链接及另…

ChatGPT万物皆可接,你体会到了么?

引言: 当前AI技术的快速发展,已经在许多领域中得到了广泛的应用。如果你还没有玩过或者动手玩过的,我建议你还是自己搞一搞比较好,腾讯云的服务器也不贵,每月几十块钱,如果没有技术能力,或者对…

程序员的悲哀是什么?

推荐阅读:阿里领导猝死,留下孤儿寡母 知乎上有个热门讨论帖:程序员的悲哀是什么? 本文整理了一些网友回答。 网友:zhang文1 996嫌累,摸鱼觉得没意思,使用开源库觉得没技术含量,自己造…

VM虚拟机中如何设置ip地址

当我们在windows环境下,在cmd命令行中输入ipconfig可以看到我们的主机ip地址,但是我们创建了一台虚拟机,并且装好系统时,输入ifconfig(这里和windows下命令不一样,不要搞混了)时,会发现得不到ip地址&#x…

在centos虚拟机中修改IP地址

文章目录 修改centos虚拟机IP地址1.确定静态IP地址2.修改网卡配置3.重启网络服务4.重启虚拟机5.查看修改后的IP 修改centos虚拟机IP地址 1.确定静态IP地址 2.修改网卡配置 输入命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPEEthernet PROXY_METHODnon…

修改虚拟机的IP地址(一看就懂)

修改虚拟机IP地址 修改文件内容查询查询网关和子网掩码DNSMAC地址 修改文件内容 相信用过VM克隆虚拟机的小伙伴们都知道,克隆虚拟机是会把IP地址等都会直接复制过来。 如果先打开克隆的虚拟机,就会把原来虚拟机的IP地址给“抢”过来,那么原来…

VirtualBox 中给虚拟机设置IP

在虚拟机关闭的状态下,在 VirtualBox 中选择 主机->设置->网络->网卡2,勾选 启用网络连接,选择 仅主机(host-only)网络。 启动虚拟机,在虚拟机中打开terminal(快捷键CtrlT)…

【使用心得】ChatGPT变成我的私人厨师

使用ChatGPT之后,我的生活变得更加丰富了。它以一个私人厨师的身份,为我提供各种健康美味的菜谱,以及干货知识、烹饪技巧等等,让我能够轻松地做出口感和营养都兼备的佳肴。 与此同时,Chat GPT也会根据我的口味喜好、食…

王慧文的光年之外离OpenAI还有多远?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 ChatGPT的火爆让AIGC站上了风口,行业迎来重大变局。 AIGC热潮席卷之下,大厂人纷纷投身AI大模型创业大军,大模型创业“百团大战”已打响。前有美团联合创始人王慧文官宣创业—— “光年之外…

11个AI写作软件工具!知名4A广告公司蓝标宣布停止文案外包!

AI的这场熊熊大火,终于还是烧到了广告界! 2023年4月12日,是一个再普通不过的日子,但这一天会被很多人记住。不是因为席卷整个华北区的漫天黄沙,而是因为一封代表着AI势不可挡的决心和象征着一个行业巨变拉开序幕的邮件…

大模型席卷应用,三分之二工作岗位将受影响,开发者如何应对?

据近期高盛发布的研究报告显示,以ChatGPT为代表的生成式AI将对美国和欧洲三分之二的工作岗位(约三亿个)造成影响。超级智能已将触角探向原本只能由人类来主导完成的产品生产,从生产资料转变为生产力。 而在成为生产力的同时&#…

奇舞周刊第496期:ChatGPT 的工作原理,这篇文章说清楚了!

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ ChatGPT 的工作原理,这篇文章说清楚了! ChatGPT 能够自动生成一些读起来表面上甚至像人写的文字的东西,这非常了不起,而且出乎意料。…

ChatGPT+一帧秒创,AI全自动内容生产就在不远处?

9月初开始盛行的AI作画风头还未过去,11月30日,open AI面向全球发布了AI智能聊天工具ChatGPT,上线仅仅一周时间,用户数突破百万,过去两周更是席卷整个科技互联网领域。 ChatGPT是什么? 本次OpenAI推出的Cha…

chatgpt赋能python:用Python轻松拿高分:期末成绩分析

用Python轻松拿高分:期末成绩分析 在当前的IT时代,Python已经成为最受欢迎的编程语言之一。 从web开发到数据分析,从机器学习到人工智能,都可以应用到Python编程语言。而对于大多数学生来说,Python是计算机编程的必修…

多云战事

22 年前的 2001 年,年轻的理工男冯勇决定加入 F5。 F5 中国构架师部门技术总监 冯勇 成立于 1996 的 F5,是一家专注于应用交付的技术型公司,总部在美国华盛顿州西雅图,并于 2000 年进入中国。新世纪初互联网的快速发展为 F5 带来了…

AI创作与游戏开发(二)工具方法概述

大家好,Generative AI Model的出现,给游戏开发带来一些新的变革.比如像stable dissfusion可以快速的生成图像,设计人物的原型,背景设定.像DreamFusion和这个Magic3D这种模型,它可以通过文本快速的建模3D对象.还有像chatgpt这种可以编写故事啊可以做模拟人物对话.AItts可以进行语…

C++ 命令模式

什么是命令模式? 将请求转换为一个包含与请求相关的所有信息的独立对象。从而使你可以用不同的请求方法进行参数化,并且能够对请求进行排队、记录请求日志以及撤销请求操作。命令模式属于行为设计模式 如何理解命令模式 命令模式很像我们订外卖&#…

如何设计一份问卷?

问卷是一种非常好的数据收集方式,问卷有着小巧灵活轻便的天生优越性,简单方便,任何人都能设计一份问卷数据,然后进行数据分析和研究。但可曾知,糟糕的问卷设计会带来糟糕的数据分析,无法得到预期结果&#…