不知道大家是否还记得年初刷屏的 DALL·E2 ?因为它的爆火,大家开始不约而同的讨论起 AI 绘画会不会代替设计师的工作,这个话题至今还被人常常提起。最近,OpenAI 再放大招,推出的 ChatGPT 席卷网络,大家又开始讨论内容创作者、技术从业者、甚至HR岗位是否也会被取代!
但事实真的如此吗?GPT 真的有如此大的能力吗?今天就和大家一起看看 GPT 是如何“筹谋”抢走大家“饭碗”的。
GPT 发展史
Generative Pre-trained Transformer (GPT),即基于互联网可用数据训练的文本生成深度学习模型。要讨论 GPT 就不得不谈谈他的东家 OpenAI ,在 2016 年成立时,公司主要目标包括制造“通用”机器人和使用自然语言的聊天机器人,如今它的核心宗旨仍是“实现安全的通用人工智能( AGI )”,这也给很多人造成了误解,觉得 GPT 的未来即是 AGI ,但是事实真的如此吗?
我们先来一起了解下GPT的发展史!
GPT-1
众所周知,2018年是自然语言处理(NLP)的预训练模型元年,也是这一年,GPT-1 诞生了。
GPT-1 所用的模型结构是 Transformer Decoder 结构,共 12 层。
这在当时来说已经是一个很庞大的模型了,但在性能方面还只能用于监督和任务无关的任务。
( Transformer Decoder 模型)
常用任务包括:自然语言推理、问答与常识推理、语义相似度识别、分类。
GPT-2
时隔一年,一句“Too Dangerous To Release”和 GPT-2 一起爆红网络,也打响了 OpenAI 声名显赫之路。
相比起 GPT,GPT-2 并没有对原有的网络进行过多的结构创新与设计,但模型、数据、以及训练模型都增强了很多。
( GPT-2 模型)
在性能方面,GPT-2 发现了它真正的强项——生成,尤其在阅读摘要、续写编写等方面展示出了强大的天赋。
同样在这一年,OpenAI 通过 GPT-2 认识到了 Zero-Shot 的可能性,并搭载着 GPT-2 发布了很多衍生品。
GPT-2 衍生品之 MuseNet
MuseNet 是 OpenAI 早期的衍生品,它使用与 GPT-2 相同的通用无监督技术。
GPT-2 为先前 OpenAI 提出的一个大规模 Transformer 模型,训练 AI 可预测序列中的下一个 token,包括音频和文本,用在 MuseNet 上则是给定一组音符后,要求 AI 预测后面会出现的音符。
MuseNet可以使用 10 种不同乐器,按照不同的风格生成出 4 分钟的音乐;甚至,当 MuseNet 知道许多不同的风格之后,就能混合生成新的音乐。
举例来说,你输入了肖邦夜曲(Chopin Nocturne)的前 6 个音符后,并要求它生成一段流行乐,再要求其加上钢琴、鼓、bass 和吉他的伴奏,这样生成的音乐就完美融合了肖邦和 Bon Jovi 两种风格。
GPT-3
GPT-2 的热度仅隔一年,OpenAI 就推出来 GPT-3 ,虽然在模型上没有创新,只是沿用了更大更强的作风,但通过 GPT-3 我们也可以明确:OpenAI 对 GPT 的迭代已经不在其模型创新性了,而更多则是在实用性,即是否可以完成自然语言处理的绝大部分任务。
在性能方面,GPT-3 已经能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家的风格了。而且,OpenAI 还开放了 GPT-3 API 接口,大家可以自行申请白名单来体验 GPT-3 的效果,由此正式开始了 GPT的商业化模式。
GTP-3 衍生品之 DALL·E
DALL·E 图像生成器是 GPT 的衍生品,其名字是为了向艺术家萨尔瓦多·达利和皮克斯的机器人 WALL-E 致敬。作为红极一时的 AI 绘画平台,DALL·E2 能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家、设计师的创造力。
且得益于 GPT-3 强大的模型,DALL·E 2 甚至可以通过AI计算考虑整体构图,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E 2 可以做到自然的把它融入到整幅图片中,这是其它AI绘画工具无法做到的,OpenAI 把这样的概念叫做“填补空白”。
DALL·E 2 的使用方法也非常简单,用户只需输入自己对脑海中画面的描述,还可以上传一张你需要变形的文字,并输入指令,即可获得你想要的图片。这无疑是对没经过专业艺术培养,但想要从事艺术工作、或想要自己尝试设计的兴趣用户带来了很大的益处,
但目前 DALL·E2 整体的算法模型还不够充足,有时自动生成的图片并不能满足我们的设计需求,也偶尔会出现画面不合逻辑的情况。随着 GPT 算法训练的次数越来越多,相信其生成的图片也会越来越丰富。
GPT-3 衍生品之 ChatGPT
ChatGPT 是 GPT-3 自然语言生成式模型的最新衍生品,也是继 DALL·E 之后又一个掀起浪潮的产品。它进行自然语言理解和生成,并具有高度的智能化和可训练性,可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题。
ChatGPT 能做的远不止此,这也是大家齐呼自己要失业了的原因。下面我们来一起看看 ChatGPT 的能力。
编写内容
内容创作者作为现在大时代下最常见的工种之一,很多人都表现出自己专属的创造性和不可替代性;各类的热点关键词也是层出不穷,丰富了很多人的休闲时光。
现在,ChatGPT 通过算法就可以完成内容输出了!
甚至你还可以在问题后面输入风格要求,这样你就得到了有着著名艺术家、世界首富、著名政治家、甚至美国杀人魔表达风格的内容。
但目前 ChatGPT 创造的故事性重复度还是较高,这与它的工作原理可能有关系,即把单词和单词之间相关联,并根据初始输入的短语来生成其它跟随的单词。因此,文字工作者也无需担心 GPT 会取代你的工作。
指出错误
ChatGPT 使用“预训练-微调”的工作范式训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方——用户和 AI 助手,AI 训练员可以访问模型编写的对话回复,并帮助 AI 调整回复内容。
编写软件
真正让 ChatGPT 爆红网络的原因自然是因为其“就要取代技术员工作了”,据说它可以自己写代码、debug。但其实,ChatGPT 自己给出的解释是”我可以为用户解决各种技术问题。例如,我可以帮助用户解决编程语言的问题,比如 Java、Python、C++等。我还可以帮助用户解决操作系统的问题,比如 Windows、Linux、MacOS 等。此外,我还可以帮助用户解决软件工具的问题,比如 Eclipse、Visual Studio、Git 等。”
还有人在 ChatGPT 和谷歌上就相同的一个问题就行检索,通过对比发现 ChatGPT 往往可以给出用户最想要的答案,并且答案呈现的方式也非常直接,为未来搜索引擎提供了新范式,ChatGPT 也被认为是最有可能取代谷歌的下一代智能搜索引擎。
正是因为 GPT-3 的衍生出现了很多产品,支持多种行业中的自动完成,你只需输入几个单词就可以完成一个(或更多)段落。因此 GPT-3 被描述为世界上功能最强大的自动完成系统。
那么回到文章开头提到的一个观点:GPT 的未来即是 AGI。但 GPT 真的可以和 AGI 划上等号吗?
预测:GPT-4 等于 AGI 吗?
提起 AGI 很多非技术职业者可能有些模糊,但“人工智能”这个词相信大家并不陌生,从早年的“AlphaGo 下围棋赢过最好的人类棋手”开始,人工智能打败人类的话题就一直在不断被讨论;因此,当 GPT 可以代替设计师、编曲家、内容创作者、技术工程师等工作的话题一出来,就立刻赚足了眼球。
其实通过我们刚刚上文的分析,相信大家可以明确,OpenAI 推出的 GPT 衍生品并无法代替任何人的工作,人类通常是擅长融合各类感官信息去创造一个新的内容的,因此我们在进行 AGI 研究时必须要考虑的是征服基础知识。
AGI 至少从一开始就需要一个机器人体来学习类似的东西。
这些计算机不需要驻留在机器人内部,而是可以远程连接,因为电信号比我们神经系统中的电信号要快得多。但是,机器人提供了学习如何堆叠块、移动对象,随时间推移执行一系列动作以及从这些动作的后果中学习的能力。借助视觉,触摸,操纵器等, AGI 可以学会以基于文本的系统根本不可能的方式来理解。
而 GPT 并无此内容的训练,更局限在内容的生成训练上。我们相信随着人类不停的使用反馈训练, GPT 生成的内容会越来越丰富且有逻辑性,但利用文字表达出抽象的层次是 GPT 无法学会的。
总结
虽然 GPT 不等于人工智能,但前有 DALL·E2 ,后有 ChatGPT ,某种程度上来说确实减少了各类工作者的入门门槛和工作压力;我们相信有 AlphaGo 在前,更多的人工智能产品会逐渐跟大家见面。
我们可以看到将人工智能引入日常生活将对我们的生活和工作方式产生深远影响;我们也相信,人工智能将用于自动执行日常任务、创建个性化服务以及根据数据做出决策。
鼎道智联专注于打造一款以人为本的操作系统,我们也希望在操作系统中可以给客用户提供更个性化、更智能化的操作体验,期待大家持续关注鼎道生态,并加入我们一起参与更多话题讨论。