一、引言
预设的知识储备要求:数学(微积分、线性代数、机率);编程能力(读写python)
这门课专注在 深度学习领域deep learning,
事实上深度学习在今天的整个机器学习(ML)的领域使用非常广泛,可以说是最受重视的一项ML技术。
这门课可以作为你的机器学习的第一堂课,修完后可以更深入的把这个技术,用在你未来感兴趣的领域。
课程录像和作业:
如果 只凭google colab可以取得及格的成绩,基本上如果有越多的运算资源,越有机会在这门课取得比较好的成绩。
要做机器学习、尤其是深度学习相关的任务,运算资源往往是非常重要的。
二、【生成式AI】ChatGPT原理剖析
2022.11.30,被公开
1. 对ChatGPT的常见误解:
输出机率分布,之后取样
2. Chat-GPT怎么被训练出来的:(原理)
Chat-GPT背后的关键技术:预训练(Pre-train)。又叫督导式学习(Self-supervised Learning)、基石模型(Foundation Model)
一般机器是怎样学习的? 督导式学习
怎么通过成对资料(督导式学习),机器自动寻找函式f,本课程后面会学习。
但仅仅这样做,能力很有限,因为成对资料非常有限。
ChatGPT的前身GPT,就是单纯从网络上大量资料来学习做文字接龙。
GPT一代没有受到什么关注。
GPT-2可以 说一段话给他,他就开始瞎掰、并且像模像样。这种能力今天看起来很正常,但当时让学界震惊。
测试在CoQA问答资料集上,具备了一定回答问题的能力。
openAI官方说: 拿GPT3做一些微调 都叫GPT3.5,并不是特指某个模型。
GPT3(2020)是来自“暗黑大陆”的模型,因为实在太过巨大。
参数量越高、模型表现越好。
但是GPT3有非常明显的能力上限 。
很多时候GPT3不受控,给的答案不一定是我们想要的。
强化GPT3的能力:人工介入。 -----> 加入督导式学习 ChatGPT
李老师个人猜测,没有用翻译引擎。因为:
multi-Bert也是一个自督导式的预训练模型,在GPT前非常热门的模型。
下面这个实验是测试在DRCD中文阅读能力理解测验资料库上。
在机器心里把所有人类的语言都内化成同一种语言(自己的语言)。
总结: ChatGPT是在自督导式学习/预训练/基石模型的基础上,加入微调(finetune)/督导式学习,再加上RL(ppo算法)。
适用增强式学习的情况,1)想偷懒时,更容易搜集更多资料。2)人类自己都不知道答案时。
很多时候问ChatGPT问题,他给的答案非常棒,不太像在做文字接龙,是因为你问的问题,人类老师都教过了。
如果问一些莫名其妙的问题:
3. ChatGPT带来的新的研究问题
ChatGPT的出现,对自然语言处理相关研究带来蛮大的打击。
未来可能会被重视的研究方向:
1)如何精准提出需求
需要好好调教他,不然不像在聊天。
需要精确提出需求,(”催眠“,Prompting):
- 想象你是我的朋友----让他讲话更像人
- 要求中文回答
- 请试着跟我聊聊--- 这样他才会反问你问题,不会一直句号。
- 现在我们开始--- 这句话还挺重要的,不讲有时候他不知道你要开始了。
网络上有很多”调教指南“,都是乡民试出来的,不一定是最好的,未来会有一系列的研究,用更系统化的方法自动找出催眠指令。
2)【Neutral Editing】
3.) 侦测AI生成的物件
李老师 没有把握chatGPT生成的答案的diversity有多大。
这类的工具如果是可以轻易取用的,应该是需要被学习的内容。
4.)不小心泄露机密?
chatGPT口风不紧, 可以像小孩一样,绕圈骗他。
不过这个地址是错的😀...
开放世界的文字冒险游戏,不是既定脚本,根本不知道会发生什么。。
- 关键催眠指令:请开始一个文字冒险游戏。
- 多讲一些描述让游戏更流畅。由玩家决定要采取的动作,不讲有时候就会自己出题自己玩...
- 要求他精确的描述场景,不然有时候他会描述很随便..
- 要先说故事背景,不然有时候会突然从中间开始。
Midjourney来生成图,更带感🤭。用这个软件,也需要”咏唱“。(Midjourney需要说英文)
自动pipeline,在chatGPT和Midjourney中间。
google催眠指令一大堆:
RPG感觉:
笑死,玩起来好随便,选项完全没难度,而且很快就结束了。
4. ChatGPT是怎么练成的
----GPT社会化的过程
https://chat.openai.com/chat
虽然不是很完美, 有基本的翻译能力,
chatGPT目前只有blog没有论文,
官方blog上chatGPT的训练步骤:
学会文字接龙还可以做什么:参考影片
instructGPT,人工标注的问题和答案只有数万则,
每种问题提供几个范例,告诉他什么样的回答是人类希望得到的。
雇佣人类来标注哪些答案是好的。
训练一个”模仿老师的模型“,模仿人类评分的标注(学习人类偏好)
使用RL技术来调整参数,来得到最高的reward
想找chatGPT的破绽:问一些没用的问题