一、 Chatgpt究竟是一个什么东西?
它能够实现什么样的任务和什么样的功能?
它本质是一个聊天机器人
这是我跟他聊天保留下的一些聊天截图 。
因为我之前以为他是一个英文的模型 所以我最开始用英语去问他说canyouspeakchinese
然后得到一个肯定的回复后, 我就干脆只用中文跟他进行聊天了 。
我问他说:“ 你是怎么被训练出来的。“
他说:“ 我是通过深度学习的方法被训练出来的."
我问他:" 强化学习在你的训练过程中有起到什么样的作用 ."
他跟我说:"强化学习是一门选择力的技术, 他是用来解决reword 交互任务。
这点他就很厉害,因为你没有办法一眼看出来这句话是机器人生成的 而不是人去写的。
它能够实现什么样的任务和什么样的功能?
1. 聊天工具
这点其实不稀罕,像百度的PLAYTOR 也能做到
但其实离奇的是他不仅仅是聊天,还可以做任务测试。
一、摘要抽取
二、小说生成
三、尝试回答
四、文本分类
那在摘要抽取当中 我选择一条世界杯的信息
问他说:”能帮我抽一下这段话的摘要信息是啥吗 ?
他告诉我说:“卡塔尔世界杯1/4决赛中,克罗地亚和巴西1- 1打平,
而在点球大战中晋级了四强 。”
小说生成当中 ,我问他:” 你能不能用金庸的风格帮我写一段钢铁侠和绿巨人对战的小说。”
但比较有趣的是 ,他生成的小说里 ,绿巨人通常都会怒吼和嘶吼 ,而钢铁侠一般表现的会比较轻盈,也就是说没有给任何prom的情况下, 他也能知道钢铁侠和绿巨人一些鲜艳的b权。
问答
光的速度是多少? 它能给造一个表精确的结果 ,我们分类下,他也能知道说这句话是属于体育类别的新闻。所以通过这个我们就能够看到 说这个聊天机器人能解决的问题不仅是聊天 而很多n o p的task也可以转换成聊天的方式得到我们想要的。
说说他更厉害的功能 ,测试下翻译功能
比如说翻译 I'm Hungry ,如果用Chatgpt ,它生成的模型是一个字一个字的吐出来,
翻译成“肚”“子”“很”“饿”
但如果我们用BERT,它是一次性翻译成“肚狗很饿”
原理很简单,Chatgpt 因为是一个字一个字生成,才会更加精准,比如生成一个“肚”后面可以是肚子,肚皮。 而BERT,一次生成,就不能精准的判断前一个字是什么?
所以更多人倾向于单项模型去做任务。
好接下来我们讲讲GPT 的发展史
GPT 是2018年背提出的,那时候有1.17亿的参数直到今天GTP 已经又1750亿的参数了。
GPT-3 无疑是一个非常巨大的模型。
Insrtuct Gpt :这是印刷GPT就是切GPT 使用的基本框架。
两者的区别:
1) 用人类更喜欢的数据 去做训练(align)
GPT 原本使用的是互联网中的海量语料,并不一定是人类想知道的内容。
比如说一些比较长尾的文章 或者是一些长尾的知识 。
那我们做对话机器人,那就应该知道人们都喜欢问一些什么样的问题。
GPT 就围绕人们通常感兴趣的内容并编写答案,进行训练。
2) 引入强化学习(RL)提升性天花板
强化学习是一门只告诉模型 好不好,而不告诉模型 怎样才能变好的学科
这就意味着说这种方式能够使得模型有了更大的探索自由度 从而突破进入学习的天花板
比如:今天我们要去训练一个对话机器人, “女朋友生气 怎么办?‘’
如果你要做一个监督学习的模型的话, 可能就会让一个人去说
1. 跟他道歉
2. 就是说陪他逛街
3. 提醒他要多喝热水
那我再遇到女朋友生气怎么办 ,就可以从这些参考级别去思考。
像这样的对话训练,其实我们都已经知道这个模型的天花板在哪里了。
最好的效果就是从这几个选项当中去选择。
那强化学习版怎么做呢?
把人工标注的部分改成人工打分的部分,那就不会给出答案,
而是告诉他你觉得应该给出什么样的回答。
那模型就会自己瞎猜,比如说跟女朋友吵架,那我们就给它打负分 比如-5分,这就不是一个很好的选择。
那模型就会知道这样方式是不允许的,那他可能会回答说讲道理 ,那我们可能觉得这个回答也没有那么好,就给他打-1分。那模型就会知道,不能吵架,不能讲道理,那就可以跟他认错。那我们觉得这个行为确实还可以,于是给他正向分,+3
所以强化学习的过程中,我们并没有告诉模型看到女朋友生气具体要做什么样的事情,我们只是让模型认识到什么样的事情是好的,什么样的事情是不好的。因为我们知道人类的语言是非常非常大的。我们很难说去呈现什么样什么样的模板。只是希望模型知道什么样是好,什么样是不好的概念。
这点非常重要,为什么要把强化学习的这种概念用在里面,以及为什么用在里面就能够取得更好的效果的原因。
好了,下一篇 再讲 CHATGPT 的训练流程 。