chatgpt在Unity里的开发和原理

chatgpt在Unity里的开发和原理

教学视频

先放上教学视频链接
https://www.reddit.com/r/unity_tutorials/comments/10aic34/chatgpt_with_unity_in_todays_video_i_show_you_a/

https://www.youtube.com/watch?v=PRwfHajinSU

语音控制实现unity里的效果
或者语音控制实现Unity里的动画效果
用语音或者文字使得人物角色往前走
(C:\Users\xzyb\AppData\Roaming\Typora\typora-user-images\image-20230209201944597.png)]
可以利用ChatGPT的接口实现半自动化开发
https://www.bilibili.com/video/BV11D4y1N7V8/?spm_id_from=333.337.search-card.all.click&vd_source=accde4a7ee3c68ceae5c710c663dc819

chatgpt的原理

ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构

Transformer

从Transformer提出到“大规模与训练模型” GPT(Generative Pre-Training)
RNN(循环神经网络),它主要的实现逻辑是每个“字”计算之后将结果继承给第二个字。算法的弊病是需要大量的串行计算,效率低。而且当遇到比较长的句子时,前面信息很有可能会被稀释掉,造成模型不准确,也就是对于长句子效果会衰减。
AI里,这个最小单元变成了向量,多个特征组成的高维空间的一个点。向量的加减乘除是计算机在进行样本训练是最主要的计算逻辑。

Transformer模型的主要意义就是找到了一个算法,分成三步把一个词逐步定位到了一个高维空间,在这个过程中赋予这个单词比其它算法更优的信息。

1.编码(Embedding)2. 定位 (Positional encoding)3. 自注意力机制(Self-Attention)。

有Mask机制、layer norm、神经网络激函数饱和区控制等。

Bert

Bert也是技术发展非常重要的现象级算法。其核心是一个简化的Transformer,Bert不去做从A翻译到B,它随机遮住X里面的一些单词或句子让算法优化对遮住部分的预测。这种思路使得Bert成为了Transformer预训练最好的搭档。
通过Bert进行预训练,相当于给矩阵加入了先验知识(之前训练逻辑没有给机器任何提示,规则后者基础知识),提高了正式训练时初始矩阵的准确度,极大地提升了之后transformer的计算效率和对数据量的要求

可以大量只是训练内容,不需要打标签,之后只需要通过transformer对样本数据进行微调。

GAN对抗网络等。这是AIGC领域的核心技术。解决数据量不足问题,除了更高效率抽象小数据的信息,也多了把小数据补足成大数据的方法,而且这些方法在快速成熟。

ChatGPT的主要特点

OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。

此外,ChatGPT 还具有以下特征:

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。

2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。

对于人类或AI,通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义,还要理解如何造句和给出上下文有意义的回答,甚至使用合适的俚语和专业词汇。

与BERT模型类似,ChatGPT或GPT-3.5都是根据输入语句,根据语言/语料概率来自动生成回答的每一个字(词语)。从数学或从机器学习的角度来看,语言模型是对词语序列的概率相关性分布的建模,即利用已经说过的语句(语句可以视为数学中的向量)作为输入条件,预测下一个时刻不同语句甚至语言集合出现的概率分布。

ChatGPT 使用来自人类反馈的强化学习进行训练,这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。

由于ChatGPT更强的性能和海量参数,它包含了更多的主题的数据,能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。

ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。

TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程 (MDP) 奖励进行强化学习 (RL) 的过程。
Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。

人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Supervised Fine-Tuning)。
训练奖励模型(Reward Mode,RM)人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。
接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

PPO-近端策略优化

PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。
PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。

**ChatGPT使用了GPT-3.5大规模语言模型(LLM,Large Language Model),**并在该模型的基础上引入强化学习来微调(fine-turn)预训练的语言模型。这里的强化学习采用的是RLHF(Reinforcement Learning from Human Feedback),即采用人工标注的方式。目的是通过其奖励惩罚机制(reward)让LLM模型学会理解各种NLP任务并学会判断什么样的答案是优质的(helpfulness、honest、harmless三个维度)。

RLHF

即采用人工标注的方式。目的是通过其奖励惩罚机制(reward)让LLM模型学会理解各种NLP任务并学会判断什么样的答案是优质的(helpfulness、honest、harmless三个维度)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28279.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞不定高考的ChatGPT,原来只有小学4年级水平

夕小瑶科技说 原创 作者 | Python 之前,复旦大学的研究者让ChatGPT参加了中国高考,发现成绩惨不忍睹(参见推送),其中理科数学竟只有20多分。这次,小米AI lab的研究者们给模型降低一下难度,找了…

《聊聊我的故事 | 谈谈自己大学的收获,以及毕业的求职经历》

1.初进校园,实现最初的梦想 还在读高中的时候,心中就非常向往大学的生活,希望自己可以快一点进入大学。记得老师经常对我们说,你们现在辛苦一点,等到进入大学后就会轻松很多了。因此,心中便一直都有一个目…

毕业后的感言

我们毕业了,毕业季分手季。我目睹了那些不舍得眼泪。其实在那个时候我发觉嘴上说自己是一个没心没肺的人是不现实的。我居然也被赤化了。我居然也有心酸,也会难过。甚至对自己的前女友说有点不舍。毕业后祝你幸福! 回首大学,我没有遗憾&#…

毕业季心得

活动地址:毕业季进击的技术er 👉目录 前言学习背景敲下的第一行代码对未来的规划想对大家说的话最后 前言 时光荏苒,转瞬即逝,如白驹过隙一般。在这炎炎盛夏,我们又迎来了毕业季,我是一名在校生&#xff0c…

毕业感言

入学,满怀憧憬。不同的梦想,共同的行动。 大一,木头木脑。队列、口号、训练,身体是父母的,生活是队里的。 大二,徘徊迷茫。游荡在知识的海洋,寻找着未来的方向。 大三,低调做事。…

【毕业季】这四年一路走来都很值得——老学长の忠告

活动地址:毕业季进击的技术er 大家好,我是路飞! 又是一年毕业季,大学四年还没来得及好好体验校园生活,就匆忙收尾了!这四年时光里,有过目标和追求,也有过遗憾和不舍,从四…

关于毕业求职的就业经验-写给我亲爱的校友们

提示:希望下面的文章对大家能有所帮助 文章目录 前言一、毕业季的几种选择?1.考研2.就业3.其他 二、到了毕业季应该怎么去找到自己心怡的工作?三、需要掌握的基本技能(以我嵌入式开发角度)?四、该怎么去跳槽…

博士毕业答辩会上的感言——余子濠

今天余子濠终于博士毕业了! 余子濠是孙凝晖老师和我共同指导的博士生,他这个博士,读了整整八年。 今天的答辩会也是讨论得尤其热烈,答辩委员们提出了很多专业问题,子濠逐一做了解答。整个答辩会持续了130多分钟&#x…

new bing 使用出现“”]Sorry, looks like your network settings are preventing access to this feature.解决方法

1、问题 使用new bing时候如果出现“Sorry, looks like your network settings are preventing access to this feature”,请尝试用以下方案解决 2、解决 1、确保代理的节点在美国 2、在Edge dev中打开“https://www.bing.com/search?q要问的问题&setmktzh-…

又一家AI独角兽上市,AI的春天又来了?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 时隔两年,云天励飞终于上市了,但前方并非一片平坦开阔地,而是视觉AI竞技场。 刚刚,AI独角兽云天励飞技术股份有限公司(简称:云天励飞)登陆科…

阿里云 OpenSearch 重磅推出 LLM 问答式搜索产品,助力企业高效构建对话式搜索服务

1. 企业专属问答搜索 1.1. 世界知识 vs 企业专属知识 ChatGPT、通义千问正在引领搜索技术变革,其表现出的“什么都懂,什么都能聊”关键是依赖于底座大语言模型(Large Language Model, LLM)中压缩的世界知识。但无论是多强大的LL…

从2023年Q1,看当下的量子产业

光子盒研究院 一旦实现商业化,量子计算将带领人类进入一个全新的领域。 今天,人工智能(AI)、ChatGPT等大语言模型的处理能力受限于芯片有限的表面积:超过一定数量的GPU,每个GPU的批处理量就会变小——进一步增加数量反而会增大成本…

华为ENSP的Stelnet、直连、串口连接、telnet连接登录

华为ENSP设备登录的几种方式 一、直接打开终端窗口,启动设备后,直接双击设备即可,如下图所示: 二、用ENSP中的PC连接线CTL到设备的console登录 步骤1:在左侧的连线中找到CTL线单击(如果没有CTL线说明ENSP…

华为模拟器:ENSP,不同vlan间通信

拓扑图 创建好拓扑后,配置pc电脑的ip地址与网关地址 第三步打开SW1交换机进行vlan划分 这里是进入视图模式下后创建vlan后,进行端口绑定vlan 代码: interface GigabitEthernet 0/0/1 进入端口 port link-type access port default vlan 10 设置access绑定vlan 第二台pc与第…

华为太难了,出海或面临美国新生通信设备商的狙击

据分析机构给出的2021年通信设备市场的数据,美国再次拥有了一家通信设备商,它就是思科,并且思科已成为全球第五大通信设备商,这对于努力寻求出海的华为来说无疑将成为新的阻力。 由于众所周知的原因,华为的通信设备在海…

【教程】华为鸿蒙系统连接代理后无法上网问题的解决方案

转载请注明出处:小锋学长生活大爆炸[xfxuezhang.blog.csdn.net] 以Clash for Android为例。 情景描述 开了代理后,手机无法上网,甚至百度都打不开。关闭代理后,能正常上网。 问题分析 其实是被系统自动关后台活动了。因此只需将…

华为nat,acl简单应用,华为设备实现外网通信

转载至:华为nat,acl简单应用,华为设备实现外网通信_benjaminsBlog的博客-CSDN博客 华为外网通信 acl ,nat 1. 如图所示外网已经实现通信 2. 公网路由器配ip就不说了 3. 首先先做nat转换使内网全部用户可出去公网 命令如下 首先…

ggplot2点图+线性趋势+公式+$R^2$+p值

正文 先看效果。 R语言代码如下&#xff0c; data("faithful") library(ggplot2) p <- ggplot(faithful,aes(xeruptions,ywaiting)) geom_point() stat_smooth(methodlm,formula y~x,colourred)model.lm<-lm(formula waiting ~ eruptions, data faithf…

【Python】均值回归策略回测(日内高频数据)

文章采用均值为SMA(close, time_period 3日)&#xff0c;利用(收盘价 - 三日均线)计算偏离程度。 如果大于阈值(首个收盘价的2%)则开仓买入&#xff08;卖出&#xff09; 如果收盘价穿过均线说明均值偏离情况消失平仓。 文章采用Tick高频数据、也可以切换日收盘价数据进行改…

利用EXCEL函数LINEST进行统计学中的回归分析

文章来源&#xff1a;实战统计学 作者&#xff1a;梁斌炜 本文介绍统计学中的一元和多元线性回归&#xff0c;并通过EXCEL自带的统计函数LINEST、INDEX进行手工计算&#xff0c;再通过EXCEL数据分析工具包进行自动计算。 由于很多复杂的EXCEL自动化程序&#xff0c;需要用到自动…