复刻ChatGPT语言模型系列-(一)基座模型选取

前言

今天开始我将会推出一系列关于复刻ChatGPT语言模型的博文。本系列将包括以下内容:

  • 复刻ChatGPT语言模型系列-(一)基座模型选取
  • 复刻ChatGPT语言模型系列-(二)参数高效微调
  • 复刻ChatGPT语言模型系列-(三)指令学习微调
  • 复刻ChatGPT语言模型系列-(四)文本生成解码
  • 复刻ChatGPT语言模型系列-(五)强化学习RLHF
  • 复刻ChatGPT语言模型系列-(六)LLM模型评估

在本系列的第一篇博文中,我们将会探讨如何选取一个好的预训练语言模型作为基座。选择一个优秀的基座模型非常重要,因为它会直接影响到后续模型的训练和性能表现。乱花渐欲迷人眼,目前社区涌现出许多优秀的大模型,这让我们选择起来十分困难。因此,本文将介绍并分析这些大模型,从中选择出适合作为基座的模型。我们将深入探究这些模型的特点和性能,并分析其优缺点。本文旨在为大家提供选取基座模型的参考意见,帮助大家更好地复刻ChatGPT语言模型。

以下是目前已经开放的基座模型清单,本文将专注介绍已开源模型,而其他模型则请读者自行了解。

模型名称发布时间发布机构语言参数规模Tokens规模模型结构是否开源
T52019-10Google13BT5-style
GPT-32020-05OpenAI175B300BGPT-stylex
CPM12021-03Tsinghua2.6BGPT-style
LaMDA2021-05Google137B2.8TGPT-stylex
CPM22021-07Tsinghua11B/198B(MoE)Encoder-Decoder
Jurassic2021-08AI21178B300BGPT-stylex
MT-NLG2021-10Microsoft, NVIDIA530B270BGPT-stylex
ERNIE 3.02021-12Baidu260B300BMulti-taskx
Gopher2021-12DeepMind280B300BGPT-stylex
Chinchilla2022-04DeepMind70B1.4TGPT-stylex
PaLM2022-04Google多语言540B780BGPT-stylex
OPT2022-05Meta125M-175B180BGPT-style
BLOOM2022-07BigScience多语言176B366BGPT-style
GLM-130B2022-08Tsinghua中、英130B400BGLM-style
Wenzhong2022-09IDEA3.5BGPT-style
LLaMA2023-02Meta多语言7B-65 B1.4TGPT-sryle
MOSS2023-04FUDAN中、英16B700BGPT-sryle

参考链接:https://zhuanlan.zhihu.com/p/614766286

微调模型

模型名称发布时间发布机构语言模态参数规模基础模型是否开源
GPT-3.52021-06OpenAI多语言文本175BGPT-3x
FLAN2021-09Google文本137BLaMDAx
T02021-10Hugging Face文本13BT5
Flan-PaLM2022-10Google多语言文本540BPaLMx
BLOOMZ2022-11Hugging Face多语言文本176BBLOOM
mT02022-11Hugging Face多语言文本13BmT5
ChatGPT2022-11OpenAI多语言文本173BGPT3.5x
Alpaca2023-3-14StandFord文本7BLLaMA
ChatGLM2023-3-14Tsinghua中、英文本{:[6B],[130B]:}GLM
GPT-42023-3-14OpenAI多语言文本、图像GPT-4x
ERNIE Bot2023-3-15Baidu文本、图像260B√ERNIEx
Bard2023-3-21Google文本137BLaMDAx
MOSS2023-4FUDAN中、英文本16BCodeGen

CPM

CPM模型是由智源、清华开发的一种基于大规模中文训练数据进行生成式预训练的中文预训练语言模型。该模型具有26亿个参数和100GB中文训练数据,是目前最大的中文预训练语言模型之一。CPM模型在各种中文自然语言处理任务中表现出色,包括对话、文章生成、填空测试和语言理解等任务。

论文标题:CPM: A large-scale generative Chinese Pre-trained language model

论文地址:CPM: A large-scale generative Chinese Pre-trained language model - ScienceDirect

模型结构:基于Transformer的自回归模型,GPT类结构;

训练数据:100G中文语料;

改动点:较GPT3采用更大的batch_size。

OPT

OPT-175B是Meta AI在2022年5月3日发布的一款开放模型,是模型参数超过千亿级别的开放模型之一。相比于GPT-3,该模型更加开放便于访问,并在以下五个方面表现出其开放性:

  1. 论文:该模型提供了某些能力可能存在的证明,并揭示可以建立在此基础上的一般思想。

  2. API访问:该模型允许研究人员探索和评估现有基础模型的能力和局限性,例如推理和偏差。

  3. 模型权重:研究人员可以使用该模型的权重来逐步改进现有模型、开发更深入的可解释技术和更有效的微调方法。

  4. 训练数据:该模型让研究人员更好地理解训练数据在模型行为中的作用,例如情境学习从何而来。

  5. 计算:该模型允许研究人员尝试新的架构、培训目标/程序、进行数据集消融,并在不同领域开发全新的模型。虽然这种方法具有最大的理解和改进潜力,但也相当昂贵。

作为一个大规模的语言模型,OPT-175B具有超过1750亿个参数,是目前为止最大的语言模型之一。该模型通过在公开可用的数据集上进行训练,允许更多的社区参与了解这项基础新技术。为了保持完整性并防止滥用,Meta AI将在非商业许可下发布他们的模型,以专注于研究用例。该模型的访问权限将授予学术研究者、政府机构、民间社会和学术界组织的人员,以及世界各地的工业研究实验室。

项目地址:GitHub - facebookresearch/metaseq: Repo for external large-scale work

论文地址:https://arxiv.org/pdf/2205.01068.pdf

模型结构: Decoder Only

Model#L#Hd_modelLRBatch
125M12127686.0 e-40.5M
350M241610243.0 e-40.5M
1.3B243220482.0 e-41M
2.7B323225601.6 e-41M
6.7B323240961.2 e-42M
13B404051201.0 e-44M
30B485671681.0 e-44M
66B647292160.8 e-42M
175B9696122881.2 e-42M

训练过程:

OPT与GPT3的训练过程比较如下:

ModelGPUFLOPsdays
OPT1024 80G A100√4.30E+2333
GPT310,000 32G V100√3.14E+2314.8

Meta将OPT系列模型的训练过程记录在logbook中,地址如下:metaseq/README.md at main · facebookresearch/metaseq · GitHub。这个logbook主要记录了作者训练OPT系列模型的辛酸历程,包括遇到的一些问题、讨论分析以及解决方法。

有兴趣的可以仔细阅读原文,或者OPT logbook:训练大规模语言模型的一些经验。

总结如下,Meta主要遇到收敛/数值稳定性问题、机器故障问题。

  • 面对收敛/数值稳定性问题:Meta主要采取降低学习率、参照成熟框架设置参数、切换激活函数的方法;

  • 面对机器故障问题:Meta主要开发监控、自动化工具进行监测。

LLAMA

LLaMA(Large Language Model Meta AI),由 Meta AI 发布的一个开放且高效的大型基础语言模型,共有 7B13B33B65B(650 亿)四种版本。其数据集来源都是公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现,整个训练数据集在 token 化之后大约包含 1.4T 的 token。

关于模型性能,LLaMA 的性能非常优异:具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

关于训练集,其来源都是公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中,LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token 上训练的,而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。

论文标题:LLaMA: Open and Efficient Foundation Language Models

论文链接:https://arxiv.org/pdf/2302.13971.pdf

模型结构

  • PreLayerNorm-RMSNorm-Root Mean Square Layer Normalization
  • ROPE旋转位置编码(替换绝对/相对位置编码)
  • SwiGLU激活函数(替换ReLU)-GLU Variants Improve Transformer

改动点

过了1T的Token:过去的研究发现最好的性能不是在最大的模型上,而是在过了更多token的模型上;

与OpenAI提出大模型缩放法则不同的是,DeepMind认为当前许多大模型是训练不充分的;

OpenAI在《Scaling Laws for Neural Language Models》中,指出在给定计算量的时候,模型性能的提升主要在于增加参数规模而不是增加数据量;

DeepMind在《Training Compute-Optimal Large Language Models》中,指出在每条曲线的最小值的左侧,模型太小了——在较少数据上训练的较大模型将是一种改进。在每条曲线的最小值的右侧,模型太大——在更多数据上训练的较小模型将是一种改进。最好的模型处于最小值。

GnffTU

BLOOM

BLOOM 是 BigScience(一个围绕研究和创建超大型语言模型的开放协作研讨会)中数百名研究人员合作设计和构建的 176B 参数开源大语言模型,同时,还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型,它是在 ROOTS 语料库上训练的,该数据集包含 46 种自然语言和 13 种编程语言(总共 59 种)的数百个数据来源。

论文标题:BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

论文链接:https://arxiv.org/pdf/2211.05100.pdf

模型结构

0hYelu

核心介绍:

  1. 基于Megatron-LM GPT2模型开发,模型结构为Decoder-only类型;

  2. ALiBi Positional Embeddings。它允许外推比训练模型的输入序列更长的输入序列,同时有助于加速训练收敛。因此,即使训练时使用长度为 2048 的序列,模型也可以在推理过程中处理更长的序列。思路来源于: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation;

  3. Embedding LayerNorm。在 embedding 层之后立即添加额外的归一化层(layer norm 层)。这个方法来源于 bitsandbytes^17库 (Dettmers et al., 2022),作者的实验发现这样可以显著提高训练的稳定性。另外,模型最终的训练是在 bfloat16 下进行的。思路来源于:8-bit Optimizers via Block-wise Quantization

同时开发人员也记录了项目的开发过程:千亿参数开源大模型 BLOOM 背后的技术,关键信息如下:

  1. 基于Megatron-DeepSpeed 实现了 3D 并行以允许大模型以非常有效的方式进行训练。包括数据并行 (Data Parallelism,DP)、张量并行 (Tensor Parallelism,TP)、流水线并行 (Pipeline Parallelism,PP)。

  2. 用 FP16 训练巨型 LLM 模型是一个禁忌。FP16会产生精度溢出,使用BF16进行训练。

  3. CUDA 融合核函数。为了快速高效地训练 BLOOM,有必要使用 Megatron-LM 提供的几个自定义 CUDA 融合核函数。特别地,有一个 LayerNorm 的融合核函数以及用于融合缩放、掩码和 softmax 这些操作的各种组合的核函数。Bias Add 也通过 PyTorch 的 JIT 功能与 GeLU 融合。这些操作都是瓶颈在内存的,因此将它们融合在一起以达到最大化每次显存读取后的计算量非常重要。因此,例如,在执行瓶颈在内存的 GeLU 操作时同时执行 Bias Add,运行时间并不会增加。这些核函数都可以在 Megatron-LM repository 代码库 中找到。

  4. 硬件故障也颇有挑战。

WenZhong

闻仲语言模型出自IDEA研究院的封神榜模型系列,专注于生成任务,提供了多个不同参数量的生成模型,例如GPT2等。

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。

4hwtIC

项目地址:GitHub - IDEA-CCNL/Fengshenbang-LM: Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。

GLM

GLM-130B 是清华大学与智谱AI共同研制的一个开放的双语(英汉)双向密集预训练语言模型,拥有 1300亿个参数,使用通用语言模型(General Language Model, GLM)的算法进行预训练。 2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。GLM-130B 在广泛流行的英文基准测试中性能明显优于 GPT-3 175B(davinci),而对 OPT-175B 和 BLOOM-176B 没有观察到性能优势,它还在相关基准测试中性能始终显著优于最大的中文语言模型 ERNIE 3.0 Titan 260B。GLM-130B 无需后期训练即可达到 INT4 量化,且几乎没有性能损失;更重要的是,它能够在 4×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPU 上有效推理,是使用 100B 级模型最实惠的 GPU 需求。

GLM介绍

论文标题:GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址:https://arxiv.org/pdf/2103.10360v2.pdfhttps://arxiv.org/pdf/2103.10360v2.pdf

训练目标

jkMmBZ

max ⁡ θ E z ∼ Z m [ ∑ i = 1 m log ⁡ p θ ( s z i ∣ x corrupt  , s z < i ) ] \max _\theta \mathbb{E}_{\boldsymbol{z} \sim Z_m}\left[\sum_{i=1}^m \log p_\theta\left(\boldsymbol{s}_{z_i} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}\right)\right] maxθEzZm[i=1mlogpθ(szixcorrupt ,sz<i)]

p θ ( s i ∣ x corrupt  , s z < i ) = ∏ j = 1 l i p ( s i , j ∣ x corrupt  , s z < i , s i , < j ) \begin{aligned} & p_\theta\left(\boldsymbol{s}_i \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}\right) \\ = & \prod_{j=1}^{l_i} p\left(s_{i, j} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}, \boldsymbol{s}_{i,<j}\right) \end{aligned} =pθ(sixcorrupt ,sz<i)j=1lip(si,jxcorrupt ,sz<i,si,<j)

模型结构

  • 改变层归一化、残差网络结构的顺序(避免出现数值错误)
  • 新增线性层输出结果
  • 使用GeLUs激活函数替代ReLU

微调方式

  • 对于分类任务,对于token分类,就使用目标token的表示;对于序列分类那就是使用cls的表示。
  • 对于生成任务,partB 部分直接换成 mask 即可。

讨论分析

BERTXLNETEncoder-DecoderUniLM
BERT中不能很好处理连续的多个token; mask token是独立的,不能捕捉mask token之间的依赖关系。xlnet使用了双流的注意力机制,改变了transformer的结构,增加了耗时。使用了两个transformer模型实现了单向和双向注意力,加入token来识别mask span,浪费模型能力;训练和微调不一致。在自编码框架下使用了mask来统一单双向的注意力。对于生成任务来说,还是不够高效。

与bert对比
bert是自编码模型,预测mask的字符。因为模型中的mask token是独立的,bert不能捕捉mask token之间的依赖性。bert的另一个缺点是不能预测多个连续的mask token,尤其是待预测长度未知情况下。

与xlnet的对比
都是自回归的模型。xlnet需要知道预测token的长度;使用双流注意力机制解决了信息泄漏的问题,改变了transfomer的结构,增加了耗时;xlnet决定一个token是否被独立预测。

与编码解码模型对比
T5也是处理的空白填充的任务目标,但是GLM使用了单个的transformer编码器学习单向和双向的注意力。通过共享参数使参数比编码解码模型更有效。T5在编码和解码阶段使用不同的位置编码,使用哨兵标记来识别不同的mask跨度,哨兵标记造成了模型能力的浪费和预训练微调的不一致性。

与UniLM对比
UniLM是通过在自编码框架下改变在双向,单向,互相之间的attention mask来统一预训练目标;由于自编码模型的独立假设,自回归模型不能完全捕捉当前token对于前面token的依赖。对于微调下游任务来说,自编码会比自回归更加低效。

GLM130B

glm

  • 130B的原因是该大小能够在一个A100服务器(40G*8)上进行推理
  • 千亿模型训练的问题:硬件故障、梯度爆炸、内存溢出、3D并行、无法恢复优化器状态、TCP通信阻塞
  • [MASK]、[gMASK]分别用作短文本、长文本生成
  • 结构优化点:RoPE、DeepNorm、GeLU
  • 预训练:95%的MASK自回归任务、5%的多任务指令学习(T0、DeepStruct)
  • 400B的Token,但是据估计130B模型需要4T的Token
  • GLM-130B FP16-需要260G显存存储模型权重

UniLM

许多人指出GLM和UniLM的模型结构非常相似。下面将对UniLM的模型结构进行详细介绍。

UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。 它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。

论文标题:Unified Language Model Pre-training for Natural Language Understanding and Generation

论文地址:https://arxiv.org/pdf/1905.03197.pdf

预训练阶段

  1. 输入:Token Embedding、Position Embedding、Segment Embedding(区分任务目标)

  2. 预训练目标:随机掩码[MASK]语言模型+NSP

  3. 单向语言模型:predict the masked token of “x1x2 [MASK] x4”, only tokens x1, x2 and itself can be used.

  4. 双向语言模型:predict the masked token of “x1x2 [MASK] x4”, all tokens can be used.

  5. Seq2Seq语言模型: given source segment t1t2 and its target segment t3t4t5, we feed input “[SOS] t1 t2 [EOS] t3 t4 t5 [EOS]” into the model. While both t1 and t2 have access to the first four tokens, including [SOS] and [EOS], t4 can only attend to the first six tokens.

  6. 训练过程:1/3训练双向语言模型;1/3训练Seq2Seq语言模型;1/6训练从左到右单向语言模型;1/6训练从右到左单向语言模型;BERT-Large作为初始化模型;15%概率掩码,80%为[MASK],10%为随机Token,10%保持不变

微调阶段

  1. NLU任务:类似于BERT,取[SOS]表征句子输入
  2. NLG任务:“[SOS] S1 [EOS] S2 [EOS]”. The model is fine-tuned by masking some percentage of tokens in the target sequence at random, and learning to recover the masked words. EOS也会被MASK

MOSS

MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

以下根据知乎回答总结MOSS的训练过程:

MOSS 001(OpenChat 001)

  • 数据来源:从OpenAI的论文附录里扒了一些它们API收集到的user prompt,然后用类似Self-Instruct的思路用text-davinci-003去扩展出大约40万对话数据。

  • 基座模型:16B基座(CodeGen)

  • 实验结果:一月份的OpenChat 001就已经具备了指令遵循能力和多轮能力,而且还惊喜的发现它具有很强的跨语言对齐能力,它的基座预训练语料中几乎不存在中文,但是却可以理解中文并用英文回答。

wqrnAr

zNXvlX

WcZoK6

MOSS 002

  • 优化点:OpenChat 001不具备中文能力,不知道关于自己的信息(比如名字、能力等),且安全性较低

  • 数据来源:一方面加入了约30B中文token继续训练基座,另一方面也加入了大量中英文helpfulness, honesty, harmlessness对话数据,这部分数据共计116万条对话,目前也全部已在huggingface开源:fnlp/moss-002-sft-data · Datasets at Hugging Face

MOSS 003

  • 优化点1:继续加大中文语料的预训练,截止目前MOSS 003的基座语言模型已经在100B中文token上进行了训练,总训练token数量达到700B,其中还包含约300B代码。

  • 优化点2:在开放内测后,我们也收集了一些用户数据,我们发现真实中文世界的用户意图和OpenAI InstructGPT论文中披露的user prompt分布有较大差异(这不仅与用户来自的国家差异有关,也跟产品上线时间有关,早期产品采集的数据中存在大量对抗性和测试性输入),于是我们以这部分真实数据作为seed重新生成了约110万常规对话数据,涵盖更细粒度的helpfulness数据和更广泛的harmlessness数据。此外,还构造了约30万插件增强的对话数据,目前已包含搜索引擎、文生图、计算器、方程求解等。

tFzNz9

基座模型选取

基于训练一个中文ChatGPT模型的出发点,需要选用具备中文支持性高、模型参数量大且已开源的基座模型。我们的候选项包括GLM、LLAMA、MOSS、BLOOM、CPM、闻仲模型,接下来将在这些候选项中进行比较,以确定最终选项。

  • 首先是CPM模型,其训练语料中,文章、对话语料居多,模型参数量较少,微调后的模型泛化性较差,生成结果与对话风格较大;

  • 另外,闻仲模型,模型参数量同样较小;

  • 接下来,LLAMA模型,尽管该模型在英文支持性方面表现不错,但据统计其Tokenizer中仅包括约700个中文字符,中文支持性较差;

  • BLOOM模型虽然支持多语言,但是其中文语料仅占16%,这意味着其可能无法提供足够的中文知识;

d8h2ky

  • GLM模型则是支持中英文双语的130B模型,是亚洲唯一入选斯坦福大模型评测的模型。GLM模型在中文支持性和模型参数量方面表现出色,此外,该模型已开源,可以为我们提供强大的基座模型。

综上所述,GLM模型是复刻中文ChatGPT的一个较优基座模型选择。

当然目前也有不少基于其他基座模型的工作,比如:

GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署 (Chinese LLaMA & Alpaca LLMs)

GitHub - LianjiaTech/BELLE: BELLE: Be Everyone’s Large Language model Engine(开源中文对话大模型)

总结

本文着重探讨如何选取一个好的预训练语言模型作为基座,最终选择在中文支持性和模型参数量方面表现出色的GLM模型。后续系列包括:

  • 复刻ChatGPT语言模型系列-(二)参数高效微调
  • 复刻ChatGPT语言模型系列-(三)指令学习微调
  • 复刻ChatGPT语言模型系列-(四)文本生成解码
  • 复刻ChatGPT语言模型系列-(五)强化学习RLHF
  • 复刻ChatGPT语言模型系列-(六)LLM模型评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6608.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIGC 综述 2023:A History of Generative AI from GAN to ChatGPT

GAI&#xff1a;发展历史&#xff0c;核心技术&#xff0c;应用领域以及未来发展 摘要1、引言1.1、主要贡献1.2、组织结构 2、生成式AI的发展历史2.1、NLP领域的发展2.2、CV领域的发展2.3、CV与NLP的融合 3、AIGC的核心技术基础3.1、经典基础模型3.1.1、Transformer3.1.2、Pre-…

AIGC/ChatGPT这么火,相关的AI产品岗,真的有变多吗?_最新AI产品经理求职动态(28)...

‍最近咱们社群的“AI产品经理求职季”活动里&#xff0c;有些特别的发现和感触&#xff0c;近期求职的AI产品经理或AI企业需求方&#xff0c;值得看看—— 目录 一、最近AIGC/ChatGPT这么火&#xff0c;相关的AI产品岗&#xff0c;真的有变多吗&#xff1f; 二、还有哪些方向的…

ChatGPT吹响AIGC的竞赛“号角”,中国企业依然能“翻盘”

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 “python的dataframe中如何基于某一条件对列数据做筛选”&#xff0c;刚学习python不久的数据猿一名记者通过ChatGPT问到&#xff0c;不到1s的时间内&#xff0c;ChatGPT给予了非常详细、准确的解答&#xff0c;如下图所示。…

ChatGPT与AIGC,新世界的创造者

AI的进步是惊人的&#xff0c;但随着 AI技术的发展&#xff0c;人们的创造性和创造性也受到了极大的质疑&#xff0c;很多人都开始利用 AI来进行自己的作品。所以&#xff0c;人工智能技术已经发展到了何种程度&#xff1f; 我们造了众神&#xff0c;他们的束缚也会解开。 你在…

当你拥有ChatGPT和AIGC,你可以拥有什么...

似乎是“一夜之间”&#xff0c;ChatGPT迅速占据了众人的视野&#xff0c;我们仿佛“一下子”看到了来自各种AI工具所生成的“不可思议”的答案&#xff0c;和无穷潜在的可能性。 举个栗子。 比如&#xff0c;这是我看完“流浪地球2”之后&#xff0c;用Mid-Journey画了几张电影…

深度解读 ChatGPT、技术原理(AIGC | State Of ChatGPT)

图来自:State of GPT | BRK216HFS : https://www.youtube.com/watch?v=bZQun8Y4L2A State of GPT | BRK216HFS [bZQun8Y4L2A] 目录 类ChatGPT产品的研发过程

如虎添翼,强大插件让ChatGPT更加游刃有余

ChatGPT模型是当前人工智能领域中备受瞩目的存在。作为一款强大的自然语言处理模型&#xff0c;它具备跨时代的意义&#xff0c;将深刻影响我们的未来。而强大的插件不仅可以丰富ChatGPT的功能&#xff0c;提高其应对复杂问题的能力。还也可以解决一些常见的错误&#xff0c;如…

ChatGPT是什么缩写?

近年来&#xff0c;语言模型技术的迅猛发展&#xff0c;让人工智能的语言处理能力又有了质的飞跃。在这个领域中&#xff0c;GPT&#xff08;Generative Pre-trained Transformer&#xff09;模型可谓是无人不知、无人不晓。那么&#xff0c;ChatGPT呢&#xff1f;它又是什么模…

国内前端vue对接OpenAI/chatgpt【文本互动/生成图片】

如图&#xff1b;国内通过调用openai接口进行互动&#xff0c;实现图文互动/文本互动 注意&#xff1a;请求人数较多&#xff0c;需要等待 1、&#x1f514; 获取ApiKey 注册 OpenAI 账号&#xff0c;获取你的 ApiKey&#xff0c;过程略。 2、&#x1f4ac; 聊天接口 ⚠️ 不…

利用ChatGPT提高代码质量的5种方法

本文首发于公众号&#xff1a;更AI (power_ai)&#xff0c;欢迎关注&#xff0c;编程、AI干货及时送! 5个可以提升你日常工作效率的ChatGPT特性 如何利用它提高代码质量 **ChatGPT已经彻底改变了开发代码的方式。**然而&#xff0c;大多数软件开发人员和数据专业人员仍然没有使…

chatGPT学习---Transformer代码实现1

这里写自定义目录标题 1. 创建词汇表2. 创建数据集3. Bigram语言模型4. 代码生成5. 网络训练 为了更好的理解Transformer的概念&#xff0c;我们可以自己动手来实现一个小型的Transformer。在这里&#xff0c;我们以最近大火的能写代码的chatGPT为例&#xff0c;自己动手写一个…

chatgpt—R语言合并站点经纬度信息并存为shp

问题概述&#xff1a;已有某地区站点数据&#xff0c;只有站点名称以及相应变量&#xff1b;另有较多站点数据&#xff0c;有站点名称&#xff0c;站号&#xff0c;经纬度信息&#xff0c;需要对该地区站点数据匹配站号以及经纬度信息&#xff0c;然后存为shp&#xff0c;最后叠…

写一个用r语言分层抽样算积分的代码——chatgpt版

目录 一、写一个用r语言分层抽样算积分的代码二、写一个用r语言分层抽样f(x)exp(x)算积分的代码三、写一个用r语言分别用随机投点法、平均估计法重要抽样法和分层抽样计算f(x)exp(x)积分的代码四、写一个用r语言分别用随机投点法、平均估计法重要抽样法和分层抽样计算f(x)exp(x…

当ChatGPT遇上Stable Diffusion

之前有在前面的图文和大家分享过stable diffusion--二次元福利 (qq.com)&#xff0c;缺点就是prompt很难准确的把握&#xff0c;受限于自己的文字表达能力&#xff0c;以及中英文对照不恰当。 最近出现了让很多人都疯狂的AIGC模型ChatGPT&#xff0c;一个由OpenAI训练的大型语言…

FastAPI重定向给出方法不允许的错误

Fastapi渲染页面模板&#xff1a; 设置一个列表&#xff0c;放置待处理事项&#xff1a; template Jinja2Templates("pages")todos ["写日记", "看电影", "玩游戏"]设置循环体&#xff0c;对列表进行展示 <body><h1>…

遇到的一个重定向次数过多的问题

如图,次数过多一般就是死循环 当时虽然考虑过这一点 但只是在代码上做过考量 并没有想到Global会进来好多次 后来想到了 因为地址会不断刷新. 这点挺重要的,也是官网上搜了一些关于重定向的含义和使用以及区别等等才想到的. 转载于:https://www.cnblogs.com/sunshine-wy/p/7194…

访问后台出现重定向次数过多该怎么办?-建站需知

背景 在我安装使用https协议之后&#xff0c;打开后台才出现的此类情况&#xff0c;想到了几种可能的原因及解决方法&#xff0c;分享出来帮助遇到同样问题的你。 什么是重定向 重定向是一种特殊的页面&#xff0c;使得人们在输入该名称进入条目或者点击指向该名称的内部链接…

两条命令搞定 ChatGPT API 的调用问题

自2022年11月30日 OpenAI 发布 ChatGPT 以来&#xff0c;虽然时有唱衰的声音出现&#xff0c;但在OpenAI不断推陈出新&#xff0c;陆续发布了OpenAPI、GPT-4、ChatGPT Plugins之后&#xff0c;似乎让大家看到了一个聊天机器人往操作系统入口进军的升纬之路。 ChatGPT能被认为是…

xxxxx.com 将您重定向次数过多

** 重定向次数过多 ** 在C#的学习中再配置了iis站点&#xff0c;引入项目之后&#xff0c;在浏览器输入域名显示该错误&#xff0c; 首先根据提示&#xff0c;清楚缓存之后仍然没有用&#xff0c;可能是自己的Login与Main冲突&#xff0c;形成不断重定向的死循环&#xff0c;…

将您的重定向次数过多

在使用spring security框架实现安全访问控制时出现异常&#xff0c;如图&#xff1a; 这个问题的根本原因时网页跳转中出现了死循环&#xff0c;在登录项我们需要设置security“none”&#xff0c;如&#xff1a; <http pattern"/login.html" securyty"non…