究诸经典,探寻大模型演变之踪迹

编者按:在仅仅五年的时间里,大语言模型、transformers几乎完全改变了自然语言处理领域。

为了便于快速、扎实、深入地学习大语言模型,本文整理一个简单的经典学术资料列表,供正在入门中的机器学习研究人员和开发者参考。

以下是译文,Enjoy!

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接:

https://magazine.sebastianraschka.com/p/understanding-large-language-models

作者 | SEBASTIAN RASCHKA

编译 | 岳扬

大语言模型已经风靡全球——这并非妄言。在仅仅五年的时间里,大语言模型、transformers几乎完全改变了自然语言处理领域。而且,它们也已经开始为计算机视觉(computer vision)和计算生物学(computational biology) 等领域带来变革性的改变。

由于transformers对每大家的研究安排(research agenda)都有比较大的影响,我想整理一个简单的经典学术资料列表,供正在入门中的机器学习研究人员和开发者参考。

下文的学术资料主要是按时间顺序排列的,主要是学术研究论文。当然,还有许多其它有用的学术资料。例如:

  1. Jay Alammar的《The Illustrated Transformer》[1]
  2. Lilian Weng的一篇更有技术深度的博客《The Transformer Family》[2];
  3. Xavier Amatriain的《Transformer models: an introduction and catalog — 2023 Edition》介绍了所有重要的Transformer models及其系谱图(family tree)[3];
  4. Andrej Karpathy 介绍了实现生成语言模型(generative language model)的最简单方法[4];

以及我自己(原文作者)的一系列讲座[5]和书籍相关章节[6]。

01 了解主要的模型架构和task

如果您之前从未接触过transformer模型或大语言模型领域,最好从头开始学习。

(1) Neural Machine Translation by Jointly Learning to Align and Translate (2014) by Bahdanau, Cho, and Bengio, https://arxiv.org/abs/1409.0473

如果您有能抽出较多空闲时间来学习,我建议从上面这篇的论文开始阅读。其介绍了一种注意机制(attention mechanism),可用于改进循环神经网络(RNN)的长序列建模(long-range sequence modeling)能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始transformer模型架构的动机。

图片

Source: https://arxiv.org/abs/1409.0473

(2) Attention Is All You Need (2017) by Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin, https://arxiv.org/abs/1706.03762

上述论文介绍了最初的Transformer架构,由编码器(encoder)和解码器(decoder)组成,这两部分将在之后作为独立的模块而变得相关。此外,该论文引入了一些概念,如缩放点积注意力机制(scaled dot product attention mechanism)、多头注意力块(multi-head attention blocks)和位置编码(positional input encoding),它们仍然是现代Transformer系列模型的基础。

图片

Source: https://arxiv.org/abs/1706.03762

(3) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) by Devlin, Chang, Lee, and Toutanova, https://arxiv.org/abs/1810.04805

  • 基于原始的transformer架构,大型语言模型研究开始分为两个方向:
  • encoder-style transformers:用于预测语言建模任务,如文本分类;decoder-style transformers:用于生成语言建模任务,如翻译、生成摘要和其他形式的文本创作。

上面那篇BERT论文介绍了掩码语言建模(masked-language modeling)的原始概念(original concept),而next-sentence prediction(下一句预测)仍然是一个具有影响力的解码器式架构(decoder-style architecture)。如果您对这个研究方向感兴趣,我推荐您继续阅读RoBERTa[7],该模型通过删除下一句预测任务(next-sentence prediction tasks)简化了预训练目标(pretraining objectives)。

图片

Source: https://arxiv.org/abs/1810.04805

(4) Improving Language Understanding by Generative Pre-Training (2018) by Radford and Narasimhan, https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

GPT论文引入了现在流行的解码器式架构(decoder-style architecture),并通过next-word prediction(下一个单词的预测)进行预训练。因其使用掩码语言建模预训练目标(masked language model pretraining objective),BERT可以被视为双向transformer,而GPT是一个单向、自回归的模型。虽然GPT嵌入(GPT embeddings)也可用于分类,但GPT这种方法是当下最具影响力的LLMs核心,比如ChatGPT。

如果您对这个研究方向感兴趣,我推荐您接下来阅读GPT-2和GPT-3论文。这两篇论文表明,LLMs能够实现零样本和小样本学习(zero- and few-shot learning),并突显了LLMs的“涌现”能力。GPT-3仍然是当前ChatGPT等最新一代LLM的baseline和基础模型,我们将在后续的文章中单独介绍InstructGPT方法,它是ChatGPT的关键所在。

图片

Source: https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

(5) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019), by Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer, https://arxiv.org/abs/1910.13461.

正如前面提到的,BERT-type encoder-style的LLMs通常更适用于预测建模任务,而GPT-type decoder-style的LLMs则更擅长生成文本。为了兼顾两者优势,上述那篇BART论文将编码器(encoder)和解码器(decoder)部分结合起来(类似于原始的transformer——该清单中的第二篇论文)。

图片

Source: https://arxiv.org/abs/1910.13461

(6) Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (2023) by Yang, Jin, Tang, Han, Feng, Jiang, Yin, and Hu, https://arxiv.org/abs/2304.13712

这不是一篇研究性的论文,但可能是迄今最好的关于当前主要模型架构的调查,展示了不同的架构是如何演变的。然而,在讨论 BERT-style 掩码语言模型(编码器)和GPT-style自回归语言模型(解码器)的同时,该篇文章还提供了一些有关预训练和微调数据的有价值讨论和指导。

图片

The evolutionary tree of modern LLMs via https://arxiv.org/abs/2304.13712.

02 缩放定律和提高效率 Scaling Laws and Improving Efficiency

如果您想要了解那些有助于提高transformer的效率的技术,我建议您阅读2020年发表的这篇论文——《Efficient Transformers: A Survey》[8],以及2023年发表的《A Survey on Efficient Training of Transformers》[9]。

另外,还有一些我认为特别有趣并值得阅读的论文。

(7) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022), by Dao, Fu, Ermon, Rudra, and Ré, https://arxiv.org/abs/2205.14135.

尽管大多数有关transformer的论文并不涉及取代原来的缩放点积机制(scaled dot product mechanism)来实现自注意力,但FlashAttention是我最近经常看到被提到或引用的一种机制。

图片

Source: https://arxiv.org/abs/2205.14135

(8) Cramming: Training a Language Model on a Single GPU in One Day (2022) by Geiping and Goldstein, https://arxiv.org/abs/2212.14034.

在这篇论文中,研究人员花24小时在单个GPU上训练了一种掩码语言模型encoder-style LLM(这里说的是BERT)。相比之下,2018年最初的BERT论文是在16个TPU上进行了为期四天的训练。有趣的一点是,虽然较小的模型具有更高的吞吐量(throughput),但较小的模型学习效率也较低。因此,更大的模型并不需要更多的训练时间就能够达到特定的预测性能阈值(predictive performance threshold)。

图片

Source: https://arxiv.org/abs/2212.14034

(9) LoRA: Low-Rank Adaptation of Large Language Models (2021) by Hu, Shen, Wallis, Allen-Zhu, Li, L Wang, S Wang, and Chen, https://arxiv.org/abs/2106.09685.

低秩自适应(LoRA)是参数高效性(parameter-efficient manner)微调大型语言模型最具影响力的方法之一。虽然还有其他参数高效性微调方法(请参见下面的内容),但需要特别注意的是,LoRA既是一个优雅的(elegant)方法,也是一个非常通用的(very general)方法,可适用于其他类型的模型。

尽管预训练模型的权重在预训练任务上具有Full rank(满秩),但LoRA的作者指出,当它们适应新任务时,预训练的大型语言模型具有较低的“本征维度(intrinsic dimension)”。因此,LoRA的主要思想是将权重变化ΔW分解为lower-rank(低秩)表示,这样使得参数效率更高。

图片

LoRA示意图及其性能表现 来自https://arxiv.org/abs/2106.09685

(10) Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning (2022) by Lialin, Deshpande, and Rumshisky, https://arxiv.org/abs/2303.15647.

如今的大语言模型在大型数据集上进行预训练,展现出了“涌现”能力,还能够在各种任务中表现良好,包括语言翻译(language translation)、摘要(summarization)、编码(coding)和问答(Q&A)。然而,如果我们希望提高transformer在特定领域数据和专业任务上的能力,微调transformer是值得的。本文回顾了40多篇有关参数高效性微调方法的论文(包括时下热门的技术,如Prefix-tuning(前缀微调)、adapters和Low-Rank Adaptation (LoRA,低秩自适应)),以使微调能够拥有非常高的计算效率。

图片

Source: https://arxiv.org/abs/1910.13461

(11) Training Compute-Optimal Large Language Models (2022) by Hoffmann, Borgeaud, Mensch, Buchatskaya, Cai, Rutherford, de Las Casas, Hendricks, Welbl, Clark, Hennigan, Noland, Millican, van den Driessche, Damoc, Guy, Osindero, Simonyan, Elsen, Rae, Vinyals, and Sifre, https://arxiv.org/abs/2203.15556.

该论文介绍了拥有700亿参数的Chinchilla 模型,其在生成式建模任务(generative modeling tasks)上优于时下流行的1750亿参数的 GPT-3 模型。然而,该论文的主要观点是当下的大型语言模型“训练程度不足”。

该论文定义了大语言模型训练的Linear Scaling Law。例如,虽然Chinchilla 的大小仅为GPT-3的一半,但它的表现优于GPT-3,因为它训练的token数目为1.4万亿(而不仅仅是3000亿)。换句话说,训练的token数目与模型大小一样重要。

图片

Source: https://arxiv.org/abs/2203.15556

(12) Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023) by Biderman, Schoelkopf, Anthony, Bradley, O’Brien, Hallahan, Khan, Purohit, Prashanth, Raff, Skowron, Sutawika, and van der Wal, https://arxiv.org/abs/2304.01373

Pythia是一套开源的LLM套件(70M至12B参数),可用于研究LLMs在训练过程中如何演变。

该架构类似于GPT-3,但拥有一些改进,例如Flash Attention(类似于LLaMA[10])和Rotary Positional Embeddings(类似于PaLM[11])。Pythia在The Pile数据集[12](825 Gb)上进行了300 B个token的训练(~1 epoch on regular PILE, ~1.5 epochs on deduplicated PILE)。

图片

Pythia大模型套件 via https://arxiv.org/abs/2304.01373

Pythia相关研究的主要结论如下:

  • 在重复的数据上进行训练(由于LLMs的训练方式特性,这意味着训练超过一个epoch)对性能没有好处也没有坏处。

  • 训练顺序不影响模型的记忆能力(memorization)。这其实是不太好的,因为如果是相反的情况,我们就可以通过重新排序训练数据来减轻效果不好的逐字逐句记忆问题(verbatim memorization issues)。

  • 预训练时的词频(term frequency)影响任务性能。例如,小样本的准确率往往对于更常见的词语更高。

  • 加倍batch size可以使得训练时间减半,但不会影响收敛性(convergence)。

03 Alignment - 引导大语言模型达成预期的Goals和Interests

近年来,我们看到许多相对有能力的大语言模型,能够生成逼真的文本(例如GPT-3和Chinchilla等)。就我们常用的预训练范式(pretraining paradigms)所能达到的效果而言,我们似乎已经达到了一个上限。

为了使语言模型对人类更加有帮助,并减少错误信息和有害言论,研究人员设计了额外的训练范式(training paradigms)来微调预训练的基础模型(base models)。

(13) Training Language Models to Follow Instructions with Human Feedback (2022) by Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe, https://arxiv.org/abs/2203.02155.

在这篇所谓的InstructGPT论文中,研究人员使用了一种有人类参与的强化学习机制(RLHF)。他们从预先训练好的GPT-3基础模型开始,并使用人类提供的提示-响应对(prompt-response pairs)进行监督学习来进一步微调它(步骤1)。接下来,需要人类对模型输出内容进行排名,以训练一个奖励模型(步骤2)。最后,使用奖励模型通过近端策略优化(proximal policy optimization)来更新预训练和微调的GPT-3模型(步骤3)。

顺带一提,这篇论文也被称为ChatGPT背后核心思想的论文——根据最近的传言,ChatGPT是一个对InstructGPT进行大规模数据集微调的扩展版本。

图片

Source: https://arxiv.org/abs/2203.02155

(14) Constitutional AI: Harmlessness from AI Feedback (2022) by Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan, https://arxiv.org/abs/2212.08073.

在这篇论文中,研究人员将对齐思想(alignment idea)推进了一步,提出了一种可用于创建“无危害”AI系统的训练机制。与直接的人类监督不同,研究人员提出了一种基于人类提供的规则的自我训练机制。与上述InstructGPT论文类似,所提出的方法采用强化学习方法。

图片

Source: https://arxiv.org/abs/2212.08073

(15) Self-Instruct: Aligning Language Model with Self Generated Instruction (2022) by Wang, Kordi, Mishra, Liu, Smith, Khashabi, and Hajishirzi, https://arxiv.org/abs/2212.10560

指令微调(Instruction finetuning)是一种让类似GPT-3这样的预训练基础模型变成更具能力的LLM(如ChatGPT)的方法。而像databricks-dolly-15k这样开源的人类输入指令数据集可以帮助实现这一目标。但是怎样才能扩展这个规模呢?有一种方法是通过自身生成来引导LLM的训练。

Self-Instruct是一种(几乎无需注释)将预训练的LLM与指令对齐的方法。

它是如何工作的呢?简而言之有4个步骤:

第1步,使用一组人类编写的指令(本例中为175条)和样本指令(sample instructions)来作为种子任务池(seed task pool)。

第2步,使用预训练的LLM(如GPT-3)确定任务类别。

第3步,给定新指令,让预训练的LLM生成响应。

第4步,收集(collect),精简(prune),和过滤(filter)大模型的响应,然后将其添加到任务池(task pool)中。

图片

self-instruct方法的注释图,来源于https://arxiv.org/abs/2212.10560

在实践中,根据 ROUGE 分数,这种方法表现相对良好。

例如,经过Self-Instruct微调的LLM表现优于 GPT-3 基础LLM(1),并且可以与以使用大规模人工指令集预训练的LLM(2)竞争。此外,self-instruct还可以使已经在人类指令上进行了微调的LLM受益(3)。

但当然,评估LLM的黄金标准是询问人类。根据人类的评价,Self-Instruct方法优于基础LLM和以监督方式使用人工指令数据集(如SuperNI、T0 Trainer)进行训练的LLM。但有趣的是,Self-Instruct方法并不能超越通过人类反馈进行强化学习训练的方法(RLHF)。

人类编写的指令数据集与Self-Instruct数据集,哪个更有前途?我认为两者都很有前途。为什么不先使用像 databricks-dolly-15k 中的人类编写指令数据集,然后再使用Self-Instruct方法来扩展呢?

04 Bonus: 介绍Reinforcement Learning with Human Feedback(RLHF)

虽然RLHF(带有人类反馈的强化学习)可能不能完全解决目前LLM的问题,但其目前被认为是最好的选择,特别是与前一代的LLM相比。我们以后很可能会看到更多具有创造性的方式,将RLHF应用于LLM的其他领域。

上面的两篇论文,InstructGPT和Consitutinal AI,都使用了RLHF,我认为在不久的将来它会成为一种有影响力的方法,如果你想了解RLHF,本节还介绍了其他资源。(为了技术层面上的正确性,Constitutional AI的那篇论文使用了人工智能而不是人类的反馈,但是它遵循了一种RL(强化学习)的类似概念)。

(16) Asynchronous Methods for Deep Reinforcement Learning (2016) by Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu (<https://arxiv.org/abs/1602.01783) 介绍了策略梯度方法(policy gradient methods)作为基于深度学习的RL中Q-learning的替代方法。

(17) Proximal Policy Optimization Algorithms (2017) by Schulman, Wolski, Dhariwal, Radford, Klimov (<https://arxiv.org/abs/1707.06347) 提出了一种改进的近端策略优化强化学习流程,比上面的原始策略梯度算法更具数据效率和可扩展性。

(18) Fine-Tuning Language Models from Human Preferences (2020) by Ziegler, Stiennon, Wu, Brown, Radford, Amodei, Christiano, Irving (<https://arxiv.org/abs/1909.08593) 阐述了PPO和奖励学习的概念,以及应用于预训练语言模型的方法(包括KL正则化),来防止策略(policy)与自然语言相差过大。

(19) Learning to Summarize from Human Feedback (2022) by Stiennon, Ouyang, Wu, Ziegler, Lowe, Voss, Radford, Amodei, Christiano [2009.01325] Learning to summarize from human feedback 介绍了时下流行的RLHF三步骤:

  1. 对GPT-3进行预训练,
  2. 以监督方式对其进行微调,
  3. 以监督方式训练奖励模型。然后使用近端策略优化(proximal policy optimization)算法,利用这个奖励模型对微调后的模型进行训练。

本文还表明,与仅使用常规监督学习方式相比,在近端策略优化强化学习的支持下会得到更好的模型。

图片

Source: https://arxiv.org/abs/2009.01325

(20) Training Language Models to Follow Instructions with Human Feedback (2022) by Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe (https://arxiv.org/abs/2203.02155) 也被称为InstructGPT论文,使用与上述RLHF相似的三大步骤,但它不是总结文本,而是根据人类指令生成文本。此外,它使用一个labeler对输出进行排序(而不仅仅是在人工智能生成的文本和人类生成的文本之间进行二元比较)。

05 总结和扩展阅读 Conclusion and Further Reading

我已经尽量保持本文的论文清单简明扼要,重点是了解当代大语言模型背后的设计、约束和演变(design, constraints, and evolution),列出了top-10论文(以及三篇关于RLHF的论文)。

如果想要更进一步了解,我建议阅读上面提到的论文的参考文献。或者,下面这些扩展阅读材料(这个清单并不全面)也建议阅读:

替代GPT的开源方案

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100

OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068

UL2: Unifying Language Learning Paradigms (2022), https://arxiv.org/abs/2205.05131

ChatGPT的替代方案

LaMDA: Language Models for Dialog Applications (2022), https://arxiv.org/abs/2201.08239

(Bloomz) Crosslingual Generalization through Multitask Finetuning (2022), https://arxiv.org/abs/2211.01786

(Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements (2022), https://arxiv.org/abs/2209.14375

BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Engage, https://arxiv.org/abs/2208.03188

计算生物学中的大语言模型

ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing (2021), https://arxiv.org/abs/2007.06225

Highly Accurate Protein Structure Prediction with AlphaFold (2021), https://www.nature.com/articles/s41586-021-03819-2

Large Language Models Generate Functional Protein Sequences Across Diverse Families (2023), https://www.nature.com/articles/s41587-022-01618-2

如果想要学习更多AI知识,可以阅读原文作者的书籍:

图片

https://sebastianraschka.com/books

END

参考资料

  1. https://arxiv.org/abs/2203.02155
  2. https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/
  3. https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/
  4. https://github.com/karpathy/nanoGPT
  5. https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks
  6. https://github.com/rasbt/machine-learning-book/tree/main/ch16
  7. https://arxiv.org/abs/1907.11692
  8. https://arxiv.org/abs/2009.06732
  9. https://arxiv.org/abs/2302.01107
  10. https://arxiv.org/abs/2302.13971
  11. https://arxiv.org/abs/2204.02311
  12. https://arxiv.org/abs/2101.00027

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从ChatGPT看爆火技术概念及医疗领域科技与应用场景

作者&#xff1a;京东健康 陈刚 一、前言 最近OpenAI在官网上宣告了多模态大模型 GPT-4 的诞生&#xff0c;它可能是迄今为止最好的多模态模型。 主要更新内容如下&#xff1a; 1. 逻辑分析能力更加全面、「考试」能力大幅提升 2. 拥有了 识图 能力&#xff0c;可以进行更多元…

ChatGPT生成的程序漏洞百出,程序员的饭碗算是保住了

自去年11月Chat GPT概念推出以来&#xff0c;瞬间风靡全球、热度不减&#xff0c;仅用不到两个月的时间就使月活跃用户数达到1亿。凭借1750亿左右的参数量和关注度创造了互联网应用程序的神话。 对于用户来讲&#xff0c;ChatGPT的出现引领传统互联网彻底迈入AI新时代。由于其在…

【ChatGPT追女孩子攻略】见招拆招

使用ChatGPT写情话可以带给我们很多乐趣和惊喜&#xff0c;这种技术可以为你的爱人创作一篇充满真情实感的情书。在使用这项技术时&#xff0c;首先要明确表达的主题和情感。 接着&#xff0c;向ChatGPT输入一些关于自己和恋人之间的故事或细节&#xff0c;让它能够更好地理解…

2023年的深度学习入门指南(2) - 给openai API写前端

2023年的深度学习入门指南(2) - 给openai API写前端 上一篇我们说了&#xff0c;目前的大规模预训练模型技术还避免不了回答问题时出现低级错误。 但是其实&#xff0c;人类犯的逻辑错误也是层出不穷。 比如&#xff0c;有人就认为要想学好chatgpt&#xff0c;就要先学好Pyth…

chatGPT解读(chatGPT前世今生之今生)

12期&#xff1a;chatGPT解读&#xff08;chatGPT前世今生之今生&#xff09; 验 关注该公众号 证 chatGPT解读 我们带着几个问题&#xff0c;一起去看看chatGPT吧。 上周讲了GPT-1&#xff0c;GPT-2&#xff0c; GPT-3的整体演化过程。那么&#xff0c;既然chatGPT是在…

2023年的深度学习入门指南(13) - 写后端

2023年的深度学习入门指南(13) - 写后端 我们前面学习了用python在本机上写前端&#xff0c;也学习了使用HTML在本机写前端。同理&#xff0c;我们可以写Windows应用&#xff0c;mac应用&#xff0c;iOS应用&#xff0c;Android应用等等以适合各种终端。其实&#xff0c;最通用…

小白的GPT入门指南 - 插件篇

前言 GPT爆火小半年了, 早在AI赛道布局的各大厂商也是纷纷宣布产品上线 度娘的 “文心一言” 腾讯的 “HunYuan” 阿里的 “通义” 华为 的“盘古” … 码哥也简单的体验了下已发布的几款AI模型, 实话实讲, 目前还是GPT的更智能一点, 不过GPT需要折腾的问题对小白有点不友好.…

《ChatGPT实用指南》在线版重磅发布,专为小白打造

文 / 高扬&#xff08;微信公众号&#xff1a;量子论&#xff09; 为方便大家阅读&#xff0c;我们对《ChatGPT实用指南》进行了重大改版&#xff0c;抛弃PDF版本&#xff0c;升级为在线阅读版&#xff0c;增加了大量实用的操作和详细的讲解&#xff0c;保证小白可以轻松上手&a…

面向Java开发者的ChatGPT提示词工程(5)

GPT 的局限性 当我们探讨开发大型语言模型应用程序时&#xff0c;必须认识到 GPT 存在一些局限性。这些限制对于我们保持清醒的头脑至关重要。 在 GPT 的训练过程中&#xff0c;虽然注入了大量知识&#xff0c;但它并不能完美地记住所有的信息&#xff0c;同时对这些知识的边…

chatgpt赋能python:Python就业薪资

Python就业薪资 Python是今天全球最受欢迎的编程语言之一&#xff0c;因为其容易的语法&#xff0c;高级工具&#xff0c;丰富的库&#xff0c;简洁的代码语言和易于编写的框架使它成为开发人员的首选语言。在今天的全球招聘市场中&#xff0c;Python开发人员很受欢迎&#xf…

chatgpt赋能python:Python就业需要什么学历?

Python就业需要什么学历&#xff1f; Python编程语言自问世以来&#xff0c;越来越受到IT行业的青睐。Python的广泛应用范围&#xff0c;良好的兼容性和易学易用的特点&#xff0c;让很多人选择从事Python相关工作。 那么&#xff0c;Python就业需要什么学历呢&#xff1f; 学…

人工智能ai在第四次工业革命中起到的作用

人工智能&#xff08;AI&#xff09;被认为是能够引领第四次工业革命的重要技术之一。AI 在许多领域具有广泛的应用潜力&#xff0c;包括自动驾驶、机器人技术、智能制造、医疗保健和能源等。通过AI的技术创新&#xff0c;我们可以实现更高效、更智能的生产方式&#xff0c;提高…

“无所不能”的 ChatGPT,正准备把各行各业打得满地找牙

如果有一天&#xff0c;你遇到的任何问题&#xff0c;都能通过搜索找到答案&#xff0c;那会是什么体验&#xff1f; 这个疯狂的现实正在离我们越来越近。 继AI绘画&#xff0c;AI编程搅得满城风雨后&#xff0c;美国的人工智能团队OpenAI最近又整了个大活—— 他们推出了一…

【ChatGPT】:告别单调对话,我带你体验

前言 「作者主页」&#xff1a;雪碧有白泡泡 「个人网站」&#xff1a;雪碧的个人网站 「推荐专栏」&#xff1a; ★java一站式服务 ★ ★前端炫酷代码分享 ★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff0c;vue成神之路★ ★ 解决算法&#xff0c;一个专栏就够了★ ★ 架…

太强了!ChatGPT能上传文件了,文档图片数据集秒理解,代码一键执行!

&#xff08;永久免费&#xff0c;扫码加入&#xff09; 梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT又出试验型新模式&#xff0c;不少网友陆续收到代码解释器Alpha测试资格。 简单来说&#xff0c;这个模式提供两个功能&#xff1a;执行Python代码&#xff0c;接受文件上…

chatgpt赋能python:Python如何在图片上添加文字

Python如何在图片上添加文字 对于网站的SEO优化而言&#xff0c;图片上的文字也是非常重要的一环。而Python是一种常用的编程语言&#xff0c;可以通过一些Python库来在图片上添加文字。 PIL库介绍 PIL&#xff08;Python Imaging Library&#xff09;是Python中常用的图像处…

ChatGPT 太猖狂?OpenAI 欲打假并研发“文本水印”,网友吐槽:太“鸡肋”!

整理 | 苏宓 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 这到底是人干的&#xff0c;还是 AI 干的&#xff1f; 随着 AIGC 的爆火&#xff0c;在 ChatGPT、Stable Diffusion 模型的推动下&#xff0c;当下想要辨别我们所见的代码、图像、文章、小说、脚本、诗…

chatgpt赋能python:Python去除图片上的文字:技术与应用

Python去除图片上的文字&#xff1a;技术与应用 随着互联网的发展&#xff0c;图片的使用越来越广泛。然而&#xff0c;有些图片上却存在着不必要的文字&#xff0c;影响了用户的阅读体验和SEO效果。在这种情况下&#xff0c;Python可以帮助我们快速、准确地去除图片上的文字&…

软件安全设计(威胁建模实现)

目录 一、实验目的 二、实验软硬件要求 三、实验预习 四、实验内容&#xff08;实验步骤、测试数据等&#xff09; 实验步骤 确定安全目标 创建在线学习系统概况图 分解在线学习系统 确定威胁 威胁评估 确定威胁缓解计划或策略 验证和记录威胁 一、实验目的 熟悉软…

探索图文处理的未来:知名学府与合合信息团队分享NLP实践经验,人工智能引领技术革新

相信最近很多朋友关注的公众号和短视频号都有关于ChatGPT的文章或者视频&#xff0c;对此我就不再过多描述“生成式人工智能”是促成ChatGPT落地的重要技术&#xff0c;“ChatGPT之父”阿尔特曼曾说&#xff1a;“我认为我们离生成式人工智能还有一定距离。至于判断标准&#x…