LLM/ChatGPT与多模态必读论文150篇(已更至第100篇)

目录

前言

第一部分 OpenAI/Google的基础语言大模型(11篇,总11篇)

第二部分 LLM的关键技术:ICL/CoT/RLHF/词嵌入/位置编码/加速/与KG结合等(34篇,总45篇)

第三部分 Meta等公司发布的类ChatGPT开源模型和各种微调(7篇,总52篇)

第四部分 具备多模态能力的大语言模型(11篇,总63篇)

第五部分 AI绘画与多模态能力背后的核心技术(21篇,总84篇)

第六部分 预训练模型的发展演变史(3篇,总87篇)

第七部分 垂域版类ChatGPT(比如医疗GPT)和其它(11篇,总98篇)


前言

按上篇文章《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT-N、instructGPT》的最后所述

为了写本ChatGPT笔记,过去两个月翻了大量中英文资料/paper(中间一度花了大量时间去深入RL),大部分时间读的更多是中文资料


2月最后几天读的更多是英文paper,正是2月底这最后几天对ChatGPT背后技术原理的研究才真正进入状态(后还组建了一个“ChatGPT之100篇论文阅读组”,我和10来位博士、业界大佬从23年2.27日起读完ChatGPT相关技术的100篇论文,如果你想加入100篇论文阅读组,可戳此链接),当然 还在不断深入,由此而感慨: 

  1. 读的论文越多,你会发现大部分人对ChatGPT的技术解读都是不够准确或全面的,毕竟很多人没有那个工作需要或研究需要,去深入了解各种细节
  2. 因为半年内100篇这个任务,让自己有史以来一篇一篇一行一行读100篇,​之前看的比较散 不系统 抠的也不细
    比如回顾“Attention is all you need”这篇后,对优化博客内的Transformer笔记便有了很多心得

总之,读的论文越多,博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃

且考虑到为避免上篇文章篇幅太长而影响完读率,故把这100篇(后增至150篇)论文的清单抽取出来独立成本文

第一部分 OpenAI/Google的基础语言大模型(11篇,总11篇)

  1. Improving Language Understanding by Generative Pre-Training
    GPT原始论文
  2. Language Models are Unsupervised Multitask Learners
    GPT2原始论文

  3. Language Models are Few-Shot Learners
    GPT3原始论文

  4. Training language models to follow instructions with human feedback
    InstructGPT原始论文
  5.  Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
    19年10月,Google发布T5模型(transfer text to text transformer),虽也基于transformer,但区别于BERT的编码器架构与GPT的解码器架构,T5是transformer的encoder-decoder架构,这是解读之一 的
    用的750G的训练数据,其训练方法则为:BERT-style的MASK法/replace span(小段替换)/Drop法,以及类似BERT对文本的15%做破坏、且replace span时对3的小段破坏
  6. LaMDA: Language Models for Dialog Applications
    论文发布于22年1月,显示LaMDA的参数高达137B,用的transformer decoder架构,这是简要解读之一
    21年5月,Google对外宣布内部正在研发对话模型LaMDA,基于transformer decoder架构,在微调阶段 使用58K的对话数据,过程类似真人的对话过程,给定一个Query,比如 How old is Rafael Nadal? ,如果人知道答案,那么直接回答35岁即可,如果不知道,则需要去 Research 一下,借助搜索引擎找到答案,然后再回答35岁
  7. 《Finetuned Language Models Are Zero-Shot Learners》
    21年9月,Google提出FLAN大模型,其基于LaMDA-PT做Instruction Fine-Tuning
    FLAN is the instruction-tuned version of LaMDA-PT
  8. PaLM: Scaling Language Modeling with Pathways
    22年3月,Google的Barham等人发布了Pathways系统,用于更高效地训练大型模型
    Pathways 的愿景 —— 一个很接近人脑的框架:一个模型,可以做多任务,多模态
    且在做任务时,只是 sparsely activated,只使用一部分的参数

    22年4月,Google发布PaLM模型,基于Transformer decoder架构,参数规模最大的版本达到惊人的5400亿参数(8B 62B 540B),使用multi-query注意力、SwiGLU激活函数以及RoPE位置嵌入,这是翻译之一
    且在每个Transformer块中使用 "平行 "表述(Wang & Komatsuzaki,2021)
    是Google的Pathways架构或OpenAI GPT2/3提出的小样本学习的进一步扩展

    PaLM首次展示了Pathways的大规模使用——能够以高效的方式在数千或数万个加速器芯片上训练一个模型
    具体来说,通过Pathways,PaLM 540B在两个通过数据中心网络连接的TPU v4 Pod上训练,使用模型和数据并行的组合,在每个Pod中使用3072个TPU v4芯片,连接到768台主机,能够有效地将训练扩展到6144个芯片,而不需要使用任何pipeline并行,其效率水平是以前这种规模的模型所不能达到的

    以前的大多数大型语言模型
    \rightarrow  要么是在单个TPU系统上训练的(比如GLaM by Du等人2021年,LaMDA by Thopilan等人)
    \rightarrow  要么是使用由Huang等人在2019年提出的pipeline并行,从而在GPU集群(Megatron-Turing NLG 530B by Smith等人2022年),或多个TPU v3 pod(Gopher by Rae等人2021年)上扩展,最大规模为4096个TPU v3芯片

    另,在自然语言、代码和数学推理等任务中表现的都很不错
    此外,预训练数据集由一个7800亿个token组成的语料库,该数据集是由过滤过的网页(占比27%)、书籍(占比13%)、Wikipedia(占比4%)、新闻文章(占比1%)、Github源代码(占比5%,包括Java、HTML、Javascript、Python、PHP、C#、XML、C++和C,总计196GB的源代码),和社交媒体对话(占比50%)组成的,这个数据集是也用于训练LaMDA和GLaM
  9.  Constitutional AI: Harmlessness from AI Feedback
    OpenAI之前一副总裁离职搞了个ChatGPT的竞品,ChatGPT用人类偏好训练RM再RL(即RLHF),Claude则基于AI偏好模型训练RM再RL(即RLAIF) 

  10. Improving alignment of dialogue agents via targeted human judgements
    DeepMind的Sparrow,这个工作发表时间稍晚于instructGPT,其大致的技术思路和框架与 instructGPT 的三阶段基本类似,但Sparrow 中把奖励模型分为两个不同 RM 的思路

  11.  GPT-4 Technical Report
    增加了多模态能力的GPT4的技术报告

第二部分 LLM的关键技术:ICL/CoT/RLHF/词嵌入/位置编码/加速/与KG结合等(37篇,总48篇)

  1.  Attention Is All You Need
    Transformer原始论文

  2. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

  3. Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
    代码地址,这篇文章则将ICL看作是一种隐式的Fine-tuning,这是对该篇论文的解读之一

  4. A Survey on In-context Learning

  5. Noisy Channel Language Model Prompting for Few-Shot Text Classification ~ https://arxiv.org/pdf/2108.04106.pdf

  6. MetaICL: Learning to Learn In Context ~ https://arxiv.org/pdf/2110.15943.pdf

  7. https://github.com/dqxiu/ICL_PaperList
     in-context learning 研究梳理
    In-Context Learning到底有没有Learning?

  8. Evaluating Large Language Models Trained on Code
    Codex原始论文
    预测当前序列的最后一个词时 可以选取概率最大的词(softmax最高的值),但没法全局最优且不具备多样性,当然 可以使用束搜索 一次性获取多个解
    论文中用的是核采样,预测的各个词根据概率从大到小排序,选取前些个概率加起来为95%的词

  9. Meta-learning via Language Model In-context Tuning

  10. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
    28 Jan 2022 · Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
    CoT原始论文
    也从侧面印证,instructGPT从22年1月份之前 就开始迭代了

  11. Large Language Models are Zero-Shot Reasoners
    来自东京大学和谷歌的工作,关于预训练大型语言模型的推理能力的探究,“Let's think step by step”的梗即来源于此篇论文

  12. Emergent Abilities of Large Language Models
    Google 22年8月份发的,探讨大语言模型的涌现能力

  13. Multimodal Chain-of-Thought Reasoning in Language Models
    23年2月,亚马逊的研究者则在这篇论文里提出了基于多模态思维链技术改进语言模型复杂推理能力的思想

  14. TRPO论文

  15. Proximal Policy Optimization Algorithms
    2017年,OpenAI发布的PPO原始论文,在理解过程中有时会问下GPT4,感叹GPT4的细节能力 虽经常不是很严谨 但细节能力是真6
  16. RLHF原始论文
  17. Scaling Instruction-Finetuned Language Models
    微调PaLM-540B(2022年10月)
    从三个方面改变指令微调,一是改变模型参数,提升到了540B,二是增加到了1836个微调任务,三是加上Chain of thought微调的数据
  18. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
  19. Fine-Tuning Language Models from Human Preferences
    这是论文对应的代码:微调GPT2
  20. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
    LoRA论文
  21. p-tuning微调
  22. Distributed Representations of Sentences and Documents
     Mikolov首次提出 Word2vec

    Efficient estimation of word representations in vector space
     Mikolov专门讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling

  23. word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method
    Yoav Goldberg关于word2vec的论文,对 negative-sampling 的公式推导非常完备

    word2vec Parameter Learning Explained
    Xin Rong关于word2vec的论文,非常不错

  24. ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
    旋转位置嵌入(RoPE)论文,这是作者本人对它的解读

  25. Linearized Relative Positional Encoding
    统一了适用于linear transformer的相对位置编码

  26. SEARCHING FOR ACTIVATION FUNCTIONS
    SwiGLU的原始论文

  27. 《The Natural Language Decathlon:Multitask Learning as Question Answering》
    GPT-1、GPT-2论文的引用文献,Salesforce发表的一篇文章,写出了多任务单模型的根本思想
  28. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022
  29. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
    ZeRO是微软deepspeed的核心,这是关于ZeRO的解读之一
  30. Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
    Megatron-LM 论文原始论文
    对相关技术的解读:千亿参数开源大模型 BLOOM 背后的技术
  31. Efficient sequence modeling综述
    包含sparse transformer、linear transformer(cosformer,transnormer)
    RNN(RWKV、S4),Long Conv(TNN、H3)
  32. Vicuna tackle the memory pressure by utilizing gradient checkpointing and flash attention
    Training Deep Nets with Sublinear Memory Cost
  33. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
  34. Unifying Large Language Models and Knowledge Graphs: A Roadmap
    LLM与知识图谱的结合实战
  35. Fast Transformer Decoding: One Write-Head is All You Need
    Muti Query Attention论文,MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度,这是其解读之一
  36. GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints
    Grouped-Query Attention论文
  37. Flashattention: Fast and memory-efficient exact attention with io-awareness
    Flash Attention论文,这是其解读之一

第三部分 Meta等公司发布的类ChatGPT开源模型和各种微调(7篇,总55篇)

  1. LLaMA: Open and Efficient Foundation Language Models
    2023年2月24日Meta发布了全新的65B参数大语言模型LLaMA,开源,大部分任务的效果好于2020年的GPT-3
    这是针对该论文的解读之一
  2. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
    代码地址,解读1、解读2
    3月中旬,斯坦福发布Alpaca:只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型
    而斯坦福团队微调LLaMA的方法,便是来自华盛顿大学Yizhong Wang等去年底提出的这个Self-Instruct

    具体而言,论文中提出,首先从自生成指令种子集中的175个人工编写的「指令-输出」对开始,然后,提示text-davinci-003使用种子集作为上下文示例来生成更多指令
    而斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例微调LLaMA搞出来的

  3. Alpaca: A Strong Open-Source Instruction-Following Model

  4. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022

  5. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model


  6. GLM: General Language Model Pretraining with Autoregressive Blank Infilling
    2022年5月,正式提出了GLM框架
  7. GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL,代码地址
    GLM-130B便是基于的GLM框架的大语言模型

第四部分 具备多模态能力的大语言模型(11篇,总66篇)

  1. BEiT: BERT Pre-Training of Image Transformers
  2. BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

  3. Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
    这是针对该论文的解读之一
    2022年8月,微软提出的多模态预训练模型BEiT-3

  4.  Language Is Not All You Need: Aligning Perception with Language Models
    微软23年3月1日发布的多模态大语言模型Kosmos-1的论文
  5. PaLM-E: An Embodied Multimodal Language Model(论文地址)
    Google于23年3月6日发布的关于多模态LLM:PaLM-E,可让能听懂人类指令且具备视觉能力的机器人干活
  6. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
    微软于23年3月8日推出visual ChatGPT(另,3.9日微软德国CTO说,将提供多模态能力的GPT4即将一周后发布)
    At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one round fixed inputs and outputs. 

    To this end, We build a system called {Visual ChatGPT}, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 
    1) sending and receiving not only languages but also images 
    2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 
    3) providing feedback and asking for corrected results. 

    We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback
  7. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
    minigpt-4的介绍页面、GitHub

  8. ​Flamingo: a visual language model for few-shot learning
  9. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022
  10. Language models are unsupervised multitask learners. 2019
  11. Improving language understanding by generative pre-training. 2018

第五部分 AI绘画与多模态能力背后的核心技术(21篇,总87篇)

  1. End-to-End Object Detection with Transformers
    DETR by 2020年5月,这是针对DETR的解读之一

    回顾下20年之前的模型提出史(我18年写过一篇:一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD)
    2014 R-CNN
    2015 Fast R-CNN、Faster R-CNN
    2016 YOLO、SSD
    2017 Mask R-CNN、YOLOv2
    2018 YOLOv3
    2019 CenterNet
    2020 DETR

    20年之后,CV迎来了生成式下的多模态时代『我也正在写这个系列博客,AI绘画与CV多模态原理解析:VAE、扩散模型DDPM、DETR、ViT/Swin transformer、CLIP/BLIP到stable diffusion、GPT4(后者待5月中旬发布)
    2020年
    \rightarrow  6月 DDPM
    \rightarrow 10月 DDIM、Vision Transformer
    2021年
    \rightarrow  1月 CLIP、DALL·E
    \rightarrow  3月 Swin Transformer
    \rightarrow  11月 MAE、Swin Transformer V2
    2022年
    \rightarrow  1月 BLIP
    \rightarrow  4月 DALL·E 2
    \rightarrow  8月 Stable Diffusion、BEiT-3
    2023年
    \rightarrow  1月 BLIP2
    \rightarrow  3月 Visual ChatGPT、GPT-4

  2. AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION A​​​​​​T SCALE
    发表于2020年10月的Vision Transformer原始论文,代表Transformer正式杀入CV界
  3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows,发表于21年3月
    解读戳这
  4. Swin Transformer V2: Scaling Up Capacity and Resolution
    解读戳这里
  5. Auto-Encoding Variational Bayes
    苏剑林关于VAE的解读之一,这是另外一个作者:基于苏这个VAE的解读对扩散模型的理解
    WGAN
  6. Denoising Diffusion Probabilistic Models
    2020年6月提出DDPM,即众人口中常说的diffusion model
    这是苏剑林关于DDPM的相对通俗的系列解读,这是另一份解读:What are Diffusion Models?(该解读的中文笔记)
  7. Diffusion Models Beat GANs on Image Synthesis
    使用classifier guidance的方法,引导模型进行采样和生成
  8. High-Resolution Image Synthesis with Latent Diffusion Models

    2022年8月发布的Stable Diffusion基于Latent Diffusion Models,专门用于文图生成任务
    这些是相关解读:图解stable diffusion(翻译版之一)、这是另一解读,这里有篇AI绘画发展史的总结

    Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里,然后再进行繁重的模型训练和图像生成计算

  9. ​Aligning Text-to-Image Models using Human Feedback,这是解读之一
    ChatGPT的主要成功要归结于采用RLHF来精调LLM,近日谷歌AI团队将类似的思路用于文生图大模型:基于人类反馈(Human Feedback)来精调Stable Diffusion模型来提升生成效果
    目前的文生图模型虽然已经能够取得比较好的图像生成效果,但是很多时候往往难以生成与输入文本精确匹配的图像,特别是在组合图像生成方面。为此,谷歌最新的论文提出了基于人类反馈的三步精调方法来改善这个问题
  10. CLIP: Connecting Text and Images - OpenAI
    这是针对CLIP论文的解读之一
    CLIP由OpenAI在2021年1月发布,超大规模模型预训练提取视觉特征,图片和文本之间的对比学习(简单粗暴理解就是发微博/朋友圈时,人喜欢发一段文字然后再配一张或几张图,CLIP便是学习这种对应关系)

    2021年10月,Accomplice发布的disco diffusion,便是第一个结合CLIP模型和diffusion模型的AI开源绘画工具,其内核便是采用的CLIP引导扩散模型(CLIP-Guided diffusion model)
    且后续有很多基于CLIP的一系列改进模型,比如Lseg、GroupViT、ViLD、GLIP
  11. Zero-Shot Text-to-Image Generation
    DALL·E原始论文
  12. Hierarchical Text-Conditional Image Generation with CLIP Latents
    这是解读之一
    DALL·E 2论文2022年4月发布(至于第一代发布于2021年初),通过CLIP + Diffusion models,达到文本生成图像新高度
  13. BLIP (from Salesforce) released with the paper BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi.
  14. BLIP-2 (from Salesforce) released with the paper BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models by Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi.

  15. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
    23年5月发布的InstructBLIP论文,这是其解读之一

  16. LAVIS: A Library for Language-Vision Intelligence
    Salesforce开源一站式视觉语言学习框架LAVIS,这是其GitHub地址:https://github.com/salesforce/LAVIS

  17. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
    对各种多模态模型的评测,这是其解读之一

  18.  Segment Anything
    23年4.6日,Meta发布史上首个图像分割基础模型SAM,将NLP领域的prompt范式引进CV,让模型可以通过prompt一键抠图。网友直呼:CV不存在了!

  19. A Comprehensive Survey on Segment Anything Model for Vision and Beyond
    对分割一切模型SAM的首篇全面综述:28页、200+篇参考文献,这是其中文介绍链接

  20.  Fast Segment Anything
    中科院版的分割一切,这是FastSAM的解读之一 

  21. MobileSAM
    比SAM小60倍,比FastSAM快4倍,速度和效果双赢

第六部分 预训练模型的发展演变史(3篇,总90篇)

  1. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT:https://arxiv.org/pdf/2302.09419
    预训练基础模型的演变史
  2. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
  3. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
    作者来自CMU的刘鹏飞,这是相关资源

    另一篇类似的,Pre-Trained Models: Past, Present and Future
    21年1月初在CCF启智会支持下,文继荣、唐杰和黄民烈三位老师召集了以预训练模型为主题的闭门研讨会,此后22位老师和同学经过近半年准备,共同形成了这篇43页的综述和观点文章 Pre-Trained Models: Past, Present and Future

第七部分 垂域版类ChatGPT(比如医疗GPT)和其它(10篇,总100篇)

  1. Large Language Models Encode Clinical Knowledge

    挺有意思的,从palm - flan palm(指令微调palm模型) - instruction prompt-tuned Flan-PaLM(提示指令调优flan-palm模型)的过程中,通过instruction prompt-tuned Flan-PaLM得到医疗问答模型med-palm,而提出了instruction prompt tuning的方法

    如下图所示,在Instruction prompt tuning中,微调的参数主要是"soft prompt vectors",也就是软提示向量。这些向量通常被添加到输入的开始部分,作为一种"prompt"来引导模型的输出(这句话比较关键),这些soft prompt vectors在训练过程中通过反向传播进行学习和调整,模型的其余部分(包括词嵌入参数和其他参数)通常保持冻结,不进行调整

    说白了,medpalm 就是在模型(flan palm)的输入层加了个提示向量,然后反向传播去微调这个提示向量..而这个提示向量的作用就是引导模型输出
    下图是论文中展示的提示示例(一些垂域版的类ChatGPT,比如chatdoctor 也是这种数据格式)

    故本质还是一个prompt learning,但为了让模型的输出更好 去微调prompt

    所以合起来成了:instruction prompt tuning
    相当于:fine tuning instruction prompt

    有点像:不用人工费力设计prompt,自动出prompt的感觉

    总之,在训练方法上
    通过对比40个样例下,模型的输出与参考QA,然后以此去fine tuning prompt,以激发模型更好的回答
    之后 通过7大医学数据集评估

    全程下来 并不涉及flan palm模型原本参数的更改,很6了

  2. Towards Expert-Level Medical Question Answering with Large Language Models
    继上篇论文提出medpalm之后,5月16日,Google Research和DeepMind发布了Med-PaLM 2,相比第一代最显著的改进是基座模型换成了Google的最新大模型PaLM2(据说有着340b参数,用于训练的token数达3.6万亿)

    重点提一下它的其中两个显著特点
    自我一致性
    (Self-consistency)自我一致性(SC)是Wang等人提出的一种策略,通过从模型中采样多个解释和答案来提高多项选择基准测试上的性能。最终答案是得票最多(或相对多数)的答案。对于像医学这样复杂的推理路径域来说,正确答案可能有多种潜在的路径。边缘化推理路径可以得出最准确的答案。自我一致性提示策略对Lewkowycz等人[44]的工作产生了特别强的改进。在这项工作中,我们使用与Singhal等人相同的CoT提示进行11次采样的自我一致性

    集成精炼(Ensemble refifinement) 在思维链和自我一致性的基础上,我们开发了一种简单的提示策略,称为集成精炼(ER)。ER建立在其他技术的基础上,这些技术涉及在产生最终答案之前使LLM对其自己的生成进行条件设置,包括思维链提示和自我精炼
    ER涉及一个两阶段过程:首先,给定一个(少样本)思维链提示和一个问题,模型通过温度采样随机产生多个可能的生成。在这种情况下,每个生成都涉及对多项选择问题的解释和答案。然后,模型在原始提示、问题和前一步骤的连接生成的条件下,被提示产生精炼的解释和答案。这可以解释为自我一致性的推广,其中LLM正在聚合第一阶段的答案,而不仅仅是简单的投票,使LLM能够考虑它生成的解释的优点和缺点。
    在这里,为了提高性能,我们多次执行第二阶段,然后最终对这些生成的答案进行多数票投票,以确定最终答案。集成精炼如下图所示

  3. ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
    医疗ChatDoctor论文
  4. BloombergGPT: A Large Language Model for Finance
    金融BloombergGPT论文,这是其解读之一
  5. Deep Residual Learning for Image Recognition
    ResNet论文,短短9页,Google学术被引现15万多
    这是李沐针对ResNet的解读,另 这是李沐针对一些paper的解读列表
  6.  WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS

  7. Transformer-XL: Attentive language models beyond a fixed-length context
  8. An empirical analysis of compute-optimal large language model training
  9. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
  10. COLT5: Faster Long-Range Transformers with Conditional Computation

  11. Offsite-Tuning: Transfer Learning without Full Model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41886.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

讲课大师 把微信消息同步转发到企业微信中

讲课大师现在可以把微信中的语音、文字、图片等消息,转播到企业微信中了。开发这个功能,花了快三周的时间,主要是各种事情把我弄得太苦逼,让我无法集中精力,感谢上海杜总红包的鼓励,现在终于可以发布第一个…

好文转载 【ChatGPT】ChatGPT+MindShow三分钟生成PPT

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 第一步:获取PPT内容大概: 1.打开ChatGPT镜像 2.向他提问,提问格式如下,主题替换成你想获得的信息。比如某本书的拆解,自媒…

全面上新!阿里 2023 版(Java 岗)面试突击手册,Github 已标星 37K

程序员面试背八股,几乎已经是互联网不可逆的一个形式了。自从面试**八股文火了之后,网上出现了不少 Java 相关的面试题,很多朋友盲目收集背诵,**但网上大部分的面试题,大多存在这几个问题:第一,…

来阿里一年后我迎来了第一次工作变动....

你怎么不更新啦?怎么最近动态也变少啦?都去干吗了?工作很忙么? 算起来我也阶段性停更一年半了,这一年半不仅是在不断尝试自媒体不同的内容和方向,工作上的巨大转变也推着我去学习尝试了很多全新的东西。 …

阿里P8新年自爆内部使用的十万字面试手册

这份面试手册本来是我们部门面试时自用的【大厂的员工很辛苦的,不仅要敲代码还要去帮忙内推和面试】,可后来越来越多的朋友找到我,让我帮他们给一些面试的资料和面试上的指引,而且这些关系也不太好拒绝,我本就不是那种…

946页神仙文档, 四面阿里斩获offer,直接定级P7级

前言 最近气温逐渐回暖,几个朋友聚在一起聊天的时候统一发现,新的一波招聘旺季,马上要到来,毕竟年一过就金三银四了,这次的招聘依旧竞争压力山大,作为一个开发人员,你是否面上了自己理想的公司…

阿里高效沟通的秘密:向上沟通,跨部门沟通,PREP汇报...这5招绝了!

点击“技术领导力”关注∆ 每天早上8:30推送 来源:淘系技术 作者:鲁佳(鹿迦) 世界上有两件最难的事:把别人的钱装进自己的口袋;把自己的思想装进别人的脑袋。 为什么沟通那么重要 谁都知道在工作中沟通是非常重要的&#xff0…

阿里巴巴6大行业报告免费分享啦!

云栖君导读:飞天战略营将全方位研究人工智能、大数据与关键行业的合作、联动!更有前沿案例深度解读成功企业的发展突破点,帮你抢占科技红利!全球前沿科技领域的热门新闻评论为你带来前瞻性、专业性的阅读体验! 飞天战略…

聊聊我在阿里第一年375晋升的心得

前言 思来想去,觉得这个事情除了领导赏识大佬抬爱之外,还是挺不容易的,主观认为有一定的参考价值,然后也是复盘一下,继续完善自己。 绩效 首先晋升的条件就是要有个好绩效,那么我们就先基于绩效这个维度…

在阿里晋升3次,4年拿下P8岗位,这份pdf或许对你有帮助

前言: 每一个互联网工作者都拥有一个阿里梦,而这个阿里梦的实现,除了幸运,还要靠努力。 初入阿里,是P5的位置进去的,当时校招顺利,很快就接到阿里的意向书,最后成功入职阿里。这个职…

在阿里晋升3次,5年拿下P8岗位,这份pdf记录了我的整个成长过程

前言: 每一个互联网工作者都拥有一个阿里梦,而这个阿里梦的实现,除了幸运,还要靠努力。 初入阿里,是P5的位置进去的,当时校招顺利,很快就接到阿里的意向书,最后成功入职阿里。这个职…

公司新来的阿里p8,看了我做的APP和接口测试,甩给了我这份文档

移动应用App已经渗透到每个人的生活、娱乐、学习、工作当中,令人激动、兴奋且具有创造性的各种App犹如雨后春笋般交付到用户手中。各类智能终端也在快速发布,而开发者对于全球移动设备的质量和性能却掌握甚少,App与设备的兼容性问题常常导致用…

苦卷28天,阿里P8给我的Alibaba面试手册,终于成功踹开字节大门

怎么说呢,今年真的是寒气逼人啊!在这个大环境下,裁员已经不算是特别的事情,粗暴裁员也许是未来一种趋势…在职的卷的起飞,离职的找不到好工作。 做点能做的:跑跑步骑骑车多锻炼;当当上面正版书…

我在阿里做测试,入职5个月的回顾与总结

初来阿里实习的时候,我对测试人员的职责知之甚少,在校时更是从未接触过测试工作。一头雾水之际,主管说:“做项目吧,在实战中快速成长”。从学生到校招生,我在思维和心态完成了一次真正意义上的转变&#xf…

赶上ChatGPT的车,百度文心一言和阿里通义千问上线

百度“文心一言”,地址:https://yiyan.baidu.com 阿里“通义千问”,地址:https://tongyi.aliyun.com 以下介绍来自官方: 一、“文心一言”介绍: 你好,我是文心一言 ERNIE Bot 作为一个人工…

阿里入局,通义千问备受期待

目录 官宣内测体验内容鸟鸟分鸟后言 继百度文心一言发布三周之后,4月7日阿里通义大模型终于推出通义千问,阿里正式加入ChatGPT战局。下午市场一片大热,对于深耕NLP多年的阿里,大家有足够的期待。 官宣内测 “你好,我叫…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门翻译编程语言应用——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门翻译编程语言应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字…

语音助手开发教程

注:本教程属于功能验证性质 思维导图: 1、搭建MQTT服务器(腾讯云为例) 购买云服务器,镜像选择为ubuntu系统,服务器的概要页面的网络信息栏中点击管理规则,自行添加8083、1883、18083端口&…

我和程序员打了13年交道后,为什么做了缘创派?

可能很多朋友还不认识我,我叫闫辉,曾经在CSDN工作了十三年。做过《程序员》杂志记者,CTO俱乐部的产品和运营等等。 最初加入CSDN的时候,公司也就是10来个人,办公地点就在现在的鸟巢下面,那个地方当时叫利康…

【陈老板赠书活动 - 04期】- 【C++、Linux、算法等系列众书】

陈老老老板🦸 👨‍💻本文专栏:赠书活动专栏(为大家争取的福利,免费送书) 👨‍💻本文简述:与几分醉意.一起搞的赠书活动一次30本书哦!!…