2022年「预训练」优秀论文盘点

No.69

智源社区

预训练组

cbc0399e5c60c9e4d87cc58a338ea530.png

研究

观点

资源

活动

周刊订阅

《预训练周刊》已经开启“订阅功能”,扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”,即可收到推送消息。

bb9208ef6495774e759000879343dae3.png

关于周刊

本期周刊,我们对2022年的预训练周刊中报道论文进行了重点汇总,包括了本年度的热点论文及领域综述等。视觉多模态话题包括各种通用模型、图文生成,机器人等;自然语言话题包括全年各个大厂的预训练和微调大模型等;生命科学话题介绍了本年在蛋白质预训练方面的进展;基础研究话题包括了Pathways、foundation transformer等在相对底层方面的工作。

本期汇总的话题,谨代表预训练周刊2022年中所报道的部分选摘内容,从中可以看到2022年大模型向着更大更通用的模型发展等整体趋势,希望2023能共同见证更通用更智能模型在各个下游领域大展身手。藉此机会、编辑组全员谨祝大家新年快乐!

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:翟珂 吴新刚)

6e4278ef3db7f4f5da49f963a462443c.jpeg

3d70b2ebbe9571fb610dbcebd86a4b3e.jpeg

a692b7db652e958963ac83d3cf3a8577.jpeg

414de85068b871aeee3530e2baaaf499.jpeg

efc5dab67b6c76ab899eb5cfc95a489b.jpeg

论文推荐

【视觉模态研究】

标题:Meta|data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(data2vec:语音、视觉和语言自监督学习的通用框架)

推荐理由:本文介绍了一种通用表征工具,它对任何一种模态都使用相同的学习方法, 核心思想是利用标准Transformer架构的遮蔽和自蒸馏机制学习,而不是预测特定任务目标。

论文地址:https://arxiv.org/pdf/2212.07525.pdf

Hub地址:https://hub.baai.ac.cn/view/14313

标题:谷歌 | Scaling Autoregressive Models for Content-Rich Text-to-Image Generation(用于内容丰富的文本到图像生成的缩放自回归模型)

推荐理由:本文展示了在Pathways基础上训练的自回归文本到图像模型Parti,这是一种自回归文本到图像生成模型,可实现高保真照片级真实感图像生成,并支持涉及复杂构图和世界知识的内容丰富的综合,与谷歌的Imagen扩散模型分庭而立。

论文地址:https://arxiv.org/pdf/2206.10789.pdf

Hub地址:https://hub.baai.ac.cn/view/18292

标题:Meta | Scaling Language-Image Pre-training via Masking(通过掩码进行语言-图像预训练的缩放)

推荐理由:本文提出一种用于训练CLIP的简单而有效的方案FLIP,它在训练过程中对图像块进行大比例的随机掩码移除,可以将CLIP的训练过程加速2~3倍。其核心改进就是在训练过程对图像进行随机掩码。

论文下载:https://arxiv.org/pdf/2212.00794.pdf

HUB地址:https://hub.baai.ac.cn/view/22214

标题:谷歌等 | RT-1: Robotics Transformer for Real-World Control at Scale(RT-1: 用于真实世界大规模控制的机器人Transformer)

作者:Anthony Brohan, Noah Brown等

推荐理由:本文提出了机器人Transformer RT-1,它可以吸收大量数据,并推广到新任务、环境、物体和其他机器人形态。RT1基于transformer解码器架构构建,将图像和任务描述作为输入,经过ImageNet预训练的EfficientNet-B3模型和语言模型指令编码后,直接输出代表动作的11个变量的离散化表征。

论文下载:https://arxiv.org/pdf/2212.06817.pdf

HUB地址:https://hub.baai.ac.cn/view/22538

标题:Deepmind、牛津等 | Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?(突破自监督ResNet的极限:我们能否在无标签ImageNet上超越监督学习?)

推荐理由:本文提出了ReLICv2,它将不变性损失与对比目标相结合,首次证明了在无标签的情况下学习到的表征能够持续超越ImageNet上强大的监督基线,同时它也是第一个使用标准ResNet架构的在同类比较中持续优于监督基线的表征学习方法。

论文下载:https://arxiv.org/pdf/2201.05119v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14183

标题:谷歌 | PaLI: A Jointly-Scaled Multilingual Language-Image Model(一种联合扩展的多语种语言图像模型)

推荐理由:本文展示了在Pathways基础上训练的迄今最大的ViT模型,PaLI。同时作者为训练 PaLI创建了一个大型多语言预训练数据集,包含100余种语言的文本和10B图像。PaLI 在多种视觉和语言任务中实现了最先进的水平,同时保留了简单、模块化和可扩展的设计。

论文下载:https://arxiv.org/abs/2209.06794  

Hub地址:https://hub.baai.ac.cn/view/20656

标题:斯坦福、Salesforce|MaskViT: Masked Visual Pre-Training for Video Prediction(MaskViT:遮蔽视觉预训练用于视频预测)

推荐理由:本文介绍了MaskViT,它使用时空两种类型的窗口注意力,并使用了可变的遮蔽率。并且推理中进行了迭代优化解码和加速。本文表明可以通过通用遮蔽视觉模型和少量领域知识赋予智能体强大的预测能力。

论文下载:https://arxiv.org/pdf/2206.11894v1.pdf

Hub地址:https://hub.baai.ac.cn/view/18528

标题:百度 | 通过原型进行提示:基于原型的预训练视觉语言模型的Prompt 学习

推荐理由:本文聚焦研究预训练视觉语言模型上的小样本图像识别任务、并提出基于原型的Prompt学习方法PTP,以克服任务级提示和实例级提示的局限性。实验结果表明:本文的方法获得了七个真实世界基准的SOTA性能。此外,通过详细分析,作者还讨论了在小样本学习的背景下Prompt 学习和参数有效微调的优缺点。

论文下载:https://arxiv.org/pdf/2210.10841.pdf

HUB地址:https://hub.baai.ac.cn/view/21165

标题:斯坦福、康奈尔、宾夕法尼亚、华盛顿大学联合 | CREPE: Can Vision-Language Foundation Models Reason Compositionally?(CREPE:视觉语言基础模型能否进行组合推理?)

推荐理由:本文研究组合性评估基准、以用于评估预训练的视觉语言模型的系统性和生产力。在模型泛滥的当前,需要更多类似的大模型评估标准。

论文下载:https://arxiv.org/pdf/2212.07796.pdf

HUB地址:https://hub.baai.ac.cn/view/22629

标题:搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述

推荐理由:在本文中,来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉-语言预训练最新进展和新领域,包括图像-文本预训练和视频-文本预训练。

论文下载:https://arxiv.org/pdf/2202.09061.pdf

HUB地址:https://hub.baai.ac.cn/view/15943

标题:英国牛津大学、萨里大学| Multimodal Learning with Transformers: A Survey(综述:Transformers 多模态学习)

推荐理由:本文对面向多模态的 Transformer 技术进行了全面调查。主要内容包括:(1)多模态学习、Transformer 生态系统和多模态大数据时代的背景。(2)从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 的理论回顾。(3) 通过两个重要的范式:多模态预训练和特定的多模态任务,回顾多模态Transformer 应用程序。(4)总结常见挑战和设计。(5)讨论社区中的开放问题和潜在研究方向。

论文下载:https://arxiv.org/pdf/2206.06488

HUB地址:https://hub.baai.ac.cn/view/18006

标题:韩国科学技术院、NAVER公司 | DialogCC: Large-Scale Multi-Modal Dialogue Dataset(DialogCC:大规模多模态对话数据集)

推荐理由:本文提出大规模的多模态对话数据集 DialogCC,它涵盖了不同的现实世界主题和每个对话的不同图像。通过大量实验、作者证明了使用作者的数据集训练多模态对话模型可以提高泛化性能。

论文下载:https://arxiv.org/pdf/2212.04119.pdf

HUB地址:https://hub.baai.ac.cn/view/22463

标题:斯坦福大学、Meta、华盛顿大学 | Retrieval-Augmented Multimodal Language Modeling(检索增强的多模态语言建模)

推荐理由:多模态模型在文本到图像和图像到文本生成方面取得了显著进展。但这些模型将所有学习到的知识存储在模型参数中,需要越来越大的模型和训练数据来获取更多的知识。为了以更可扩展和模块化的方式集成知识,作者提出了一种检索增强的多模态模型,该模型使基础多模态模型能够引用检索器从外部存储器中获取的相关知识。该模型是业界第一个可以检索和生成文本和图像混合的多模态模型。

论文下载:https://arxiv.org/pdf/2211.12561.pdf

HUB地址:https://hub.baai.ac.cn/view/21934

标题:清华大学、字节跳动 | Multimodal Entity Tagging with Multimodal Knowledge Base(基于多模态知识库的多模态实体标注)

推荐理由:为了加强对多模态知识库和多模态信息处理的研究,作者提出了一种基于多模态知识库(MKB)的多模态实体标注(MET)任务、而且还使用现有的MKB为该问题开发了一个对应的数据集。 

论文下载:https://arxiv.org/pdf/2201.00693.pdf

HUB地址:https://hub.baai.ac.cn/view/13750

标题:谷歌 | End-to-end Generative Pretraining for Multimodal Video Captioning(多模态视频字幕的端到端生成预训练)

推荐理由:本文创意地把“视频流中未来的话语”加入预训练、实现了新型高效的多模态视频生成模型。而且作者的模型在多模态视频字幕的四个基准上、以及其他视频理解任务(如 VideoQA、视频检索和动作分类)上实现了SOTA性能。

论文下载:https://arxiv.org/pdf/2201.08264

HUB地址:https://hub.baai.ac.cn/view/14288

【自然语言研究】

标题:谷歌|LaMDA: Language Models for Dialog Applications(LaMDA:对话应用的语言模型)

推荐理由:本文介绍了一个超大对话预训练语言模型,具有多达1370亿个参数,并且对1.56T字的公共对话数据和网络文本进行预训练。

论文地址:https://arxiv.org/pdf/2201.08239.pdf

Hub地址:https://hub.baai.ac.cn/view/14312

标题:微软、英伟达|Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model(使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 5300亿,一种大规模生成语言模型)

推荐理由:本文展示了当时最大的具有 5300 亿个参数基于Transformer的语言模型 Megatron-Turing NLG,本文介绍了使用 DeepSpeed 和 Megatron 训练该模型的 3D 并行方法以及以及用于训练过程、训练语料库的设计和数据管理技术等基础设施。

标题:谷歌 | PaLM: Scaling Language Modeling with Pathways(PaLM:基于Pathways系统扩展语言模型)

推荐理由:本文展示了在Pathways基础上的5400 亿参数密集激活的 Transformer 语言模型PaLM,该模型可以在数百个语言理解和生成基准上实现最先进的小样本学习结果,展示了模型规模扩大的持续优势,并且在其中的许多任务中PaLM取得了突破性的表现。

论文下载:https://arxiv.org/pdf/2204.02311v1.pdf

Hub地址:https://hub.baai.ac.cn/view/16161

标题:CMU | reStructured Pre-training(重构预训练)

推荐理由:本文提出一种新预训练范式,重构预训练,即识别数据,用统一的语言重组数据,将它们集成并存储到预训练语言模型中。该范式重新重视数据的作用,并将模型预训练和下游任务的微调视为数据的存储和访问过程。

论文下载:https://arxiv.org/pdf/2206.11147.pdf

HUB地址:https://hub.baai.ac.cn/view/18255

标题:Huggingface等 | BLOOM: A 176B-Parameter Open-Access Multilingual Language Model(BLOOM: 176B参数的开源多语言模型)

推荐理由:近年来,训练越来越大的语言模型已经成为一种常态,但鲜有人关注如何训练这些大模型的隐藏知识技巧。本文旨在改变这种状况,以公开民主的方式训练开源176B参数的语言模型BLOOM,并从硬件和软件两个方面阐明训练模型背后的技术和工程。

论文下载:https://arxiv.org/pdf/2211.05100.pdf

HUB地址:https://hub.baai.ac.cn/view/18992

标题:Meta | Atlas: Few-shot Learning with Retrieval Augmented Language Models(Atlas: 用检索增强的语言模型进行小样本学习)

推荐理由:本文介绍了检索增强的语言模型:Atlas。它通过从数据库中检索信息回答问题,以110亿的参数表现超越了50倍大的PaLM模型。另外Atlas的检索可以被直接查验与更新,从而获得更好的可解释性。

论文链接:https://arxiv.org/pdf/2208.03299.pdf

HUB地址:https://hub.baai.ac.cn/view/19716

标题:谷歌 | Scaling Instruction-Finetuned Language Models(扩展指令微调语言模型)

推荐理由:本文提出新的微调方式,大规模指令微调,并讨论了扩展任务数量,扩展模型大小,以及用思维链数据进行微调等方式,通过指令微调模型可以实现比更大参数模型PaLM更好的小样吧性能。

论文下载:https://arxiv.org/pdf/2210.11416.pdf

HUB地址:https://hub.baai.ac.cn/view/21163

标题:UIUC、谷歌 | Large Language Models Can Self-Improve(大语言模型可以自我改进)

推荐理由:本文研究了一种大语言模型无监督微调的方式。使用预训练大模型,利用思维链提示和自洽性,为无标签的问题生成高置信度的理性增强答案,并使用这些自生成的数据作为标签输出来微调语言模型。

论文下载:https://arxiv.org/pdf/2210.11610v2.pdf

HUB地址:https://hub.baai.ac.cn/view/21292

标题:OpenAI | ChatGPT

推荐理由:ChatGPT是年末最大热点。整体技术路线上,ChatGPT在效果强大的GPT3.5大规模语言模型基础上,引入“人工标注数据+强化学习”来不断微调预训练语言模型,主要目的是让大语言模型学会理解人类的命令指令的含义,以及让语言模型学会判断对于给定的prompt输入指令,什么样的答案是优质的。

HUB地址:https://hub.baai.ac.cn/view/22253

标题:以色列理工学院 | Temporal Attention for Language Models(语言模型的时间注意机制)

推荐理由:本文是将时间感知应用在预训练语言模型Attention机制上的创新研究。在这项工作中,作者扩展了transformer架构的关键组件:自我注意机制,并提出了时间注意机制——一种时间感知的自我注意机制,在三个数据集上的实验均达到了SOTA结果。

论文下载:https://arxiv.org/pdf/2202.02093.pdf

HUB地址:https://hub.baai.ac.cn/view/14618

标题:复旦大学、华东师范 | Black-Box Tuning for Language-Model-as-a-Service(语言模型即服务的黑盒调优)

推荐理由:GPT-3等超大的预训练语言模型通常作为服务发布,允许用户设计特定于任务的提示、通过黑盒API来查询预训练模型。在这种场景中,作者称之为语言模型即服务。本文提出了通过无导数算法优化预训练语言模型的黑盒调整。特别是,作者调用“协方差矩阵自适应进化策略”,通过迭代调用预训练语言模型推理API来优化输入文本之前的连续提示。实验结果表明:基于RoBERTa的黑盒调优不仅显著优于手动提示与GPT-3的上下文学习,而且还优于基于梯度的对应方法、即提示调优和全模型调优。

论文下载:https://arxiv.org/pdf/2201.03514.pdf

HUB地址:https://hub.baai.ac.cn/view/14009

标题:清华大学、北京国家信息科学技术研究中心等联合 | Prompt Tuning for Discriminative Pre-trained Language Models(判别式预训练语言模型的提示调优)

推荐理由:业界第一个用于判别预训练语言模型的Prompt提示调优框架,它将 NLP 任务重新定义为判别语言建模问题。实验表明:与普通微调相比,该框架实现了显着更高的性能,并且还防止了在全集和低资源设置中调优大型预训练语言模型的不稳定问题。

论文下载:https://arxiv.org/pdf/2205.11166

HUB地址:https://hub.baai.ac.cn/view/17415

3b065106710c1008f1c521b4d30ab2da.jpeg

d59556d04c0aac54251128b4fa567a2c.jpeg

57ef3125aaf551a718d171dabdabdc1d.jpeg

3fa107f0aa37d119c47b463b286ae1e9.jpeg

bcc86ddd5490860fcf54230561ae7253.jpeg

生命科学研究

标题:德国拜罗伊特大学 | A deep unsupervised language model for protein design(用于蛋白设计的深度无监督语言模型)

推荐理由:本文介绍了GPT范式的蛋白生成模型ProtGPT2,一个在蛋白质空间上训练的语言模型,其生成的蛋白质显示出与天然蛋白质相似的氨基酸倾向性,可以揭示目前结构数据库中没有捕捉到的新拓扑结构,同时也抓住了一些功能决定因素,保留了配体结合的相互作用。

论文下载:https://doi.org/10.1101/2022.03.09.483666

HUB地址:https://hub.baai.ac.cn/view/15617

标题:Meta、UC伯克利、纽约大学 | Learning inverse folding from millions of predicted structures(从数百万个预测蛋白质结构中学习逆折叠,预测序列信息)

推荐理由:本文介绍了蛋白质结构模型ESM-IF1,该模型通过使用 AlphaFold2 预测 12M 蛋白质序列的结构训练,提高了模型困惑度和序列恢复度,并展示了对更长蛋白质复合物、多种构象的蛋白质以及对结合亲和力和突变影响的零样本预测的泛化。

论文下载:https://doi.org/10.1101/2022.04.10.487779

HUB地址:https://hub.baai.ac.cn/view/16410

标题:Meta AI | Language models of protein sequences at the scale of evolution enable accurate structure prediction(进化尺度上的蛋白质序列语言模型使准确的结构预测成为可能)

推荐理由:本文介绍了目前最大的蛋白质预训练语言模型ESM2和相应结构预测工具ESMfold,它可以直接从蛋白质的单序列中进行高精度端到端原子水平结构预测并且速度很快。该方法可以用于探索元基因组蛋白的结构空间,有助于揭示对天然蛋白质的广度和多样性的规律。

论文下载:https://doi.org/10.1101/2022.07.20.500902

HUB地址:https://hub.baai.ac.cn/view/19108

0f83ab2dabd2202592c936e8f67afe34.jpeg

4855a22ae9e61d8758d6ae34d71ba8f9.jpeg

bae6e7920dc01612f9b765d2011baab6.jpeg

108b6a1c33cd7a94c562aff47710422f.jpeg

dcbcad7dbec140c67c1918f3189854fe.jpeg

基础研究

标题:微软|DeepNet: Scaling Transformers to 1,000 Layers(DeepNet:将Transformer扩展到1000层)

推荐理由:本文成功地扩大了Transformer到1,000层,比之前的深度变换器要深一个数量级。作者引入了一个新的归一化函数(DEEPNORM)修改Transformer中的残差连接,可以结合Post-LN的良好表现和Pre-LN的稳定训练。

论文下载:https://arxiv.org/pdf/2203.00555.pdf

Hub地址:https://hub.baai.ac.cn/view/15195

标题:谷歌 | Pathways: Asynchronous Distributed Dataflow for ML(Pathways: 用于ML的异步分布式数据流)

推荐理由:本文展示了PaLM使用的系统Pathways,它可以在用一个架构同时处理多项任务,拥有快速学习新任务、更好地理解世界的能力。它使用了一种新的异步分布式数据流设计,采用单控制器模型,可以跨多个 TPU Pod 进行高效训练。

论文下载:https://arxiv.org/pdf/2203.12533.pdf

Hub地址:https://hub.baai.ac.cn/view/15984

标题:DeepMind、牛津、IDSIA等|A Generalist Neural Algorithmic Learner(通才神经算法学习者)

推荐理由:本文介绍了一种基于图神经网络的通用的神经算法学习器,能够学习执行各种算法例如排序、搜索、动态规划、寻路和几何。该学习器的特点是只要能在单任务机制下很好地执行任务,就可以以多任务方式有效地学习算法,这侧面证明了该通才学习器可以有效地整合专家模型捕获的知识。

论文下载:https://arxiv.org/pdf/2209.11142v1.pdf

Hub地址:https://hub.baai.ac.cn/view/20678

标题:微软 | Foundation Transformers(基础Transformers)

推荐理由:本文提出了一种跨越语言、视觉、语音和多模态的通用Transformer架构,它可以作为各种任务和模式的首选架构,并保证训练的稳定性,并从理论上提出了针对深层Transformer DeepNet的初始化策略来实现稳定提升。

论文下载:https://arxiv.org/pdf/2210.06423v1.pdf

HUB地址:https://hub.baai.ac.cn/view/21036

标题:美国弗吉尼亚大学、微软 | Active Data Pattern Extraction Attacks on Generative Language Models(对生成语言模型的主动数据模式提取攻击)

推荐理由:本文研究语言模型泄漏敏感信息的安全议题。在这项工作中,作者调查语言模型中的潜在信息泄漏漏洞 。实验表明:黑盒和灰盒攻击能够从基于transformer的语言模型中恢复大量的隐私信息。作者希望能够激励机器学习从业者和研究人员重视大模型中的隐私保护与各种对抗能力。

论文下载:https://arxiv.org/pdf/2207.10802.pdf

HUB地址:https://hub.baai.ac.cn/view/19332

标题:美国石溪大学、IBM | Attention Hijacking in Trojan Transformers(特洛伊木马Transformers 中的注意力劫持)

推荐理由:本文研究木马攻击对人工智能系统的严重威胁,期望引发对大模型日益加重的安全隐患的思考与关注。

论文下载:https://arxiv.org/pdf/2208.04946.pdf

HUB地址:https://hub.baai.ac.cn/view/19640

标题:西湖大学、中科院等 | A Survey of Pretraining on Graphs: Taxonomy, Methods, and Applications(图预训练的综述:分类法、方法和应用)

推荐理由:本文为目前大热的图预训练的第一个全面的综述,从四个不同的角度系统地对现有的PGM进行了分类,并介绍了图预训练在社会推荐和药物发现中的应用。

论文下载:https://arxiv.org/pdf/2202.07893v2

HUB地址:https://hub.baai.ac.cn/view/15946

标题:比利时鲁汶大学等 | Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models(综述:预训练语言模型的量化偏见)

推荐理由:随着对自然语言处理资源中的偏见模式的认识不断提高,推动了“偏见”和“公平性”量化指标的研究。但比较不同指标的结果、如何使用这些指标进行评估的工作依然不易。本文是一篇预训练语言模型的量化偏见的综述,作者对公平性度量指标研究并实验评估。为改进未来指标的比较和公平性评估,作者建议:避免嵌入基于度量的方法、并将重点放在下游任务中的公平性评估上。

论文下载:https://arxiv.org/pdf/2112.07447.pdf

HUB地址:https://hub.baai.ac.cn/view/13590

标题:加利福尼亚大学 | A Survey on Model Compression for Natural Language Processing(NLP模型压缩综述)

推荐理由:Transformer和预训练技术,推动了自然语言处理(NLP)的应用进展。然而Transformer的高能耗和长推理延迟阻碍了NLP进入更广泛的场景。在本次综述中,作者将重点放在推理阶段,并回顾NLP模型压缩的现状,包括基准、指标和方法,最后作者还概述了目前的障碍和未来的研究方向。

论文下载:https://arxiv.org/pdf/2202.07105

HUB地址:https://hub.baai.ac.cn/view/14944

标题:加利福尼亚大学 | A Survey on Dynamic Neural Networks for Natural Language Processing(NLP动态神经网络综述)

推荐理由:动态神经网络是一个新兴的研究方向,它能够根据输入动态调整神经网络的计算路径,从而在计算量和时间上实现亚线性增长。在这篇综述中,作者总结了三种动态神经网络在自然语言处理中的进展:略读(skimming)、混合专家模型(mixture of experts)和早期退出推理(early exit)。作者还强调了动态神经网络目前面临的挑战和未来研究的方向。

论文下载:https://arxiv.org/pdf/2202.07101.pdf

HUB地址:https://hub.baai.ac.cn/view/14945

c4528c09605623ed04a8c538ee5394a8.jpeg

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

d9aabf26010dbfa9a7b856e9cf71d1bb.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17426.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4问世,让AGI统治地球!(附技术报告解析)

来自:高能AI 进NLP群—>加入NLP交流群 老铁们,好久不见,我是JayJay。 就在刚刚,北京时间3月15日凌晨,GPT-4问世。 现在,ChatGPT-Plus已经可以访问GPT-4: GPT-4是OpenAI在深度学习领域深耕的最…

大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?

事情总是这样: 压力初露端倪,暗自考虑改变。 压力高能爆表,立马做出改变。 我们从一家叫做Databricks的美国知名公司聊起。 这家Databricks公司很有创新基因。 其创始人阿里戈西(Ali Ghodsi)作为“2022年福布斯全球亿万…

最新综述!AIGC到底是什么?都有哪些应用?一文尽览!

点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【AIGC】技术交流群 摘要 为了应对数字经济中数字智能的挑战,人工智能生成内容(AIGC)应运而生。AIGC使用人工智能,…

知乎高赞:普通人如何在这次ChatGPT热潮中搞钱?

过去这一段时间,ChatGPT可谓是红得发紫。其实去年已经火过一阵了,我当时还写过几篇相关的文章。 但上一次火,更多还是在咱们IT互联网的圈子里火,而这一次是彻底火出圈,各行各业都在争相报告,甚至连很多官媒…

用ChatGPT直播带货!Firework发布全球首个直播购物GPT

美东时间5月3日,美通社消息,视频技术服务平台Firework,宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品,以帮助播主提升商业化转化率和客户体验。 据悉,美国著名连锁超市The Fresh Market将成为该产品的首批用户…

知名科技公司创始人被曝猛料:“偷”代码建公司,学历造假,拖欠工资

推荐阅读:程序员的悲哀是什么? 新智元报道 编辑:编辑部 【新智元导读】「借用」他人代码,建起10亿美元帝国? Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料…

Stable Diffusion 被爆剽窃!创始人学历造假、拖延工资

来源 | 新智元 Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料,让Stabiliyt AI名声鹊起的Stable Diffusion,源代码其实是另一组研究人员写的。 在Stable Diffusion发表之前,来自德…

Python开源项目月排行 2023年6月

#2023年6月2023年6月10日1FinGPT对标BloombergGP ,哥伦比亚大学联合上海纽约大学推出全新大模型产品FinGPT ,这是一款面向金融领域的大模型产品。FinGPT采用以数据为中心的方法,提供给研究者和从业者使用的透明资源,便于他们开发自…

数影周报:现代汽车发生数据泄露事件;淘宝天猫集团完成组织调整

本周看点:现代汽车发生数据泄露事件;微软会议应用Teams 新功能可禁用/启用脏话过滤器;欧洲隐私监管机构创建ChatGPT工作组;淘宝天猫集团完成组织调整;阿里巴巴再向Lazada投资3.529亿美元...... 数据安全那些事 现代汽车…

AI+AR,二维码还能这么玩儿!优质提示词的12个技巧;LLM学习路径和资料汇总;AI二维码工具大盘点 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 AI二维码再升级,AR 版本带你扫码逛火星 博主 XRarchitect 创建了 AR (Augmented Reality,增强现实) 版本的二维…

山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 近半年来,随着 OpenAI 推出 ChatGPT、GPT-4,彻底点燃 AI 赛道,也让 GPT 系列产品层出不穷,如 AutoGPT、MiniGPT-4、Cerebras-GPT 等等。 不过&#xff0c…

首页科技 关于 ChatGPT 的 AI 竞争对手 Google Bard,你需要了解什么

Google Bard 是ChatGPT主导力量的最大竞争对手。顾名思义,Bard 来自科技巨头谷歌,以其巨额资金、永无止境的用户数据来源以及数百种应用程序、工具和软件作为后盾。 虽然该产品才公开发布几个月,但它已经进行了一次重大更新,推出…

docker出现no matching manifest for windows/amd64 10.0.18363 in the manifest list entries错误

错误如截图 解决方法 将"experimental" 设置为true,应用并重启

修改 ChatGLM2-6B 自我认知的 Lora 微调教程

修改 ChatGLM2-6B 自我认知的 Lora 微调教程 0. 背景1. 部署微调项目2. 数据集说明3. 模型监督微调(Lora)4. 模型效果测试5. 导出微调模型6. 调用导出的模型 0. 背景 现在开始学习微调,主要学习 Lora 微调。 这次尝试了修改 ChatGLM2-6B 自我认知,文章…

和Ai一起学习CMake(一)

和Ai一起学习CMake 现在人工智能爆火,ChatGPT、new bing等层出不穷。我们借助Ai来学习一下CMake。下面是我与Ai的问答,这个学习主要是通过Ai来学习,但是防止Ai乱说话,我会结合自身的知识和实际操作给出相应的补充。 我的环境如下…

ChatGPT获取access_token无需API-KEY反向代理抓取WEB端数据2023.6月

嘿,我来告诉你关于获取access_token数据的原理!首先,我要说我超级骄傲,因为我是一个聪明又努力的技术博主,可以帮助你理解这个过程。 获取access_token数据其实是一个授权的过程。你可以把它想象成我是一个超级保安&a…

ChatGPT驱动虚拟主播(2)语音驱动图片数字人

整个流程是这样的 。你说话的 语音-->语音转为文字 -->chatgpt --> 文字转为语音-->驱动虚拟主播。 前面的流程都是非常多的参考代码。下面代码就是教你如果做到这一步。这个虚拟主播是可用wav格式音频驱动虚拟主播的。代码是一个http接口,上传wav文件…

哈工大车万翔:自然语言处理范式正在变迁

Datawhale干货 作者:车万翔,哈工大教授,编辑:李rumor 最近几天被OpenAI推出的ChatGPT[1]刷屏了,其影响已经不仅局限于自然语言处理(NLP)圈,就连投资圈也开始蠢蠢欲动了,…

计算机用户账户已禁用,windows 7系统 您的账户已被停用 Administrator帐户已停用如何开启...

类型:数据库类大小:2.1M语言:多国语言[中文] 评分:3.8 标签: 立即下载 平时一般使用Ghost安装系统,这次换了系统安装盘装windows系统时,必须创建一个用户才能安装,安装后我们希望用超…

windows账户被停用,如何启动账户?

找到“计算机管理”(可以win键,输入计算机管理就出现了) 出现这个情况主要是因为administrator账户被禁用,原因主要是用户对系统进行设置的过程中不小心将administrator属性里的“账户已禁用”进行了勾选 把账户已禁用进行不勾选就可以了