multimodal prompting

Prompting for Multimodal Hateful Meme Classification

这篇文献探讨了针对hateful memes的分类问题,提出了一种基于提示的方法(PromptHate),该方法利用预训练的语言模型来实现分类。由于hateful memes需要复杂的推理和上下文背景知识,因此很难用传统的方法进行分类。作者认为可以利用外部的显式知识库来补充上下文和文化信息,但目前还没有已知的外部知识库可以提供这样的恶意言论上下文信息。因此,PromptHate方法通过构建简单的提示和提供一些上下文示例,利用预训练的RoBERTa语言模型中的隐含知识来进行恶意网络迷因的分类。实验结果表明,PromptHate能够实现较高的分类精度,优于现有的基线方法。

Multimodal Chain-of-Thought Reasoning in Language Models

这篇文献描述了一种名为Multimodal-CoT的新型大型语言模型(LLM),该模型将语言和视觉信息相结合,以生成更好的中间推理链来推理答案。与现有的CoT研究侧重于单一语言模态不同,Multimodal-CoT提出了一种两阶段的框架,将推理链生成和答案推理分开。
现有工作的问题:
1.最直接的方法是将不同模态的输入转换为一种模态,并提示LLM执行CoT。例如用image caption来做图片转化为文字,但是,在标题生成过程中存在严重的信息丢失问题,因此使用标题(而不是视觉特征)可能会在不同模态的表示空间中缺乏相互协作。
2.另一个解决方案是通过融合多模态特征来微调更小的语言模型,以便能够调整模型体系结构以合并多模态特征。由于这种方法允许调整模型体系结构以合并多模态特征的灵活性,因此该文献研究了微调模型而不是提示LLM的方法。然而,关键的挑战是,参数在100亿以下的语言模型往往会生成幻觉推理链,从而误导答案推理。这也暗示着在使用这种微调方法时,需要对模型进行进一步的优化和调整,以解决这些挑战。
优化Cot的方法有两方面:1.优化实例,2.优化推理链
文章分析为什么CoT会失效?e hallucinated rationales that mislead the answer inference
作者观察到融入了视觉信息后CoT能够解决很多hallucinated rationales的问题。
在这里插入图片描述

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

这篇论文提出了一个框架,用于定量评估交互式LLM(如ChatGPT)的性能,并使用公开可用的数据集对ChatGPT进行广泛的技术评估。作者使用23个数据集涵盖8个不同的常见NLP应用任务,评估了ChatGPT的多任务、多语言和多模态方面,并根据这些数据集和新设计的多模态数据集对其进行评估。作者发现,在大多数任务上,ChatGPT比zero-shot的LLM表现更好,甚至在某些任务上甚至比微调模型表现更好。作者还发现,ChatGPT在理解非拉丁文字语言方面比生成这些语言更好。此外,ChatGPT能够从文本提示生成多模态内容,通过中间代码生成步骤实现。但是,作者还发现,ChatGPT在逻辑推理、非文本推理和常识推理的10个不同推理类别中的平均准确率仅为63.41%,因此不是可靠的推理者。ChatGPT像其他LLM一样存在幻觉问题,而且它从其参数存储中生成更多外在幻觉,因为它没有访问外部知识库。

论文做了大量的实验,虽然所有的实验的测试集都是很小的一个子集,但一定程度上还是能够说明chatgpt比较适合哪一类任务。
在这里插入图片描述

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

这篇文献介绍了一个名为Interactive Prompting Visual Reasoner (IPVR)的框架,旨在解决知识驱动的视觉推理任务,该任务要求模型全面理解图像内容,连接外部世界知识,并逐步进行推理以正确回答问题。IPVR包含三个阶段:看、想、确认。在看阶段,IPVR扫描图像并使用视觉感知模型对视觉概念进行定位。在想阶段,IPVR采用预训练的大型语言模型 (LLM) 来自适应地关注候选概念。然后,它将它们转换为文本上下文以进行视觉字幕提示,并采用LLM生成答案。在确认阶段,IPVR进一步使用LLM生成支持答案的理由,使用跨模态分类器验证生成的理由,并确保理由可以一致地推断预测的输出。
语言模型在视觉与语言任务中进行推理的方法主要分为两类。第一类是增加附加的视觉感知模块,将视觉输入编码,通过大量的视觉与语言数据对模型进行微调。虽然这种方法在下游视觉推理任务中能够实现高性能,但需要一个大的视觉与语言数据集来微调LLM和新的视觉模块,并且通常计算密集且耗时。第二类是使用基于prompt的方法进行视觉推理。例如,PICa 将图像翻译为caption,然后将其用作GPT-3的文本prompt输入来回答问题。尽管它们在知识驱动的视觉问题回答上具有高精度,但是它们的模型也存在局限性。首先,在PICa中,caption处理与问题的语义无关,限制了字幕只能关注图像的一般方面而不是与问题相关的对象。其次该方法无法提供step by step 的推理,使得问题回答成为一个黑盒过程。

在该文献中,作者讨论了IPVR模型的"confirm"阶段中确认预测的理由的两个重要方面。首先,所提供的理由应该与答案一致。例如,在图2中,对于答案“meat”的预测支持理由应该是“刀子是用来切肉的”,当将其添加到上下文中时,我们应该能够预测相同的答案。其次,理由应该与视觉输入一致。换句话说,理由应该是通过视觉感知模型从图像中推导出来的,并且与图像内容和前面迭代中预测的答案一致。这两个方面都有助于提高模型的可靠性和可解释性。

该方法任然受到目标检测模块的限制,也许开放的目标检测模型会更好一点?

PromptCap: Prompt-Guided Task-Aware Image Captioning

这篇文献的主要内容是关于图像描述和自然语言处理相结合的一个新方法,名为PromptCap。图像描述任务的目标是用自然语言描述图片的内容,使得强大的语言模型能理解图像。尽管在多种视觉-语言任务上,图像描述与语言模型的结合取得了成功,但一个图像包含的信息远远超过一个句子,因此可能会导致描述中遗漏重要的视觉细节。这在视觉问答(VQA)任务中尤为明显。

为了解决这一挑战,作者提出了PromptCap模型,该模型利用自然语言提示来控制生成的描述内容。提示包含一个问题,描述应有助于回答这个问题,并支持使用图像中的辅助文本输入,如场景文字。为了在普通图像描述模型中微调引导提示功能,作者提出了一个利用GPT-3和现有VQA数据集合成和过滤训练示例的流程。

评估方面,作者使用了一个现有的基于图像描述进行VQA的流程,并使用同一个语言模型,通过比较QA准确率来验证生成的描述与问题提示的相关性。实验结果显示,PromptCap在多种VQA任务上的表现优于普通描述方法,分别在OK-VQA和A-OKVQA数据集上达到了58.8%和58.0%的最新准确率。此外,对WebQA的零样本实验表明PromptCap能很好地泛化到未见过的领域。

在这项研究中,作者提出了PromptCap,它通过在生成描述时使用与任务相关的提示,生成更适合下游任务的视觉描述。尽管本研究的重点是将问题作为提示,但其他与任务相关的指令或辅助信息(如使用OCR从图像中提取的文本,在图1(c)中的TextVQA任务中),也可以类似地加以整合。这意味着PromptCap不仅可以针对问题生成有针对性的描述,还可以根据其他任务相关信息生成更丰富、更具针对性的图像描述。

IS CHATGPT A GENERAL-PURPOSE NATURAL LANGUAGE PROCESSING TASK SOLVER?

这篇文献研究了ChatGPT是否能够作为一个通用的自然语言处理任务求解器。近来,随着大规模语言模型的发展,它们已经展示出了在许多NLP任务中可以zero-shot学习的能力。最近,ChatGPT的推出引起了NLP社区的广泛关注,因为它可以根据人类输入生成高质量的响应,并根据后续对话进行自我修正。但是,目前还不清楚ChatGPT能否作为一个通用模型来zero-shot执行许多NLP任务。本文通过评估ChatGPT在涵盖7个代表性任务类别的20个流行NLP数据集上的表现,对ChatGPT的zero-shot学习能力进行了实证分析。通过广泛的实证研究,作者展示了当前版本的ChatGPT的有效性和局限性。作者发现,ChatGPT在许多强调推理能力的任务(例如算术推理)上表现良好,但在解决特定任务(例如序列标注)时仍面临挑战。此外,作者还通过定性案例研究进行了深入分析。
进行了7大类任务的评测:1.reasoning,2.natural language inference,3. question answering, 4. dialogue, summarization, 5. named entity recognition, 6. sentiment analysis.
尽管ChatGPT表现出了一定的通用性,可以执行多个任务,但在某些任务上,它通常表现不如针对特定任务微调的模型。ChatGPT在算术推理任务中表现出了优越的推理能力,但在常识、符号和逻辑推理任务中表现不佳,例如会生成不确定的响应。ChatGPT在自然语言推理和阅读理解等需要推理能力的任务中表现出了优异的性能,特别是在处理一致性文本时表现更佳。ChatGPT在对话任务中表现优于GPT-3.5,但在摘要任务中表现较差。此外,ChatGPT和GPT-3.5在某些任务上仍然面临挑战,例如序列标注任务。ChatGPT的情感分析能力接近于GPT-3.5。
ChatGPT generates longer summaries and performs worse than GPT-3.5 for summarization tasks. However, explicitly limiting summary length in the zero-shot instruction harms the summarization quality, leading to even worse performance.

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

科学QA的数据集

AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS

这篇文献的核心是介绍了一种名为Auto-CoT的自动CoT提示方法,旨在通过生成推理链构建自动化的演示,以解决手动设计示范的缺点。为了减少推理链中可能出现的错误。Auto-CoT使用多样性采样问题,并生成推理链来构建示范。该方法主要包括两个步骤:将给定数据集的问题分成几个聚类,从每个聚类中选择一个代表性问题,并使用基于Zero-Shot-CoT生成其推理链来构造示例。

ICL中样例的多样性可能是一个关键。其实关键就是修改选取example的方式。
example与问题越相似,example的答案越会影响问题的答案。

PARAMETER-EFFICIENT FINE-TUNING DESIGN SPACES

这篇文献介绍了参数高效微调的设计范式和发现的适用于不同实验设置的设计模式。相比于关注于设计新的微调策略,文献提出了参数高效微调设计空间,该空间参数化微调结构和微调策略。具体而言,任何设计空间由四个组成部分组成:层分组,可训练参数分配,可调节组和策略分配。从一个初始设计空间开始,作者逐步基于每个设计选择的模型质量进行空间细化,并在这四个组成部分中的每个阶段进行贪心选择。作者发现以下设计模式:(i)以纺锤形式组合层;(ii)将可训练参数数量均匀分配到各层中;(iii)微调所有组;(iv)将适当的微调策略分配给不同的组。这些设计模式产生了新的参数高效微调方法。作者在自然语言处理的不同任务和不同主干模型上进行了实验,表明这些方法在各方面都显著优于现有的参数高效微调策略。

KAT: A Knowledge Augmented Transformer for Vision-and-Language

有意思的结论:隐式知识已经可以比显式知识更好地帮助模型补充知识了。
在这里插入图片描述

MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action

为了将图片和视频作为输入给chatgpt,论文直接将两者的文件路径作为chatgpt的输入,将图片和视频认为一个黑盒,当需要视觉内容的时候,chatgpt再去寻求vison expert的帮忙。这个任务主要聚焦于vision understanding的问题。

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

ViperGPT: Visual Inference via Python Execution for Reasoning

Visual Prompt Multi-Modal Tracking

A Survey of Large Language Models

大模型的优势:

1.cot 拥有一定程度的推理能力
2.拥有一定程度的常识
3.输入和输出的通用性,通过自然语言进行交互

大模型的劣势:

1.难以微调,通常要做zero-shot或者few-shot
2.很难判断产生的结果是否正确,需要更仔细地辨认

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36930.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于各种机器学习和深度学习的中文微博情感分析

来源:机器学习AI算法工程 本文约600字,建议阅读5分钟 本文中,我们介绍了中文微博情感分析的情况。 中文微博情感分类语料库 "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库…

主管发话:一周搞不定用友U8 ERP跨业务数据分析,明天就可以“毕业”了

随着月末来临,又到了汇报总结的时刻。 (图片来自网络) 到了这个特殊时期,你的老板就一定想要查看企业整体的运转情况、销售业绩、客户实况分析、客户活跃度、Top10 sales、 产品情况、订单处理情况等信息。 对业务有一定了解的同…

开源 ERP 系统 GoodERP

如果你有一个苹果,我也有一个苹果,彼此交换后,你我还是一人一个苹果,但是如果你有一个想法,我有一个想法,彼此交换后,你我就都有两个想法,三个人呢?一百个人呢&#xff1…

shopee虾扑erp软件,两大功能帮你详细解析

很多跨境小伙伴目前也已经用到了我们的虾扑erp数据分析软件,功能之前也有详细解读,shopee虾扑erp软件对于我们的店铺是有非常大的帮助的,可以大大减少我们卖家需要前期铺货所付出的长时间和精力,下面就来解析一下这两大功能是如何…

再有人问ERP是什么,有什么用,就这么回答他吧

ERP系统是什么? 百度一搜,ERP的含义为下: ERP是英文 Enterprise Resource Planning的首字母简写,是指企业资源计划系统。ERP是一个实现信息集成的管理系统,是企业内部的所有业务部门直接或者企业与外部合作伙伴之间交换…

一起来聊聊ERP

聊聊ERP 哈喽,哈喽,大家好!今天开始,我们就来讲ERP了。 什么是ERP ERP是Enterprise Resource Planning 的缩写,中文含义是企业资源计划。它代表了当前在全球范围内应用最广泛、最有效的一种企业管理方法,…

正在开发云ERP,业务功能与天心CS ERP一模一样, 欢迎大家指正

正在开发云ERP,业务功能与天心CS ERP一模一样, 欢迎大家指正 正在开发云ERP,欢迎大家指正 天心ERP全部PDK源代码到了我手上的后果 - 超越天心之WEB天云 详情>> 详情>> 详情>> 天心天字辈ERP全部PDK源代码到了我手上的…

当我问ChatGPT如何学习SAP……

文字版: How to study SAP ? Here are some steps to help you study SAP: Familiarize yourself with the SAP system: Before you begin to study SAP, its important to understand what the SAP system is and how it works. You can read introductory arti…

担心被ChatGPT取代?LMFlow让你打不过就加入!

作为一名金融领域的 NLP 从业者,自从 ChatGPT 出来以后,整个人都是处于担心下岗的状态。未来我还能做什么?整个自然语言处理行业会不会消失? 我也想在业务中利用 ChatGPT 的优势,然而整个 ChatGPT 是黑盒的&#xff0c…

测试工程师会被ChatGPT取代吗?没有那么简单

2022年底,ChatGPT横空出世,如今已火爆全球。ChatGPT不仅在科技圈引发了地震,更是引起了全社会的广泛关注,也让很多行业的从业者产生了担忧。 ChatGPT会取代教师吗?ChatGPT会让媒体工作者失业吗?ChatGPT会改…

领导说培养我,怎么看出来他是真培养,还是PUA我?

当你的领导说要培养你的时候,如何分辨他的真实意图? 一位网友问: 领导说培养我,怎么看出来他是真培养,还是PUA? 来看看这位网友的支招: 如果领导做到以下几点,那就是真的培养你。 1.…

遇到一个满嘴骚话的HR。。。

昨天看到一个非常扯蛋离大谱刷新三观的事情,有些小伙伴可能也看过了,看完之后确实感觉有够扯的。 有程序员因为能力很强,公司非常满意,结果派了一位 HR 与其谈薪资。但是这家公司给的薪资并不能让人满意,于是这位程序…

研究生被导师嫌弃是种怎样的体验?写的太真实了...

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 本文来源:羊村传播(ID:yangcunmedia) Q & A:研究生被导师嫌弃是种怎样的体验? 当你和你导对话时,感觉被导嫌弃了会是怎样…

学生的致谢笑死!导师:致谢别矫情,没屁在那硬编!

本文来源:鲍海飞科学网博客及网络 最近看到一则毕业论文致谢的截图,差点把我笑傻~ 全文如下: 在论文付梓之际,我要万分感谢我的指导老师——**老师。她严谨细致、一丝不苟的作风将会是我往后工作、学习中的榜样;她天使…

这回导师们颤抖了,这个网站能匿名评价其“人品”,已有大量“不良”导师被爆...

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送达 来自:研究生v 研究生导师如此良莠不齐, 如何得知导师的好坏? 今天推荐给大家这个网站, 导师评价网: https://www.mysupe…

考研生对导师“嚣张发言”引热议:希望您今年招个女同学,不然我换导师

转自 | 募格学术 参考资料 | 知乎、科学网博客、微博、抖音等 最近正值考研时节,不少考生都开始了联系导师的“求学之路”。 在抖音上,有这么一则考研生对导师说的“嚣张发言”引起大家热议。不少网友都表示:这么嚣张的考生实属少见 。 据截图…

一句代码搞定 Android 底部弹框

BottomDialog BottomDialog 一个自定义的从底部弹出的dialog&#xff0c;仿照微博的分享弹框 效果图 导入 compile top.zibin:BottomDialog:1.0.1使用 BottomDialog 只需要一句代码即可轻松显示底部弹框 创建Menu <?xml version"1.0" encoding"utf-8&…

Luban压缩源码学习

1.Android图片显示遇到的问题 在Android应用中加载图片&#xff0c;是一个需要消耗内存的一个动作。也是Android开发者在项目优化中比较头疼的一个问题。 先了解下加载图片如何消耗内存的 图片质量1px所占空间&#xff08;1byte8位&#xff09;1024*1024图片大小ALPHA_8只有…

Luban(鲁班)--图片压缩使用以及源码解析

###1.Android图片显示遇到的问题 在Android应用中加载图片&#xff0c;是一个需要消耗内存的一个动作。也是Android开发者在项目优化中比较头疼的一个问题。 先了解下加载图片如何消耗内存的 图片质量1px所占空间&#xff08;1byte8位&#xff09;1024*1024图片大小ALPHA_8只…

uni-App聊天功能的源码

前言 泡泡IM uniapp版聊天源码是一套完整的基于uniapp开发的聊天软件源码&#xff0c;可编译成微信小程序、安卓 IOS APP聊天软件、H5网页聊天室。uniapp聊天源码未加密&#xff0c;无外部依赖&#xff0c;可私有化部署&#xff0c;可二次开发。文档全面&#xff0c;接口丰富&…