社区1月热门文章、ChatGPT工具汇总,强化学习安全和隐私、斯坦福大学CS234《智源社区强化学习周刊》第75期...

No.75

智源社区

强化学习组

 习

2305157255a6c1bba3184eacacae11ee.png

研究

观点

资源

活动

社区热门文章

Google发布Bard与ChatGPT竞争

https://hub.baai.ac.cn/view/23925

纽约时报:ChatGPT诞生背后的故事

https://hub.baai.ac.cn/view/23835

ChatGPT提示与AI工具、开发工具、低代码工具汇总

《AI Prompts and Tools》

https://hub.baai.ac.cn/view/23771

谷歌Jason Wei :AI研究的四项基本技

https://hub.baai.ac.cn/view/23959

2e1e2aa6564474bd33f73b1877254acd.jpeg

9e9f98d27e70b6907f935726a325953a.jpeg

a85eadc1f679e6d8f7be7cb333484117.jpeg

dd0e27ca8299b8acde8c23653afda0f5.jpeg

930a1ce3088c12362f6a2dffeab23992.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第75期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:(李明,刘青、小胖)

1b4f6e3513f628db76b92609ff7d323e.jpeg

eee3e7352fa82cd8a9723b1eb66fcee4.jpeg

0cd100dfe3d5e388d9f471efa2e3086f.jpeg

eb59346508ad8f9974523f6d554c8d58.jpeg

8ecf6ed10d7f434860f353a1ac93592a.jpeg

论文推荐

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分三个板块,论文推荐板块为读者梳理了最近强化学习在自然语言处理方面应用相关研究论文;另外论文综述板块为读者介绍, University of Technology Sydney的强化学习中的这些安全和隐私问题的综述。本次教程推荐板块介绍来自斯坦福大学CS234:强化学习(2023)教学课程。本课程将提供强化学习领域的坚实介绍,学生将学习核心挑战和方法,包括概括和探索。通过讲座、书面和编码作业的结合,学生将精通RL的关键思想和技术。

标题:Evaluation Beyond Task Performance: Analyzing Concepts in AlphaZero in Hex(Brown University |超越任务绩效的评估:用十六进制分析AlphaZero中的概念)

简介:AlphaZero是一种结合了神经网络和蒙特卡洛树搜索(MCTS)的强化学习方法,它为国际象棋、围棋、将棋和Hex等传统棋类游戏制定了最先进的策略。尽管研究人员和游戏评论员认为AlphaZero使用了人类认为重要的概念,但尚不清楚这些概念是如何在网络中被捕获的。我们使用自然语言处理(NLP)的两种评估技术:模型探测和行为测试,研究了AlphaZero在Hex游戏中的内部表示。在这样做的过程中,我们向RL社区引入了新的评估工具,并说明了如何使用任务绩效以外的评估来更完整地描述模型的优点和缺点。我们在Hex游戏中的分析揭示了有趣的模式,并产生了一些关于此类模型如何学习的可测试假设。例如,我们发现MCTS在神经网络学习对概念进行编码之前就发现了概念。我们还发现,与短期游戏结束规划相关的概念最好编码在模型的最后一层,而与长期规划有关的概念编码在模型中间层。

论文链接:https://arxiv.org/pdf/2211.14673.pdf

标题:Towards Semantic Communications: Deep Learning-Based Image Semantic Coding(清华大学 | 面向语义通信:基于深度学习的图像语义编码)

简介:语义通信越来越受到人们的关注,因为它可以显著减少要传输的数据量,而不会丢失关键信息。在本文中,论文设想了图像数据的语义通信,它在语义和带宽方面更加丰富。论文提出了一种基于强化学习的自适应语义编码(RL-ASC)方法,该方法将图像编码到像素级之外。首先,论文定义了图像数据的语义概念,包括类别、空间排列和视觉特征作为表示单元,并提出了一种卷积语义编码器来提取语义概念。其次,提出了从传统的像素相似度到语义相似度和感知性能的图像重建标准。第三,设计了一种新的基于RL的语义比特分配模型,其奖励是在编码具有自适应量化级别的特定语义概念后,语义感知性能的提高。因此,任务相关信息被适当地保存和重建,而不太重要的数据被丢弃。最后,提出了基于生成对抗网(GAN)的语义解码器,该解码器通过关注模块融合局部和全局特征。实验结果表明,与标准编解码器和其他基于深度学习的图像编解码器相比,所提出的RL-ASC具有噪声鲁棒性,能够重建视觉上愉悦且语义一致的图像,并且节省了几倍的比特成本。

论文链接:https://arxiv.org/pdf/2208.04094.pdf

标题:LAMBADA: Backward Chaining for Automated Reasoning in Natural Language(谷歌 | LAMBADA:自然语言中反向链自动推理)

简介:通过使用大型语言模型(LMs)的强大功能以及思维链提示和选择推理等方法,在使用指定为非结构化自然文本的知识进行自动推理方面取得了显著进展。这些技术在从公理到结论的正向方向上搜索证明,这会导致搜索空间的组合爆炸,因此对于需要较长推理链的问题,失败率很高。经典的自动推理文献表明,反向推理(即从预期结论到支持它的公理集)在证据发现问题上效率明显更高。论文将这种直觉引入到LM设置中,并开发了一种反向链接算法,称之为LAMBADA,该算法将推理分解为四个子模块,每个子模块都可以简单地通过少数镜头提示的LM推理来实现。论文结果表明,LAMBADA在两个具有挑战性的逻辑推理数据集上实现了比最先进的正向推理方法更高的精度,特别是在需要深度和准确的证明链时。

论文链接:https://arxiv.org/pdf/2212.13894.pdf

标题:Improving a sequence-to-sequence nlp model using a reinforcement learning policy algorithm(西迪 · 穆罕默德 · 本 · 阿卜杜拉大学: Jabri Ismail|使用强化学习策略算法改进序列到序列NLP模型)

简介:如今,当前的对话生成神经网络模型(聊天机器人)展示出为聊天智能体生成答案的巨大希望。但是它们是短视的,因为其一次只预测一个话语,而忽略了它们对未来结果的影响。为对话的未来方向建模对于生成连贯、有趣的对话至关重要,这种需求导致了依赖强化学习的传统 NLP 对话模型。本文将解释如何通过使用深度强化学习来预测聊天机器人对话中未来的奖励,从而将这些目标结合起来。该模型模拟两个虚拟智能体之间的对话,使用策略梯度方法来奖励表现出三个有用对话特征的序列:非正式的流动、连贯性、和响应的简单性(与前瞻性功能相关)。本研究根据其多样性、长度和复杂性来评估模型。在对话模拟中,评估表明,所提出的模型会产生更多的互动反应,并鼓励更持久的成功对话。这项工作是为了纪念成功发展一个基于长期对话的神经会话模型的第一步。

论文链接:https://arxiv.org/abs/2212.14117

标题:Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization(Fraunhofer IAIS: Rajkumar Ramamurthy|强化学习用于自然语言处理?自然语言策略优化的基准、基线和构建块)

简介:本文解决了将预训练的大型语言模型 (LM) 与人类偏好对齐的问题。如果将文本生成视为一个顺序决策问题,那么强化学习 (RL) 似乎是一个自然的概念框架。然而,使用 RL 进行基于 LM 的生成面临着经验挑战,包括由于组合动作空间导致的训练不稳定性,以及缺乏为 LM 对齐定制的开源库和基准。本文首先介绍了一个开源模块化库 RL4LMs,用于使用 RL 优化语言生成器。该库由在线策略 RL 算法组成,可用于训练 HuggingFace 库中具有任意奖励函数的LM。接下来,提出了GRUE基准,这是一组 6 种语言生成任务,这些任务不是由目标字符串监督,而是由捕获人类偏好的自动测量的奖励函数监督。GRUE 是首个排行榜样式评估用于 NLP 任务的 RL 算法。最后,介绍了一种易于使用、高性能的 RL 算法,NLPO,该算法学习有效地减少语言生成中的组合动作空间。

论文链接:https://arxiv.org/pdf/2210.01241.pdf

标题:Dependency Parsing with Backtracking using Deep Reinforcement Learning(CNRS: Franck Dary|使用深度强化学习进行回溯的依赖解析)

简介:NLP 的贪心算法(例如基于转换的解析)容易产生错误传播。克服这个问题的一种方法是允许算法回溯并在新证据与迄今为止探索的解决方案相矛盾的情况下探索替代解决方案。为了实现这种行为,本文使用强化学习并让算法回溯,以防这种行为比继续探索当前解决方案获得更好的回报。本文在 POS 标记和依赖解析上测试了这个想法,并表明回溯是对抗错误传播的有效手段。

论文链接:https://arxiv.org/pdf/2206.13914.pdf

标题:SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy Treatment Strategies with Deep Reinforcement Learning(哥伦比亚大学: Baihan Lin|SupervisorBot:带有深度强化学习的心理治疗策略的 NLP 注释实时建议)

简介:本文提出了一个推荐系统,可以在心理治疗期间实时向治疗师建议治疗策略。本文的系统使用轮流等级评级机制,通过计算评分清单的深度嵌入与患者正在说的当前句子之间的相似性分数来预测治疗结果。该系统自动转录连续的音频流,并使用在线免注册的分类方法将其分成患者和治疗师的轮流。然后将对话对及其计算评分输入深度强化学习推荐器,其中会话被视为用户,主题被视为项目。除了评估现有数据集上核心组件的经验优势之外,本研究还在一个 Web 应用程序中验证了该系统的有效性。

论文链接:https://arxiv.org/pdf/2208.13077.pdf

标题:Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning(卡内基·梅隆大学: Adam Villaflor|解决强化学习序列建模中的乐观偏差)

简介:基于 Transformer 神经网络架构的自然语言处理 (NLP) 的令人印象深刻的结果启发了研究人员探索将离线强化学习 (RL) 视为通用序列建模问题。最近基于这种范式的工作已经在几个最确定的离线 Atari 和 D4RL 基准测试中取得了最先进的结果。然而,由于这些方法将状态和行动共同建模为一个单一的排序问题,因此它们难以理清政策和世界动态对回报的影响。因此,在对抗性或随机环境中,这些方法会导致过于乐观的行为,这在自动驾驶等安全关键系统中可能是危险的。本文提出了一种通过明确分离政策和世界模型来解决这种乐观偏见的方法,能够在测试时搜索对环境中多种可能的未来具有鲁棒性的政策。本文在模拟中展示了作者的方法在各种自动驾驶任务中的卓越性能。

论文链接:https://arxiv.org/pdf/2207.10295.pdf

标题:RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning(卡内基·梅隆大学: Mingkai Deng|RLPrompt:使用强化学习优化离散文本提示)

简介:提示在使大型预训练语言模型(LMs)能够执行各种NLP任务方面取得了令人印象深刻的成功,尤其是当只有很少的下游数据可用时。然而,自动为每个任务找到最佳提示是一项挑战。大多数现有的工作都依赖于调整软提示,这在可解释性、跨LMs的可重用性以及梯度不可访问时的适用性方面存在不足。另一方面,离散提示很难优化,通常是通过“枚举-然后选择”启发式方法创建的,这些启发式方法没有系统地探索提示空间。本文提出了一种具有强化学习(RL)的高效离散提示优化方法RLPrompt。RLPrompt制定了一个参数有效的策略网络,该网络在有奖励的训练之后生成期望的离散提示。为了克服大型LM环境中奖励信号的复杂性和随机性,作者引入了有效的奖励稳定,这大大提高了训练效率。RLPrompt可灵活应用于不同类型的LMs,例如掩码和从左到右的模型,用于分类和生成任务。在少数镜头分类和无监督文本风格转换上的实验表明,与现有的各种微调或提示方法相比,具有更高的性能。

论文链接:https://arxiv.org/pdf/2205.12548.pdf

最新综述

标题:New Challenges in Reinforcement Learning: A Survey of Security and Privacy(强化学习的新挑战:安全和隐私综述)

简介:强化学习(RL)是人工智能最重要的分支之一。由于其在动态环境中的自适应和决策能力,强化学习已广泛应用于医疗保健、数据市场、自动驾驶和机器人等多个领域。然而,这些应用程序和系统中的一些已被证明容易受到安全或隐私攻击,从而导致服务不可靠或不稳定。大量研究集中于强化学习中的这些安全和隐私问题。然而,很少有综述对现有问题和最先进的解决方案进行系统审查和比较,以跟上新出现的威胁的步伐。因此,该问在此提出了这样一个全面的综述,以从一个新的角度,即马尔可夫决策过程(MDP),解释和总结强化学习中与安全和隐私相关的挑战。在综述中,首先介绍与该领域相关的关键概念。接下来,分别讨论与MDP流程的状态、操作、环境和奖励功能相关的安全和隐私问题,进一步强调了与强化学习相关的安全和隐私方法的特殊特征。最后,讨论了该领域未来可能的研究方向。

论文链接:https://arxiv.org/pdf/2301.00188.pdf

教程推荐

标题:斯坦福大学CS234:强化学习(2023)

简介:要实现人工智能的梦想和影响,需要学习做出正确决策的自主系统。强化学习是实现这一目标的一个强大范例,它与大量任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将提供强化学习领域的坚实介绍,学生将学习核心挑战和方法,包括概括和探索。通过讲座、书面和编码作业的结合,学生将精通RL的关键思想和技术。作业将包括强化学习和深度强化学习的基础知识,这是一个非常有前途的新领域,将深度学习技术与强化学习相结合。

教程链接:https://web.stanford.edu/class/cs234/

79c51a6fd878db081594567958651479.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群

faeaba61f1ddd2c0b579e415f96ef81b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21624.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5款超实用的免费AI工具,让你轻松提升工作效率!

目录 1、AiChat 产品特点 任意选择内置角色对话 自定义AI角色进行对话 推荐理由🌟🌟🌟🌟🌟 2、MINISTER AI 产品特点 集成ChatGPT聊天 简化Stable Diffusion 集成Midjourney模式 训练并分享模型 推荐理由&a…

13 款炫酷的 MySQL 可视化管理工具!好用到爆!!

MySQL 的管理维护工具非常多,除了系统自带的命令行管理工具之外,还有许多其他的图形化管理工具,工具好用是一方面,个人的使用习惯也很重要,这里介绍 13 款 MySQL 图形化管理工具,供大家参考。 1、DBeaver D…

GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用

查看原文>>>GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用 目录 第一章、理论基础 第二章、开发环境搭建 第三章、遥感大数据处理基础与ChatGPT等AI模型交互 第四章、典型案例操作实践 第五章、输入输出及数据资产高效管理 第…

【IC基础】集成电路设计领域术语缩写及名词解释(字母索引版)

前言: 笔者在大三上学习学习《SoC设计导论》时整理的有关集成电路设计领域的常见有英文缩写和对应的名词解释,文中标注的页码均出自《SoC设计方法与实现》这本参考书: 目录 目录 前言: 目录 A B C CTG(Clock Tree Generat…

浏览器扩展合集来啦!实用而有趣的浏览器扩展插件!

五彩:网页划线、批注、高亮工具 五彩严格意义上的同类产品是 Hypothesis、diigo 等工具,Cubox、Readwise、简悦则属于需要先解析一下网页后高亮的插件。 此前我已经在用 Cubox 了,为什么还需要五彩来完成网页高亮? Cubox 在移动…

GPT模型结合Python-GEE遥感云大数据分析、管理与可视化技术

GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用 随着航空、航天、近地空间等多个遥感平台的不断发展,近年来遥感技术突飞猛进。由此,遥感数据的空间、时间、光谱分辨率不断提高,数据量也大幅增长&#xff0c…

分享6个AI绘画网站

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 1、Midjourney 特点:业内标杆,效果最强大 Midjourney是基于diffusion的AI图画艺术生成器。生成图片不局…

又又又发现了一个 AI 插件神器 TeamSmart

简介 TeamSmart AI 是最近比较火的 Chrome 插件,它是基于 ChatGPT 集成的 AI 助手团队工具 对,没错,是一个团队。这个团队里面有许多不同角色的成员,每隔成员都有自己的专业领域,比如商业、市场营销、灵魂写手、程序…

忘记了谷歌Gmail账号名怎么办?用这种方法轻松找回谷歌邮箱地址

有些朋友以前注册过谷歌邮箱,但很久很久没有再去使用。 现在注册ChatGPT需要谷歌邮箱,于是打算把尘封已久的谷歌邮箱找出来,可是这时候你才发现,谷歌邮箱的账号名早已忘掉了。 今天重点来说说如何找回谷歌账号,希望能够…

忘记Gmail谷歌账号密码或者密码错误怎么办?用这种方法轻松搞定

有些朋友以前注册过谷歌邮箱,但很久很久没有再去使用。现在注册ChatGPT需要谷歌邮箱,于是打算把尘封已久的谷歌邮箱找出来,可是这时候你突然发现,谷歌邮箱的密码忘了。 今天重点来说说如何找回谷歌账号的密码,希望能够…

HTML知识点大合集

如标题所示哈,最近无聊,花了几十分钟整理一下之前HTML学过的知识点,写下了这个大合集,能力有限可能还有所不足,不过用来巩固基础,学习是够用的。 HTML知识点合集 一.介绍二.开发工具推荐三.代码实战学习3.1…

史上最详细的使用Claude和接入Claude-api教程

是什么(What) Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研…

BFT 最前线 | ChatGPT登顶App Store;国产中文大语言模型「天河天元」发布;华为招募天才少年;阿里分拆上市

原创 | 文 BFT机器人 AI视界 TECHNOLOGY NEWS 01 ChatGPT上架App Store登顶榜首 OpenAI:很快也将出现在安卓上 近日,ChatGPT正式发布App版本,上架APP Store,支持iPhone和iPad设备。OpenAI表示,ChatGPT iOS APP可免费…

对ChatGPT、阿尔法零等人工智能开发的简评与展望

1.ChatGPT的出现再次说明,基于人工神经网络等技术所进行的模拟的确可以比较好的模拟人脑的思维学习过程和思维结构,虽然其在总体上可以算是一个黑箱或灰箱模型,但是从目前的表现来看,有许多方面都与人脑的表现非常相似&#xff1a…

国产大模型狂飙,谁能率先做出第一个中国版GPT

热火烹油的大模型赛道打起了“嘴仗”。 搜狗前CEO王小川评价百度创始人李彦宏的采访发言称:“你们采访的可能是平行世界的他,不是我们这个世界里的。” 而针对王小川的评论,百度集团副总裁、搜索平台负责人肖阳又回应道:“王小…

知圈专栏 | 人工智能的“智能”是什么?— 智能的原理(上)

来源:知社学术圈 编者按: 在全民皆可成为信息源的今天,科学的推广和触达有了更容易的途径,但碎片化令思考停留于浅表也是不可忽略的负面效应。在知社的读者群里,不乏有常规科研人员之外的严肃思考者和孜孜求索者&#…

WAIC2023会后记

听了3天WAIC的会, 大开眼界,算是上了堂大课。 本次参会的目的是听听AI企业信息化的想法、理论和实践。以进一步探索可能的业务场景。三天的会结束后,留下深刻印象的有如下几点。 大模型当道 2023这次大会的主题成了大模型,谈的…

部署运行ai智障写作记录【ChatRWKV】

文章目录 前言一、环境安装1.python环境:Python 3.10。2.安装一些 pip 库numpy 、tokenizers 、prompt_toolkit3.安装pytorch 1.13.1CUDA 11.7 二、运行记录1、下载代码2、下载训练参数3、编辑代码运行 总结 前言 看到知乎一篇教程, 大佬自己弄得ai小说…

ChatGPT: 深入解读OpenAI的语言模型技术

ChatGPT: 深入解读OpenAI的语言模型技术 引言 引言部分旨在介绍ChatGPT是什么,为什么它是近年来最受欢迎的语言模型之一,并概述本文的主要内容。 1.1 简介 ChatGPT是由OpenAI开发的一种基于深度学习技术的对话生成模型。它采用了最先进的自然语言处理技…

【人工智能】ChatGPT 技术架构与相关技术栈清单

ChatGPT 技术架构 ChatGPT是一种基于自然语言处理的神经网络模型,它使用了大量的未标注文本数据进行训练,并通过预测文本中下一个词的方式来自我监督。 文章目录 ChatGPT 技术架构自监督预训练模块预训练模型深度学习Transformer模型生成式模型微调模块注意力机制多头自注意…