AIGC技术周报|清华、北邮新研究:让文生图AI更懂你

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

OpenAGI:当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示,除了开发大型、全面的智能模型外,为这些模型配备利用各种特定领域专家模型解决复杂任务的能力,对于实现通用人工智能(AGI)同样至关重要。

近期,大型语言模型(LLMs)展示了卓越的学习和推理能力,有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台,专门设计用于提供复杂的多步骤任务,并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询,作为输入传递给 LLMs。然后,LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外,该研究提出了一种基于任务反馈的强化学习(RLTF)机制,使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上,为自我改进的 AI 提供了一个反馈循环。

该研究认为,LLMs 操作各种专家模型解决复杂任务的范例,是实现 AGI 的一种有前途的方法。

论文链接:

https://arxiv.org/abs/2304.04370

清华、北邮团队:让文生图AI更懂你

文本-图像生成模型,包括自动回归和基于扩散的方法,在最近几年经历了快速的发展。然而,当前自我监督的预训练生成器还远远不够完美,一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道,涵盖评级和排名组件,收集了迄今为止 137000 个专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(如比 CLIP 高出 38.6%),是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中,从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中,粗体大致表示内容,斜体表示风格或功能。

论文链接:

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心,基于先验信息编辑人脸

在计算机视觉和图形学中,如何逼真地改变一张人像照片的光线、表情、头部姿势等,同时保留人物的身份和高频面部特征,是一个长期存在的问题。解决这个问题的难度,源于其根本上的欠约束性。

该研究解决了从同一个人的少量(如 20 张)肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表(如表情和光线)同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型,该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”,学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件,以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息,并展现高频面部细节。实验表明,DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接:

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而,其有限的定制选项阻碍了用户准确描述所需的输出。例如,纯文本很难指定连续的数量,如精确的 RGB 颜色值或每个单词的重要性。

此外,为复杂场景创建详细的文本提示对于人类编写是繁琐的,对文本编码器来说也很难解释。为了应对这些挑战,该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性,以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成,通过基于区域的扩散过程来实现这些能力。实验表明,这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像,并支持各种文本属性,如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性,相较于普通文本,能够对文生图进行精确控制,涉及颜色、样式和物体细节。下图展示了分别采用普通文本(左图)与富文本(右图)生成的图片。

参考链接:

https://arxiv.org/abs/2304.06720

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8378.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022.2.26 第十五次周报

文章目录 前言一、论文阅读《Interactive Learning from Policy-Dependent Human Feedback》摘要IntroductionRelated WorkPolicy-dependent反馈Convergent Actor-Critic by Humans (COACH)The Advantage Function and FeedbackConvergence and Update Rule ExperimentConclusi…

大模型论文周报 | 来自MIT、哥伦比亚大学、港科大、斯坦福、普林斯顿大学等机构前沿论文研究...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 大模型又可以称为Foundation Model模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代,其所带来的结果提升十…

AIGC技术周报|ChatDoctor:哪里不舒服;HuggingGPT:连接大模型和机器学习社区;ChatGPT真的鲁棒吗?

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及DallE 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。 1.ChatDoctor:哪里不舒服? 通用领…

实现短信验证码登录

文章目录 在开发短信验证码接口验证码实体SmsCode手机验证码发送接口手机验证码生成接口不拦截短信验证码路径登录页面测试重构校验码处理接口 ValidateCodeProcessor,封装不同校验码的处理逻辑抽象实现 AbstractValidateCodeProcessor两个子类分别实现发送功能 Ima…

Android实现登录系统(二)--SMS短信验证登录

SMS短信验证登录,大部分提供的这种服务都是要收费的, 但是Mob网站提供的并不收费,它是通过验证码的格式收费这样的服务盈利的, 也就是说使用他们的&#xf…

Android入门:利用SmsManager发送短信

我们可以通过Intent调用发送短信的服务,但是也可以通过SmsManager发送; 一、为何需要自己开发短信发送器 虽然在Android系统中已经存在发送短信的应用,但是如果我们在开发其他应用时需要集成发送短信功能,则很方便。 二、开发短信…

难顶!ChatGPT又双叒大面积封号了...

编辑:桃子 【新智元导读】ChatGPT大面积封号ing... ChatGPT又双叒开始大面积封号了... 从昨天开始,许多童鞋纷纷表示,自己的ChatGPT plus账号被封了。 许多人收到了一封来自OpenAI的邮件,文中称由于账号存在可疑行为,…

ChatGPT突遭大规模封号,一场网安强震即将爆发!

前言 ChatGPT狂飙出圈,推出仅5天,用户就超过100万,上线两个月,全球活跃用户就已破1亿。 然而就在这两天又传来劲爆消息:ChatGPT正在悄无声息地大规模封号!很多人得知消息后登录就发现自己的账号已经不在。…

ChatGPT全球大封号!数10万企业停摆:第一批玩AI的人,被AI给玩了

观点| Mr.K 主笔| Wendy.L 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 3月31日,Open AI就开始无征兆的进行全球大封号,其中亚洲是重灾区,官方没有给出任何声明,具体原因不得而知。并且暂停了这些地区新账号的…

突发!因为这个原因,ChatGPT又双叒大面积封号了...

来源 | 新智源 ID | AI-era ChatGPT又双叒开始大面积封号了... 从昨天开始,许多童鞋纷纷表示,自己的ChatGPT plus账号被封了。 许多人收到了一封来自OpenAI的邮件,文中称由于账号存在可疑行为,为了保障平台安全,才这么…

【产业互联网周报】华为宣布实现MetaERP研发和替换;微软为ChatGPT自研AI芯片;...

关注ITValue,看企业级最新鲜、最价值报道! 钉钉、文心一言、WPS等接入大模型;火山引擎推出大模型训练平台及自研DPU;谷歌合并旗下两大人工智能部门Brain和DeepMind,加速研究力战ChatGPT……又是为AIGC疯狂的一周 【产业…

顶级研究机构发布《ChatGPT 全产业研究报告》 120页PDF 打包下载

ChatGPT是时下最火的话题,国内多家顶级研究机构,对ChatGPT做了全方面的研究。为了方便大家学习,小编收集了最新的13份共120页的学习资料,截图如下: 这些资料来自网络,版权归属各研究机构,感谢以…

从大模型走向小模型,谁将是ChatGPT布局to B行业的大赢家?

ChatGPT淘金热 当前,爆发了ChatGPT热潮,吸引众多科技企业陆续加入其中。这与当年美国西部加利福尼亚的淘金热何其相似。 历史总会惊人的相似,ChatGPT聊天机器人好比一座数字化时代的金矿。全世界科技淘金人蜂拥而至,从潮起到潮落…

如何实现chatgpt的打字机效果

点击↑上方↑蓝色“编了个程”关注我~ 这是Yasin的第 88 篇原创文章 打字机效果 最近在搭建chat gpt代理的时候,发现自己的配置虽然能够调通接口,返回数据,但是结果是一次性显示出来的,不像之前的chat gpt的官网demo那样实现了打字…

如何使用ChatGPT提升自己的“码”力?

如何使用chatGPT提升自己的"码"力? 代码评审(CodeReview)代码优化代码释义提供解决方案代码生成设计模式和架构建议学习新知识总结 ChatGPT是什么,我就不用再多介绍了吧!相信大家已经看到了它在文本领域所展现出来的实力,虽然目前…

云孚快写:自动生成多级目录,一键生成万字长文

1.产品简介 云孚快写是云孚科技自主研发的一款智能写作产品,基于大模型技术打造,针对长文写作场景深度优化,可根据文章标题一键生成目录,再根据目录一键生成正文,文章字数无上限,可极大提升用户的长文写作…

低调且强大--iVX低代码平台

iVX目录 前言一、低代码那么多 为什么选择iVX?二、“拼”出来的低代码平台,真的好用吗?三、iVX与其他低代码有啥可比性? 前言 首先我们应该明白自动编程突破可能是:领域内Mini LLM 现在的思路都是搞LLM,几乎…

多方合作时,系统间的交互是怎么做的?

大家好!我是sum墨,一个一线的底层码农,平时喜欢研究和思考一些技术相关的问题并整理成文,限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。 以下是正文! 文章背景 我们最近做了很多…

你真正了解低代码么?(国内低代码平台状况分析)

■ 写在前面■ 低代码产品如何分类,90% 的人都没有搞清楚■ 低代码平台如何比较?Point 在哪儿?一个比喻大家全听懂■ “拼”出来的低代码平台,真的好用吗?■ 推荐一款 C 端低代码产品 ■ 写在前面 都说技术是生产力&a…

【AI实战】给类ChatGPT的大语言模型外挂私有知识库

【AI实战】给类ChatGPT的大语言模型外挂私有知识库 原理准备环境代码下载 chatglm-6b 模型权重文件下载 Embedding 模型 GanymedeNil/text2vec-large-chinese安装依赖库我的计算资源 外挂知识库开启服务外挂知识库 测试参考 本文使用 langChain 来给大语言模型 ChatGLM-6B 外挂…