导读 | 微软宣布开源Visual ChatGPT,该项目旨在提供一种更加人性化的聊天机器人解决方案,该解决方案可以与用户进行更加自然的交互。 |
Visual ChatGPT是一款基于GPT-3技术的开源项目,它具有独特的多媒体交互能力,使聊天机器人可以更好地理解用户并生成更加符合上下文的响应。该项目还包括一些预先训练的模型,可以使开发者快速构建和部署聊天机器人。
此外,Visual ChatGPT还支持包括语音和视频在内的多种视听模式,这使得聊天机器人可以通过更多的方式解决用户的问题。在微软的实验中,该聊天机器人还表现出良好的语义理解和自然语言生成能力。
微软表示,开源Visual ChatGPT的目的是为开发者提供更高效的聊天机器人开发体验,并将其集成到各种应用程序中,以提高其交互性。
OpenAI 的 ChatGPT(GPT 3 版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似 ChatGPT 的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。
与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站 arxiv 上发表论文《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,提出在 ChatGPT 和多个 Visual Foundation Models 基础上构建 Visual ChatGPT。源代码托管在 GitHub 上。
https://arxiv.org/pdf/2303.04671.pdf
https://github.com/microsoft/visual-chatgpt
本文地址:https://www.linuxprobe.com/?p=267989