AIGC工具系列之——基于OpenAI的GPT大模型搭建自己的AIGC工具

今天我们来讲讲目前非常火的人工智能话题“AIGC”,以及怎么使用目前的AI技术来开发,构建自己的AIGC工具
什么是AIGC?
AIGC它的英文全称为(Artificial Intelligence Generated Content),中文翻译过来就是“人工智能生成内容”,就是利用人工智能技术来创建文本、图像、音乐、视频或者其他的媒体内容的过程。这种技术的应用目前正在迅速扩展,因为它可以大大提高内容创建的效率,同时降低成本、除了降低成本之外。在某些情况下,它提供与人类创作者相媲美,甚至超越的作品。
AIGC的技术背景
AIGC它依赖于各种人工智能模型,特别是深度学习技术,如生成对抗网络(GANs),以及变分自编码器(VAEs)用于图像,以及自然语言处理(NLP)模型,如GPT(Generative Pre-trained Transformer)系列用于文本生成,这些技术通过学习大量数据中的模式,来生成全新的内容。

目前的AIGC代表工具:

文本生成工具
OpenAI的ChatGPT: 基于GPT(生成预训练变换器)模型,能够生成连贯、有逻辑的文本,适用于对话、文本创作等多种场景。
Google Bard: Google推出的对话型AI,旨在提供信息、娱乐以及创作帮助。

图像生成工具
OpenAI的DALL·E: 能够根据文本提示生成高质量、创意丰富的图像。
Midjourney: 是一个独立的研究实验室和社区,专注于使用AI生成图像。
Stable Diffusion: 一个开源的图像生成模型,支持个人和商业用途,能够根据文本提示生成图像。

音乐和声音生成工具
OpenAI的Jukebox: 能够生成音乐,包括旋律、节奏、和声,甚至可以模仿特定艺术家的风格。
Descript’s Overdub: 允许用户根据文本生成声音,可以用于语音编辑和生成。

视频生成工具
Runway: 提供了一个机器学习工具套件,允许用户创建、修改和生成视频内容。
Synthesia: 通过AI为企业和个人提供视频内容创作服务,特别是能够生成虚拟演讲者和自动化视频。

编程和代码生成工具
GitHub Copilot: 由OpenAI训练,能够根据现有代码和注释提示生成编程代码,支持多种编程语言。
深度伪造和合成媒体
Deepfakes: 软件和技术,能够在视频和音频文件中合成人类的面部和声音,通常用于娱乐、教育或创建虚假信息。

了解这些感念和专业技术词汇,以及这些AI工具之后,唯独没有国内的AIGC工具代表作品,果然搞技术的还得是人家外国佬厉害呀!既然没有国产的,那作为一个技术渣渣,那对不起了,我们就基于他们的基础上去搭建一个吧,这里演示怎么基于OpenAI的API接口去搭建一个我们自己的AIGC工具。

搭建框架图

在这里插入图片描述

搭建前的必备材料:

 1. 一台服务器2. openai的api key3. ssh客户端工具

(1)、教程点击这里,获取服务器地址:
https://bwh88.net/aff.php?aff=74320

(2)ssh客户端finalshell工具下载地址:
Windows X64版,下载地址
http://www.hostbuf.com/downloads/finalshell_windows_x64.exe
macOS Arm版,支持m1,m2,m3 cpu,下载地址
http://www.hostbuf.com/downloads/finalshell_macos_arm64.pkg
macOS X64版,支持旧款intel cpu,下载地址:
http://www.hostbuf.com/downloads/finalshell_macos_x64.pkg
Linux X64版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_x64.deb
Linux Arm64版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_arm64.deb
Linux LoongArch64龙芯版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_loong64.deb
选择对应系统版本的下载安装即可。

(3)openai的api key的获取:
api_key获取步骤如下图:
(1)进入api keysyemian
在这里插入图片描述
(2)创建一个api key,然后复制保存下来
在这里插入图片描述

一、 服务器端安装openai API对接服务程序

  1. 登录服务器平台,进入后台选择stop停止服务器运行。
    在这里插入图片描述

  2. 安装系统,这里选择ubuntu最新版本,点击reload进行安装
    在这里插入图片描述

  3. 安装完成后,系统生成ssh端口号和密码,这里要把ssh端口号和密码记下来,等会儿ssh客户端登录需要用到
    在这里插入图片描述

  4. 打开ssh客户端
    在这里插入图片描述

  5. 创建一个ssh连接
    在这里插入图片描述

  6. 填写服务器IP地址,ssh端口,密码以及用户名,点击确认;
    在这里插入图片描述
    密码和端口号,就是第3部安装系统时生成的密码和ssh端口。IP 地址可以登录后台查看如下:

    如果密码也忘记了,可以点击重新生成,如下图操作:
    在这里插入图片描述
    在这里插入图片描述

  7. 双击新建的会话连接,进入服务器shell终端,如下图:
    在这里插入图片描述
    在这里插入图片描述

  8. 给服务器安装git工具,输入安装命令:apt install git 然后点击回车键运行。
    在这里插入图片描述

  9. 获取服务器端openai的API 对接服务代码。进入到home目录并运行如下指令:

cd /home
git clone https://github.com/wg520235/openai_project.git

在这里插入图片描述
下载完成如下图:
在这里插入图片描述

  1. 然后cd 进入工程目录openai_project,并运行app_install.sh脚本安装服务器程序。命令如下
cd openai_project/
sh app_install.sh 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 gpt-3.5-turbo dall-e-2

在这里插入图片描述
回车运行,安装过程中出现提示信息或者选择,一律按回车健Enter默认即可,大概几分钟之后即可安装完成,安装完成如下图:
在这里插入图片描述

【脚本参数说明】

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 //openai的api key
gpt-3.5-turbo //gpt版本
dall-e-2 //openai的绘画版本

如果你 开通了gpt4,gpt版本可以填写最新的gpt-4,绘画模型版本填写最新的:dall-e-3,如果你没有开通gpt4默认填写gpt-3.5-turbo和dall-e-2即可。
openai的api key获取:

打开AIGC客户端并连接服务器

这个客户端仅仅是本人为了调试功能测试用,其他做得不好的地方大家不要太在意,界面有点丑陋大家可以忽略,主要看功能即可。如各位大佬有兴趣,可以自己开发一个好看的客户端,这个客户端的代码我双手奉上,还望各位能够进一步开发完善,发扬光大,哈哈!
代码下载地址:

git clone https://github.com/wg520235/GPT_CLIENT_BASE_QT.git
  1. 下载GPT客户端工具,下载连接如下:
    git下载地址:
https://github.com/wg520235/openai_project/blob/main/AIOTNIK_GPT_CLIENT.zip

在这里插入图片描述

或者网盘下载:
链接:https://pan.baidu.com/s/1HCdCHuSqhX9dSrRzt8ik4g?pwd=3lm4
提取码:3lm4

2.减压GPT客户端工具,如下:

在这里插入图片描述
3.双击工具运行
在这里插入图片描述
界面如下:
在这里插入图片描述

  1. 点击设置按钮,填写你的服务器IP,点击确认连接成功后页面的功能即可使用。
    在这里插入图片描述
    成功连接你的服务器,点击ok即可像聊天gpt一样调用openai GPT的API 接口进行聊天绘画。
    在这里插入图片描述

AIGC客户端功能展示

2.和chatgpt一样对话聊天,文本写作,写代码等
在这里插入图片描述
在这里插入图片描述

  1. 调用openai的dall-e-3进行绘画,在输入框输入提示词,点击发送即可绘画,例如:

在这里插入图片描述
【注意】绘画的时候切记要先添加提示词”画:“或者"draw:",以区分是调用绘画模型dall-e-2进行AI 绘画。
目前GPT客户端支持图片双击变大效果如下,以及右键文本复制和图片下载保存到本地。
在这里插入图片描述
在这里插入图片描述
3.语音对话功能,调用了openai的asr,tts,以及chat接口实现的语音对话,点击语音对话按钮,然后你对着麦克风说话就行(想说啥说啥,把AI当作跟人说话一样就行),说完点击停止,然后等待AI 的回答即可。
(1)想微信语音一样,按下按钮输入语音
在这里插入图片描述
(2)点击停止按住,结束语音输入。
在这里插入图片描述
稍等片刻AI会返回语音,如果你电脑有扩音器(喇叭)就可以听到,如果没有扩音器,你们的对话也会转为文字显示在对话框上。

3.语音输入,即就是有的时候你不方便打字,你可输入语音,然后ai会以文字的方式回答你,并显示在对话框上。这个功能和语音对话相似,自行体验即可。

4.图片解析,这个就是你点击这个按钮上传一张图片,然后AI会解读你的图片内容,然后将AI 解读的内容返回到对话框,这个功能适用于名画鉴赏的。

在这里插入图片描述
例如我这里选择刚才AI 画的萝莉塔,上传后AI会返回如下解析结果:

  1. 图片播放,这个功能就我自己diy的,因为目前的sora很火,然后openai又还没有发布视频生成的API接口,所以我突发奇想,让AI画几十张连续的画,然后我把这些画放到一个文件夹里,然后以每秒25帧的速度播放这些图片,这不就可以生成视频了吗?但是结果没我想的那么好,最后还是等视频生成的API 接口发布了再做视频生成功能吧!
    在这里插入图片描述
    播放效果:https://live.csdn.net/v/373939

好了!到这里整个AIGC工具的开发,构建和使用就完了。还有很多功能没有做,如果你看到这篇文章,引起了你的兴趣,你可以基于我的工程基础之上去完善。大家一起玩转AI,躁起来.....哈哈哈!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/287757.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HDFSRPC通信框架详解

本文主要对HDFSRPC通信框架解析。包括listener,reader,handler,responser等实现类的源码分析。注意hadoop版本为3.1.1。 写在前面 rpc肯定依赖于socket通信,并且使用的是java NIO。读者最好对nio有一定的了解,文章中…

《量子计算:揭开未来科技新篇章》

随着科技的不断发展,量子计算作为一项颠覆性的技术逐渐走进人们的视野,引发了广泛的关注和探讨。本文将围绕量子计算的技术进展、技术原理、行业应用案例、未来趋势预测以及学习路线等方向,深入探讨这一领域的前沿动态和未来发展趋势。 量子…

极端道路天气数据集 雨天 雾天 道路晴朗

极端道路天气数据集 是一系列专为自动驾驶、智能交通系统研发以及计算机视觉算法测试而设计的真实世界或模拟的道路环境图像和视频集合。这些数据集包含了在各类极端天气条件下捕捉到的道路场景,例如大雾、暴雨、暴雪、冰雹、雾霾、道路结冰等,这些都是…

移动硬盘未初始化?数据恢复指南助你轻松应对

当我们插上移动硬盘准备使用时,却发现电脑提示“移动硬盘未初始化”,这无疑会让我们感到困扰和焦虑。毕竟,硬盘中可能存储着重要的文件、照片、视频等个人或工作资料。那么,面对移动硬盘未初始化的问题,我们该如何应对…

管理能力学习笔记三:管理者的时间管理法

时间管理三步法 1、对任务进行分类 2、估算任务时间 3、持续反思评估 对任务进行分类 分类方法:时间管理四象限 A类 B类 C类 D类 估算时间 需要预留休息时间和机动时间 持续反思评估 核对检查任务 自我提问 处理日常干扰的办法 对事情发出提问 对话内容进行…

后端系统开发之——功能完善

原文地址:https://blog.yiming1234.cn/?p830 下面是正文内容: 前言 通过SpringBoot开发用户模块的部分也就差不多要结束了,这一片文章就主要提一些在系统开发中需要注意到的细节部分和功能,也就是剩余的部分。 但是这个专栏只介…

我的创作纪念日 ---- 2024/3/26

前言 2024.3.26是我在CSDN成为创作者的第128天,也是我第一次真正在网上创作的第128天 当我还在日常创作时,突然发现我收到了一封信 我想我可以分享一下这段时间的感想以及收获 机缘 在CSDN的这段时间里,我学习到了很多知识,也…

服务运营 | 印第安纳大学翟成成:改变生活的水井选址

编者按: 作者于2023年4月在“Production and Operations Management”上发表的“Improving drinking water access and equity in rural Sub-Saharan Africa”探讨了欠发达地区水资源供应中的可达性和公平性问题。作者于2020年1月去往非洲埃塞俄比亚提格雷地区进行…

蓝桥杯 2022 省B 砍竹子

思路: 非常明显,这题是个贪心。因为这题是求最小操作次数,而且每次操作都会变小,所以肯定要优先操作大的元素,这样它变小之后才可能和其它元素一起操作以减少操作次数。 所以:建立两个数组,一…

js选择语句

文章目录 1. if 分支语句1.1. 示例代码1.2. 运行结果 2. if 双分支语句3. if 多分支语句4. switch 语句(了解)4.1. 注意4.2. case 穿透现象4.3. case 穿透产生的原因 5. switch 语句与选择语句区别别5.1. 语法上的区别5.2. 应用场景上的区别 6. 三元表达…

本地GPU调用失败问题解决2修改pytorch版本(失败)

一、基于现有anaconda中的环境复制新环境 1、管理员打开anaconda 进入当前环境: 输入 conda env list conda activate env_pytorch1121 2、复制当前环境为新环境 conda create --name env_pytorch2.2.0cu --clone env_pytorch1121 2)删除其中的p…

库存控制秘诀:鞋服品牌如何避免库存积压风险

库存积压对于鞋服品牌而言,是一个普遍而又棘手的问题。过多的库存不仅占用了大量的资金,还可能导致产品过时、贬值,甚至影响品牌的长期发展。因此,如何有效地控制库存,避免积压风险,成为了鞋服品牌必须面对…

window下迁移SVN仓库到新的windows服务器

一、背景 一个基于 Windows 的 SVN 服务器,用于管理团队的代码库。该 SVN 仓库托管着公司的软件项目,包括多个分支和版本的代码。我们的团队规模约为 50 人,分布在不同的地理位置,他们都依赖 SVN 仓库来进行代码版本控制和协作开…

深度学习十大算法之图神经网络(GNN)

一、图神经网络的基础 图的基本概念 图是数学中的一个基本概念,用于表示事物间复杂的关系。在图论中,图通常被定义为一组节点(或称为顶点)以及连接这些节点的边。每个边可以有方向,称为有向边,或者没有方向…

C++剑指offer与高频面试题源码解答与分析

这是博主在当初秋招刷题时候记录的剑指offer第二版以及一些高频题的C源码和解法分析,可以说把这上面的题练好了面试不虚,最后也顺利帮助我拿下baidu ali meituan等多家大厂offer。整篇文章写了大概5W个字,也是积累了很长一段时间的作品&#…

函数进阶-Python

师从黑马程序员 函数中多个返回值的接收 def test_return():return 1,"hello",3x,y,ztest_return() print(x) print(y) print(z) 多种参数的使用 函数参数种类 位置参数 关键字参数 def user_info(name,age,gender):print(f"姓名是{name},年龄是:{age},性别是…

小学生古诗文大会往届真题测一测和独家详细解析(题目来自官方)

新学期开学一眨眼已经过了一个多月了,有家长朋友开始关心2024年上海市小学生古诗文大会什么时候开始?如何准备小学生古诗文大会?如何激发孩子学习古诗词的兴趣?如何提高小学古诗词和古诗文大会的学习成绩?... 最近&…

增强现实(AR)在广告中的力量

The Power of AR in Advertising 写在前面 增强现实(AR -Augmented Reality)是指借助软件、应用程序和智能手机、平板电脑或耳机等设备,为日常生活添加视觉和音频元素的技术。如今,品牌和广告商可以在营销活动中使用AR&#xff0…

解决mysql问题: this is incompatible with sql_mode=only_full_group_by

今天在部署一趟测试环境的服务,各种配置文件都配好了,启动服务后台报错,解决后记录一下,小伙伴们也可以看看! ### Cause: java.sql.SQLSyntaxErrorException: Expression #1 of SELECT list is not in GROUP BY clause…

python爬虫-----输入输出与流程控制语句(第四天)

🎈🎈作者主页: 喔的嘛呀🎈🎈 🎈🎈所属专栏:python爬虫学习🎈🎈 ✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天…