最近AIGC这么火,除了chatGPT以外,这种图像类的产品也是非常有意思,其中就有MidJourney和Stable Diffusion这俩个比较出圈。这里我先选择MidJourney来体验并整理出一个教程。一方面MidJourney最简单,能当路Discord,注册就有免费使用额度,相对来说门槛要低一些。Stable Dissusion需要配置机器,但是目前Github上各种项目,也越来越丰富,后面可能会这个环境去尝试一下,单独弄一个系列,毕竟还是需要显卡这些资源的,我要先做一些准备。)
Prompts简要概述
prompts实际就是一个简单的文字描述,通过这个描述可以生成一个图片。
翻译过来也有叫提示的,就是Midjourney机器人解释为生成图像的短文本短语。Midjourney机器人将提示中的单词和短语分解成较小的片段,称为令牌,可以与其训练数据进行比较,然后用于生成图像。一个精心制作的提示可以帮助生成独特和令人兴奋的图像。
官方文档原文介绍如下(其实上面一部分就是我直接翻译的):
A Prompt is a short text phrase that the Midjourney Bot interprets to produce an image. The Midjourney Bot breaks down the words and phrases in a prompt into smaller pieces, called tokens, that can be compared to its training data and then used to generate an image. A well-crafted prompt can help make unique and exciting images.
首先说明一下实际有些人说中文不能做提示prompts,其实不是不能是变现特别拉胯,如图所示,可以说和我的提示词“小朋友看升旗”是一点关系也没有。
所以说我们目前用英文做提示,比如说最近特朗普被起诉的这件事,我就搞了一个Trump is in prison的提示,还是蛮准确的。
Prompts 结构
Basic Prompts
基础提示,就是很基础,很简短的提示,官网上说可以简单一个单词,一个短多,甚至一个表情符号(emoji),这部剧不服气了,我直接来个money单词来试一下。
效果还行(至于他说的表情符号,我认为的意思是上传图片,这个我后面高级提示会有演示)
Advanced Prompts
高级提示,就是高级复杂一点的提示,首先我们看一下简单提示地结构:
高级提示的结构
主要组成部分是图片提示,文字提示,参数
这里要更正一下有些文章关于图片提示的错误,有些资料说MidJourney地图片说支持jpg和png,但是目前官网支持 .png, .gif, .webp, .jpg, .jpeg这几个格式,让我挺意外的webp,gif都支持,后面我会针对图片提示做更多介绍。(同理还有参数这些,有的时候你的出图效果很可能被这些因素所影响。)
以下是我通过一个搞笑gif图,加上“一个胖胖的男孩” ,在加上一个动画风格地参数地就展示
虽然和我搞笑图是有出入的,但是图片地池塘,岸边这些都有,毕竟解析动图相当于微小地短片,靠图片完全展示出还是有难度地,我对于这个动画风格的参数还是很满意的,因为默认的风格有些prompts产生的图片会有点阴沉,甚至有点不舒服地感觉。