AI作画的业界天花板被我找到了,AIGC模型揭秘 | 昆仑万维

一、前景

1、AI和AIGC的关系

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

AIGC是继 UGC、PGC 之后新型利用AI技术自动生成内容的生产方式。

img

2、AIGC的市场目前分类有哪些

目前市场上AIGC一般可分为文本类、代码类、绘画类等等,那目前市场上有哪些公司在AIGC的绘画和文本和代码这些方向做得非常顶尖水平呢?当然有,那就是昆仑万维,让我们看下他们的AIGC能力怎么样。

二、昆仑万维的AI作画简单体验

​ 电脑PC端体验地址:https://sky-paint.singularity-ai.com/index.html#/

​ 都让我们也可以用小程序,功能和PC效果一样。

​ 小程序:天工巧绘SkyPaint

1、使用系统自带的关键字绘制

在主页,我们可以直接明了的看到 “生成画作”按钮,我们选一个“童话时间 白雪皑皑 圣诞节”的主题来进行AI绘制。

img

图片生成中

img

效果如下:

img

出现了4张圣诞节图片,非常清晰、操作也非常简单,最关键的是生成图片速度非常快,非常丝滑,一点也不卡,直接惊艳到我了。

2、输入中文关键字绘制

我们输入“水天一色”这4个字,绘制效果如下。

img

3、输入英文关键字绘制

我们输入"red sky”英文,绘制效果如下。

img

小结:从体验上讲,生成图片的速度非常快,并且能很好的支持中英双语提示词输入实现文字生成图像。

三、昆仑万维的AI作画的核心竞争力

1、基于Stable Diffusion 模型

Model:Latent Diffusion

Paper:High-Resolution Image Synthesis with Latent Diffusion Models

训练集:LAION-high-resolution 和 LAION-Aesthetics

模型结构图:

img

模型原理

img

模型训练

训练目标:一步步对随机的高斯噪声降噪(denoise)

img

优势:Latent diffusion 之所以是 “latent”,是因为模型是在低维的潜空间(latent space)上进行扩散过程,而不是在实际的像素空间,从而降低了内存消耗和计算复杂度(比如输入shape是(3,512,512),下采样因子是8,潜空间中变成了(3,64,64),节省了8×8=64倍的内存)。训练完之后的模型就能把一张图表示成一个低维的潜特征。

模型推理

如图(假设batch size是1),用户输入的 prompt 被 CLIP Text encoder 编码为 77×768 的潜特征,随机噪声被表示成 64×64 的潜特征;然后 U-Net 以 prompt 的特征为条件,逐步迭代计算。U-Net 输出的噪声残差,会通过调度算法(scheduler algorithm),根据先前的噪声表示和预测的噪声残差,计算最终去噪的图像潜表示。Stable Diffusion 建议的调度算法有三种:

PNDM scheduler(Pseudo Numerical Methods for Diffusion Models on Manifolds,默认)

DDIM scheduler

K-LMS scheduler

得到图像潜表示后,就可以送到 VAE 的 decoder 解码成图像了。

img

2、Stable Diffusion 算法模型的绝对优势在哪里?

• Stable Diffsuion能压缩率更高,清晰度超越JPEG等算法。

• 与纯粹基于transformer的方法相比,本文方法更适合高维数据;还可以高效地应用于百万像素图像的高分辨率合成。

• 显著降低计算成本,在多个任务(无条件图像合成、inpainting、超分辨率)和数据集上实现了具有竞争力的性能。与基于像素的扩散方法相比,显著降低了推理成本。

• 与之前的工作(同时学习编码器/解码器架构和score-based的先验)相比,方法不需要对重构和生成能力进行精确的权衡。这确保了仅需非常少的潜空间正则化下,即可有较合理的重建效果。

• 对于超分辨率、图像修复和语义合成等条件密集输入型的任务,模型能以卷积的方式应用,并输出高达1024分辨率的图像。

• 基于交叉注意力的通用条件机制,实现了多模态训练。用它来训练类条件模型、文本到图像模型和布局到图像模型。

• Stable Diffsuion制作图片速度非常快。

总之只需训练一次通用的自动编码阶段,就可以用于多次DM训练或探索可能完全不同的任务,比如各种图像到图像、文本到图像任务。对于后者,设计了一个将transformers连接到DM的UNet骨干的结构,并支持任意类型的基于token的条件机制,就像有人已经投入了上百万的资金帮你训练了一个,你又何必重新花钱训练一个压缩模型呢?

3、昆仑万维在AI绘画上的其它技术优势

1)、在增加中文提示词输入能力的同时兼容原版stable_diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在我们的模型上使用

2)、使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合

3)、 训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练"

我们可以看下文字生成图片模型指标评估数据

评估背景:

  1. 评估benchmark:采用Chinese-CLIP(CN_CLIP),先根据模型的encoder得到text和image的embedding,再经过统一的KNN检索,Recall,从而计算出检索任务的Recall@1/5/10和mean recall(Recall@1/5/10的平均数),得到如上结果

  2. 评估数据集:Flickr30K-CN的test数据集

  3. 采用同级别image encoder模型:ViT-L/14"

img

未来的模型优化

为了让体验和算法模型变得更加强大,后续我们会针对下面4点去完善,希望能保持业界最高端水平。

• 更多语言的提示词输入支持

• 更强大的语言生成模型指导图像生成

• 风格更加多样,增加更多艺术风格的支持

• 支持用户对生成的图像进行二次提示词编辑图像功能

五、昆仑万维的文本和代码创造

1、昆仑万维的文本创造

1)、基于GTP-3模型

img

昆仑万维模型针对中文领域构建了千亿级别的高质量数据集,通过高性能 a100-GPU 集群训练得到了百亿

参数量的 GTP-3 生成模型,其几乎可以用于任何涉及理解或生成自然语言或代码的任务,同时提供了一

系列具有不同参数级别的模型,根据同任务进行适配,同时,也可以微调模型的得到适合需求的生成模

型。

文本模型指标评估

img

2)、GTP-3模型的绝对优势在哪里?

• GPT-3模型像人类一样对词语做出自己的理解

• GPT-3模型根据用户的喜好创作文学作品

• GPT-3模型根据用户的需求编写代码

• GPT-3比GPT-2有更好的文字质量,比GPT-2功能更加强大

• GPT-3模型可以进行创造性写作,展示了诗歌,对话文体,双关语使用,文学模仿和小说是其它模型不可比拟的

• GPT-3模型不是以传统的方式来使用已经存在的文本进行训练从而模仿文本,而可以通过对话方式告诉GPT-3用户想要什么样的内容。

总之通过了大部分课程的写作测试,而且仅仅需要 3-20 分钟,并且其中大部分时间用于对文本的输出长度和重复文本进行编辑。模型拥有多样的下游能力,包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等。并在各项专业性领域的任务中(例如分类,匹配,填空,识别,识别)表现突出,与现有大模型的比试中排列前茅。

3)、昆仑万维丰富的使用场景分类

我们可以点击这个这里体验:https://openapi.singularity-ai.com/index.html#/examplesIndex

img

支持多种语言,这里我们使用 “内容续写” 使用下面的接口请求就行了,使用非常方便。

JSON{ “model_version”: “模型版本”, “prompt”: “写一篇小文章。\n今天的天气不错,我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “length_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}

2、昆仑万维的代码创造

我们可以点击下面的地址进行体验

https://sky-code.singularity-ai.com/index.html#/

1)、Sky-cod3 代码生成工具介绍

昆仑万维开发了全球第一款多语言开源编程大模型 Sky-code 代码生成工具,其支持各种主流编程语言,包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等编程语言,可以帮助开发人员更快更好的编码,甚至模型每秒可以输出百字以上的代码量,并且 Sky-code模型的代码质量非常高,下表对比了 Sky-code 模型与其他代码生成模型的性能:

img

轻松上手

我们可以把sky-code安装到各个代码平台的编译器里面去,通过插件方式进行扩展,比如Visual Studio Code等。

img

2)、Sky-code的绝对优势

Sky-code 是 SingularityAI 研发的一款AI代码生成工具,支持各种主流编程语言,助力开发人员更快更好的编码。Sky-code 可以直接集成到编辑器中,无缝衔接在开发环境,在键入代码的同时,智能高效补全代码,提升工作效率,节省开发时间。 Sky-code 目前已经集成在了 Visual Studio Code 中,未来会支持更多平台和工具,如 Neovim、JetBrains IDE、Visual Studio 等。致力于为开发者解决琐碎的、重复性的代码工作,从而专注于更高价值的研发工作,这是其它工具不可代替的。

六、总结

通过上面的介绍,我们知道昆仑万维的AIGC无论是绘画还是文本还是代码生成,都拥有着非常强大和快而精准的算法模型,同时支持多语言进行绘画、和文本以及代码处理,简直就是业界的天花板, 强烈推荐大家使用。

昆仑天工开源地址:

Github https://github.com/SkyWorkAIGC

Huggingface https://huggingface.co/SkyWork

相关网站:
天工巧绘SkyPaint:
https://sky-paint.singularity-ai.com
天工智码SkyCode:
https://sky-code.singularity-ai.com
天工妙笔SkyText:
https://openapi.singularity-ai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55675.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

昆仑万维

昆仑万维CEO周亚辉:说我们投资乱是因为看不懂 过去1年,昆仑万维在资本市场动作不断,不仅斥资9300万美元投资全球最大同性恋网站Grindr,最近还联手360一起斥资12亿美元收购海外浏览器厂商Opera。 作为A股资本运作最频繁公司之一&am…

AIGC数据库工具-阿里开源Chat2DB

前言 今天无意间发现了一个AIGC数据库工具,chat2DB,重点!!!阿里开源,其设计产品的思想给了我很多灵感,故记录一下,并分享给大家。 概述: Chat2DB 是一款有开源免费的多…

昆仑万维宣布即将推出「天工」大模型,4月17日启动邀请测试

4月10日,昆仑万维宣布,其和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型——「天工」3.5发布在即,并将于4月17日启动邀请测试。 此外,「天工」大模型已经非常接近OpenAI ChatGPT的智能水平。ChatGPT是基于GPT3…

昆仑万维“勇闯”百模大战:一个“无懈可击”的商业故事话本?

文丨智能相对论 作者丨沈浪 新能源火了做新能源,元宇宙火了做元宇宙。 如果一个热点领域没有昆仑万维的身影,那一定是这个领域还不够“热”,爆不了。 但凡是热到爆的领域,昆仑万维虽迟但到。 不过,这样说可能有些…

独立AIGC潮头 昆仑万维发布昆仑天工AIGC全系列算法与模型

近日,国内领先的互联网出海平台企业昆仑万维正式发布了自己的全系列AIGC算法与模型——昆仑天工。 不同于其它公司的单一路线,昆仑万维在进军AIGC之际,直接是覆盖四大细分领域:AI图像、AI音乐、AI文本和AI编程。「昆仑天工」旗下模…

接踵而至,昆仑万维天工大语言模型发布

目录 天工大语言模型对标GPT3.5对话能力多模态应用同行对比后言 天工大语言模型 国产ChatGPT再次迎来新成员,4月17日下午,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试,并注册了chatgpt.cn作为域名。天…

有个程序员老公有多爽???

本文转载自程序员专栏 程序员作为神奇的存在 虽然大部分单身 但是被拥有后 又是另一番世界

和老婆的一次真实对话

老婆下班回来,兴奋地给我说:代码好厉害啊,一行代码就解决了我的大问题。 我:什么问题? 老婆:我要把一个目录下几百个文件的文件名都复制到一个Excel中, 手工做很慢, 我百度了一下&am…

程序员笑话集锦:丈夫与妻子篇

译者 | 弯月 出品 | CSDN(ID:CSDNnews) 程序员是一项很辛苦的脑力劳动,然而朋友却经常开玩笑说这是一项纯体力劳动。 下面,我们来放松一下,看一些令人捧腹大笑的笑话。 笑话1 有一天,小美让老公…

程序员笑话集锦之丈夫与妻子篇

译者 | 弯月 出品 | CSDN(ID:CSDNnews) 程序员是一项很辛苦的脑力劳动,然而朋友却经常开玩笑说这是一项纯体力劳动。 下面,我们来放松一下,看一些令人捧腹大笑的笑话。 笑话1 有一天,小美让老…

马斯克学什么计算机语言,马斯克头脑风暴——对计算机如醉如痴

马斯克快10岁的时候,在约翰内斯堡的桑顿城购物中心第一次看到了计算机。那家购物中心里有一家电子产品商店,销售诸如音响器材之类的设备,但在一个角落里摆放了几台计算机。 看到计算机,马斯克立刻产生了敬畏之心,他可以…

马斯克什么时候学的计算机,马斯克17岁时计算机能力测试成绩曝光

原标题:马斯克17岁时计算机能力测试成绩曝光 马斯克17岁时计算机能力测试成绩曝光 众所周知,埃隆.马斯克聪明绝顶,但他究竟有多聪明呢?马斯克的母亲给出了答案。 3月3日,马斯克的母亲梅伊马斯克(Maye Musk)在社交媒体上…

谷歌翻译字数限制_如何始终在Google文档中显示字数统计

谷歌翻译字数限制 Many writers need to keep track of word count, and Google Docs now makes it easy. In the fall of 2019, Google introduced a heavily requested feature in Docs that counts words on-screen as you type, similar to Microsoft Word. Here’s how to…

离谱!两高中生用AI生成裸照,疯狂「变现」

上一篇:千万别再乱点黄色APP了! 【导读】生成式AI火了以后,限制输出内容的就只剩人们的想象力了。这不,两个高中生用AI生成裸照,疯狂在道德的底线游走。 生成式AI爆火之后,人们发现,这AI还真的什…

达摩院2023年十大科技趋势预测,第一个太火了!

2023年,ChatGPT“横空出世”,其强大的语言理解和文本生成能力深受用户喜爱。目前,百度、腾讯、阿里、华为、京东、360等国内多家科技巨头均在以ChatGPT为代表的生成式AI(AIGC)领域进行布局。人工智能成为当今科技领域最…

扒了扒华为、新华三、联想、浪潮、曙光5家的财报,吓一大跳

这几天北京高温,全国进入高考时间。咱就不出门了,不给别人添堵。闷在房间里,把各家的年报挨个扒了一下。这里只局限在华为、联想、浪潮、曙光等传统的硬件公司。不看不知道,看完吓一跳。先看表格,然后挨个说细节。 备注…

华为VS谷歌:万物互联,谁主沉浮?

一、一周两套操作系统发布 6月2日,华为通过直播形式举行了鸿蒙HarmonyOS 2及华为全场景新品发布会,关于该发布会的详细内容老猿在《鸿蒙最新功能及承载设备详解:HarmonyOS 2及华为全场景新品发布会全纪录》进行了详细介绍,在此不…

高价即高端,钟薛高“洗脑营销”还能持续多久?

互联网时代,网红经济的爆发也造就了许多知名品牌,很多企业依靠“网红”的力量混迹流量红海,从中逐利摸金。在近日互联网大事件中,钟薛高一句“它就是那个价格,你爱要不要”突然引起消费者的群愤,虽然事后澄…

华为50家核心供应商名单,有多少听说过?

1,富士康(Foxconn):全球最大的电子产品代工厂,迄今在中国大陆,台湾,日本,东南亚及美洲,欧洲等地拥有200余家子公司及派驻机构。其中,在大陆珠三角地区&#x…

华为HMS生态解析与移动生态盘点

导读:在今天的移动应用商业领域,我们常常谈及“生态”这个词语。 “商业生态”(Business Ecosystem)的概念最早出现在1993年5月《哈佛商业评论》发表的一篇文章中,指由相互作用的组织和个人形成的经济共同体。 生态成员…