图文实录|澜舟科技合伙人李京梅:基于预训练模型的 AIGC 技术与应用实践

2023年1月6日,由稀土掘金技术社区与 Intel 联合发起的第一届「掘金未来大会」在北京成功举行。

大会上,澜舟科技合伙人、首席产品官李京梅介绍了澜舟科技的孟子轻量化预训练模型,及其已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源,提供近 20 个模型,涉及阅读理解、文本生成、多模态、金融等等各个方面,企业均可以下载使用。

此外,李京梅通过营销文案写作、文学辅助写作、基于情节配图三大场景进一步展现基于预训练模型的 AIGC 技术的实践应用。她表示,人类应持续提升创造力,AI 将通过提升产业效率的方式来帮助人类更好地创造价值

以下为澜舟科技合伙人、首席产品官李京梅演讲全文:

预训练模型标志着 NLP 进入了工业化实施阶段

澜舟科技正式成立于 2021 年 6 月,是一家初创企业,基于预训练模型做 NLP 的技术创新,驱动在各个垂直领域落地。今天也将重点聚焦泛互联网领域,尤其是现在较火的 AIGC,看看大模型在具体领域中可以做哪些事情。

技术发展之上是一个简单的时间轴。80 年代,是一个基于符号、统计等等相关模型的时代,到了 2010 年,开始进入深度学习时代。在 NLP 自然语言处理的领域中,一个最大的技术突破是 2017 年谷歌出现了 Transformer 技术,一切就开始变得不一样了。再到 2019 年,阅读理解 AI 第一次超越人类,以及后来出现的一些大模型,包括目前广泛应用的 OpenAI GPT-3,以及预期 2023 年 GPT-4 什么时候会出现等等。

从最早的运算智能,如大数据、云计算等等都属于刚需了,以及感知智能,像视觉、语音都已经非常成熟。但现在为什么又谈认知智能?认知智能,是你看到了,听到了,有没有懂?有没有理解?是不是能够思考?能够做决策?......如今,谈到 AIGC ,就是 AI 创作内容,你能不能看到了,听懂了,也理解了,更能创造内容了。因此,现在是从感知智能演变到认知智能,甚至是创造智能的阶段

此次提到的大模型是一个预训练模型。什么是预训练?就是对互联网公开的、海量的数据去做无监督的训练,从而让模型对特定任务的学习变得轻松。而不是传统的靠人去做标注。好处在于,模型的水平已经提得很高,落地时就会基于某一个垂直领域的数据,或者某一客户的数据,只需做微调,落地就非常敏捷了,这时候客户要提供的数据比传统机器学习从 0 开始做一个模式要更快。也就是说,预训练模型标志着 NLP 进入了工业化实施阶段,可以核算成本,也可以作为生意,客户也能看到价值

澜舟科技有一个技术品牌叫孟子,专注于中国的客户、市场以及中文,在基础模型上,自研了一个孟子轻量化预训练模型。简单来讲,做了三件事:

  • 一是模型优化。在模型的架构上做了性能优化、任务构造等等;
  • 二是知识增强。虽然是个预训练,但在不同的领域需要具备一定的领域的知识,因此基于知识图谱、语言学等方面做知识增强;
  • 三是数据增强。虽然这是一个通用预训练,但还是会有一些任务,比如阅读理解、分类、长短文本理解等等,还是会在一定的大范围内做相关的数据增强。

因此,孟子轻量化预训练模型不仅是一个模型,还是一系列的若干模型。2022年,孟子轻量化技术迈上新台阶:登顶 ZeroCLUE 和 FewCLUE 榜单,这使得孟子预训练模型是轻量化的,真正落地的体积要求的数据量都会小,经济且快速地适配。

除此之外,孟子轻量化多任务模型已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源,提供近 20 个模型,涉及阅读理解、生成、多模态、金融等等各个方面,企业均可以下载使用。

面向三大场景的 AIGC 应用

虽然澜舟科技有大模型、NLP 等相关技术,但却十分注重在垂直领域或是场景化的前提下进行落地。此次分享则聚焦营销文案写作、文学辅助写作、基于情节配图这 3 个场景展开 AIGC 应用:

1、文学辅助写作场景。澜舟与中文在线、17K 小说等网文平台合作过程中听到许多实际的需求,为此,澜舟也提供了 4 类服务:

  • 续写。用户开头写前文,机器往下续写,这是一种很常见的交互式写作;
  • 基于关键字生成。比如用户语文不太好,但想出了许多辞藻,一定要放到作文中,却串不成句子,那么基于关键词就可以让 AI 帮助润色,语法也十分通顺;
  • 实体渲染。这是网文创作中刚需的需求,这里的实体指的是一个人物、物体等等,比如,现代男性、古代美女、或者一种法器,基于关键词描写实体;
  • 自定义模板。基于用户自定义模板做完型填空、填词造句。

实际上,澜舟所提供的能力已经在中文在线和 17K 小说平台落地实现,赋能平台作者写作能力。比如,澜舟的能力开放在 17K 小说的作者写作界面中,是一个非常跨界的应用,都是基于孟子预训练模型中的文本生成的能力,以及利用网文的相关语料的落地,同时,交付也非常轻,就是一个接口,然后集成到 17K 的作者平台上。

澜舟还做了一个 To C 的小程序,叫熊猫小说家,实际上就是故事接龙。用户作为一个发起者先要创建故事,构思情节给到一个故事梗概,然后再给出一些关键词,就可以随机生成文字。如果用户属于社牛型,还可以把小说公开到广场,谁想来一起往下写都可以。可以说,澜舟在文学辅助写作上的 AIGC 的能力放到了小程序中,有兴趣的都可以试一试。

2、营销文案写作场景。营销文案其实是澜舟做得较早的一个落地应用,目前聚集美妆汽车领域。用户可以从两个领域中进行选择,系统中有写内容、生成题目、改写等等方面,但都需要用户给到一定的关键字。到这里,大家会发现对于模型、技术而言,写什么都比较类似,关键在于在不同领域中,澜舟有不同的数据,所以关键词不一样,也就很快能适配到不同的应用的领域,但背后的技术是相通的,不用重新做一个完全不同的技术体系。比如,汽车领域中,可能涉及到一些专业的知识图谱,有品牌、有款型等等,当然,这只是一个体验,依然有不足指出,但如果有定制合作的需求,效果肯定比线上的试用 demo 更好。

一年前,澜舟与数说故事开展合作,数说故事做前台,澜舟做背后的引擎,打造了一款自动化写作产品,名为 http://content-note.com 智能文案,分成 “选择模板-输入关键词-生成结果” 三个步骤走。此外,还有澜舟论文助写(LPA),主要是基于用户提供的关键词生成完整的句子,以及根据前文生成下一个句子供作者参考,现在澜舟还将其拓展到人工智能的英文论文写作,参加 NLP 、 ACL 等领域顶会的研究人员使用,与 ChatGPT 相比,写出的内容更具论文范。

以上两个场景都是文本生成类应用,可以看到澜舟科技作为一个平台,它的底层是大模型以及算法、技术和数据等等,在具体领域中落地时,会有不同垂直领域的数据,这时候就出现了分支,还有一些针对文本生成相关的句子,最后都会归纳成澜舟文本生成平台。

同时,整个文本生成引擎功能有 6个特点:

  • 多属性可控文本生成,通过关键字、主题、完型填空、实体渲染等控制属性达成 AI 可控性的目的;
  • 多样化的文本生成形式,基于已有文本的续写,以及基于关键词、标题、表格数据的文本扩写,使用更加灵活;
  • 基于知识图谱的文本生成,用户可以自定义知识图谱,提高生成内容的事实正确性;
  • 内容和风格定制化,基于用户数据构建专属文本生成引擎;
  • 文本自动评测系统,可以评测文本正确性、逻辑连贯性等等;
  • 多行业领域支持,比如营销、金融、新闻、医疗、教育等众多行业。

3、基于情节配图。虽然澜舟科技主打不是做图,但文、图有很多相通性,尤其是在模型底层向量化之后,无论是文字、语音还是图片,可比性和相似度变得非常的容易。澜舟科技在 文-图生成模型 Stable Diffusion 基础上进一步做垂直领域的落地,这里面分了几个模型,有图像编码、解码以及中间去噪的一个模型。如下图所示,左边是一个飞马,右边一个飞着的斑马,中间加的字就是飞在天上的斑马,最后飞马身长多出来“黑色条纹”变成了斑马,因此,文字进来也会进行编码,进去到去噪的模型中,大概就是这么一个原理。

那么,澜舟科技具体在 Stable Diffusion 基础上做了什么?首先是文到图生成,比如,给小说中的一段话配图;其次是以图生图,比如,一位小朋友想要画这样一幅画:一只蜗牛,背上背着一栋房子,天上有彩虹。但小朋友画不好,那么,基于小朋友的画可能有不同画风的 AI 生图;最后是以文控图,比如,先生成一张“一个穿裙子的小女孩”的图片,在此基础上,还可以是在唱歌、在跳舞、在拉小提琴等等,通过文字再次控制原图片生成。

以上都是 Stable Diffusion 已经开源的模型以及常见的一些场景,其中还有在产品化、工具化以及标准化方面需要澜舟科技发力的地方,而且已经有许多场景接近于可以对公众发布。

那么,澜舟 AI 文图生成技术主要有几个特点:

  • 中文优化更可控
  • 智能提示生成,众所周知,Stable Diffusion 基于 prompt (提示),而普通用户只会讲自然语言,如何把它翻译成更好的模型,可以理解的 prompt ,以及可能会适当添加用户并没有输入的内容,这些都是澜舟需要做工作之一;
  • 概念构建一致性,这里的概念可能是一个小说里的人物、法器或者其他的物件等等,让它们在一个小说故事中保持一致性,也是一个挺大的挑战;
  • 个性化定制训练,AI 不能随机定制,比如小说故事中的人物,AI 定制的人物形象从始至终必须保持一直;
  • 推理加速提升体验,包括降低成本,毕竟商业化付费时对业务是有价值的。

目前,澜舟科技也有一些初步的研究成果,比如可控的文图生成的风格控制,举个例子,生成一种国画风,也是用到 Stable Diffusion,但中间也会做一些训练进行反哺,就是有一个 Discriminator 判别器,中间有人员参与挑选生成的图片,然后告知模型生成的图片中有哪些是符合国画风的,哪些是不符合的,即把正确的结果再反哺给 Stable Diffusion ,如此训练出来的模型再去推理时,效果就会接近想要的风格。再比如,一张女孩子的图片,还可以指定风格生成二次元、国画、赛博朋克等不同风格的需求。

再拿形象控制来说,比如小说故事中的人物必须长成描述的样子,给定目标形象,但训练时也怕会出现拟合,需要把一些泛化的形象塞到模型中。为此,澜舟采用的是 DreamBooth 的方法,即拿一个字符去代表某一种男孩的形象进行训练,当进行推理时,只要告诉模型要推理这个字符形象的男孩,就能得到想要的效果。比如,一个男生走进便利店,他会出现在询问店员、拿商品以及结账等场景中,当然现在还会有一些瑕疵需要后续不断完善。

最后,澜舟科技未来能做的事情还有很多,也十分看重应用场景的切实落地,过程中还有许多问题亟待解决:一是长文本生成的可控性,AI 写几百字的文本还可以,但如果是上千字,可控性就没有那么强;二是篇章和上下文一致性,比如熊猫小说中的故事接龙,涉及上千篇章或节,以及将前面的摘要融合到上一篇或者上一节内容,都是需要去探索的地方;三是常识与事实合理性,这方面可能就要引入知识图谱,比如让机器晓知天文地理,对时间地点、人物关系等合理性描述;四是,个性化敏捷定制,比如,用户有一个固定的人物形象或是一个插画,究竟如何去做个性化定制都需要后续探索。

总而言之,在 AIGC 领域,人类应该持续提升创造力,不要停止,不要因为有了 AI 就不去创造了,而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17199.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

已经有人用大模型挣上钱了?!

从ChatGPT横空出世,到百度文心一言发布满月,AIGC正在越来越多的行业、领域、人群间发光、发酵。从最初的倒卖ChatGPT账号获利,到现在更多开始直接使用AIGC的能力获益。 你日常刷到的电商直播间里的主播,可能并不是店小二本人&…

Prompt工程:AI2.0时代打开大模型能力的金钥匙

如果说互联网时代是一个人配一个电脑,AI新时代,或将是一个AI大模型配一个人。 ChatGPT显然已经成为一场比赛,但事实上,ChatGPT、文心一言、Midjourney等AIGC产品仅仅是拉开了AI新时代的一角帷幕,其背后的GPT、Stable …

澜舟科技周明:大模型正在催生新AI中台 | 中国AIGC产业峰会

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT爆火,吹起了大模型、AIGC的风口,但伴随着兴奋而来的,还有普遍的焦虑: 大模型时代,我们究竟应该做些什么? 我想现在,一是要看到未来AGI的绝对趋势…

网文版ChatGPT来了:大模型辅助写作,澜舟和中文在线联手出品

衡宇 发自 凹非寺量子位 | 公众号 QbitAI AIGC爆火,ChatGPT一枝独秀,想要追逐、赶超,从什么角度切入比较好? 澜舟科技创始人兼CEO、AI大拿周明的想法是“在垂直领域的应用”。 也就是说,不学ChatGPT的“AGI”梦想&…

怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090

©作者 | Posibilitee 单位 | 悉尼大学 怎样让 ChatGPT 在其内部训练神经网络?这个话题有点超乎大多数人的理解。 步骤是这样的: 1. 先让它伪装成 Ubuntu 18.04,给它说你安装了 Python 3.9, Pytorch 1.8, CUDA 11.3 和其他训练一个 pytor…

网页打不开

有没有老哥懂得啊 我挂上梯子后电脑老是打不开界面,但是手机却可以。之前chatgpt也是

利用“超越数字化”的这 7 个技巧来改变您的业务

21世纪的技术正在改变人们工作的方方面面。企业转型的需求前所未有的大。指数型的技术组合所叠加的颠覆性效应和规模可能超过以往人类社会的任何一次产业革命。《超越数字化》为企业领导者提供了一份实用的变革路线图,旨在帮助他们的公司在面临各种不确定性变化的情…

一直被低估的美图,正悄悄成为AIGC领跑者

【潮汐商业评论/原创】 也许多年之后再回望历史,2023年将被视为标志性的一年。它不仅是疫情之后的复苏之年,更是人工智能在中国乃至全球迎来爆发的一年。 从来没有这样的景象——在2023年的前3个月,全球互联网被AIGC话题“刷屏”&#xff0…

数字孪生是指通

这里写自定义目录标题 创建平面创建立方体创建约束调整立方体的尺寸调整立方体的位置创建楼梯设置场景单位创建平面创建线段调整线段的位置创建公路删除线段创建道路标志创建线段调整线段的位置创建放样模型创建线段调整线段的位置创建放样模型调整放样模型的尺寸调整放样模型的…

面向普通用户和开发者的ChatGPT Prompt Engineering 终极指南

你准备好发掘 ChatGPT 的全部潜力了吗?想象一下拥有一个AI工具,它能在很多方面帮助你 — — 从回答问题和创作有趣内容到提供个性化建议。这就是「Prompt Engineering」的用武之地 — — 一种有效且强大的方法,通过精心创建Prompt和指导&…

代理模式(Java版)-静态代理、JDK动态代理和CGLib动态代理

代理模式前传 前几天有个小朋友问到我代理模式,这个我拿手的嘛。废话不多说,直接开讲?这是不可能的。 一般呢,讲模式之前呢,礼貌上都要讲个前传。象我这种老了根本不怕没有故事祭奠的人,随手一个前传开始。…

『行业分析神器』ChatGPT麦肯锡方法,帮你快速摸清一个行业……

作为一名营销策划人员,是不是经常在做策划方案的时候,面对一个完全不了解的全新的行业,不知道如何下手? 其实,对于咱们营销人来说,行业分析对我们来说非常重要。这是因为只有了解行业趋势、竞争对手、目标…

一文读懂ChatGPT的前世今生(附相关论文下载)

2022年11月,人工智能公司OpenAI推出了一款啥都会的聊天机器人:ChatGPT。它能聊天、能翻译、能做题,还会写情书、写论文、写小说……功能强大到马斯克都表示“我们离强大到危险的 AI 不远了”。 ChatGPT是平地起高楼吗?是横空出世吗…

【ChatGPT】InstructGPT —— 如果这么看的话,ChatGPT 不过就是人类集体智慧调教出来的一个大知识模型?

目录 概述 根据人类反馈进行调教:基于人类反馈的强化学习,RLHF 问题背景

论文阅读之Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2020)

文章目录 AbstractintroductionSetupmodelThe Colossal Clean Crawled CorpusDownstream TasksInput and Output Format Experiments总结参考 文章标题翻译过来,大概是:用统一的文本到文本转换器探索迁移学习的极限。 确实挺极限的。 这篇文章主要探讨了…

好家伙!GPT-4 下周要来了!

转自:量子位 GPT-4 将在下周发布 3 月 9 日,微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示,GPT-4 将在下周发布,将提供多模态模型。自 3 月初发布 Kosmos-1 以来,微软正在与…

Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)

本文解读Transformer较为详细,是一篇两万字的长文,如果想看简短版的,请参考这篇文章 目录 1 相关背景 1.1 Transformer 1.2《Attention is all you need》 1.3 论文作者 1.4 Google brain 1.5 NIPS 1.6 BLEU score 2 摘要、结论…

独立产品灵感周刊 DecoHack #046 - 试试用 ChatGPT 写周刊

本周刊记录有趣好玩的独立产品设计开发相关内容,每周发布,往期内容同样精彩,感兴趣的伙伴可以 点击订阅我的周刊。为保证每期都能收到,建议邮件订阅。欢迎通过 Twitter 私信推荐或投稿。 💻 产品推荐 1. 转山 - 全自动…

亚马逊数据 各国亚马逊数据API 管理工具

什么是 API 管理? 应用程序编程接口管理(简称为“API 管理”)由一系列工具和服务组成,使开发人员和公司能够在安全的环境中构建、分析、操作和扩展 API。可以在本地、通过云或使用混合本地 – SaaS(软件即服务&#x…

跨境电商如何使用WhatsApp Business与客户沟通?这几个错误需要避免

关键词:跨境电商,WhatsApp Business,客户沟通 WhatsApp Business缩小了客户和企业之间的巨大差距,并提供了直接即时通信的媒介。与客户的个人互动确实帮助许多企业扭转了局面。但很多时候,错误的交流方式可能会使商业…