AIGC
- AIGC
- 1. 关于ChatGPT
- 2. 关于大模型
- 模型即服务。现在大模型的两种:
- 大模型发展趋势:
- 大模型作用:
- 大模型核心:
- 3. 要复现一个ChatGPT需要的资源支持?
- 4. ChatGPT的局限性
- 5. 类ChatGPT 未来的发展
- ChatGPT 体现的通用性,代表的新的交互形式的出现。
- 今后的发展:
- 6. 提示工程
- 1P3T
- Prompt 技巧:
- 7. 更多工具
DataWhale AIGC主题学习(点击前往视频链接)学习记录,分享关于AIGC的背景、概念、前景、使用、工具等
AIGC
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用。
1. 关于ChatGPT
ChatGPT的出现不是一蹴而就的,是大模型的工程化实现。依赖于大模型、基础模型(Transformer)、云与算力。
以Tranformer(2017)为界,AI 1.0 迈入 AI 2.0 时代。
- AI 1.0:单一领域数据集,诸多数据集和诸多模型各形成孤岛。劳动密集型的数据标注
- AI 2.0:超级海量数据,无需人工标注。一个具有跨领域知识的“基础模型”,执行五花八门任务。
体现的是 传统深度学习 和 基础模型“预训练 + 微调”范式 的区别
2. 关于大模型
模型即服务。现在大模型的两种:
- 开源大模型: 如Meta
- 如 BloombergGPT,针对金融领域,构建了一个迄今为止最大的领域特定数据集,赋能金融行业情感分析、命名实体识别和知识问答等自然语言工作
- 如 Segment,Meta AI 发布的图像分割基础模型
- 封闭式模型: 如OpenAI
大模型发展趋势:
- 家族化:模型迭代
- 多模态趋势:聚合多元数据信息(文本、语音、图片、图像),提高大模型表征空间的精确度
- 知识融合趋势:解决常识、知识、逻辑推理等问题
大模型作用:
- 提供预训练方案
- 具备自监督学习功能,降低训练研发成本
- 有利于精度提升
大模型核心:
大算力 + 强算法 + 大数据
3. 要复现一个ChatGPT需要的资源支持?
- 算法:开源
- 大模型工程支持
- 扎实的分布式系统能力,现有的开源系统:Megatron-LM、DeepSpeed、OneFlow LiBai
- 算力:购买
- 数据
- 背景:数据交易机制不健全,高质量数据难获得
- 依靠核心业务积累数据、建设爬虫团队获取…
大模型时代引发的数据变革
数据起到了至关重要的作用。在大模型训练时,训练数据的数量(参数大小和训练数据大小比例)、训练数据的配比(数据的类别、质量)都影响最终的模型。因此,愈发凸显出数据价值。
OpenDataLab:开放数据建设
4. ChatGPT的局限性
目前类ChatGPT在生成回答时可能会出现的问题:
- 常识问题
- 似是而非
- 政治不正确
- 与企业或行业对接时
- 续写问题
- …
大模型体现的是“暴力美学”,但不代表 符号和知识图谱 会被淘汰。
5. 类ChatGPT 未来的发展
ChatGPT 体现的通用性,代表的新的交互形式的出现。
互联网 → \rightarrow → 移动互联网 → \rightarrow → AI互联网
今后的发展:
继续做大模型,或者 做大模型和应用层中间的中间层:即各个垂直领域
- 提效工具
- 融入业务场景(如游戏内npc)
- 形成新的业务,突破难的业务
- 通过LLM获得新的战略增长点
LLM主要供给B端,对比C端,Single-Use APP可能是一个好的方向,这时,便体现了搭建平台的重要性
6. 提示工程
1P3T
- prompt
- temperature:尺度, 0.7(0~2)
- max_tokens:长度,60min(1~2048/4000)
- top_p:采样,1.0(0-1)
Prompt 技巧:
- 格式要求
- 生成 … 并用逗号分隔
- 生成的类别
- 生成段落/邮件/求助/报表
- 根据以下指令生成图片,使用Markdown,不要使用反引号或代码框
- 英文提示:Think in English and reply in Chinese
- 控制回复量
- 控制数量
- 假装和限定角色获得场景
- 作为XXX角色
- 提供上下文
- 重新整理数据
- 简洁表述,整理
- 扩展内容
- 转化为Markdown
- 限定内容
- 基于给定内容
- 描述场景
- 组合流水线
- 生成列表
- 对每个内容
- 。。。
- 突破个人限制
更多内容可参考吴恩达 ChatGPT prompt 课程
7. 更多工具
Notion AI:用于生成文本
阿里ModelScope创空:聊天机器人和绘画
Vega:AI绘画
Gamma:对话生成PPT
腾讯——数字人自动播放
口语练习:Voice Control for ChatGPT 插件
论文绘图
科研润色翻译:github.com/binart-husky/chatgpt_academic
科研助手:Scispace, Chatpaper
进一步了解可参考DataWhale内相关内容