目录
进化树
从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么?
模型
Stanford Alpaca
可以借鉴的点
llama.cpp
验证阶段已完成
nebullvm-chatllama(待定)
可以借鉴的点
OpenChatKit
可以借鉴的点:
ChatGLM
可以借鉴的点
应用
QA系统
分类任务
其他任务
进化树
基础模型 | ||
GPT-4 之后
从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么?
1)闭源趋势
网友戏称 OpenAI 已沦为 Closed AI。毕竟从 GPT1 到 GPT-4,模型各类细节越来越闭源和黑盒,大模型战场的竞争因素决定了 GPT-4 类的第一梯度模型可能会越来越封闭,成为技术门槛。
2)「Self Instruct」模式
其核心是:中小模型+大模型生产指令数据的「LLaMA 7B + text-davinci-003」模式。中小参数的模型在成本上,是更靠近实际落地的方式。要知道 llama.cpp 可以在 Pixel 6 手机上运行。通过该模式精调过的 Alpaca,效果接近普通 GPT3.5。
3)模型结合
更多模态、更多形态结合 ChatGPT 类模型包括 Kosmos-1 和具身智能 PaLM-E,同时从听、说、看、触等全方位结合,形成类似真正智能体的概念。
4)模型加速和降低成本
这会是持续关注的方向,包括从训练、推理等多层面考量。
5)能力预测
这是很重要的方向。即用小模型来预测广泛大模型的能力,极大减少试错成本,提升训练效率。
6)开源评测框架
这对于 LLM 的评测具有重大意义,可以快速发现改进方向。
模型
Stanford Alpaca
基于LLaMA.
Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。在8个80GB A100上训练了3个小时,不到100美元;生成数据(开放)使用OpenAI的API,500美元。
可以借鉴的点
- self-instruct
- 数据集示例
- 微调代码已放出,微调后的模型没有开源
- 推理代码参考 官方
- 中文能力不太行 已有自己的微调版本
推理代码可以参考 llama本身
llama.cpp
基于LLaMA.
在苹果M1/M2芯片上跑LLaMA,130亿参数模型仅需4GB内存,LeCun转赞
优势:c++编译
后续可以再尝试lora版本 有说效果更好 且模型效果更小
训练参考
lora原理
验证阶段已完成
- 中文数据微调,验证方法可行性。
-
- 具体做法:
-
-
- 生成中文种子任务,让ChatGPT生成数据。用了10w的数据去微调
-
nebullvm-chatllama(待定)
基于LLaMA.
在做一个框架的事情 要集成各个模型进来
- 主要参考数据准备阶段
- 三阶段提供微调方法
微调脚本
3.推理模块还在开发中
可以借鉴的点
- 训练成本
- 数据集制作方法
OpenChatKit
基于GPT系列
- 一个参数量达 20B 的开源模型,该模型基于 EleutherAI 的 GPT-NeoX-20B,在 4300 万条指令上进行了微调;
- 一个参数量达 60 亿的审核模型(moderation model),可以帮模型过滤不当内容;
- 一个可扩展的检索系统,可以帮模型检索维基百科等资源库,从而给出最新信息。
可以借鉴的点:
- 有训练模块
- 有推理模块
- 数据准备阶段。数据格式类似OpenAI
在社区中看到训练资源
ChatGLM
基于GLM (清华)
清华开源 千亿基座的对话模型开启内测,对应单卡版本开源
- 无官方微调模块,但有其他开源替代方案
- 有推理模块
- 低成本部署
- 数据样本参考开源的方式
可以借鉴的点
- 量化,低成本部署,单卡部署
租服务器
应用
qa结合embedding。azure
阿里opensearch 内容社区实现
QA系统
分类任务
有那么多的embedding为什么gpt那么优秀
其他任务
最难的是工程化(技术方案产品落地的的能力),怎么能更好的把各种技术栈堆叠在一起(可能一个功能背后是多个功能/技术栈的结合),且能够无缝连接(把技术点用产品的交互来实现,让用户用最少的理解/使用成本,完成复杂度较高的任务),最后实现一个很好的效果。