https://juejin.cn/post/7353963878541361192
lancedb是个不错的数据库,有很多学习资料
https://github.com/lancedb/vectordb-recipes/tree/main/tutorials/Multi-Head-RAG-from-Scratch
博主讲了很多讲解,可以参考
https://juejin.cn/post/7362789570217885759
大模型推理优化技术-KV Cache
大模型显存优化技术-PagedAttention
大模型显存I/O优化技术-FlashAttention V1
大模型推理优化技术-Flash-Decoding
大模型显存优化技术-ZeRO系列
大模型解码优化-Speculative Decoding及其变体
大模型推理服务化调度优化技术-Dynamic batching/Continuous batching
作者:吃果冻不吐果冻皮
链接:https://juejin.cn/post/7362789570217885759
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。