HuggingFace Embedding 转为 Ollama Embedding

Ollama 是基于 LlamaCpp 开发的 CPU 上的推理引擎，通过 LlamaCpp 提供的脚本可以将大语言模型装换为 gguf 的二进制跟是文件，从而通过 Ollama 就行推理。Ollama 支持HuggingFace 大多开源模型，例如 Llama、Qwen、Gemma 和 Phi3 等等。

GGUF 是一个二进制格式，目标是将所有模型相关文件组装成为单个文件易于传输和管理。HuggingFace 通常使用的是 Pytorch 的 bin 格式或者是 Safetensors 格式，对于大语言模型转换比较简单，做好相应的 ChatTemplate 配置既可。

本文主要是讲述如果转换 Embedding Model，Embedding 也是基于 Transformer 框架的，但是 Embedding 分词器通常和 LLM 不太一样，在转换是我们需要进行调整。本文转换的是腾讯的 Embedding 模型，Conan-embedding-v1 目前这个模型在 MTEB 上综合排名第一。

在这里插入图片描述
首先，看一下模型的分词配置，使用的 BertTokenizer，需要模型并指定 WordPiece 分词器。

在这里插入图片描述
如果直接使用 LlamaCpp 的转换程序进行，转换会报如下错误。

NotImplementedError: BPE pre-tokenizer was not recognized

需要在 convert_hf_to_gguf_update.py 中配置模型

在这里插入图片描述

 {"name": "conan-embedding-v1",  "tokt": TOKENIZER_TYPE.WPM, "repo": "https://huggingface.co/TencentBAC/Conan-embedding-v1", },

下载模型，并在模型的目录下运行转换命令

python ../llama.cpp/convert_hf_to_gguf.py --outtype q8_0 .

模型配置文件

FROM ./Conan_Embedding_V1-324M-Q8_0.gguf

编译模型，模型编译完成之后，使用 Ollama 客户端调用模型

ollama build -f conan

总结

Ollama 使用时要特别注意分词器和 ChatTemplate，否则对于语言模型输出结果会产生异常，对于 Embedding 模型会出现转换错误。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/424072.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

HuggingFace Embedding 转为 Ollama Embedding

总结

相关文章

【运维监控】Prometheus+grafana监控zookeeper运行情况

大模型入门3:理解LLAMA

Java应用压测工具JMeter

视图(mysql)

【python计算机视觉编程——9.图像分割】

Docker常用操作（基础篇）

springBoot 集成https

Docker零基础入门

abVIEW 可以同时支持脚本编程和图形编程

光伏选址和设计离不开气象分析！

vue2制作高复用页面

Uniapp + Vue3 + Vite +Uview + Pinia 实现购物车功能（最新附源码保姆级）

docker-compose elasticsearch 集群搭建(用户登录+https访问)

Proxyless Service Mesh：下一代微服务架构体系

STM32中的计时与延时

安卓13允许app启动服务 android13允许应用启动服务无法启动服务 Background start not allowed: service

军用软件安全性可靠性设计与编码规范技术培训

破解AI生成检测：如何用ChatGPT降低论文的AIGC率

源码运行springboot2.2.9.RELEASE

基于Vue的兴趣活动推荐APP的设计与实现_kaic