系列文章目录
玩转大语言模型——ollama导入huggingface下载的模型
玩转大语言模型——langchain调用ollama视觉多模态语言模型
langchain调用ollama视觉多模态语言模型
- 系列文章目录
- 前言
- 使用Ollama下载模型
- 查找模型
- 下载模型
- 测试模型
- ollama测试
- langchain测试
- 加载图片
- 加载模型
- 模型回复
前言
视觉多模态语言模型由预训练的多模态编码器、预训练的 LLM 以及连接两者的多模态接口等主要组件构成。将图像信息转换为可被语言模型处理的特征表示。拥有强大的视觉理解能力,能够准确理解图像内容,进行图像描述、视觉问答、图像定位等任务。可以与用户进行多轮交互,根据用户的文本和图像输入生成连贯、准确且有针对性的回答。本篇文章将介绍使用langchain调用ollama视觉多模态语音模型。
使用Ollama下载模型
查找模型
Ollama官网:https://ollama.com/
在Ollama官网上点击左上角的Models
选择Vision
后就可以看到所有的支持视觉的模型了,在本篇文章中我们将使用llava
模型进行演示,笔者也可以选择其他模型进行测试。LLaVA(Large Language and Vision Assistant)是一种多模态模型,它结合了视觉编码器和 Vicuna 以实现通用视觉和语言理解,在科学问答、数据分析和学术任务导向的视觉问答中表现出色,为研究人员提供了强大的工具。
左侧可以选择模型大小,模型越大一般来说效果越好,但针对测试来说7b的模型是够用的,为了兼容更多人的硬件设备,我们选用7b模型即可。右侧的就使用ollama下载模型的命令。
下载模型
打开命令行窗口,输入ollama下载模型的命令:ollama run llava
,该命令会下载模型并直接执行,在初次下载成功后再执行命令不会重复下载。
执行命令后会先下载llava模型然后运行。如果想仅下载不运行,可以使用ollama pull llava
使用ollama run llava
下载模型,可以直接与模型对话验证下载是否成功,如果使用的是ollama pull llava
可以通过ollama list
查看模型有没有被添加到列表,如果添加到列表,说明下载成功。
测试模型
ollama测试
下面我们用这样一张图片测试一下模型的性能。图片的路径在:D:/test_llava.png
打开命令行输入:ollama run llava
,可以直接在提问时提出图片路径使用模型。
但是llava模型默认会使用英文回答,所以最好在询问的时候让模型用中文回答。从中文的回答上来看,回复内容是比较宽泛的描述,并且有可能会出错(羊驼被当作了斑羊)。这可能和模型或者模型大小有关,可以尝试其他模型测试一下,后期笔者也会写一篇相关的测试文章,请关注我的专栏。
langchain测试
加载图片
在langchain中使用视觉多模态语言模型时,图片应该是Base64编码的格式,下面介绍两种图片转Base64编码的方式。
从网络获取图片
import base64
import httpximage_url = "图片的网络链接"
image_base64 = base64.b64encode(httpx.get(image_url).content).decode("utf-8")
从本地获取图片
从本地获取图片并不能直接读取并转换Base64编码格式,在这里我们可以编写一个函数来解决。
import base64
from PIL import Image
import iodef image_to_base64(image_path):with Image.open(image_path) as img:buffer = io.BytesIO()img.save(buffer, format="PNG")img_bytes = buffer.getvalue()img_base64 = base64.b64encode(img_bytes).decode("utf-8")return img_base64local_image_path = "D:/test_llava.png"
image_base64 = image_to_base64(local_image_path)
在函数image_to_base64
中,这里使用Image.open
函数打开指定路径的图片文件。Image
是PIL
库中的类,open
方法用于打开图片文件。with
语句用于确保在使用完图片资源后,自动关闭文件,释放资源,避免资源泄漏。io.BytesIO
是 Python 标准库io
中的类,用于在内存中创建一个二进制流缓冲区。这个缓冲区将用于存储图片数据。将打开的图片img
保存到之前创建的缓冲区buffer
中后,使用getvalue
方法用于获取缓冲区中的所有数据然后通过base64.b64encode
函数用于对二进制数据img_bytes
进行 Base64 编码,返回一个字节对象。然后使用decode("utf-8")
方法将字节对象转换为 UTF-8
编码的字符串,得到最终的 Base64
编码的图片字符串。
加载模型
这里使用langchain中OpenAI接口和Ollama接口分别加载模型
首先下载langchain-openai
和langchain-ollama
包,打开命令行,分别输入:
pip install -U langchain-openai
pip install -U langchain-ollama
OpenAI模型加载
from langchain_openai import ChatOpenAImodel = ChatOpenAI(temperature=0,model="llava:latest",openai_api_base="http://localhost:11434/v1/",openai_api_key="any key"
)
因为我们在本地使用ollama
下载了llava
模型了,所以openai_api_base
为ollama
提供的URL:http://localhost:11434/v1/
,openai_api_key
可以为任何值,但不能不传这个参数或者为空并且不能是中文。
Ollama模型加载
from langchain_ollama.chat_models import ChatOllamamodel = ChatOllama(model="llava:latest", temperature=0)
使用Ollama方式加载就更简单了,不过这种方式仍然可以访问远程的URL。下面给出例子
model = ChatOllama(model="llava:latest", base_url="http://localhost:11434/v1/", stream=True, temperature=0.6)
如果要访问其他地址的ollama的URL,修改base_url参数即可。
模型回复
from langchain_core.messages import HumanMessagemessage = HumanMessage(content=[{"type": "text", "text": "描述一下这幅图,用中文回答"},{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{image_base64}"},},],
)
response = model.invoke([message])
print(response.content)
运行结果: