Meilisearch 是一个开源、快速、简洁的全文搜索引擎,专为构建高性能、实时的搜索功能而设计。其主要特点如下:
-
极速搜索:Meilisearch 使用反向索引来加速搜索查询,因此能够在海量数据中提供毫秒级的响应时间,尤其适合实时搜索需求。
-
智能搜索:Meilisearch 支持模糊搜索、拼写纠错、同义词匹配、结果排序等功能,使得用户在搜索时无需提供完全准确的关键词。
-
即时更新:它支持对数据的实时更新,任何数据变动都会立即反映在搜索结果中,适合频繁变动的数据集。
-
轻量级:Meilisearch 采用 Rust 编写,内存占用较低,部署和使用都非常简单。通过一个简单的 RESTful API 即可操作,无需复杂的配置和维护。
-
多语言支持:Meilisearch 支持多种语言的文本处理和分析,包括词形还原、停用词处理等。对于不同语言,它可以自适应提供准确的搜索结果。
-
搜索体验优化:它不仅支持传统的精确匹配,还能根据用户的搜索意图返回最相关的结果,提升用户体验。
-
开源和可扩展性:由于是开源项目,开发者可以根据需要对其进行自定义扩展,并且有一个活跃的社区持续维护和改进。
Meilisearch 非常适合用于电商、博客、文档管理等需要提供快速搜索体验的应用场景。
1. Meilisearch 设置
1.1 部署 Meilisearch
首先,我们使用 Docker Compose 来启动 Meilisearch。创建一个 docker-compose.yml
文件,内容如下:
version: '3'
services: meilisearch: container_name: meilisearch image: getmeili/meilisearch:v1.8 environment: - http_proxy - https_proxy - MEILI_MASTER_KEY=${MEILI_MASTER_KEY:-masterKey} - MEILI_NO_ANALYTICS=${MEILI_NO_ANALYTICS:-true} - MEILI_ENV=${MEILI_ENV:-development} - MEILI_LOG_LEVEL - MEILI_DB_PATH=${MEILI_DB_PATH:-/meili_data/data.ms} ports: - ${MEILI_PORT:-7700}:7700 networks: - meilisearch volumes: - ./meili_data:/meili_data restart: unless-stopped
networks: meilisearch: driver: bridge
1.2 配置环境变量
创建一个 .env
文件,用来存储 Meilisearch 的一些配置:
MEILI_MASTER_KEY=vhcdWXs31gt3cB76
MEILI_NO_ANALYTICS=true
MEILI_ENV=development
MEILI_LOG_LEVEL=info
MEILI_DB_PATH=./data.ms
MEILI_PORT=7700
参数 | 值 | 说明 |
---|---|---|
MEILI_MASTER_KEY | ||
Meilisearch 的主密钥,用于身份验证。 | ||
MEILI_NO_ANALYTICS | ||
禁用分析功能。 | ||
MEILI_ENV | ||
Meilisearch 环境设置,development 表示开发环境。 | ||
MEILI_LOG_LEVEL | ||
设置日志级别为 info ,用于输出一般信息。 | ||
MEILI_DB_PATH | ||
数据库路径,指定 Meilisearch 存储数据的位置。 | ||
MEILI_PORT | ||
Meilisearch 运行时的端口号。 |
1.3 启动 Meilisearch
有了 docker-compose.yml
和 .env
文件后,只需要运行以下命令即可启动 Meilisearch:
docker-compose up -d
2. Ollama 设置
Ollama 是一个支持本地部署的大语言模型平台,可以帮助开发者通过 API 访问 AI 模型,并进行高效的自然语言处理任务。它通常用于构建自定义的 AI 应用和高级搜索功能,比如与 Meilisearch 集成进行向量搜索。Ollama 支持多种语言模型,并提供灵活的配置选项,允许开发者在本地或私有云环境中运行这些模型,避免了将数据发送到外部服务器的风险。
与 Meilisearch 集成时,Ollama 可以通过处理用户的查询,将其转换为向量,并与 Meilisearch 中的文档向量进行对比,从而实现高效的语义搜索。你可以通过 Ollama 的 API 定制各种自然语言任务,比如文本生成、摘要、分类等。
2.1 安装 Ollama
按照 Ollama 官方文档 的指示安装 Ollama。安装完成后,我们需要配置服务。
2.2 配置 Ollama 服务
创建一个新的 systemd 服务文件,路径为 /etc/systemd/system/ollama.service
:
[Unit]
Description=Ollama Service
After=network.target [Service]
ExecStart=/usr/local/bin/ollama serve
Restart=always
User=root [Install]
WantedBy=multi-user.target
2.3 允许外部访问
如果你需要从外部网络访问 Ollama,需要修改服务配置,允许绑定到所有网络接口。创建 /etc/systemd/system/ollama.service.d/override.conf
文件,内容如下:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
接着,运行以下命令来重新加载服务并启动 Ollama:
systemctl daemon-reload
systemctl restart ollama
3. 配置 Meilisearch 向量搜索
3.1 激活向量搜索功能
首先,确保你激活了 Meilisearch 的向量搜索功能。你可以通过以下命令来打开这个功能:
curl -X PATCH 'https://meili.x.net/experimental-features/' \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer vhcdWXsxi11Np1gt3cB76' \ --data-binary '{ "vectorStore": true }'
3.2 配置 Meilisearch 使用 Ollama
接下来,我们将 Meilisearch 和 Ollama 结合使用。通过以下命令将 Ollama 作为 Meilisearch 的嵌入模型:
curl -X PATCH 'https://meili.x.net/indexes/posts/settings' \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer vhcdWXs3idet3cB76' \ --data-binary '{ "embedders": { "default": { "source": "ollama", "url": "http://149.x:11434/api/embeddings", "model": "nomic-embed-text", "documentTemplate": "The document titled {{doc.title}} contains: {{doc.summary|truncatewords: 20}}" } } }'
Nomic-embed-text是一个新发布的开源文本嵌入模型,具有8192的上下文长度,能够有效处理短文本和长文本任务。该模型在性能上超越了OpenAI的text-embedding-ada-002和text-embedding-3-small,且参数量为137M,属于较小的模型。它的训练数据集包含2.35亿个文本对,支持研究人员复现和审计模型。
4. 执行向量搜索
现在你已经完成了配置,可以开始执行向量搜索查询了。下面是一个简单的查询例子:
curl -X POST -H 'content-type: application/json' \ -H 'Authorization: Bearer vhcdWXs3eycNmxi11Np1gt3cB76' \ 'https://meili.x.net/indexes/posts/search' \ --data-binary '{ "q": "Cloudflare tunnel Mac 本地设置隧道指南", "hybrid": { "semanticRatio": 0.1, "embedder": "default" } }'
参数 | 值 | 说明 |
---|---|---|
source | ||
指定嵌入器的来源,使用 Ollama 平台。 | ||
url | ||
Ollama 提供的 API URL,用于生成嵌入向量。 | ||
model | ||
使用的嵌入模型,nomic-embed-text 用于将文本转换为向量。 | ||
documentTemplate | ||
文档模板,定义嵌入器如何从文档提取信息进行处理。{{doc.title}} 代表文档的标题,`{{doc.summary | truncatewords: 20}}` 代表文档摘要并截取前 20 个词。 |
5. 监控和维护
为了确保系统运行平稳,你可以查看 Ollama 的运行日志:
journalctl -u ollama.service -f
还可以通过以下命令检查 Meilisearch 的设置是否正确:
curl -X GET 'https://meili.x.net/indexes/posts/settings' \ -H 'Authorization: Bearer vhcdWXs31Np1gt3cB76' \ -H 'Content-Type: application/json'
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。