Chromadb词向量数据库总结

简介

Chroma 词向量数据库是一个用于自然语言处理(NLP)和机器学习的工具,它主要用于词嵌入(word embeddings)。词向量是将单词转换为向量表示的技术,可以捕获单词之间的语义和语法关系,使得计算机能够更好地理解和处理自然语言。

Chroma 词向量数据库的主要功能和用途包括:

  1. 语义表示和相似度计算: 将单词转换为向量表示后,可以计算单词之间的相似度,找到在语义上相关的单词,从而支持词义的推断和理解。

  2. 词语聚类和分类: 使用词向量可以对单词进行聚类或分类,将具有相似含义的单词归为一类,从而帮助组织和理解词汇。

  3. 文本分类和情感分析: 词向量可以作为文本分类和情感分析任务的特征表示,有助于机器学习模型更好地理解文本内容和推断情感倾向。

  4. 推荐系统: 在推荐系统中,词向量可以用于理解用户的偏好和内容的语义,从而提供更准确的推荐。

  5. 语言生成和机器翻译: 词向量在语言生成和机器翻译任务中也有广泛应用,可以帮助模型生成更连贯和语义合理的文本。

Chroma 词向量数据库可能提供多种预训练模型,这些模型可以根据需求进行选择和应用,以支持各种自然语言处理任务。总的来说,它为研究人员和开发者提供了一个有用的工具,使他们能够利用词向量来处理自然语言数据并改善各种NLP任务的性能。

代码实践

安装chromadb

pip install chromadb

创建chromadb

import chromadb
chroma_client = chromadb.Client()

或者, 你想要把数据存放在磁盘上。

chroma_client = chromadb.PersistentClient(path="data")

创建collection

collection是您存储嵌入、文档以及任何额外元数据的地方。您可以使用名称创建一个collection.

collection = chroma_client.create_collection(name="my_collection")

或者

collection = chroma_client.get_or_create_collection(name="my_collection")

改变距离函数,默认是L2

collection = client.create_collection(
name="collection_name",
metadata={"hnsw:space": "cosine"} # l2 is the default
)
DistanceparameterEquation
Squared L2'l2'$d = \sum\left(A_i-B_i\right)^2$
Inner product'ip'$d = 1.0 - \sum\left(A_i \times B_i\right) $
Cosine similarity'cosine'$d = 1.0 - \frac{\sum\left(A_i \times B_i\right)}{\sqrt{\sum\left(A_i^2\right)} \cdot \sqrt{\sum\left(B_i^2\right)}}$

存储embedding, 文本,元数据,和id,

collection.add(embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],documents=["This is a document", "This is another document"],metadatas=[{"source": "my_source"}, {"source": "my_source"}],ids=["id1", "id2"]
)

根据词嵌入取数据

results = collection.query(query_embeddings=[[1.2, 2.3, 4.5]],n_results=2)

根据词嵌入和关键字取数据

results = collection.query(query_embeddings=[[1.2, 2.3, 4.5]],where_document={"$contains": "another"}n_results=2)

根据id取数据

results = collection.get(ids=["id1"])

默认Chroma使用hugggingface里的all-MiniLM-L6-v2作为词向量模型。支持以下词向量模型

如果你不想要,直接用你自己的模型,就是在存数据之前调用你的模型把文本转成词向量。

比如我用tensorflowhub里面的。

nnlm | Kaggle

import tensorflow as tf
import tensorflow_hub as hubdef get_vectors(docs):url = "./ml/nnlm_embedding"s_embedding = hub.KerasLayer(url, input_shape=[], dtype=tf.string)doc_vectors = s_embedding(docs)return doc_vectors

参考

🔑 Getting Started | Chroma

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/221046.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何储存白葡萄酒和如何储存红葡萄酒?

为了进一步帮助软木塞在葡萄酒储存过程中正常工作,考虑一下他们储存区域的湿度水平。来自云仓酒庄品牌雷盛红酒分享根据你所处的气候,你的储存区域可能会比你的软木塞想要的要干燥。最佳的葡萄酒储存湿度条件在50-70%之间。此外,如果您的存储…

whisper深入-语者分离

文章目录 学习目标:如何使用whisper学习内容一:whisper 转文字1.1 使用whisper.load_model()方法下载,加载1.2 使用实例对文件进行转录1.3 实战 学习内容二:语者分离(pyannote.audio)pyannote.audio是huggi…

nextjs + sharp在 vercel 环境svg转png出现中文乱码

在之前一篇博客 Next.js和sharp实现占位图片生成工具,详细介绍了使用 Next.js sharp Vercel 来实现一个 占位图片生成工具,遇到一个奇怪的问题:在本地开发环境,英文、数字、中文字符自定义内容,都能正常渲染。但是发…

IP地址段与子网掩码对应表,网工人手一份!

你们好,我的网工朋友。 IP地址的设置与子网掩码的使用是网络中最容易出错的地方之一,很多项目之所有故障不断,原因皆在于此。 不少网工朋友也经常在群里讨论过这个问题,之前公众号也分享过相关内容,可以看看这篇&…

Java 基础学习(十三)集合框架、List集合

1 集合框架 1.1 Collection 1.1.1 集合框架概述 Java 集合框架是一组实现了常见数据结构(如列表、树集和哈希表等)的类和接口,用于存储一组数据。 开发者在使用Java的集合类时,不必考虑数据结构和算法的具体实现细节&#xff…

GitHub 如何修改 Fork from

如果你的仓库上面是 Fork from 的话,我们有什么办法能够取消掉这个 Fork from? 解决办法 GitHub 上面没有让你取消掉 Fork 的办法。 如果进入设置,在可见设置中也没有办法修改仓库的可见设置选项。 唯一的解决办法就是对你需要修改的仓库先…

【BEV感知】BEVFormer 融合多视角图形的空间特征和时序特征 ECCV 2022

前言 本文分享BEV感知方案中,具有代表性的方法:BEVFormer。 它基于Deformable Attention,实现了一种融合多视角相机空间特征和时序特征的端到端框架,适用于多种自动驾驶感知任务。 主要由3个关键模块组成: BEV Que…

Opencv实验合集——实验五:高动态范围

1.概念 高动态范围成像(HDRI 或 HDR)是一种用于成像和摄影的技术,可以再现比标准数字成像或照相技术更大的动态光度范围。虽然人眼可以适应各种光线条件,但大多数成像设备每通道使用 8 位,因此我们仅限于 256 级。当我…

Bifrost 中间件 X-Requested-With 系统身份认证绕过漏洞复现

0x01 产品简介 Bifrost是一款面向生产环境的 MySQL,MariaDB,kafka 同步到Redis,MongoDB,ClickHouse等服务的异构中间件 0x02 漏洞概述 Bifrost 中间件 X-Requested-With 存在身份认证绕过漏洞,未经身份认证的攻击者可未授权创建管理员权限账号,可通过删除请求头实现身…

Linux的重定向

Linux中的重定向是将程序的输入流或输出流从默认的位置改变到指定的位置。可以使用特殊的符号来实现重定向操作。(文中command代表命令) (1)重定向命令列表 命令 说明 command > file …

【单调栈】LeetCode1776:车队

作者推荐 【贪心算法】【中位贪心】.执行操作使频率分数最大 涉及知识点 单调栈 题目 在一条单车道上有 n 辆车,它们朝着同样的方向行驶。给你一个长度为 n 的数组 cars ,其中 cars[i] [positioni, speedi] ,它表示: positi…

iTOP-RK3568开发板实时系统编译,Preemption系统/Xenomai系统编译,获取Linux源码包

1 获取 Linux 源码包 编译环境说明: 本手册使用的是迅为提供的编译环境 ubuntu20.04,在网盘资料“iTOP-3568 开发板\03_ 【iTOP-RK3568 开发板】指南教程\05_NPU 开发配套资料\03_RKNN_Toolkit2 环境搭建\01 课程用到的资料\01_初始 Ubuntu20 虚拟机”…

这5个A 视频生成工具你需要了解

任何人都可以很快成为下一个斯科塞斯或斯皮尔伯格,而无需任何电影制作经验。 这是许多人工智能视频生成工具背后的公司做出的承诺。但如今这些文本转视频工具有多好呢?他们是否有足够的能力制作一部高质量、成熟的电影? 在本文中&#xff0…

java_web_电商项目

java_web_电商项目 1.登录界面2.注册界面3. 主界面4.分页界面5.商品详情界面6. 购物车界面7.确认订单界面8.个人中心界面9.收货地址界面10.用户信息界面11.用户余额充值界面12.后台首页13.后台商品增加14.后台用户增加15.用户管理16.源码分享1.登录页面的源码2.我们的主界面 1.…

【yolov8系列】 yolov8 目标检测的模型剪枝

前言 最近在实现yolov8的剪枝,所以有找相关的工作作为参考,用以完成该项工作。 先细读了 Torch-Pruning,个人简单记录了下 【剪枝】torch-pruning的基本使用,有框架完成的对网络所有结构都自适应剪枝是最佳的,但这里没…

VBA之Word应用:利用代码统计文档中的书签个数

《VBA之Word应用》(版权10178982),是我推出第八套教程,教程是专门讲解VBA在Word中的应用,围绕“面向对象编程”讲解,首先让大家认识Word中VBA的对象,以及对象的属性、方法,然后通过实…

10kV站所柜内运行状态及环境指标监测管理平台

背景: 10kV站所柜内运行状态及环境指标监测管理平台对分布在不同位置的动力设备、环境监测设备和安保设备进行遥测、遥信采集,对各设备的运行状态进行实时监控,同时就相关监测数据展开记录与处理,第一时间向相关人员发出通知&…

【算法】红黑树

一、红黑树介绍 红黑树是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。 红黑树是在1972年由Rudolf Bayer发明的,当时被称为平衡二叉B树(symmetric binary B-trees)。后来&am…

HTML---CSS美化网页元素

文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 一.div 标签&#xff1a; <div>是HTML中的一个常用标签&#xff0c;用于定义HTML文档中的一个区块&#xff08;或一个容器&#xff09;。它可以包含其他HTML元素&#xff0c;如文本、图像…

15 使用v-model绑定单选框

概述 使用v-model绑定单选框也比较常见&#xff0c;比如性别&#xff0c;要么是男&#xff0c;要么是女。比如单选题&#xff0c;给出多个选择&#xff0c;但是只能选择其中的一个。 在本节课中&#xff0c;我们演示一下这两种常见的用法。 基本用法 我们创建src/component…