数据库管理159期 2024-03-11
- 数据库管理-第159期 Oracle Vector DB & AI-10(20240311)
- 1 其他distance函数
- 2 实例演示
- 使用其他函数寻找最近向量点
- 函数变体
- 简写语法
- 总结
数据库管理-第159期 Oracle Vector DB & AI-10(20240311)
作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Associate: Database(Oracle与MySQL)
国内某科技公司 DBA总监
10年数据库行业经验,现主要从事数据库服务工作
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP、认证技术专家、年度墨力之星,ITPUB认证专家,OCM讲师
圈内拥有“总监”、“保安”、“国产数据库最大敌人”等称号,非著名社恐(社交恐怖分子)
公众号:胖头鱼的鱼缸;CSDN:胖头鱼的鱼缸(尹海文);墨天轮:胖头鱼的鱼缸;ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭。
写了些其他的东西,又休息了几天,今天继续。
在前面我演示了vector_distance()的默认算法方式,即Euclidean Squared(欧几里得平方)。本期我将演示其他的distance函数。
1 其他distance函数
在Oracle AI Vector Search中还有其他几种类型的distance函数:
- Cosine Similarity(余弦相似度)
- Dot Product(点积)
- Manhattan Distance(曼哈顿距离)
- Hamming Distance(汉明距离)
在vector_distance()函数中,默认为EUCLIDEAN,指定其他distance函数则使用一下方法:
- vector_distance(v1, v2, EUCLIDEAN);
- vector_distance(v1, v2, COSINE);
- vector_distance(v1, v2, DOT);
- vector_distance(v1, v2, MANHATTAN);
- vector_distance(v1, v2, HAMMING);
2 实例演示
本节内容仍使用上一期的VT2表,使用向量点(16,4)进行演示,不同的函数结果略有不同:
使用其他函数寻找最近向量点
Cosine Similarity
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector_distance( vector('[16, 4]'), v, COSINE)
FETCH FIRST 4 ROWS ONLY;
Euclidean Similarity
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector_distance( vector('[16, 4]'), v, EUCLIDEAN)
FETCH FIRST 4 ROWS ONLY;
Dot Product
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector_distance(vector('[16, 4]'), v, DOT)
FETCH FIRST 4 ROWS ONLY;
Manhattan
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector_distance(vector('[16, 4]'), v, MANHATTAN)
FETCH FIRST 4 ROWS ONLY;
Hamming
我们不关心实际距离,而是关心距离最小的行的ID。还要注意的是,搜索的结果与我们之前使用其他函数看到的结果不同
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector_distance( vector('[16, 4]'), v, HAMMING)
FETCH FIRST 4 ROWS ONLY;
函数变体
distance函数还有一些其他的变体写法:
- L1_DISTANCE(v1, v2) = MANHATTAN distance
- L2_DISTANCE(v1, v2) = EUCLIDEAN distance
- COSINE_DISTANCE(v1, v2) = COSINE similarity
- INNER_PRODUCT(v1, v2) = DOT product
L1_DISTANCE
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY L1_DISTANCE(vector('[16, 4]'), v)
FETCH FIRST 4 ROWS ONLY;
L2_DISTANCE
我们不关心实际距离,而是关心距离最小的行的ID
SELECT id, vsize, shape, color
FROM vt2
ORDER BY L2_DISTANCE(vector('[16, 4]'), v)
FETCH FIRST 4 ROWS ONLY;
COSINE_DISTANCE
SELECT id, vsize, shape, color
FROM vt2
ORDER BY COSINE_DISTANCE( vector('[16, 4]'), v)
FETCH FIRST 4 ROWS ONLY;
INNER_PRODUCT
SELECT id, vsize, shape, color
FROM vt2
ORDER BY INNER_PRODUCT(vector('[16, 4]'), v)
FETCH FIRST 4 ROWS ONLY;
简写语法
distance函数还有一些简写写法:
- v1 <-> v2 = Euclidean distance
- v1 <=> v2 = Cosine similarity
- v1 <#> v2 = Negative dot product
v1 <-> v2
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector('[16, 4]') <-> v
FETCH FIRST 4 ROWS ONLY;
**v1 <=> v2 **
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector('[16, 4]') <=> v
FETCH FIRST 4 ROWS ONLY;
v1 <#> v2
SELECT id, vsize, shape, color
FROM vt2
ORDER BY vector('[16, 4]') <#> v
FETCH FIRST 4 ROWS ONLY;
总结
本期针对不同写法的不同distance函数。
本系列内容预计还有2-4篇,分别为其他vector函数,一个相对复杂的demo演示以及与PGVector的对比。
老规矩,知道写了些啥。