您的位置：首页 > 其它

向量搜索的简明数学基础

2019-10-24 18:10 2831 查看

虽然 Milvus 开源向量搜索引擎（GitHub）可以为用户隔离下面这些头疼的细节，不过多学一点向量数据的知识总是没坏处的。

L2正则化（归一化）

n 维原始向量空间： $\mathbb{R}^n, n \in \mathbb{N}$ （ $\mathbb{R}$ 为实数， $\mathbb{N}$ 为非零自然数）

原始向量： $X = (x_1, x_2, ..., x_n), X \in \mathbb{R}^n$

向量 X 的 L2 范数（模长）： $| X | = \sqrt{\displaystyle\sum_{i=1}^n x_i ^2}$

归一化后的向量： $X' = (x_1', x_2', ..., x_n'),X' \in \mathbb{R}}^n$

其中每一维的 L2 正则化算法： $x_i' = \frac{x_i}{| X |} = \frac{x_i}{\sqrt{\displaystyle\sum_{i=1}^n x_i ^2}}$

归一化后，向量模长等于1： $| X' | = 1$

计算向量相似度

近似最近邻搜索（approximate nearest neighbor searching, ANNS）是目前针对向量搜索的主流思路。其核心理念是只在原始向量空间的子集中进行计算和搜索，从而加快整体搜索速度。

假设搜索空间（即原始向量空间的子集）： $\gamma, \gamma \subset \mathbb{R}^n$

内积（点积）

向量 A，B 的内积： $p(A,B) = A \cdot B = \displaystyle\sum_{i=1}^n a_i \times b_i$

余弦相似度

向量 A，B 的余弦相似度： $\cos (A,B) = \frac{A \cdot B}{|A | |B|}$

通过余弦判断相似度：数值越大，相似度越高。即

$TopK(A) = \underset{B \in \gamma}{\operatorname{argmax}}(cos(A,B))$

假设向量 A，B 归一化后的向量分别是 A'，B' ，则

$cos(A,B) = \frac{A \cdot B}{|A | |B|} = \frac{ \displaystyle\sum_{i=1}^n a_i \times b_i}{|A| |B|} = \displaystyle\sum_{i=1}^n \bigg(\frac{a_i}{|A|} \times \frac{b_i}{|B|}\bigg)=cos(A',B')$

因此，归一化后，两个向量之间的余弦相似度不变。特别的，

$cos(A',B') = \displaystyle\sum_{i=1}^n \bigg(\frac{a_i}{|A|} \times \frac{b_i}{|B|}\bigg)=p(A',B')$

因此，归一化后，内积与余弦相似度计算公式等价。

欧氏距离

向量 A，B 的欧式距离： $d(A,B) = \sqrt{\displaystyle\sum_{i=1}^n (a_i-b_i) ^2}$

通过欧氏距离判断相似度：欧式距离越小，相似度越高。即

$TopK(A) = \underset{B \in \gamma}{\operatorname{argmin}}(d(A,B))$

假设向量 A，B 经过归一化，那么进一步展开上面的公式：

$\begin{gathered} d(A,B) = \sqrt{\displaystyle\sum_{i=1}^n (a_i-b_i) ^2}\\ =\sqrt{\displaystyle\sum_{i=1}^n (a_i^2-2a_i \times b_i+b_i^2)}\\ =\sqrt{\displaystyle\sum_{i=1}^n a_i^2+\displaystyle\sum_{i=1}^n b_i^2-2\displaystyle\sum_{i=1}^n a_i \times b_i}\\ =\sqrt{2-2 \times p(A,B)} \\ \therefore d(A,B)^2 = -2 \times p(A,B) + 2 \end{gathered}$

因此，欧氏距离的平方与内积负相关。而欧式距离是非负实数，两个非负实数之间的大小关系与他们自身平方之间的大小关系相同。

$\lbrace a,b,c \rbrace \subset \lbrace x \in \R | x \geqslant 0 \rbrace$

$a < b < c \leftrightarrow a^2 < b^2 < c^2$

所以，向量归一化后，针对同一个向量，在同等搜索空间的条件下，欧氏距离返回的前K个距离最近的向量结果集与内积返回的前K个相似度最大的向量结果集是等价的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Subset COS Milvus

相关文章推荐

新的分享

章节导航