您的位置:首页 > 大数据 > 人工智能

图解AI数学基础 | 线性代数与矩阵论

2022-02-24 21:39 861 查看

作者:韩信子@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/83
本文地址http://www.showmeai.tech/article-detail/162
声明:版权所有,转载请联系平台与作者并注明出处

1.标量(Scalar)

一个标量就是一个单独的数。只具有数值大小,没有方向(部分有正负之分),运算遵循一般的代数法则。

  • 一般用小写的变量名称表示。
  • 质量$m$、速率$v$、时间$t$、电阻$\rho$ 等物理量,都是数据标量。

2.向量(Vector)

向量指具有大小和方向的量,形态上看就是一列数。

  • 通常赋予向量粗体小写的名称;手写体则在字母上加一个向右的箭头。

  • 向量中的元素是有序排列的,通过索引可以确定每个元素。

  • 以下两种方式,可以明确表示向量中的元素时(注意用方括号)。

  • 可以把向量看作空间中的有向线段,向量的每个组成元素,对应向量在不同的坐标轴上的投影长度。

AI中的应用:在机器学习中,单条数据样本的表征都是以向量化的形式来完成的。向量化的方式可以帮助AI算法在迭代与计算过程中,以更高效的方式完成。

3.矩阵(Matrix)

矩阵是二维数组,其中的每一个元素被两个索引确定。矩阵在机器学习中至关重要,无处不在。

  • 通常会赋予矩阵粗体大写的变量名称。

AI中的应用:样本以矩阵形态表示:$m$条数据/样本,$n$个特征的数据集,就是一个$m \times n$的矩阵。

4.张量(Tensor)

几何代数中定义的张量,是基于向量和矩阵的推广。

  • 标量,可以视为零阶张量
  • 向量,可以视为一阶张量
  • 矩阵,可以视为二阶张量

  • 图片以矩阵形态表示:将一张彩色图片表示成一个$H \times W \times C$的三阶张量,其中$H$是高,$W$是宽,$C$通常取3,表示彩色图3个颜色通道。
  • 在这个例子的基础上,将这一定义继续扩展,即:用四阶张量(样本,高度,宽度,通道)表示一个包含多张图片的数据集,其中,样本表示图片在数据集中的编号。
  • 用五阶张量(样本,帧速,高度,宽度,通道)表示视频。

AI中的应用:张量是深度学习中一个非常重要的概念,大部分的数据和权重都是以张量的形态存储的,后续的所有运算和优化算法也都是基于张量进行的。

5.范数(Norm)

范数是一种强化了的距离概念;简单来说,可以把『范数』理解为『距离』。

在数学上,范数包括『向量范数』和『矩阵范数』:

  • 向量范数(Vector Norm),表征向量空间中向量的大小。向量空间中的向量都是有大小的,这个大小就是用范数来度量。不同的范数都可以来度量这个大小,就好比米和尺都可以来度量远近一样。

  • 矩阵范数(Matrix Norm),表征矩阵引起变化的大小。比如,通过运算$\boldsymbol\boldsymbol = \boldsymbol,可以将向量\boldsymbol变化为\boldsymbol$,矩阵范数就可以度量这个变化的大小。

向量范数的计算

对于$\mathrm -范数,如果\boldsymbol=\left[x_{1}, x_{2}, \cdots, x_\right]{\mathrm},那么向量\boldsymbol的\mathrm -范数就是|\boldsymbol|=\left(\left|x{1}\right|+\left|x_{2}\right|+\cdots+\left|x_\right|\right)^{\frac{1}}$。

L1范数:|| \boldsymbol{x}||_{1}=\left|x_{1}\right|+\left|x_{2}\right|+\left|x_{3}\right|+\cdots+\left|x_{n}\right|

  • $\mathrm =1$时,就是L1范数,是$\boldsymbol$向量各个元素的绝对值之和。

  • L1范数有很多的名字,例如我们熟悉的曼哈顿距离、最小绝对误差等。

L2范数:\|\boldsymbol{x}\|_{2}=\left(\left|x_{1}\right|^{2}+\left|x_{2}\right|^{2}+\left|x_{3}\right|^{2}+\cdots+\left|x_{n}\right|^{2}\right)^{1 / 2}

  • $\mathrm =2$时,就是L2范数,是$\boldsymbol$向量各个元素平方和的开方。

  • L2范数是我们最常用的范数,欧氏距离就是一种L2范数。

AI中的应用:在机器学习中,L1范数和L2范数很常见,比如『评估准则的计算』、『损失函数中用于限制模型复杂度的正则化项』等。

6.特征分解(Eigen-decomposition)

将数学对象分解成多个组成部分,可以找到他们的一些属性,或者能更高地理解他们。例如,整数可以分解为质因数,通过$12=2 \times 3 \times 3$可以得到『12的倍数可以被3整除,或者12不能被5整除』。

同样,我们可以将『矩阵』分解为一组『特征向量』和『特征值』,来发现矩阵表示为数组元素时不明显的函数性质。特征分解(Eigen-decomposition)是广泛使用的矩阵分解方式之一。

  • 特征向量:方阵$\boldsymbol的特征向量,是指与\boldsymbol相乘后相当于对该向量进行缩放的非零向量,即\boldsymbol\nu =\lambda \nu$。

  • 特征值:标量$\lambda$被称为这个特征向量对应的特征值。

使用特征分解去分析矩阵$\boldsymbol时,得到特征向量\nu$构成的矩阵$\boldsymbol和特征值构成的向量\boldsymbol{\Lambda },我们可以重新将\boldsymbol写作:\boldsymbol = \boldsymbol \boldsymbol{\Lambda} \boldsymbol^{-1}$

7.奇异值分解(Singular Value Decomposition,SVD)

矩阵的特征分解是有前提条件的。只有可对角化的矩阵,才可以进行特征分解。实际很多矩阵不满足这一条件,这时候怎么办呢?

将矩阵的『特征分解』进行推广,得到一种被称为『矩阵的奇异值分解』的方法,即将一个普通矩阵分解为『奇异向量』和『奇异值』。通过奇异值分解,我们会得到一些类似于特征分解的信息。

将矩阵$\boldsymbol分解成三个矩阵的乘积\boldsymbol = \boldsymbol \boldsymbol \boldsymbol^{-1}$。

  • 假设$\boldsymbol$是一个$mn$矩阵,那么$\boldsymbol$是一个$mm$矩阵,$D$是一个$mn$矩阵,$V$是一个$nn$矩阵。

  • $\boldsymbol \boldsymbol \boldsymbol$这几个矩阵都拥有特殊的结构:

    $\boldsymbol和\boldsymbol都是正交矩阵,矩阵\boldsymbol的列向量被称为左奇异向量,矩阵\boldsymbol$ 的列向量被称右奇异向量。

  • $\boldsymbol是对角矩阵(注意,\boldsymbol不一定是方阵)。对角矩阵\boldsymbol对角线上的元素被称为矩阵\boldsymbol$的奇异值。

AI中的应用:SVD最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。而且大家在推荐系统中也会见到基于SVD的算法应用。

8.Moore-Penrose广义逆/伪逆(Moore-Penrose Pseudoinverse)

假设在下面问题中,我们想通过矩阵$\boldsymbol的左逆\boldsymbol来求解线性方程:\boldsymbol x=y$,等式两边同时左乘左逆B后,得到:x=\boldsymbol{B} y。是否存在唯一的映射将$\boldsymbol映射到\boldsymbol$,取决于问题的形式:

  • 如果矩阵$\boldsymbol$的行数大于列数,那么上述方程可能没有解;

  • 如果矩阵$\boldsymbol$的行数小于列数,那么上述方程可能有多个解。

Moore-Penrose伪逆使我们能够解决这种情况,矩阵$\boldsymbol$的伪逆定义为:

![广义逆/伪逆 Moore-Penrose Pseudoinverse](https://img-blog.csdnimg.cn/img_convert/a8b3c34d223b6f4740b52337d2563820.png) 但是计算伪逆的实际算法没有基于这个式子,而是使用下面的公式: $$\boldsymbol{A}^{+}=\boldsymbol{U} \boldsymbol{D}^{+} \boldsymbol{V}^{T}$$ - 矩阵$\boldsymbol{U}$、$\boldsymbol{D}$和$\boldsymbol{V}^{T}$是矩阵$\boldsymbol{A}$奇异值分解后得到的矩阵; - 对角矩阵$\boldsymbol{D}$的伪逆$\boldsymbol{D}^{+}$是其非零元素取倒之后再转置得到的。 9.常用的距离度量 --------- 在机器学习里,大部分运算都是基于向量的,一份数据集包含n个特征字段,那每一条样本就可以表示为n维的向量,通过计算两个样本对应向量之间的距离值大小,有些场景下能反映出这两个样本的相似程度。还有一些算法,像KNN和K-means,非常依赖距离度量。 设有两个$n$维变量: $$A=[ x_{11}, x_{12},...,x_{1n} ] ^{T}$$ $$B=[ x_{21} ,x_{22} ,...,x_{2n} ] ^{T}$$ **一些常用的距离公式定义如下**: ![距离度量 Distance](https://img-blog.csdnimg.cn/img_convert/28eba2c6385716d423e5404089a7cb69.png) ### 1)曼哈顿距离(Manhattan Distance) ![曼哈顿距离 Manhattan Distance](https://img-blog.csdnimg.cn/img_convert/b3cd08f1278fe9d88c8f10926fa71a85.png) 曼哈顿距离也称为城市街区距离,数学定义如下: $$d_{12} =\sum_{k=1}^{n}{| x_{1k}-x_{2k} | }$$ **曼哈顿距离的Python实现**: ```python import numpy as np vector1 = np.array([1,2,3]) vector2 = np.array([4,5,6]) manhaton_dist = np.sum(np.abs(vector1-vector2)) print("曼哈顿距离为", manhaton_dist) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 2)欧氏距离(Euclidean Distance) ![欧氏距离 Euclidean Distance](https://img-blog.csdnimg.cn/img_convert/48a87e923fa977a55c9d8ea85f45ebd6.png) 欧氏距离其实就是L2范数,数学定义如下: $$d_{12} =\sqrt{\sum_{k=1}^{n}{( x_{1k} -x_{2k} ) ^{2} } }$$ **欧氏距离的Python实现**: ```python import numpy as np vector1 = np.array([1,2,3]) vector2 = np.array([4,5,6]) eud_dist = np.sqrt(np.sum((vector1-vector2)**2)) print("欧式距离为", eud_dist) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 3)闵氏距离(Minkowski Distance) ![闵氏距离 Minkowski Distance](https://img-blog.csdnimg.cn/img_convert/69ba0e6946c57ebf55a346dbc5f91986.png) 从严格意义上讲,闵可夫斯基距离不是一种距离,而是一组距离的定义: $$d_{12} =\sqrt[p]{\sum_{k=1}^{n}{( x_{1k} -x_{2k} ) ^{p} } }$$ 实际上,当$p=1$时,就是曼哈顿距离;当$p=2$时,就是欧式距离。 > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 4)切比雪夫距离(Chebyshev Distance) ![切比雪夫距离 Chebyshev Distance](https://img-blog.csdnimg.cn/img_convert/eb4e423aa52053f9672fc9e9ca822f23.png) 切比雪夫距离就是无穷范数,数学表达式如下: $$d_{12} =max( | x_{1k}-x_{2k} |)$$ **切比雪夫距离的Python实现如下**: ```python import numpy as np vector1 = np.array([1,2,3]) vector2 = np.array([4,5,6]) cb_dist = np.max(np.abs(vector1-vector2)) print("切比雪夫距离为", cb_dist) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 5)余弦相似度(Cosine Similarity) 余弦相似度的取值范围为\[-1,1\],可以用来衡量两个向量方向的差异: * 夹角余弦越大,表示两个向量的夹角越小; * 当两个向量的方向重合时,夹角余弦取最大值1; * 当两个向量的方向完全相反时,夹角余弦取最小值-1。 ![余弦相似度 Cosine Similarity](https://img-blog.csdnimg.cn/img_convert/59d11764de94d2ba7f881427b7e35097.png) 机器学习中用这一概念来衡量样本向量之间的差异,其数学表达式如下: $$cos\theta =\frac{AB}{| A | |B | } =\frac{\sum_{k=1}^{n}{x_{1k}x_{2k} } }{\sqrt{\sum_{k=1}^{n}{x_{1k}^{2} } } \sqrt{\sum_{k=1}^{n}{x_{2k}^{2} } } }$$ **夹角余弦的Python实现**: ```python import numpy as np vector1 = np.array([1,2,3]) vector2 = np.array([4,5,6]) cos_sim = np.dot(vector1, vector2)/(np.linalg.norm(vector1)*np.linalg.norm(vector2)) print("余弦相似度为", cos_sim) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 6)汉明距离(Hamming Distance) ![汉明距离 Hamming Distance](https://img-blog.csdnimg.cn/img_convert/684c62da6a842d6d9555ac45d7d2699b.png) 汉明距离定义的是两个字符串中不相同位数的数目。例如,字符串‘1111’与‘1001’之间的汉明距离为2。信息编码中一般应使得编码间的汉明距离尽可能的小。 $$d_{12} = \sum_{k=1}^{n} \left ( x_{1k} \oplus x_{2k}\right )$$ **汉明距离的Python实现**: ```python import numpy as np a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0]) b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1]) hanm_dis = np.count_nonzero(a!=b) print("汉明距离为", hanm_dis) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 7)杰卡德系数(Jaccard Index) ![杰卡德系数 Jaccard Index](https://img-blog.csdnimg.cn/img_convert/54ed65846b1fd88d86c98aace148e4fe.png) 两个集合$A$和$B$的交集元素在$A$和$B$的并集中所占的比例称为两个集合的杰卡德系数,用符号$J(A,B)$表示,数学表达式为: $$J( A,B ) =\frac{| A\cap B| }{|A\cup B | }$$ 杰卡德相似系数是衡量两个集合的相似度的一种指标。一般可以将其用在衡量样本的相似度上。 > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) ### 8)杰卡德距离(Jaccard Distance) ![杰卡德距离 Jaccard Distance](https://img-blog.csdnimg.cn/img_convert/7e7c0f7ab44db2f4b4fb77b8a838605f.png) 与杰卡德系数相反的概念是杰卡德距离,其定义式为: $$J_{\sigma} =1-J( A,B ) =\frac{| A\cup B | -| A\cap B | }{| A\cup B | }$$ **杰卡德距离的Python实现**: ```python import numpy as np vec1 = np.random.random(10)>0.5 vec2 = np.random.random(10)>0.5 vec1 = np.asarray(vec1, np.int32) vec2 = np.asarray(vec2, np.int32) up=np.double(np.bitwise_and((vec1 != vec2),np.bitwise_or(vec1 != 0, vec2 != 0)).sum()) down=np.double(np.bitwise_or(vec1 != 0, vec2 != 0).sum()) jaccard_dis =1-(up/down) print("杰卡德距离为", jaccard_dis) ``` > 前往我们的在线编程环境运行代码:[http://blog.showmeai.tech/python3-compiler/#/](http://blog.showmeai.tech/python3-compiler/#/) # ShowMeAI相关文章推荐 * [图解线性代数与矩阵论](http://www.showmeai.tech/article-detail/162) * [图解信息论](http://www.showmeai.tech/article-detail/164) * [图解微积分与最优化](http://www.showmeai.tech/article-detail/165) # ShowMeAI系列教程推荐 * [图解Python编程:从入门到精通系列教程](http://www.showmeai.tech/tutorials/56) * [图解数据分析:从入门到精通系列教程](http://www.showmeai.tech/tutorials/33) * [图解AI数学基础:从入门到精通系列教程](http://showmeai.tech/tutorials/83) * [图解大数据技术:从入门到精通系列教程](http://www.showmeai.tech/tutorials/84) ![](https://img-blog.csdnimg.cn/img_convert/77a424efb3cd81eeddc21d4ff4f1b6ca.gif)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: