数学笔记5:线性代数知识总结


学好线性代数在实际中有许多用途:

  1. 计算机图形学:在视频游戏和电影制作中,线性代数用于构建和操作复杂的3D模型。通过变换矩阵,可以轻松地进行旋转、缩放和平移等操作。
  2. 数据科学与机器学习:线性代数是数据科学的基础,用于理解和构建数据结构,进行数据分析,以及开发机器学习算法。例如,主成分分析(PCA)用于数据降维和特征提取,而这完全建立在线性代数之上。
  3. 工程和物理科学:在工程领域,线性代数用于解决各种系统方程,从电路分析到结构平衡。在物理学中,它用于描述和解析力学系统、电磁学等领域的问题。
  4. 经济学:线性代数在经济学中用于建模和解决优化问题,比如在资源分配、风险管理或经济增长模型中。
  5. 量子计算与量子力学:在量子理论中,线性代数用于描述量子态,量子叠加和测量,是理解和实施量子计算的基础。

举个具体例子,在机器学习中,线性代数被用来处理和理解大量的数据。数据通常以向量和矩阵的形式出现,线性代数的工具可以帮助我们从数据中提取有用的特征,进行分类或预测。例如,线性回归模型,它试图找到一个最佳的线性方程来预测或解释变量间的关系,完全是建立在线性代数的概念之上的。

本文将总结、提炼本科课程中的所有线性代数相关知识点。适合本科生作学习参考,或者教师作教学参考。

基础概念


a. 矩阵

矩阵是一个由行和列组成的矩形数组,其中的每个元素可以是数字、符号或数学表达式。矩阵有多种特殊类型,包括但不限于:

  • 方阵:行数和列数相等
  • 行矩阵:只有一行
  • 列矩阵:只有一列
  • 零矩阵:所有元素都是0
  • 单位矩阵:主对角线上都是1,其余地方都是0的方阵。用En或者In表示。其中n为阶。
  • 对角矩阵:除了主对角线上的元素,其他元素都是0
  • 上三角形矩阵:对角线以下的元素全为0
  • 下三角形矩阵:对角线以上的元素全为0
  • 阶梯形矩阵:特别的,如果每一行的第一个非零元素均为1,我们称之为约化阶梯形矩阵
  • 奇异矩阵:行列式为0。具有非满秩、没有逆和零空间非零的特点

矩阵之间可以转化或者运算。包括:

  • 线性运算:两个矩阵可以相加/相减,如果它们的维度相同。矩阵线性运算是逐元素进行的。
  • 乘法:矩阵乘法包括矩阵与标量的乘法和矩阵与矩阵的乘法。矩阵与标量的乘法需要标量与每个元素相乘;矩阵与矩阵的乘法需要第一个矩阵的列数与第二个矩阵的行数相同
  • 逆矩阵:对于方阵,如果存在这样一个矩阵 BB,使得 AB=BA=IAB=BA=I(I 是单位矩阵),则 B 是 AA 的逆矩阵,记为 A1A ^{-1}
  • 转置:矩阵的转置是将其行换成列,或列换成行得到的新矩阵,记作 ATA^T。若矩阵与其转置的乘积为单位矩阵,则称这个矩阵为正交矩阵

矩阵自身可以进行初等变换,包括:

  • 交换两行或两列
  • 用某个数乘以某一行/列加到另一行/列中去
  • 用一个数 kk 乘以某一行或某一列

如果矩阵 AA 经有限次初等变换变成矩阵 BB,就称矩阵 AABB 等价。等价关系具有如下性质:

  • 反身性
  • 传递性
  • 对称性

矩阵主对角线元素之和为矩阵的迹。

如果两个矩阵相似,那么:

  • 迹相等
  • 行列式相等
  • 特征值相等
  • 二者等价(反过来则不一定)

b. 向量

列向量合并为矩阵,进行行变换化为阶梯矩阵。不全为零的行的个数称作矩阵的,如果是满秩的,即没有全为0的行,那么此向量组线性无关;否则,线性相关。

若两个向量内积为0,那么称它们是正交的,在几何空间中就是垂直的。

若三个向量中任意两个都是正交的,那么我们称这三个向量为正交向量组

若向量组不是正交的,可以采用施密特正交化法将其转换为正交向量组:

β2=a2β1,a2β1,β1β1\beta_2 = a_2 - \frac{\beta_1, a_2}{\beta_1,\beta_1} \beta_1

矩阵的相关运算


a. 矩阵乘法

对于 A×BA \times B,两个矩阵需满足A 的列数等于 B 的行数才能相乘**。**其乘积的行数等于A的行数,列数等于B的列数。

b. 求矩阵的秩

矩阵的秩是一个非常重要的数字特征,反映了矩阵的行或列向量中最大线性无关组的大小,表示为R(A)R(A)

矩阵的秩具有如下性质:

  • 矩阵的初等变换不改变它的秩
  • 矩阵的转置不改变它的秩

要求秩,可以:

  • 把矩阵约化为**行阶梯形,**其中秩为非零行的数量
  • 把矩阵约化为**列阶梯形,**其中秩为非零列的数量

零矩阵的秩为零。

c. 求逆矩阵

首先,只有当矩阵是方阵且行列式不为0时,矩阵才有逆,称为可逆矩阵。

欲求逆矩阵有两种方法:

  • ⭐️ 高斯消元法:将矩阵 AA 与单位矩阵 I I 放在一起构成新的增广矩阵 [AI][A∣I],对增广矩阵实施初等变换,当左侧变为单位矩阵时,增广矩阵的右侧将变成逆矩阵 A1A^{-1}
  • 代数余子式法

d. 求行列式

矩阵的行列式是一个从方阵到实数或复数的函数,通常表示为det(A)det(A)。其几何意义为:

  • 在二维空间中,两个向量构成的矩阵的行列式表示由这两个向量构成的平行四边形的面积,带正负号表示方向或定向。
  • 在三维空间中,三个向量构成的矩阵的行列式表示由这三个向量构成的平行六面体的体积,同样带有方向性。

行列式具有如下性质:

  • 转置不改变矩阵行列式,即 det(A)=det(AT)det(A) = det(A^T)
  • 如果行列式中有两行成比例,那么行列式的值为零
  • 若用 k 乘以行列式 A 的每一个元素得到行列式 B,那么 B=kAB = -kA

要计算行列式的值,

  • 二阶行列式:对于形如[abcd]\begin{bmatrix} a & b\\ c & d\\ \end{bmatrix}的二阶行列式,计算方法为 adbcad - bc
  • 三阶行列式:对于形如[a11a12a13a21a22a23a31a32a33]\begin{bmatrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23}\\a_{31} & a_{32} & a_{33}\\ \end{bmatrix}的三阶行列式,计算方法为主对角线乘积之和减去副对角线乘积之和,即a11a22a33+a12a23a31+a13a21a32a13a22a31a21a12a33a23a32a11a_{11}a_{22}a_{33} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32} - a_{13}a_{22}a_{31} - a_{21}a_{12}a_{33} - a_{23}a_{32}a_{11}
  • 四阶及更高阶行列式:可以通过代数余子式计算。

如果行列式内有多个矩阵,可以遵循这些运算法则:

  • AB=AB|AB| = |A||B|
  • An=An|A^n|= |A|^n

线性方程组


线性方程组是由多个线性方程构成的集合,这些方程中的变量及其系数通常是已知的,目标是找到满足所有方程的变量值。

a. 判定解的存在性和唯一性

可以遵循以下步骤:

  1. 求系数矩阵的秩:系数矩阵 AA 是由线性方程组中的系数组成的矩阵。
  2. 求增广矩阵的秩:增广矩阵 [Ab][A∣b] 是在系数矩阵旁边添加一列常数项 bb * *形成的矩阵。

rank(A)=rank([Ab])=nrank(A)=rank([A∣b])=n(其中 n 是变量的数目),则系统有唯一解。

rank(A)=rank([Ab])<nrank(A)=rank([A∣b])<n,则系统有无穷多解。

rank(A)<rank([Ab])rank(A)<rank([A∣b]),则系统无解。

b. 解结构以及求解

对于齐次线性方程组,求解过程如下:

  1. 进行线性变换,使其变为行阶梯形矩阵
  2. 判断解的数量
  3. 写出对应的方程组形式,求基础解系

对于非齐次线性方程组,其解为,求解过程如下:

  1. 写出增广矩阵,进行线性变换
  2. 取每一行首个非零元素,找到他们所在的列,不在这个列数中的剩余向量称为自由量。例如第一行元素
  3. 取自由量为0,代入解出非线性方程的特解
  4. 取自由量为任意值,解得通解
  5. 其解为特解+通解

部分方程组可以采用克拉默法则求解。将线性方程组表示为Ax=cAx = c,其中 AA 是系数矩阵,cc 是常数向量,用常数向量依次替换方阵AA的第ii列,即可得出解 xi=DiDx_i= \frac{D_i}{D} ,其中 DDAA 的行列式,DiD_i 是替换后的方阵的行列式。此方法只适用于未知量个数等于方程个数,且系数行列式不为零的线性方程组。

矩阵的分解


矩阵可以分解为特征值和特征向量,也可以分解为奇异值。

奇异值分解能够用于任意矩阵,而特征分解只能适用于特定类型的方阵,故奇异值分解的适用范围更广。

a. 特征分解

本文仅讨论特征分解。

  • **特征值(Eigenvalues):*AA 是一个 n×nn×n *方阵,如果存在一个标量 λλ 和一个非零向量 v 使得 Av=λvAv=λv,则称 λAA 的一个特征值。一个矩阵可以有多个特征值,
  • **特征向量(Eigenvectors):**对应于特征值 λ 的非零向量 v 称为 A 的一个特征向量。这意味着当方阵 A 作用于 v 时,v 只是被缩放了,缩放因子就是特征值 λ

根据定义,特征值可以使矩阵满足Ax=λxAx = \lambda x ,移项可得到(AλI)x=0(A - \lambda I)x = 0。而此时又要满足 AλIA - \lambda I 是奇异矩阵,也就是 AλI=0|A - \lambda I| = 0 。于是我们可以得到这个方法:

  1. 首先要计算特征多项式,即AλI|A - \lambda I|
  2. 接着将 λ\lambda 代入 (AλI)x=0(A - \lambda I)x = 0 即可求解特征向量 xx。(注意此处 xx 是一个向量并非值,所以实际计算时可以书写为(x1,x2,x3)T(x_1, x_2, x_3)^T

b. 对角化

欲对矩阵 AA 进行对角化,可遵循以下步骤:

  1. 求出 AA 的特征值 λ1,λ2,...,λn\lambda_1, \lambda_2, ...,\lambda_n,和特征向量 v1,v2,...,vnv_1, v_2, ..., v_n
  2. P=[v1,v2,...,vn]P = [v_1, v_2, ..., v_n]
  3. P1APP^{-1}AP 即为所求对角矩阵

二次型和正定性


我们把任意一个对称矩阵的二次型定义为xTAxx^TAx。其计算结果为一个二次型函数

对于任意一个二次型函数,我们会发现,与其对应的矩阵不止一个。

a. 矩阵和二次型函数互转

要写出矩阵的二次型函数,可以遵循以下步骤:

  1. x12,x22,...,xn2x_1^2, x_2^2,...,x_n^2 的系数依次为主对角线上的元素
  2. x1x2x_1x_2 的系数为 a1a2+a2a1a_1a_2 + a_2a_1x2x3x_2x_3 的系数为 a2a3+a3a2a_2a_3 + a_3a_2 ,以此类推(二次型矩阵一定是对称的)

例如,矩阵[1111]\begin{bmatrix} 1 & 1\\ 1 & 1\\ \end{bmatrix}的二次型函数为 f(x1,x2)=x12+x22+2x1x2f(x_1, x_2) = x_1^2 + x_2^2 + 2x_1x_2

b. 判断正定性

实二次型需要满足以下任一条件才能称为正定矩阵:

  • 主对角线上的每个 nn 阶行列式大于0
  • 所有特征值取正实数

📚 参考