《线性代数应该这样学（Linear Algebra Done Right）》自制

界猴多钱介猴卖吗

编辑于 2025年12月06日 17:00

==============向量空间============

子空间的和类似于子集的并集．类似地，子空间的直和类似于子集的不相交并．向量空间的两个子空间不可能不相交，因为它们都包含0．所以至少在两个子空间这种情形下，“不相交”被替换成“交集为{0}”．

============有限维向量空间==========

1.张成空间和线性无关性

==============线性映射============

1.线性映射所成的向量空间

一些特殊的线性映射：

线性映射本身也可进行线性变换（对偶空间行向量）：

线性映射用矩阵（包括行向量）表示，说明矩阵也是抽象向量（矩阵定义了加法数乘运算且满足8条），这个线性空间的加法恒等元（零元）是0矩阵（或0行向量），也即前面所说的零映射

线性映射：线性体现在输入空间中处于同一直线上的向量经过映射后在输出空间仍处在一条直线，且输入空间等距分布的向量在输出空间仍然等距分布

矩阵乘法：

矩阵乘法交换律、结合律：

线性变换保持原点：

b是平移量，线性映射不改变原点，所以不能有平移

2.零空间与值域

线性映射单射性的判断：

有些人使用术语“映成”（onto），这和满射意思一样．

线性映射基本定理：

非满射m>n一定存在某种情况无解

3.矩阵

矩阵记录了输入空间到输出空间的基的变换，从而可对任意向量变换

微分映射矩阵表示：

矩阵是m*n维的向量空间

一种更好的理解矩阵乘法的方式：

如何理解行秩与列秩：

列秩不超过n很好理解，如何理解不超过m？可以这么理解，一个n*1的列向量经过A变换后变成一个m*1的列向量，而m*1的列向量（或说矩阵）所在空间维度是m，而A的列向量就处于这个空间中（输出线性空间），因此A的列秩不可能超过这个空间的维度。

而对于行向量是列向量的对偶情况，行向量与矩阵乘，可理解为输入空间在左，输出在右，矩阵A的行向量在输出空间

这也解释了为什么三秩相等

其中C由A的列向量中极大线性无关组组成，c是列秩，A的各列由这个向量组组合而成，将各列的组合系数作为R的列向量构成R

4.可逆性和同构

对于有限维同维线性变换，可以仅靠是否单射或满射来判断A是否可逆

同构名词时是映射本身的属性，同构的形容词时是两个向量空间之间的属性。

这里的数学结构（mathematicalstructure）指的是带有特定运算的集合，而基础集合（underlyingset）指的是未附加这些运算的集合本身．

V到W的所有线性映射组成的向量空间维度：

基变换矩阵是

5.向量空间的积和商

𝑣+𝑈是子空间𝑈的一个平移

v −𝑤 ∈𝑈 说明v与-w的平移作用相互抵消，也即v与w平移作用相同，换句话说，两个相差一个U中向量的平移量对U的平移作用是相同的

商空间向量是子空间U的所有平移的集合，它的向量是V的一个子空间

𝑉/𝑈的加法恒等元是0+𝑈（也就等于𝑈），𝑣+𝑈的加法逆元是(−𝑣)+𝑈．

商映射是将V中向量v映射为V/U中平移向量的线性映射

所有U空间的向量被映射到商空间的零元：0+U，即商映射的核空间维数等于U维度，根据线性映射基本定理，商映射值域维度（商空间维度）=dimV-dimU

6.对偶

定义对偶映射 T' 的根本动机，正是为了系统化地、优雅地解决这个问题：如何将 W 上的“测量” 𝜑，通过线性映射 T，自然地诱导出 V 上的一个“测量” T'(𝜑)

意思是说我现在知道的是V中的向量v，以及V->W的线性映射T，以及W*的某个元素𝜑，我想求得V*中的某个元素假设为g，使得g（v）等效于𝜑（Tv），而求得g的这个对偶映射就是T‘，它使得任意的v∈V都满足g（v）=𝜑（Tv）

转置操作就是这个把T变换为其对偶映射的线性映射，即T(T)=T^t

结论a的证明：

根据上面的结论很容易证明。

终极结论：

这条结论说明T的对偶映射就是它的矩阵表示A的转置

===============多项式==============

方程𝑝(𝑧) = 0的解在对多项式𝑝 ∈P(F)的研究中扮演关键角色．于是，我们给这些解赋予特殊的名称．

===========特征值与特征向量==========

由一个向量空间到另一个向量空间的线性映射是第3章的研究对象．现在我们开始研究算子，也就是由一个向量空间到其本身的线性映射．

1.不变子空间

𝑝(𝑇)也是属于V上线性算子的向量空间

这里a是说一个 (𝑝𝑞)(𝑇)算子可分解成两个算子的复合

b是一个很强的性质，AB=BA，即两个算子可交换，意味着A的特征子空间是B的线性不变子空间，反之亦然，它们具有共享的特征向量，可同时对角化（指它们对角化所使用的基变换矩阵P是同一个）

终极结论：及V上的线性算子𝑝(𝑇) 的核空间与值域既是𝑝(𝑇) 的不变子空间也是𝑇的不变子空间

2.最小多项式

最小多项式定理：

最小多项式定义：

求解最小多项式方法：

特征值确切值求不出是指对于5次以上的多项式，没有根的确切的计算公式，只能通过数值法逼近

受限算子指定义域为V的某个子空间，一般就是线性不变子空间

3.上三角矩阵

线性代数的中心目标之一，就是证明对于有限维向量空间𝑉上的算子𝑇，存在𝑉的一个基，使得𝑇关于该基有个相当简单的矩阵．这个说法比较含糊，说得再确切些，就是我们尝试选取𝑉的一个基，使得M(𝑇)有很多0

注意这里意思是说对于任意k，取前k个基所长成的空间在T下都是不变子空间

对于欧式空间，其特征多项式可能不存在实特征根，其最小多项式也就不能写成一次因式的分解形式，也就意味着不存在上三角型矩阵

有重复就可能几何重数小于代数重数，有剪切分量，上三角型存在剪切分量

4.可对角化算子

这是一个充分条件而非必要条件

对角化的应用：可以借助它来计算算子的高次幂——利用式 T^𝑘𝑣 = 𝜆^𝑘𝑣（𝑣 是𝑇 对应于特征值𝜆的特征向量）即可

注意这个结论与之前结论的区别，之前的结论条件更宽松，它仅保证了上三角型的存在，而对角化要求更严格，而且这个条件并不等同于T有dim V个互异特征根，这点需要注意。

可将每个格什戈林圆盘的半径改为等于其对应列（而不是行）中除对角线元素外各元素绝对值之和，而格什戈林圆盘定理仍然成立．

5.可交换算子

多项式算子可交换

两矩阵可同时对角化的判定

==============内积空间============

1.内积与范数

引入内积的动机：

共轭对称性由来：

反向三角不等式：

2.规范正交基

注意这里是规范正交向量组而非规范正交基

贝塞尔不等式不相等情况是对无限维向量空间而言的，可以理解为向量在任一个子空间投影长度是小于它的模长的，可用于检测标准正交向量作为空间的基的完备性

规范正交基的应用：方便的转换坐标

这里与各个基向量做点积在矩阵乘法的视角看是在用列向量与这组基向量组成的单位正交矩阵的转置的各行作点积，而正交矩阵的转置就是它的逆，而对于一般的矩阵，逆求解更加的繁琐

施密特正交化公式的几何直观也很明显，它实际上是用vk（待正交化的某个基向量）-它在各个已正交化的基向量上的投影向量，得到的就是它在该基向量上的垂直分量

配备了内积运算的空间一定可以找出一个规范正交基

T在一个非规范的基下具有上三角型，可以通过施密特正交化将其变成规范的，正交化过程不改变T的线性不变子空间，所以T在新基下仍具有上三角形式

换句话说，T具有上三角形式，说明T按照V的某个维度顺序张成的子空间下都是不变的，与这个子空间选择什么基来表示没有关系，具备这种形式是T的内在属性。

注意这个定理的要求，空间要定义内积

对偶向量坐标计算公式：

将规范基的各个向量经过线性函数作用，用得到的值乘以该基得到对应分量

对偶向量实际与正交基选取无关，因为它作用与V全体，不关心单个向量的坐标变化

3.正交补与最小化问题

分解公式：按之前的正交分解方法，其中第一项是在U上的投影，第二项是正交补空间分量

里斯表示定理的另一种证明：

这个定理表明对V中任一向量都存在且唯一有V’中对应元素，而之前的里斯表示定理又从反方向说明存在且唯一有V中元素对应V’，因此是个双射的映射，二者基本上可以视为同构的向量空间，因此可以将V与V‘等同起来看

而之所以说“基本同构”，是因为：

示例是函数空间用有限次多项式逼近正弦函数，通过定义函数向量内积有了正交、距离概念，通过施密特正交化找到多项式子空间的一组正交基，再利之前的投影计算公式，计算正弦函数在这组基上的投影，这个投影是从多项式空间到正弦函数的最小距离多项式

其中P(rangeT)是W的投影到rangeT子空间的投影矩阵

上面性质说明在所有使得𝑇𝑣尽可能接近𝑤的向量𝑣 ∈𝑉中，向量𝑇†𝑤具有最小的范数．

==========内积空间上的算子=========

1.自伴算子和正规算子

上面的意思是说对于零化子与正交补，T*与T‘，里斯定理告诉我们可以等同视之

自伴算子是同一线性空间同一基下的伴随（注意这并不意味着同一空间下的算子就是自伴算子），欧式空间就是实对称矩阵，酉空间就是hermite矩阵

自伴算子（实内积空间就是实对称矩阵），特征值一定是实的，因此它一定有n个特征根（包含重根），并且重根可以正交化，因此实对称矩阵一定可以正交相似对角化

如果把线性映射类比成复数的话，那么自伴算子就是其中的实数

正规算子是比自伴算子范围更广的类型，在实数域上实对称矩阵、正交矩阵都是正规的，复数域上hermite、酉矩阵、斜hermite都是正规的

也就是说正规算子是保证对角化的最一般的情况，它在各个轴方向上既作伸缩也作旋转（因为是复特征值进行复伸缩），Hermite算子做纯伸缩（特征值全为实数），酉算子作纯旋转（特征值全为1，保模长）

特别的，对于自伴算子，每个特征值都是实的，因此它的特征值等于它伴随的特征值。这从T=T*也你能看出

2.谱定理

即可正交相似对角化的算子是最好的算子

欧式空间就是实对称矩阵，酉空间就是正规矩阵

可用可交换算子的性质，因为可交换，所以可同时对角化，即在同一个基下对角化

3.正算子

正交投影矩阵是正算子，直观理解就是一个向量到它的正交补空间的投影，它们之间的夹角至多90度，所以内积至少为0

正算子一定是自伴的

f说明可通过AA^t或A^tA构造正算子，性质b证明

b的直观理解，因为正算子对所有v非负，如果其中某个特征值为负，那么v取该特征值对应特征向量就会负

d项正平方根也是一个正算子

正算子可以正交相似对角化，在对角化视图下，可以直观的看出，它的平方根就是将对角线元素开方，即对其特征值开方（正算子特征值非负）

4. 等距映射、幺正算子和矩阵分解

a蕴含c（保内积）：向量v与自己内积，就是v的范数，向量与其他向量的距离d的范数也是d与d的内积，保证这两种情况范数即保内积

c蕴含a：范数是v与v的内积，故得证

e指m>n情况（从等距映射是单射的也可看出），不同空间下的等距映射,值域是V经过纯旋转得到的W中子空间

注意这里用词的严谨，算子是同一空间下的线性映射

这里身兼二职指，这个基竖着看是V中的基，横着看是V’中的基

算子与复数域的巧妙类比：

之所以是绝对值，是因为幺正算子还有可能是反射变换，会改变定向

注意该分解的条件，各列线性无关，因为要正交化

先通过对A的各列向量应用施密特正交化得到一组同一空间下的正交基，其中R是将A的各列向量与对应的正交基向量点积所得的上三角矩阵，Q是这组正交向量组成的幺正矩阵，且正交化过程保证了对角线元素为正

Q把原先基向量坐标转换为正交基下的坐标再与正交基点积还原为原基下的坐标

QR分解的应用：代替高斯消元法快速求解线性方程组

正算子的前提就是自伴算子，它是自伴算子的更严格的子类，而可逆正算子则进一步严格限制其单射。

5.奇异值分解

简化记忆：T*T的核空间=输入侧T的核空间，值域是输出侧T*的值域

交换角色是因为svd分解求转置与求逆都会反向，转置不影响对角矩阵，但是逆会使对角矩阵元素变成倒数

求解方法：V中的规范正交基通过计算T*T的特征向量得到，W中规范正交基通过公式得到

6.奇异值分解推论

线性映射的范数定义：

范数满足正定性，可乘性，线性性中的可加性替换成了三角不等式

b项的理解：追踪一个单位球的变化，||T||就是单位球变化后到球心的最大半径

第三条直观理解：当svd分解左右两侧的旋转矩阵是基于同一基的正交矩阵R与R^t时就特化成了正交相似对角化（谱定理），对角线元素是T的特征值绝对值

低秩分解：图像压缩、矩阵压缩

截取前k项所得的矩阵，其秩是k，并且是秩为k的矩阵中与T最逼近的，与原映射T的距离是第k+1个奇异值

注意，极分解是对V上的算子的分解，而svd可以对任意线性映射分解

T是正规的（T是自伴算子、幺正算子等），那么根据复谱定理可知它对一个规范正交基具有对角型矩阵，而T又=S与T*T开根号，所以这二者可同时对角化

极分解的缩放部分不是对角型，而是一个正算子，因此几何上不是轴向拉伸，而是斜的拉伸

通过奇异值计算体积：

𝑇 的奇异值的乘积就等于 |det𝑇|

取决于特征值的算子性质：

正交投影一定是正规的、自伴的（P=P*）自伴算子，因此它的特征值也在实数范围内，1对应于投影空间，0对应于正交补空间

=========复向量空间上的算子========

1.广义特征向量和幂零算子

一般来说T的核空间向量经过T后被压缩为0，会有null⊥子空间的向量来填补null的空缺，但是如果没有那要么就是幂等算子，如投影矩阵，要么就是null已达最大即整个V（幂零算子），还有一种情况是在有限次幂运算（不超过dimV-1次）内核空间会停止增长的算子

算子幂运算会使得核空间越来越大，相对的也会使得值域越来越大，有以下相对结论

非幂零算子，那么至少会在dimV-1幂时核空间停止增长，因为如果此时核空间依然可以增长，再经过一次幂运算就会变为0算子。

下面这个示例很好的说明了这一点，这个线性映射在T^2时核空间会停止增长

为什么要引入广义特征向量？

对于非亏损矩阵可以进行简单的一维直和分解，在这些一维线性不变子空间，T变得非常简单（纯伸缩），但是对于亏损矩阵没有足够得特征向量，只能退而求其次，使用二维的直和分解，允许在这个二维的不变子空间发生剪切

对比一般特征向量的定义(𝑇 −𝜆𝐼)𝑣 = 0，这个定义是比较自然的。当一般特征向量被𝑇 −𝜆𝐼压缩到0，它能保证新的广义特征向量填补特征向量的空缺替代它成为特征向量，在有限步后，这个多维的不变子空间会被𝑇 −𝜆𝐼压缩到0.

第一次T得到dim rangeT的值域，所以需要dim rangeT+1次

b项说明：幂零算子特征值只有零，而T的最小多项式零点都是特征值

2.广义特征空间分解

𝑉是𝑇的广义特征空间的直和，该直和中各项都在𝑇下不变，并且作用于其上的𝑇等于一个幂零算子加上恒等算子的标量倍．

这里作用于其上的T表现在矩阵上是某个局部块，比如T的某个线性不变子空间是3、4维组成的，那么矩阵中只有3、4列向量会对其产生影响，并由于线性不变的约束，只有3、4行向量才允许影响最终输出，因此能确定这些行列交叉形成的块就是作用在其上的T

借助这个结论，我们得以完成我们的目标：将𝑉 分解成不变子空间，且𝑇在这些子空间上的性质为我们所知．

代数重数也有其几何意义，即广义特征空间的维数

3.广义特征空间分解的推论

4.联系矩阵与算子的桥梁——迹

直观理解：基向量经过T变换后在自身上的投影，比如x轴经过T变换后成为矩阵A中的第一列向量，只取其在x上的分量，即A11，各轴变换后投影之和就是迹

=========多重线性代数和行列式=======

1.双线性型和二次型

双线性体现在对两个输入向量，该线性泛函都是线性的

一些双线性型示例：

内积与二次型都只是双线性型的特例：

双线性型不是V×V积空间到F的线性映射。除非它是零映射，假如双线性接受两个输入（a，b）产生标量输出ab，如果它是线性映射，那么（a+b）*（c+d）=ac+bd+ad+bc≠ac+bd（期望结果），V×V中向量是元素为元组的元组，其中（a，c）是第一个元组向量也是双线性型第一对输入向量，第二个元组向量（b，d）用于验证可加性

对于 (0,2)型张量与 (1,1) 型张量，它们虽然在形式上相同都表现为YAX的形式，但是表达的含义却不一样，前者是一个双线性系统，他把XY都视为普通输入，二者是平等的关系，它的A正确的理解方式是其中每个元素都是独立平等的数表。而后者则是一个线性算子，它的A正确理解方式为每个列向量是一个元素，A也可以视为一个向量场映射，X被视为输入，而Y被视为测度工具，YAX应理解为两个步骤，X先经过向量场映射A映射到输出向量，再与测度工具Y作用产生一个标量输出