…every sufficiently good analogy is yearning to become a functor.
John Baez,
“Quantum Quandaries: A Category-Theoretic Perspective”
1、初识行列式
如果我们随机在大街上找到一个学过线性代数的大学生问“你知道行列式是什么吗?”若是十分凑巧,刚好碰上一个考完线性代数考试没多久的,那他一般会告诉你行列式是一个数表在左右各加上一个竖线,然后告诉你如何计算二阶和三阶的情况。若是一个线性代数学的比较好的,那他可能会告诉你书本上的定义:
$$\begin{equation} \operatorname{det}\mathbf{A} = \sum_{\sigma \in \mathfrak{S}_{n} }\operatorname{sgn}(\sigma)a_{\sigma(1),1} \cdots a_{\sigma(n),n}.\end{equation}$$
不过对于多数人来说,想要理解如此神秘的定义总是很困难的,即使是在同济大学出版社的经典教材《工程数学:线性代数》中,这样的定义也不过是在“假装”很明白地通过与二阶行列式和三阶行列式的类比来给出,实际上读者并不能真正理解行列式的意味。

不过不可否定的是,如此的定义对于行列式的相关性质的证明是方便的,具体的显式定义方便我们对于很多基本的性质给出证明,并且证明本身不难理解,也不抽象。但可惜的是,如此浅薄的理解并不能帮我们了解到行列式的重要性,因为除了用来判断线性方程组的解的情况,我们还有很多其他的地方会体现行列式的重要性,并且我们也能以此理解行列式的概念究竟是如何诞生的。
2、行列式的早期历史
令人吃惊的事情是,实际上行列式的概念要比矩阵更早出现,即使在这时,数学家们或许并未完全明白为何会在数学研究中诞生出如此概念。对笔者而言,或许用范畴论的语言可以解释一番,但这是之后才会涉及的内容。
目前通常认为,历史上最早提出行列式概念的应是日本数学家关孝和(Seki Takakazu, 1683)和欧洲数学家莱布尼兹(Leibniz, 1693),虽然时隔10年,但根据考察,他们应该是各自独立给出了这个概念,并且都是为了求解线性方程组。
到了1750年,数学家克莱默(Cramer)提出克莱默法则,通过行列式给出了解线性方程组的一个通用解法,于是在这之后,许多数学家都重点研究如何计算一个特定的行列式,所谓的按行(列)展开,范德蒙德(Vandermonde)行列式等特殊的计算方法和行列式都是在那时被研究出来的。
不过我们现在看到的,通过逆序数等概念去定义的行列式的概念是由柯西(Cauthy)——对,就是学微积分的时候经常看到的那个柯西——提出的。基于一个完善的概念,柯西将前人的研究成果都用他所提出的定义统一了起来,行列式终于从一个“计算方法”变成了一个“数学对象”。
注释:形式化或是抽象化的数学概念,可以帮助我们去尽可能的了解数学对象的本质,即这个东西是这样且仅是这样。

与此同时,与行列式总是联系在一起的矩阵的概念直到1850年左右才被西尔维斯特(Sylvester)所提出。
注释:但是与矩阵类似的概念早就存在了,只是我们现在使用的“矩阵”的概念是被Sylvester提出的,即这时“矩阵”才正式地成为数学所研究的对象。
但直到此时,我们仍然只见到行列式对于解线性方程组的作用,接下来我们将结合古典的代数与几何的语言,从线性方程组可以在数学上被如何理解的角度,去重新理解行列式的概念是如何产生的,特别是其为何是以符号交错——即总是正负正负这样的——形式出现的。最后如果有机会,笔者会用一些范畴论的语言,以更加形式化的方式去讲述一下行列式的概念。
3、几何动机:有向体积
高中时,我们便已经接触过向量,空间,几何物体等概念。在我们最熟悉的$\mathbb{R}^2$中,给定二维列向量$u_1$和$u_2$后,我们可以通过下面的定义去描述这两个向量在平面上对应的平行四边形,这也是最简单的代数与几何之间的对应:
$$\begin{equation}\Diamond(u_1,u_2):= \{t_1u_1+t_2u_2:t_1,t_2\in [0,1]\}\end{equation}$$.
虽然在高中时我们总是默认取标准正交基作为$\mathbb{R}^2$的基,并以此写下向量的坐标进行运算,但我们不得不承认,很多结论并不依赖于坐标的选取,亦即无论选什么向量组做基(前提是确实是一组基),这个结论都是对的。
这时我们不妨先默认取标准正交基,即$e_1=(1,0)^{T}$和$e_2=(0,1)^{T}$,于是我们写出此时(假设我们已知)$u_1,u_2$的坐标:
$$\begin{equation}\begin{split}u_1 &= (a_{11},a_{21}) \\ u_2 &= (a_{12},a_{22}) \\ \end{split}\end{equation}$$.
从平面几何的基本知识不难知,这个平行四边形的面积大小是
$$\begin{equation}|a_{11}a_{22}-a_{12}a_{21}|\end{equation}$$.
注释:不难发现,面积大小即$||u_1||u_2|\sin\theta|$,其中$\theta$是两向量的夹角,此时将两个平面向量看成是第三个坐标都为$0$的立体向量,计算向量的叉积即得面积大小的坐标表达式。
但是如果我们不加入绝对值符号,其实也不影响什么,因为出现的正负号我们可以理解成“方向”。
如此看来我们可以将行列式理解为一种“函数”,它给出了空间中一个几何对象的某种信息,一种我们目前称之为“面积”的信息。比如说,在之前的二维空间中,我们实际上用平行四边形的面积给出了向量组$(u_1,u_2)$的一种信息。
于是我们自然就可以开始思考,那这个“行列式”应该是一种怎么样的函数呢?所以我们自然地思考出如下性质:
行列式$D$是一个从空间$V^n$映射到实数域$\mathbb{R}$上的一个函数,并且满足
1、$D(u_1,u_2,\ldots,t\cdot u_k,\ldots,u_n) = t\cdot D(u_1,u_2,\ldots,u_k,\ldots,u_n)$,即单独将其中一个向量伸缩$t$倍之后,函数值也变化$t$倍。
2、若向量组中存在$i\neq j$使得$u_i = u_j$,则有$D(u_1,u_2,\ldots,u_n) = 0$,即在几何直观上,此时图形上有两条边重合在一起,使得图形失去了他的面积。
3、这个函数应该有线性的加法,即
$$\begin{equation}D(u_1,\ldots,u_i+u,\ldots,u_n) = D(u_1,\ldots,u_i,\ldots,u_n)+D(u_1,\ldots,u,\ldots,u_n).\end{equation}$$
在几何直观上,我们可以理解成,将两个图形的某条边都沿着相同的方向分解之后,沿着这个方向将对应的边直接加在一起,因为平移不改变面积,所以得到的新的图形的面积和原来两个面积的和是一样大的。
终于,我们成功的从几何的角度观测到了“行列式”,但我们若仔细思考一番,便不难发现其实距离我们学过的朴素的行列式仍有所差距。比方说,我们现在所考虑的函数$D$并不是唯一确定的,但我们通常计算一个数表,或是说矩阵的行列式给出的值都是确定的,甚至说,我们还不清楚函数$D$有多少种可能,所以我们需要对这种函数进行研究,事实上,我们一般称满足以上性质的函数为“交错形式”。
4、从交错形式到行列式
取定一个数域$F$,比如我们最熟悉的实数域$\mathbb{R}$,然后取一个这个数域上的向量空间$V$,我们通常最熟悉的应该是$\mathbb{R}^n$,这实际上就是$n$维的$\mathbb{R}$上的取定单位正交基的向量空间。此时我们可以定义一类的函数:
$$\begin{equation}\mathcal{D}_{V,m} := \{D : V^m \to F \},\end{equation}$$
其中$D$是满足前一节的三个性质的映射。我们称$\mathcal{D}_{V,m}$里的元素为$V$上的$m$元交错形式。
既然我们希望研究这个交错形式,那自然的就会考虑它的特殊的取值,比如$”0″$和$”1″$上的取值,不过交错形式在$”0″$的取值是平凡的,由性质我们自然知道这个值是$0$。不过与此同时,我们需要考虑这里说的$”1″$是什么,最直接的考虑自然是一组单位正交基,最简单的情况自然是$(1,0,0)^{T},(0,1,0)^{T},(0,0,1)^{T}$这个标准正交基(如果我们假定是三维空间)。
如此一来我们便思考一般的函数值$D(v_1,\ldots,v_n)$与$D(e_1,\ldots,e_n)$的关系,这里$e_1,\ldots,e_n$是标准正交基。不难注意到,如果在一般的函数值里,$v_1$与$e_1$线性无关的话,那想利用交错形式的性质将$v_1$变成$e_1$的话,会略有麻烦,因此我们先证明一个简单的命题,这也将引入对换的概念。
给定$2$元交错形式$D$,有等式
$$D(v_1,v_2) = -D(v_2,v_1)$$
成立。
既然我们目前对于交错形式只知其线性性,即对变元的加法和数乘,所以我们考虑性质的证明依赖于通过加法来使得需要证明的东西为$0$,于是我们计算
$$\begin{split} D(v_1,v_2) + D(v_2,v_1) &= D(v_1,v_2) + 0 + D(v_2, v_1) + 0 \\ &= D(v_1,v_2) + D(v_1,v_1) + D(v_2,v_1) + D(v_2,v_2) \\ &= D(v_1,v_1+v_2) + D(v_2,v_1+v_2) \\ &= D(v_1+v_2,v_1+v_2) = 0. \end{split}$$
证毕。
发表回复
要发表评论,您必须先登录。