信息几何笔记

作者: Jyx, School of Physics, Light University, Land of Light, M78 299792, Constellation Orion

1 散度

信息几何研究的对象是概率分布流形上的几何。概率分布流形是以概率分布为点构成的流形。例如 Gauss 分布流形就是由所有 Gauss 分布构成了一个二维概率分布流形。更一般地,令为随机变量,用参数为其指定一族概率分布。该概率分布族就是维流形,参数充当其坐标系。

概率分布流形上两点间的“距离”需借助散度来刻画,它给出了流形上的几何结构。

定义 1.1
是流形上两点,上的坐标函数,的散度是满足下列条件的可微函数
(a).
(b).
(c).,其中是正定的。

注 1.1
严格来说散度并非距离,因为一般来说它是不对称的,且不满足三角不等式。

注 1.2
散度为赋予了 Riemann 结构。借助 (c),上相邻两点无穷小距离的平方可定义为: 矩阵的正定性保证了上有一个 Riemann 度量,使得为 Riemann 流形。

例 1.1
Kullback-Leibler(KL) 散度。分布到分布的 KL 散度定义为:

定义 1.2
Bregman 散度。令是一个可微的凸函数,由它导出的 Bregman 散度定义为: Bregman 散度表示的是点到点的切平面的垂直距离,的凸性保证了始终在切平面之上。

定理 1.1
是凸函数的 Legendre 变换,从而由导出的 Bregman 散度可写为:


2 对偶平坦 Riemann 结构

关于坐标的凸函数经坐标变换后不一定是的凸函数。若变换为放射变换那么函数可保持凸性。现在将流形上坐标系间的变换限定为仿射变换,从而成为一个仿射流形。仿射流形是平坦的,其坐标系的每个坐标轴都是直线,上的任意曲线可写为: 其中是常矢量,称为仿射流形的测地线。

坐标系的 Legendre 对偶也是一个仿射坐标系,对应的测地线称为对偶测地线,它是由 Legendre 变换导出的对偶仿射结构。两个互为对偶的坐标系并不能由仿射变换相联系,因而是两种不同的仿射坐标系。设是仿射坐标系下向量场的基。任一点的切向量可表示为。引入线元,根据式 (1),其长度平方由凸函数对应的 Bregman 散度导出: 这里引入了 Riemann 度量 类似地,在对偶坐标系下,记向量场的基为,从而切向量、线元、度量张量表示为: 另一方面,由可得 类似也有 因此可知,且有 不同坐标基下切向量的变换关系为: 切向量间的内积为:


3 广义勾股定理和投影定理

定理 3.1(广义勾股定理)是由凸函数诱导的对偶平坦流形上的三个点,当连接的对偶测地线和连接的测地线正交时,有如下广义勾股定理:

定理 3.2(对偶勾股定理)
是由凸函数诱导的对偶平坦流形上的三个点,当连接的测地线和连接的对偶测地线正交时,有如下对偶广义勾股定理:

定义 3.1
是对偶平坦流形,是它的平坦子流形,分别是中的点。当连接两点的测地线与正交时(即在交点处测地线的切向量与中的任意切向量正交),称的测地线投影;同理也可定义的对偶测地线投影

根据广义勾股定理,点到平坦子流形上的点的散度可写为,因此有,这给出了点到子流形上的散度的下界,同理也可得相应对偶散度的下界,这就是投影定理:

定理 3.3(投影定理) 给定和平坦子流形,点最小化散度; 点最小化对偶散度:


4 概率分布的指数族

概率分布的指数族是一种较为普适的统计模型,它囊括了众多常见分布,如 Gauss 分布、离散概率分布等。概率分布的指数族的概率密度函数为 其中是样本空间中的测度,是参数向量, 称为累积函数生成函数或自由能。的正定性保证了的凸函数。以为坐标系,指数族构成了一个维概率分布流形。将坐标变换限制为仿射变换以保证自由能的凸性,于是就是一个仿射流形。将关于的对偶坐标系记为 可见对偶坐标系就是的期望:. 记的 Legendre 变换为,于是有 是负的 Shannon 熵。用自由能接着可导出指数族上的 Bregman 散度:

命题 4.1
指数族上由自由能诱导的 Bregman 散度就是 KL 散度:

定理 4.1
指数族中由 Bregman 散度诱导的 Riemann 度量等于 Fisher 信息矩阵:

注 4.1
这里应用了如下简写:

指数族的流形是对偶平坦的。令分别为上两点,在坐标系中连接这两点的测地线为: 该测地线上的概率分布满足: 即测地线上的分布的对数是端点两个分布的对数的线性插值,构成一个参数为的一维指数族。该测地线称为-测地线。-测地线即指数测地线。另一方面,坐标系中连接两端点的对偶测地线为: 该对偶测地线上分布的期望满足: 即测地线上的分布的期望是端点两个分布的期望的线性插值。该测地线称为-测地线.

4.1 离散分布族

指数分布族的一个例子是离散分布族。设是离散随机变量,其概率分布由概率向量表示为,所有概率分布构成了维流形,它的一个坐标函数可选为中的-单形,称为概率单形,记为

引入如下函数 从而概率分布可写为 概率分布的对数可表示为 通过引入新的随机变量, 以及新的参数,利用上式可将离散分布写成指数形式: 这里的自由能定义为 从而对偶坐标为: 将上式代入式 (30) 中可看出,在对偶测地线上,离散分布直接表示为两端点分布的线性插值: 这是离散分布的特性,对一般的指数分布并不成立。


5 概率分布的混合族

将离散分布族的概率分布式 (32) 推广,可得到另一种不同于指数族的概率分布族,称为混合族。离散分布族既是指数族又是混合族。

设有个概率分布, 线性无关,混合族的概率分布由下式给出: , 构成了混合族流形上的一个坐标系,称为对偶坐标系。关于的一个凸函数是负的 Shannon 熵: 关于的对偶记为就是主仿射坐标系。计算可得: 可导得的 Legendre 变换为 可导出混合族上的 Bregman 散度:

命题 5.1
混合族上由负 Shannon 熵诱导的 Bregman 散度就是 KL 散度:

注 5.1
可算得由诱导的 Riemann 度量的分量仍为 Fisher 信息矩阵:

为混合族流形赋予了对偶平坦结构。连接上两点的-测地线写为 连接上两点的-测地线写为 利用定义式,可得测地线上的概率分布满足 因此对于混合族来说,-测地线上的概率分布可直接表示为两端点分布的线性插值。-测地线即混合测地线


6 概率分布流形的不变几何

在概率分布流形上引入几何结构(对偶平坦 Riemann 结构)需要选择一个凸函数以及相应的 Bregman 散度,因此凸函数和散度的选择需要有一个合理的标准。这种合理性由散度的不变性准则给出。

设有概率分布流形, 是定义在上的散度,其不变性准则表述为:

定义 6.1(不变性准则)
设从随机变量的变换是一个满射,将变换后概率分布间的散度记为. 当散度满足如下信息单调性时 称该散度(以及其诱导的上的几何结构)是不变的。这里当且仅当是充分统计量(即)时等号成立。

下面以离散分布族为例说明其不变几何结构。

6.1 的不变散度和不变 Riemann 度量

定义 6.2(散度的可分解性)
如果存在函数将散度以如下和式表示 就称散度是可分解的。

定义 6.3(-散度)
是一个可微凸函数,满足上的-散度定义为

注 6.2
-散度的定义,-散度有如下性质 其中是任意常数。

定义 6.4(标准-散度)
如果函数满足 那么对应的-散度称为标准-散度。

例 6.1(KL 散度)
若取, 那么相应的-散度就是 KL 散度. 的对偶是, 对应.

例 6.2(-散度)
定义如下-函数 -函数导出的散度称为-散度: -函数的对偶是-函数,对应. 取极限可得 KL 散度:

定理 6.1
-散度是不变、可分解的。除去的情况,上不变的、可分解的散度是-散度。

定理 6.2
任何标准-散度都会给出相同的 Riemann 度量,即 Fisher 信息矩阵,且 Fisher 信息是唯一的不变度量(可以差一个常数因子):

注 6.3
可证明唯一的不变三阶张量(Amari–Chentsov 张量,AC 张量)由下式给出:

有如下关于 Fisher 信息矩阵的结论。

命题 6.1

定理 6.3(Cramér-Rao 不等式)
无偏估计,即的协方差矩阵记为, ,记为信息矩阵。有如下 Cramér-Rao 不等式成立: 是一个半正定矩阵。当取到等号时,称有效估计量


7 对偶仿射联络与对偶平坦流形

是一个概率分布流形,上的 Riemann 度量(Fisher 信息矩阵,Fisher 度量),从而构成一个 Riemann 流形。Riemann 流形上与度量相容的联络是 Levi-Civita 联络,这里记为, 对应的联络系数为: 其中. 信息几何中还引入了另一种联络,称为对偶仿射联络,这是一对联络,在联合平行移动下可保持向量间内积不变。对偶联络由不变三阶张量 AC 张量参与构造,于是信息几何将通常的 Riemann 结构推广为结构(Amari–Chentsov 结构)。

7.1 -仿射联络

上引入-联络, 其联络系数定义为 -联络一般并不与度量相容。-联络就是 Levi-Civita 联络。

如果是指数族,那么可验证有. 这表明指数族相对于-联络是平坦的(简称-平坦),因此称-联络为指数联络-联络,并记. 如果是混合族,又可以验证有, 即混合族是-平坦的,因此称-联络为混合联络-联络,并记. 一般地,如果流形满足, 那么称其为-平坦的,这一类流形合称为-仿射流形。

7.2 对偶联络

联络关于 Riemann 度量的对偶性是对相容性的推广。联络与度量相容意味着对于, 有. 由此引出对偶联络的定义:

定义 7.1
分别是上的联络,若对, 满足 则称是对偶的,它们互为对偶联络,并记. 如果上有对偶联络, 称三元组上的对偶结构。

注 7.1
上的局部坐标,记联络及其对偶的联络系数分别为, 那么式 (62) 的分量形式可写为

注 7.2
与度量相容的联络是自对偶的。可以由对偶联络构造出与度量相容的联络.

定理 7.1
有对偶结构, 令分别为沿曲线的平行移动,切向量之间的内积在平行移动下有如下不变性:

定理 7.2
对于任意概率分布流形,-联络与-联络关于 Fisher 度量对偶。

定理 7.3分别为的曲率张量,则有:

流形上的对偶结构可以通过散度来构造。记上的散度,取中的两点, 对应坐标分别记为. 现引入记号,以及,余类推。由可得的一阶导数为 再对上式求全导数,有,于是可得 于是可写出散度的二阶展开式: 因此二阶导数对应的是由散度诱导的 Riemann 度量 对式 (69) 中最后一个等式求导得到 定义散度的对偶, 对偶散度诱导出与原散度相同的度量. 利用对偶散度,上式可写为 注意到服从与联络系数相同的变换规则,因此它们可分别构成一组联络系数。对比式 (63), 可定义 于是式 (62) 可重写为 给出的联络为, 给出的联络为, 有如下定理成立:

定理 7.4
联络是关于的对偶联络:

可以看出关于前两个指标是对称的,因此是无挠的。继续对式 (69) 的前两个等式求导可得: 上式表明两个对偶联络系数的差给出了一个三阶张量 即为 Amari–Chentsov 张量,衡量了偏离 Riemann 几何的程度。现在可引入-联络: 其中对应由两个对偶联络组合成的 Riemann 联络。

综上所述,散度诱导了流形上的对偶结构.

7.3 对偶平坦空间

是流形的对偶结构,如果流形既是-平坦的又是平坦的,那么称是一个对偶平坦空间。根据定理 7.3,如果都是无挠的,那么-平坦和-平坦是等价的。因此可知指数族和混合族是-平坦的,它们可构成对偶平坦空间。

定理 7.5
分别代表对偶平坦空间中的-仿射坐标系和-仿射坐标系。存在一对 Legendre 对偶凸函数(分别称为的势), 使得互为对偶坐标系。Riemann 度量在这两个坐标系下可分别表示为.

7.4 正则散度

前已说明流形上的对偶结构可由散度构造,反之也可由对偶结构来构造散度。一般来说,一个对偶结构可构造出多种散度,如果散度可被唯一地确定,那么称该散度是的正则散度,或简称上的-散度。对偶平坦空间的正则散度是 Bregman 散度: 这里记的互对偶仿射坐标系,是对应的势。关于对偶平坦空间中的正则散度有如下定理:

定理 7.6
散度是对偶平坦流形的正则散度的充要条件是满足如下三角关系:

由三角关系可进一步导出广义勾股定理 3.1 以及投影定理 3.3。


主要参考书目

[1]. Amari, S.-I., Nagaoka, H.: Methods of information geometry. American Mathematical Society, Providence (2000).

[2]. Amari, S.-i: Information Geometry and Its Applications. Springer, Berlin (2016).