作者: Jyx, School of Physics, Light University, Land
of Light, M78 299792, Constellation Orion
1 散度
信息几何研究的对象是概率分布流形上的几何。概率分布流形是以概率分布为点构成的流形。例如 Gauss
分布流形就是由所有 Gauss 分布构成了一个二维概率分布流形。更一般地,令为随机变量,用参数为其指定一族概率分布。该概率分布族就是维流形,参数充当其坐标系。
概率分布流形上两点间的“距离”需借助散度来刻画,它给出了流形上的几何结构。
定义 1.1
令是流形上两点,是上的坐标函数,到的散度是满足下列条件的可微函数:
(a).;
(b).;
(c).,其中是正定的。
注 1.1
严格来说散度并非距离,因为一般来说它是不对称的,且不满足三角不等式。
注 1.2
散度为赋予了 Riemann 结构。借助
(c),上相邻两点无穷小距离的平方可定义为:
矩阵的正定性保证了上有一个 Riemann 度量,使得为 Riemann 流形。
例 1.1
Kullback-Leibler(KL) 散度。分布到分布的 KL 散度定义为:
定义 1.2
Bregman 散度。令是一个可微的凸函数,由它导出的
Bregman 散度定义为: Bregman 散度表示的是点到点处的切平面的垂直距离,的凸性保证了始终在切平面之上。
定理 1.1
记是凸函数的 Legendre 变换,从而由导出的 Bregman 散度可写为:
2 对偶平坦 Riemann 结构
关于坐标的凸函数经坐标变换后不一定是的凸函数。若变换为放射变换那么函数可保持凸性。现在将流形上坐标系间的变换限定为仿射变换,从而成为一个仿射流形。仿射流形是平坦的,其坐标系的每个坐标轴都是直线,上的任意曲线可写为: 其中是常矢量,称为仿射流形的测地线。
坐标系的 Legendre
对偶也是一个仿射坐标系,对应的测地线称为对偶测地线,它是由 Legendre
变换导出的对偶仿射结构。两个互为对偶的坐标系并不能由仿射变换相联系,因而是两种不同的仿射坐标系。设是仿射坐标系下向量场的基。任一点的切向量可表示为。引入线元,根据式
(1),其长度平方由凸函数对应的
Bregman 散度导出: 这里引入了 Riemann 度量:
类似地,在对偶坐标系下,记向量场的基为,从而切向量、线元、度量张量表示为: 另一方面,由可得 类似也有 因此可知,且有 不同坐标基下切向量的变换关系为: 切向量间的内积为:
3 广义勾股定理和投影定理
定理 3.1(广义勾股定理) 设是由凸函数诱导的对偶平坦流形上的三个点,当连接的对偶测地线和连接的测地线正交时,有如下广义勾股定理:
定理 3.2(对偶勾股定理)
设是由凸函数诱导的对偶平坦流形上的三个点,当连接的测地线和连接的对偶测地线正交时,有如下对偶广义勾股定理:
定义 3.1
设是对偶平坦流形,是它的平坦子流形,分别是和中的点。当连接两点的测地线与正交时(即在交点处测地线的切向量与中的任意切向量正交),称是到的测地线投影;同理也可定义到的对偶测地线投影。
根据广义勾股定理,点到平坦子流形上的点的散度可写为,因此有,这给出了点到子流形上的散度的下界,同理也可得相应对偶散度的下界,这就是投影定理:
定理 3.3(投影定理) 给定和平坦子流形,点最小化散度; 点最小化对偶散度:
4 概率分布的指数族
概率分布的指数族是一种较为普适的统计模型,它囊括了众多常见分布,如
Gauss 分布、离散概率分布等。概率分布的指数族的概率密度函数为 其中是样本空间中的测度,是参数向量, 称为累积函数生成函数或自由能。的正定性保证了是的凸函数。以为坐标系,指数族构成了一个维概率分布流形。将坐标变换限制为仿射变换以保证自由能的凸性,于是就是一个仿射流形。将关于的对偶坐标系记为 可见对偶坐标系就是的期望:. 记的
Legendre 变换为,于是有 即是负的 Shannon
熵。用自由能接着可导出指数族上的 Bregman 散度:
命题 4.1
指数族上由自由能诱导的 Bregman 散度就是 KL 散度:
定理 4.1
指数族中由 Bregman 散度诱导的 Riemann 度量等于 Fisher 信息矩阵:
注 4.1
这里应用了如下简写:
指数族的流形是对偶平坦的。令分别为上两点,在坐标系中连接这两点的测地线为: 该测地线上的概率分布满足:
即测地线上的分布的对数是端点两个分布的对数的线性插值,构成一个参数为的一维指数族。该测地线称为-测地线。-测地线即指数测地线。另一方面,坐标系中连接两端点的对偶测地线为: 该对偶测地线上分布的期望满足:
即测地线上的分布的期望是端点两个分布的期望的线性插值。该测地线称为-测地线.
4.1 离散分布族
指数分布族的一个例子是离散分布族。设是离散随机变量,其概率分布由概率向量表示为,所有概率分布构成了维流形,它的一个坐标函数可选为。是中的-单形,称为概率单形,记为。
引入如下函数 从而概率分布可写为 概率分布的对数可表示为 通过引入新的随机变量, 以及新的参数,利用上式可将离散分布写成指数形式:
这里的自由能定义为 从而对偶坐标为: 将上式代入式 (30)
中可看出,在对偶测地线上,离散分布直接表示为两端点分布的线性插值:
这是离散分布的特性,对一般的指数分布并不成立。
5 概率分布的混合族
将离散分布族的概率分布式 (32)
推广,可得到另一种不同于指数族的概率分布族,称为混合族。离散分布族既是指数族又是混合族。
设有个概率分布, 线性无关,混合族的概率分布由下式给出: 令, 构成了混合族流形上的一个坐标系,称为对偶坐标系。关于的一个凸函数是负的 Shannon 熵: 关于的对偶记为,就是主仿射坐标系。计算可得: 可导得的 Legendre 变换为 用可导出混合族上的 Bregman 散度:
命题 5.1
混合族上由负 Shannon 熵诱导的 Bregman 散度就是 KL 散度:
注 5.1
可算得由诱导的 Riemann
度量的分量仍为 Fisher 信息矩阵:
为混合族流形赋予了对偶平坦结构。连接上两点的-测地线写为 连接上两点的-测地线写为 利用定义式,可得测地线上的概率分布满足
因此对于混合族来说,-测地线上的概率分布可直接表示为两端点分布的线性插值。-测地线即混合测地线。
6 概率分布流形的不变几何
在概率分布流形上引入几何结构(对偶平坦 Riemann
结构)需要选择一个凸函数以及相应的 Bregman
散度,因此凸函数和散度的选择需要有一个合理的标准。这种合理性由散度的不变性准则给出。
设有概率分布流形, 是定义在上的散度,其不变性准则表述为:
定义 6.1(不变性准则)
设从随机变量到的变换是一个满射,将变换后概率分布间的散度记为.
当散度满足如下信息单调性时 称该散度(以及其诱导的上的几何结构)是不变的。这里当且仅当是充分统计量(即)时等号成立。
下面以离散分布族为例说明其不变几何结构。
6.1 的不变散度和不变 Riemann 度量
定义 6.2(散度的可分解性)
如果存在函数将散度以如下和式表示 就称散度是可分解的。
定义 6.3(-散度)
设是一个可微凸函数,满足,上的-散度定义为
注 6.2
由-散度的定义,-散度有如下性质 其中是任意常数。
定义 6.4(标准-散度)
如果函数满足 那么对应的-散度称为标准-散度。
例 6.1(KL 散度)
若取, 那么相应的-散度就是 KL 散度. 的对偶是, 对应.
例 6.2(-散度)
定义如下-函数 由-函数导出的散度称为-散度: -函数的对偶是-函数,对应.
取极限可得 KL
散度:
定理 6.1
-散度是不变、可分解的。除去的情况,上不变的、可分解的散度是-散度。
定理 6.2
任何标准-散度都会给出相同的
Riemann 度量,即 Fisher 信息矩阵,且 Fisher
信息是唯一的不变度量(可以差一个常数因子):
注 6.3
可证明唯一的不变三阶张量(Amari–Chentsov 张量,AC 张量)由下式给出:
有如下关于 Fisher 信息矩阵的结论。
命题 6.1
定理 6.3(Cramér-Rao 不等式)
设是的无偏估计,即,的协方差矩阵记为, ,记为信息矩阵。有如下 Cramér-Rao
不等式成立: 即是一个半正定矩阵。当取到等号时,称是的有效估计量。
7 对偶仿射联络与对偶平坦流形
设是一个概率分布流形,是上的 Riemann 度量(Fisher
信息矩阵,Fisher 度量),从而构成一个 Riemann
流形。Riemann 流形上与度量相容的联络是 Levi-Civita 联络,这里记为, 对应的联络系数为: 其中.
信息几何中还引入了另一种联络,称为对偶仿射联络,这是一对联络,在联合平行移动下可保持向量间内积不变。对偶联络由不变三阶张量
AC 张量参与构造,于是信息几何将通常的 Riemann
结构推广为结构(Amari–Chentsov
结构)。
7.1 -仿射联络
在上引入-联络, 其联络系数定义为 -联络一般并不与度量相容。-联络就是 Levi-Civita 联络。
如果是指数族,那么可验证有.
这表明指数族相对于-联络是平坦的(简称-平坦),因此称-联络为指数联络或-联络,并记. 如果是混合族,又可以验证有,
即混合族是-平坦的,因此称-联络为混合联络或-联络,并记.
一般地,如果流形满足,
那么称其为-平坦的,这一类流形合称为-仿射流形。
7.2 对偶联络
联络关于 Riemann 度量的对偶性是对相容性的推广。联络与度量相容意味着对于,
有. 由此引出对偶联络的定义:
定义 7.1
令分别是上的联络,若对,
满足 则称与是对偶的,它们互为对偶联络,并记.
如果上有对偶联络, 称三元组是上的对偶结构。
注 7.1
令为上的局部坐标,记联络及其对偶的联络系数分别为, 那么式
(62) 的分量形式可写为
注 7.2
与度量相容的联络是自对偶的。可以由对偶联络构造出与度量相容的联络.
定理 7.1
设有对偶结构, 令分别为和沿曲线的平行移动,切向量之间的内积在平行移动下有如下不变性:
定理 7.2
对于任意概率分布流形,-联络与-联络关于 Fisher 度量对偶。
定理 7.3 设分别为和的曲率张量,则有:
流形上的对偶结构可以通过散度来构造。记是上的散度,取中的两点, 对应坐标分别记为. 现引入记号,以及,余类推。由可得的一阶导数为 再对上式求全导数,有,于是可得
于是可写出散度的二阶展开式: 因此二阶导数对应的是由散度诱导的 Riemann 度量: 对式 (69) 中最后一个等式求导得到
定义散度的对偶为,
对偶散度诱导出与原散度相同的度量.
利用对偶散度,上式可写为 注意到和服从与联络系数相同的变换规则,因此它们可分别构成一组联络系数。对比式
(63), 可定义 于是式 (62) 可重写为 记给出的联络为, 给出的联络为, 有如下定理成立:
定理 7.4
联络与是关于的对偶联络:
可以看出关于前两个指标是对称的,因此与是无挠的。继续对式 (69)
的前两个等式求导可得:
上式表明两个对偶联络系数的差给出了一个三阶张量
即为 Amari–Chentsov
张量,衡量了偏离 Riemann 几何的程度。现在可引入-联络: 其中对应由两个对偶联络组合成的
Riemann 联络。
综上所述,散度诱导了流形上的对偶结构.
7.3 对偶平坦空间
设是流形的对偶结构,如果流形既是-平坦的又是平坦的,那么称是一个对偶平坦空间。根据定理
7.3,如果与都是无挠的,那么-平坦和-平坦是等价的。因此可知指数族和混合族是-平坦的,它们可构成对偶平坦空间。
定理 7.5
令分别代表对偶平坦空间中的-仿射坐标系和-仿射坐标系。存在一对 Legendre
对偶凸函数(分别称为和的势),
使得互为对偶坐标系。Riemann
度量在这两个坐标系下可分别表示为.
7.4 正则散度
前已说明流形上的对偶结构可由散度构造,反之也可由对偶结构来构造散度。一般来说,一个对偶结构可构造出多种散度,如果散度可被唯一地确定,那么称该散度是的正则散度,或简称上的-散度。对偶平坦空间的正则散度是 Bregman
散度: 这里记为的互对偶仿射坐标系,是对应的势。关于对偶平坦空间中的正则散度有如下定理:
定理 7.6
散度是对偶平坦流形的正则散度的充要条件是满足如下三角关系:
由三角关系可进一步导出广义勾股定理 3.1 以及投影定理 3.3。
主要参考书目
[1]. Amari, S.-I., Nagaoka, H.: Methods of information geometry.
American Mathematical Society, Providence (2000).
[2]. Amari, S.-i: Information Geometry and Its Applications.
Springer, Berlin (2016).