压缩的本质:规律在几何上有形状,在代数上有结构压缩的本质:规律在几何上有形状,在代数上有结构压缩不只是把数据变短。规律本身有形状和结构。理解一个事物,就是找到它的几何位置,用最简洁的符号封装它。一、两个缺口:香农熵与柯氏复杂度的困境压缩理论有两个经典缺口:第一堵墙:香农熵必须已知概率分布熵值公式 H = -Σ p(x) log p(x) 假设已知数据分布。但现实数据从不附赠"真实分布说明书"。不知道分布,最优编码是空中楼阁。答案:找分布就是学习。第二堵墙:柯氏复杂度不可计算柯氏复杂度定义"最短描述",但这是图灵停机问题——无法写出通用算法。答案:用可操作的方式逼近。两个缺口引出两个追问:追问答案规律蜷缩在哪里?几何:数据流形规律如何被符号化封装?代数:宏的嵌套二、几何视角:从数据流形到统计流形数据流形:高维空间中的低维现实真实世界的高维数据,几乎总是分布在低维流形附近。例子:1000×1000像素人脸照片 = 100万维空间中的一个点但决定脸的因素只有几十个"控制旋钮":脸型、五官、表情、光照。数据蜷缩在极低维曲面上 → 这个曲面的维度 = 真正的自由度。流形假设:数据蜷缩在低维流形上噪声垂直于流形内禀维度 d 观测维度 D → 可压缩压缩比上限:D/d估计方法:线性结构:PCA特征值谱非线性流形:基于局部几何信息的方法三、统计流形:概率分布的黎曼几何从数据流形到统计流形:
压缩的本质:规律在几何上有形状,在代数上有结构
压缩的本质:规律在几何上有形状,在代数上有结构压缩的本质:规律在几何上有形状,在代数上有结构压缩不只是把数据变短。规律本身有形状和结构。理解一个事物,就是找到它的几何位置,用最简洁的符号封装它。一、两个缺口:香农熵与柯氏复杂度的困境压缩理论有两个经典缺口:第一堵墙:香农熵必须已知概率分布熵值公式 H = -Σ p(x) log p(x) 假设已知数据分布。但现实数据从不附赠"真实分布说明书"。不知道分布,最优编码是空中楼阁。答案:找分布就是学习。第二堵墙:柯氏复杂度不可计算柯氏复杂度定义"最短描述",但这是图灵停机问题——无法写出通用算法。答案:用可操作的方式逼近。两个缺口引出两个追问:追问答案规律蜷缩在哪里?几何:数据流形规律如何被符号化封装?代数:宏的嵌套二、几何视角:从数据流形到统计流形数据流形:高维空间中的低维现实真实世界的高维数据,几乎总是分布在低维流形附近。例子:1000×1000像素人脸照片 = 100万维空间中的一个点但决定脸的因素只有几十个"控制旋钮":脸型、五官、表情、光照。数据蜷缩在极低维曲面上 → 这个曲面的维度 = 真正的自由度。流形假设:数据蜷缩在低维流形上噪声垂直于流形内禀维度 d 观测维度 D → 可压缩压缩比上限:D/d估计方法:线性结构:PCA特征值谱非线性流形:基于局部几何信息的方法三、统计流形:概率分布的黎曼几何从数据流形到统计流形: