模型容量可以视作模型的复杂度。如果数据比较简单却选择了模型容量高的复杂模型可能会出现过拟合underfitting如果数据比较复杂却选择类简单模型可能会出现欠拟合overfitting一、模型容量拟合各种函数的能力低容量的模型难以拟合训练数据高容量的模型可以记住所有的训练数据实际上关心的是泛化误差训练误差可能在理想情况下是可以记住所有的训练数据的所以他几乎可以逼近0。但是训练数据有很多噪声所以记住训练数据不一定是好的。我们还是要把视线放到泛化误差上面。泛化误差和训练误差之间的gap我们通常用来评价这个模型过拟合或者欠拟合的情况。故而有两个核心的任务一是让泛化误差的最优值尽可能的小二是让泛化误差和训练误差泛化误差取最优时之间的gap尽可能的小。所以有的时候我们未来时泛化误差的最优尽可能的往下降我们不得不承受一定的过拟合当然这也不算什么坏事在模型足够复杂时。模型容量是可以估计的但是我们难以比较在不同的种类算法之间比较比如树模型和神经网络。但是给定一个模型种类比较其容量有两个主要的因素一个是参数的个数另一个是参数值的选择范围如果我参数可以在一个很大的范围内选取则可以认为模型容量比较大二、VC维度VC dimension是统计学习理论的一个核心思想对一个分类模型VC维等价于一个最大的数据集的大小不管如何给定标号都存在一个模型来对他进行完美分类能够完美的记住最大的一个数据集的大小例如一个二维的感知机VC维3它能够分类任何三个点但四个点xor就需要用到多层感知机了支持N维输入的感知机的vc维是N1一些多层感知机的VC维O()VC维的用处提供为什么一个模型好的理论依据它可以衡量训练误差和泛化误差之间的间隔但深度学习中很少使用因为衡量不是很准确且计算深度学习模型的VC维很困难三、数据复杂度与 样本个数、每个样本的元素个数、时间空间结构、多样性 等多个重要因素相关要不断的实操下一次碰到数据就能有一个直观的理解以选择合适的模型四、总结模型容量需要匹配数据复杂度否则可能导致欠拟合和过拟合统计机器学习提供数学工具来衡量模型复杂度但实际中一般靠观察训练误差和验证误差
过拟合和欠拟合
模型容量可以视作模型的复杂度。如果数据比较简单却选择了模型容量高的复杂模型可能会出现过拟合underfitting如果数据比较复杂却选择类简单模型可能会出现欠拟合overfitting一、模型容量拟合各种函数的能力低容量的模型难以拟合训练数据高容量的模型可以记住所有的训练数据实际上关心的是泛化误差训练误差可能在理想情况下是可以记住所有的训练数据的所以他几乎可以逼近0。但是训练数据有很多噪声所以记住训练数据不一定是好的。我们还是要把视线放到泛化误差上面。泛化误差和训练误差之间的gap我们通常用来评价这个模型过拟合或者欠拟合的情况。故而有两个核心的任务一是让泛化误差的最优值尽可能的小二是让泛化误差和训练误差泛化误差取最优时之间的gap尽可能的小。所以有的时候我们未来时泛化误差的最优尽可能的往下降我们不得不承受一定的过拟合当然这也不算什么坏事在模型足够复杂时。模型容量是可以估计的但是我们难以比较在不同的种类算法之间比较比如树模型和神经网络。但是给定一个模型种类比较其容量有两个主要的因素一个是参数的个数另一个是参数值的选择范围如果我参数可以在一个很大的范围内选取则可以认为模型容量比较大二、VC维度VC dimension是统计学习理论的一个核心思想对一个分类模型VC维等价于一个最大的数据集的大小不管如何给定标号都存在一个模型来对他进行完美分类能够完美的记住最大的一个数据集的大小例如一个二维的感知机VC维3它能够分类任何三个点但四个点xor就需要用到多层感知机了支持N维输入的感知机的vc维是N1一些多层感知机的VC维O()VC维的用处提供为什么一个模型好的理论依据它可以衡量训练误差和泛化误差之间的间隔但深度学习中很少使用因为衡量不是很准确且计算深度学习模型的VC维很困难三、数据复杂度与 样本个数、每个样本的元素个数、时间空间结构、多样性 等多个重要因素相关要不断的实操下一次碰到数据就能有一个直观的理解以选择合适的模型四、总结模型容量需要匹配数据复杂度否则可能导致欠拟合和过拟合统计机器学习提供数学工具来衡量模型复杂度但实际中一般靠观察训练误差和验证误差