1、监督学习监督学习就是利用已知标签的数据集来训练模型使模型能够学习输入数据与输出标签之间的映射关系从而对新的、未知的数据做出准确预测或分类。监督学习分为分类和回归两种分类就像是在做选择题就比如猫狗分类识别回归更像是在做填空题比如房价预测预测出一个确切的值。通常分类学习有有限个输出回归问题的输出可以输出无限多个可能的数字。2、无监督学习无监督学习是在没有预先定义标签或正确答案的情况下让算法自行探索和分析数据的内在结构、模式和分布。无监督学习与监督学习的区别就在于是否给出数据的标签。聚类算法举个例子就比如说你很喜欢小熊猫然后你搜索关于小熊猫的今天的新闻结果就是你不止能搜索到今天的新闻你可能还会搜索到过去几天的关于小熊猫的新闻甚至你还可能看到动物园之类的新闻这就是聚类算法在无监督的情况下把他认为相似的内容聚集到一起所以聚类算法属于无监督学习算法。无监督学习还包括异常检测和降维。3、jupyterJupyter 是一个开源的、交互式的 Web 应用程序主要用于创建和共享包含实时代码、可视化图表、数学公式和叙述性文本的文档。可以直接在pycharm中新建一个jupyter文档。4、线性回归模型首先线性回归模型属于监督学习。如下图所示这就是一个单变量线性回归模型我们的目的就是求出这和模型中的和就是求出模型。线性回归模型是最简单的模型了。5、代价函数损失函数如上图所示代价函数是衡量模型预测值与真实值之间的差异从而指导模型参数的优化也就是上图中的因为我们这里假设模型是最简单的模型参数只有。代价函数很好地反映了模型应该如何调节才能找到最小的损失从而使模型的预测值更加准确。这里是包括两个参数的代价函数最低点代表最好的参数。6、梯度下降梯度下降就是用来找到用于最优模型的参数的大小的算法每次都对和进行微小的调整使loss的值接近最小。梯度下降算法是一个逐渐找到局部最小值的算法这就意味着选取不同的初始点你可能会得到不同的结果。具体实现同步的梯度下降其实梯度就是导数或者说是偏导数公式中的就是学习率用来决定每次收敛的速度大小。7、学习率1、是什么具体地说就是当前的点距离目标点越远那么导数值就会越大梯度值就大下一步走的就大随着越来越靠近局部最低点导数值越来越小最后慢慢收敛。求梯度公式其实就是高等数学中的链式求导法则。2、如何选择学习率很简单如果你的损失随着训练次数测增加不断增大或者时大时小那么就可以尝试减小学习率因为在学习率足够小的情况下每次训练的loss一定是逐渐减小的最后趋近于0。如果已经将学习率调的非常小loss还是会增大那就是代码中出现了问题。但是问题还是存在如果学习率调整的太小模型的收敛速度会非常慢。所以可以试着来比如先设置0.0001在逐渐增大0.00030.0010.003之类的。然后分别观察loss曲线选择效果最好的。8、多特征多元线性回归模型9、向量化numpy向量化的好处就是是代码更加简洁还有加速计算。并且在深度学习中我们模型的输入的类型是tensorndarray可以很好的转换成张量从而输入模型。如下所示左边没有进行向量化那么只能串行的进行相加。但是右边进行向量化不同位置可以并发执行然后同时相加加快了计算的速度。10、多重线性回归的梯度下降还有一种只能用于线性回归模型的梯度下降方法就是正规方程方法需要调用机器学习库在后台使用复杂的方法来求w和b。11、特征缩放1、是什么首先说为什么要进行特征缩放如下图所示假如要比大很多那么就会导致模型收敛特别慢每次变动一小步每次的变动特别大。第二个原因就是在计算距离的时候会产生偏差。如下图所示横轴在计算距离的时候要比纵轴起到的作用更大但是横轴代表的特征并不一定比纵轴表示的特征更重要。横轴之所以能起到决定性作用纯纯是因为他能表示的范围更大也就是数量级大。通过标准化之后两个特征起到的作用就差不多了。也就是让算法不会受到特征尺度的影响。如下图所示。2、怎么做·最大最小归一化最大最小归一化可以保证数据都在0~1之间。·标准化较流行12、多项式回归模型最简单来说就是单纯的线性曲线已经满足不了对数据的拟合了所以我们可以用非线性来拟合曲线。但是有一个很重要的点下图中的他们的量级不同所以要进行特征缩放保证不会因为一些物理上的因素影响模型的训练13、逻辑回归模型sigmoid函数输入一个或者一组特征得到一个介于0到1之间的值。逻辑回归模型经常用来解决二分类问题输出的值是一个概率值判断接近0还是1从而判断结果是0还是1。14、决策边界字面理解在13、逻辑回归模型中当时经过sigmoid函数得到的值为0.5当时预测值等于1当时预测值等于0所以当时就是决策边界。如下图所示对于不同的参数值有不同的决策边界在的情况下当时也就是时下面的那条紫色的线就是决策边界。决策边界会随着参数的不同而改变。参数的选择是模型最后训练出来的训练完成后这些参数就固定了形成了一个具体的函数或规则所以我们才能根据模型训练出来的参数进行划分决策边界。15、泛化一句话泛化就是模型在训练集之外、模型从未见过的数据上也能表现良好的一种能力。下图所示的模型就具有很好的泛化能力。机器学习的目标就是找到一个既不过拟合又不欠拟合的模型。16、欠拟合高偏差简单来说欠拟合就是模型过于简单无法找到正确的规律。17、过拟合高方差过拟合就是模型在训练数据上表现过于优秀以至于学习了训练数据中的噪声、随机波动和不相关的细节导致它在新的、未见过的数据上表现显著下降。不具有很好的泛化能力。一张图看明白欠拟合的模型泛化好的模型过拟合的模型的区别。解决办法1、寻找更多的训练数据就是大力出奇迹。2、使用更少的特征通过直觉来猜测更加重要的特征对于那些相对不重要的特征不参加模型的训练。3、正则化首先声明正则化和正则表达式这是两个完完全全不同的东西不要搞混。那么好什么是正则化。一句话凡是可以减少过拟合的方法都叫正则化方法。正则化就是要在我们原始的loss函数的后面加上一个正则项如图所示。我们的目的就是选择一个恰到好处的正则化参数从而解决过拟合问题。如果过小那么添加的正则项就约等于0还是过拟合如果过大因为模型会想办法缩小整个loss所以前面的就会变小接近0所以最后预测出的模型就会变成一条直线就会发生欠拟合。与此同时带有正则化参数的梯度下降公式也就变成了这样有关正则化内内容我找到了更加详细的内容想看的更深入的可以看看。
机器学习与深度学习专有名词 1
1、监督学习监督学习就是利用已知标签的数据集来训练模型使模型能够学习输入数据与输出标签之间的映射关系从而对新的、未知的数据做出准确预测或分类。监督学习分为分类和回归两种分类就像是在做选择题就比如猫狗分类识别回归更像是在做填空题比如房价预测预测出一个确切的值。通常分类学习有有限个输出回归问题的输出可以输出无限多个可能的数字。2、无监督学习无监督学习是在没有预先定义标签或正确答案的情况下让算法自行探索和分析数据的内在结构、模式和分布。无监督学习与监督学习的区别就在于是否给出数据的标签。聚类算法举个例子就比如说你很喜欢小熊猫然后你搜索关于小熊猫的今天的新闻结果就是你不止能搜索到今天的新闻你可能还会搜索到过去几天的关于小熊猫的新闻甚至你还可能看到动物园之类的新闻这就是聚类算法在无监督的情况下把他认为相似的内容聚集到一起所以聚类算法属于无监督学习算法。无监督学习还包括异常检测和降维。3、jupyterJupyter 是一个开源的、交互式的 Web 应用程序主要用于创建和共享包含实时代码、可视化图表、数学公式和叙述性文本的文档。可以直接在pycharm中新建一个jupyter文档。4、线性回归模型首先线性回归模型属于监督学习。如下图所示这就是一个单变量线性回归模型我们的目的就是求出这和模型中的和就是求出模型。线性回归模型是最简单的模型了。5、代价函数损失函数如上图所示代价函数是衡量模型预测值与真实值之间的差异从而指导模型参数的优化也就是上图中的因为我们这里假设模型是最简单的模型参数只有。代价函数很好地反映了模型应该如何调节才能找到最小的损失从而使模型的预测值更加准确。这里是包括两个参数的代价函数最低点代表最好的参数。6、梯度下降梯度下降就是用来找到用于最优模型的参数的大小的算法每次都对和进行微小的调整使loss的值接近最小。梯度下降算法是一个逐渐找到局部最小值的算法这就意味着选取不同的初始点你可能会得到不同的结果。具体实现同步的梯度下降其实梯度就是导数或者说是偏导数公式中的就是学习率用来决定每次收敛的速度大小。7、学习率1、是什么具体地说就是当前的点距离目标点越远那么导数值就会越大梯度值就大下一步走的就大随着越来越靠近局部最低点导数值越来越小最后慢慢收敛。求梯度公式其实就是高等数学中的链式求导法则。2、如何选择学习率很简单如果你的损失随着训练次数测增加不断增大或者时大时小那么就可以尝试减小学习率因为在学习率足够小的情况下每次训练的loss一定是逐渐减小的最后趋近于0。如果已经将学习率调的非常小loss还是会增大那就是代码中出现了问题。但是问题还是存在如果学习率调整的太小模型的收敛速度会非常慢。所以可以试着来比如先设置0.0001在逐渐增大0.00030.0010.003之类的。然后分别观察loss曲线选择效果最好的。8、多特征多元线性回归模型9、向量化numpy向量化的好处就是是代码更加简洁还有加速计算。并且在深度学习中我们模型的输入的类型是tensorndarray可以很好的转换成张量从而输入模型。如下所示左边没有进行向量化那么只能串行的进行相加。但是右边进行向量化不同位置可以并发执行然后同时相加加快了计算的速度。10、多重线性回归的梯度下降还有一种只能用于线性回归模型的梯度下降方法就是正规方程方法需要调用机器学习库在后台使用复杂的方法来求w和b。11、特征缩放1、是什么首先说为什么要进行特征缩放如下图所示假如要比大很多那么就会导致模型收敛特别慢每次变动一小步每次的变动特别大。第二个原因就是在计算距离的时候会产生偏差。如下图所示横轴在计算距离的时候要比纵轴起到的作用更大但是横轴代表的特征并不一定比纵轴表示的特征更重要。横轴之所以能起到决定性作用纯纯是因为他能表示的范围更大也就是数量级大。通过标准化之后两个特征起到的作用就差不多了。也就是让算法不会受到特征尺度的影响。如下图所示。2、怎么做·最大最小归一化最大最小归一化可以保证数据都在0~1之间。·标准化较流行12、多项式回归模型最简单来说就是单纯的线性曲线已经满足不了对数据的拟合了所以我们可以用非线性来拟合曲线。但是有一个很重要的点下图中的他们的量级不同所以要进行特征缩放保证不会因为一些物理上的因素影响模型的训练13、逻辑回归模型sigmoid函数输入一个或者一组特征得到一个介于0到1之间的值。逻辑回归模型经常用来解决二分类问题输出的值是一个概率值判断接近0还是1从而判断结果是0还是1。14、决策边界字面理解在13、逻辑回归模型中当时经过sigmoid函数得到的值为0.5当时预测值等于1当时预测值等于0所以当时就是决策边界。如下图所示对于不同的参数值有不同的决策边界在的情况下当时也就是时下面的那条紫色的线就是决策边界。决策边界会随着参数的不同而改变。参数的选择是模型最后训练出来的训练完成后这些参数就固定了形成了一个具体的函数或规则所以我们才能根据模型训练出来的参数进行划分决策边界。15、泛化一句话泛化就是模型在训练集之外、模型从未见过的数据上也能表现良好的一种能力。下图所示的模型就具有很好的泛化能力。机器学习的目标就是找到一个既不过拟合又不欠拟合的模型。16、欠拟合高偏差简单来说欠拟合就是模型过于简单无法找到正确的规律。17、过拟合高方差过拟合就是模型在训练数据上表现过于优秀以至于学习了训练数据中的噪声、随机波动和不相关的细节导致它在新的、未见过的数据上表现显著下降。不具有很好的泛化能力。一张图看明白欠拟合的模型泛化好的模型过拟合的模型的区别。解决办法1、寻找更多的训练数据就是大力出奇迹。2、使用更少的特征通过直觉来猜测更加重要的特征对于那些相对不重要的特征不参加模型的训练。3、正则化首先声明正则化和正则表达式这是两个完完全全不同的东西不要搞混。那么好什么是正则化。一句话凡是可以减少过拟合的方法都叫正则化方法。正则化就是要在我们原始的loss函数的后面加上一个正则项如图所示。我们的目的就是选择一个恰到好处的正则化参数从而解决过拟合问题。如果过小那么添加的正则项就约等于0还是过拟合如果过大因为模型会想办法缩小整个loss所以前面的就会变小接近0所以最后预测出的模型就会变成一条直线就会发生欠拟合。与此同时带有正则化参数的梯度下降公式也就变成了这样有关正则化内内容我找到了更加详细的内容想看的更深入的可以看看。