回归分析找到2个数据以上的的关系做预测的。是预测数字形的而不是男还是女这种问题1.举例略说这是一张图是学习时间与成绩的回归分析这条红线是回归线Xx是自变量是用于预测的例如学习时间是因Yy是因变量 是结果比如考试分数是果回归线方程Y6.83*X47.38斜率Ax没加上1单位是y平均加多少截距Bx0的理论分数最小二乘法让所有点到线的误差平方和最小这就是最小二乘法就像每个人都想靠进线但要做到每个人都要靠现只能保证每个人最近。残差真实值-预测值 观察值正式数据 预测值模型算出来的 残差他两的距离通俗解释地板上一些钉子拉一根木条让它距离每个钉子都最近最小二乘法就是告诉你放哪2.有何用预测未来吾一日阅书2时辰不知能考几分关系强弱果不其然努力读书还是有好处的一下就考进秀才了之前花的时间不够看回归线趋势判断是努力学习然后高中还是落榜回归线立即告诉你提示1.不一定XY是因果关系只能说强关联在一般情况下2.每日学习20小时是不对的会变笨所以这是超出正常范围的。3.异常值有人10小时才50分这可能是他是个弱智是不对的以去掉这种奇葩的东西会破坏数据的哦。4.广告费产品投入越多广告越多人知晓例ZM在春晚上一波操作后直接起飞5.运动强度与卡路里有关6.天越热冷饮发卖轻快越好、怎么检测模型好不好R的平方要高 MSE平均残差的平方要低理解R的平方是成绩MSE是你的答案的离正确差多少。过拟合与欠拟合过拟合就是一个学生死记硬背把训练数据背的无与伦比结果看见新的试题都无语了。欠拟合是彻底摆烂彻底懒到极点训练数据NO考试NO3.代码实践1.讲解这边哪一个文件来训练模型1.导入import pandas as pd import numpy as np wd pd.read_csv(women.csv,index_col0,header0) wd.tail(3)2.查看‘点’import matplotlib.pyplot as plt %matplotlib inline plt.scatter(wd[height],wd[weight]) plt.xlabel(height) plt.ylabel(weight) plt.show()3.变量设定准备Xwd[[height]]#第一层【】是索引运算符第二层是一个列表X要是二维的就要二维的没办法 ywd[weight] ynp.ravel(y) import statsmodels.api as sm#导入库 import scipy Xsm.add_constant(X) Xasm.add_constant(X.to_numpy())4.训练模型myModelsm.OLS(y,Xa)#普通最小二乘法OLS 一个类 它的作用是定义线性回归模型的结构 它的作用是定义线性回归模型的结构y Xβ ε其中 ε 是误差项resultsmyModel.fit()#Model: OLS 使用的方法是“普通最小二乘法”也就是找一条直线让所有数据点到直线的垂直距离的平方和最小。5.查看成果print(results.summary())这是一份**一元线性回归OLS**结果报告模型以y为被解释变量、x1为自变量共纳入15个观测值模型整体拟合效果极佳R²高达0.991能解释99.1%的y变异且F检验的p值趋近于0说明模型整体高度显著。核心系数方面常数项为-87.5167、x1的系数为3.45二者的p值均小于0.001均通过显著性检验意味着x1每增加1单位y平均增加3.45单位不过模型的Durbin-Watson值仅为0.315提示残差存在显著的正自相关后续需注意这一问题对模型有效性的影响。
回归分析((>^ω^<)喵)
回归分析找到2个数据以上的的关系做预测的。是预测数字形的而不是男还是女这种问题1.举例略说这是一张图是学习时间与成绩的回归分析这条红线是回归线Xx是自变量是用于预测的例如学习时间是因Yy是因变量 是结果比如考试分数是果回归线方程Y6.83*X47.38斜率Ax没加上1单位是y平均加多少截距Bx0的理论分数最小二乘法让所有点到线的误差平方和最小这就是最小二乘法就像每个人都想靠进线但要做到每个人都要靠现只能保证每个人最近。残差真实值-预测值 观察值正式数据 预测值模型算出来的 残差他两的距离通俗解释地板上一些钉子拉一根木条让它距离每个钉子都最近最小二乘法就是告诉你放哪2.有何用预测未来吾一日阅书2时辰不知能考几分关系强弱果不其然努力读书还是有好处的一下就考进秀才了之前花的时间不够看回归线趋势判断是努力学习然后高中还是落榜回归线立即告诉你提示1.不一定XY是因果关系只能说强关联在一般情况下2.每日学习20小时是不对的会变笨所以这是超出正常范围的。3.异常值有人10小时才50分这可能是他是个弱智是不对的以去掉这种奇葩的东西会破坏数据的哦。4.广告费产品投入越多广告越多人知晓例ZM在春晚上一波操作后直接起飞5.运动强度与卡路里有关6.天越热冷饮发卖轻快越好、怎么检测模型好不好R的平方要高 MSE平均残差的平方要低理解R的平方是成绩MSE是你的答案的离正确差多少。过拟合与欠拟合过拟合就是一个学生死记硬背把训练数据背的无与伦比结果看见新的试题都无语了。欠拟合是彻底摆烂彻底懒到极点训练数据NO考试NO3.代码实践1.讲解这边哪一个文件来训练模型1.导入import pandas as pd import numpy as np wd pd.read_csv(women.csv,index_col0,header0) wd.tail(3)2.查看‘点’import matplotlib.pyplot as plt %matplotlib inline plt.scatter(wd[height],wd[weight]) plt.xlabel(height) plt.ylabel(weight) plt.show()3.变量设定准备Xwd[[height]]#第一层【】是索引运算符第二层是一个列表X要是二维的就要二维的没办法 ywd[weight] ynp.ravel(y) import statsmodels.api as sm#导入库 import scipy Xsm.add_constant(X) Xasm.add_constant(X.to_numpy())4.训练模型myModelsm.OLS(y,Xa)#普通最小二乘法OLS 一个类 它的作用是定义线性回归模型的结构 它的作用是定义线性回归模型的结构y Xβ ε其中 ε 是误差项resultsmyModel.fit()#Model: OLS 使用的方法是“普通最小二乘法”也就是找一条直线让所有数据点到直线的垂直距离的平方和最小。5.查看成果print(results.summary())这是一份**一元线性回归OLS**结果报告模型以y为被解释变量、x1为自变量共纳入15个观测值模型整体拟合效果极佳R²高达0.991能解释99.1%的y变异且F检验的p值趋近于0说明模型整体高度显著。核心系数方面常数项为-87.5167、x1的系数为3.45二者的p值均小于0.001均通过显著性检验意味着x1每增加1单位y平均增加3.45单位不过模型的Durbin-Watson值仅为0.315提示残差存在显著的正自相关后续需注意这一问题对模型有效性的影响。