机器学习笔记-回归分析(一)

机器学习笔记--回归分析(1)

一、重点

回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测

  • 用途:预测,判别合理性
  • 例子:利用身高预测体重;利用广告费用预测商品销售额;等等.
  • 线性回归分析:一元线性(直线拟合,因变量只有一个);多元线性(平面拟合,多因变量);广义线性
  • 非线性回归分析
  • 困难:选定变量(多元、将多元整合为单变量:降维),避免多重共线性(使用可以由其它变量推出来的变量,回归模型误差会很大:观察、消除),观察拟合方程,避免过度拟合(给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’h的错误率小,那么就说假设h过度拟合训练数据),检验模型是否合理

二、关系

1.  函数关系

确定性的关系:y=3+10*x

机器学习笔记-回归分析(一)机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

2.  相关关系

非确定性关系,例如你的物理成绩和化学成绩的关系(比如取决于数学运用能力):

机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

相关系数:使用相关系数去判断是否适合去做回归模型,来衡量

机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

Xi,Yi即第n次取样,也称作观测值

机器学习笔记-回归分析(一)机器学习笔记-回归分析(一):平均值

其范围在[-1,1] (柯西不等式可证),正:正相关否则负相关,越是接近1,越适合使用直线进行拟合

三、 一元线性回归模型

1.  误差平方和

假设线性回归模型为y=a+bx

机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

即每个观测点纵坐标与方程上该点值的差的平方的和,这样在观测点已知时使得RSS最小去求a和b的值,即极值问题

机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

求对a和b的偏导数使其等于0就可以算出a与b的值,求得回归参数:

机器学习笔记-回归分析(一)

机器学习笔记-回归分析(一)

2.  例子(R):

>y=c(61,57,58,40,90,35,68)//y由7个样本组成的向量

>x=c(170,168,175,153,185,135,172)

>plot(x,y)//画出散点图,如图

机器学习笔记-回归分析(一)机器学习笔记-回归分析(一)

>a=lm(y~x+1)//构建模型,假设y=ax+b

>summary(a)//查看结果

机器学习笔记-回归分析(一)机器学习笔记-回归分析(一)

汇总数据的解释:

  • Residuals:参差分析数据,即误差
  • Coefficients:回归方程的系数(截距和斜率),以及推算的系数的标准差,t值,P-值
  • F-statistic:F检验值
  • Signif:显著性标记,***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著    
  • Multiple R-squared:相关系数,一般达到0.5以上就比较相关

       预测:

       > z=data.frame(x=185)

       > predict(a,z)

       如果规定模型必须过原点:

       >w=lm(y~x-1)

3.  其它命令

求模型系数

> coef(a)

提取模型公式

> formula(a)

计算残差平方和

> deviance(a)

计算残差

> residuals(a)