最码农 最码农
  • 首页
  • 动态广场
  • 精选栏目
  • 闲言碎语
  • 左邻右里
  • 笔记屋
  • 注册
  • 登录
首页 › Python › 线性回归实例——预测二手乐高价格

线性回归实例——预测二手乐高价格

Cosy
2年前Python阅读 1,574

岭回归概念

岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。

简单说来,岭回归就是在矩阵x^T*x上加一个λI从而使得矩阵非奇异,进而能对x^T*x+λI求逆。其中矩阵I是一个m*m的单位矩阵, 对角线上元素全为1,其他元素全为0。而λ是一个用户定 义的数值。在这种情况下,回归系数的计算公式将变成:

线性回归实例——预测二手乐高价格-最码农

概括的说,岭回归就是在普通线性回归的基础上引入单位矩阵I和惩罚系数λ。

岭回归可以很好地解决以下情况:

  1. x本身存在线性相关关系(即多重共线性),即非满秩矩阵。
  2. 当特征数n比样本m多,即m<n时,这时矩阵x不是满秩矩阵,非满秩矩阵在求逆时会出现问题

缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果。

这里通过预测误差最小化得到λ:数据获取之后,首先抽一部分数据用于测试,剩余的作为训练集用于训练参数w。训练完毕后在测试集上测试预测性能。通过选取不同的2来重复上述测试过程,最终得到一个使预测误差最小的λ。

岭回归中的岭是什么?

岭回归使用了单位矩阵乘以常量λ,我们观察其中的单位矩阵I,可以看到值1贯穿整个对角线,其余元素全是0。形象地,在0构成的平面上有一条1组成的“岭”,这就是岭回归中的“岭”的由来。

岭回归实例

乐高(LEGO) 公司生产拼装类玩具,由很多大小不同的塑料插块组成。一般来说, 这些插块都是成套出售,它们可以拼装成很多不同的东西,如船、城堡、一些著名建筑等。乐高公司每个套装包含的部件数目从10件到5000件不等。

一种乐高套件基本上在几年后就会停产,但乐高的收藏者之间仍会在停产后彼此交易。本次实例,就是使用回归方法对收藏者之间的交易价格进行预测。

线性回归实例——预测二手乐高价格-最码农

我们对商品做了处理。商品特征分别为:出品年份,部件数目,是否为全新,原价,售价(二手交易)。此外,还需要添加全为1的特征X0列。这是因为线性回归的第一列特征要求都是1.0。

读入数据:从lego.csv中读入乐高的各项数据


def loadDataSet(filename):
    data = pd.read_csv(filename)
    xArr = data.iloc[:, :-1].values
    lgY = data.iloc[:, -1].values
    data_num, features_num = np.shape(xArr)
    lgX = np.mat(np.ones((data_num, features_num + 1)))
    lgX[:, 1:5] = np .mat(xArr)
    return lgX, lgY

Parameters:
filename – 文件名
Returns:
lgX – x数据集(x0为全1列)
lgY – y数据集

使用岭回归求出回归系数


def ridgeRegres(xArr, yArr, lam=0.2):
    xMat = np.mat(xArr)
    yMat = np.mat(yArr).T
    xTx = xMat.T * xMat
    denom = xTx + np.eye(np.shape(xMat)[1]) * lam
    if np.linalg.det(denom) == 0.0:
        print("矩阵为奇异矩阵,不能求逆")
        return
    ws = denom.I * (xMat.T * yMat)
    return ws

Parameters:
xMat – x数据集
yMat – y数据集
lam – 缩减系数
Returns:
ws – 回归系数

输出线性方程

我们选取50条数据作为训练样本:


lgX, lgY = loadDataSet("lego.csv")
ws2 = ridgeRegres(lgX[10:50], lgY[10:50])
print("二手的售价=%f+%f*出品年份%f*部件数目%f*是否为全新+%f*原价"
      % (ws2[0], ws2[1], ws2[2], ws2[3], ws2[4]))

做出以上处理后,大致的结果如下:

线性回归实例——预测二手乐高价格-最码农

写在最后

以上就是大致的岭回归预测的步骤,如果有感兴趣的也可以普通线性回归于岭回归做对比,看看两者结果上的差异

人工智能 算法
赞(4) 收藏(0)
线性回归算法
上一篇
Logistic回归
下一篇
再想想
暂无评论
随 机 推 荐
Hive 行转列与列转行
Hive 常用函数整理
Flume 自定义Sink
Flume 入门案例 – 实时监控单个追加文件
从Hadoop框架讨论大数据生态
HDFS 概述
MapReduce框架原理-InputFormat数据输入
Hadoop 序列化
4
  • 4
  • 0
介绍

我们致力于打造一个原创的计算机相关技术的博客网站,旨在为访客提供一个优质的计算机技术教程交流平台。网站开辟了很多于计算机相关的栏目,并且收集了不少实用资源,同时也鼓励欢迎访客一起分享、交流、学习。

灵魂推荐
Veer图库 数码荔枝
栏目标题
首页 动态广场 精选栏目 闲言碎语 左邻右里 笔记屋
Copyright © 2021-2023 最码农. 苏ICP备20033168号
  • 首页
  • 动态广场
  • 精选栏目
  • 闲言碎语
  • 左邻右里
  • 笔记屋
# 教程 # # Hadoop # # Hive # # Flume # # 人工智能 #
Cosy
即使世界毁灭,也总有回光返照的那一刻
117
文章
3
评论
432
喜欢