岭回归概念
岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。
简单说来,岭回归就是在矩阵x^T*x上加一个λI从而使得矩阵非奇异,进而能对x^T*x+λI求逆。其中矩阵I是一个m*m的单位矩阵, 对角线上元素全为1,其他元素全为0。而λ是一个用户定 义的数值。在这种情况下,回归系数的计算公式将变成:

概括的说,岭回归就是在普通线性回归的基础上引入单位矩阵I和惩罚系数λ。
岭回归可以很好地解决以下情况:
- x本身存在线性相关关系(即多重共线性),即非满秩矩阵。
- 当特征数n比样本m多,即m<n时,这时矩阵x不是满秩矩阵,非满秩矩阵在求逆时会出现问题
缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果。
这里通过预测误差最小化得到λ:数据获取之后,首先抽一部分数据用于测试,剩余的作为训练集用于训练参数w。训练完毕后在测试集上测试预测性能。通过选取不同的2来重复上述测试过程,最终得到一个使预测误差最小的λ。
岭回归中的岭是什么?
岭回归使用了单位矩阵乘以常量λ,我们观察其中的单位矩阵I,可以看到值1贯穿整个对角线,其余元素全是0。形象地,在0构成的平面上有一条1组成的“岭”,这就是岭回归中的“岭”的由来。
岭回归实例
乐高(LEGO) 公司生产拼装类玩具,由很多大小不同的塑料插块组成。一般来说, 这些插块都是成套出售,它们可以拼装成很多不同的东西,如船、城堡、一些著名建筑等。乐高公司每个套装包含的部件数目从10件到5000件不等。
一种乐高套件基本上在几年后就会停产,但乐高的收藏者之间仍会在停产后彼此交易。本次实例,就是使用回归方法对收藏者之间的交易价格进行预测。

我们对商品做了处理。商品特征分别为:出品年份,部件数目,是否为全新,原价,售价(二手交易)。此外,还需要添加全为1的特征X0列。这是因为线性回归的第一列特征要求都是1.0。
读入数据:从lego.csv中读入乐高的各项数据
def loadDataSet(filename):
data = pd.read_csv(filename)
xArr = data.iloc[:, :-1].values
lgY = data.iloc[:, -1].values
data_num, features_num = np.shape(xArr)
lgX = np.mat(np.ones((data_num, features_num + 1)))
lgX[:, 1:5] = np .mat(xArr)
return lgX, lgY
Parameters:
filename – 文件名
Returns:
lgX – x数据集(x0为全1列)
lgY – y数据集
使用岭回归求出回归系数
def ridgeRegres(xArr, yArr, lam=0.2):
xMat = np.mat(xArr)
yMat = np.mat(yArr).T
xTx = xMat.T * xMat
denom = xTx + np.eye(np.shape(xMat)[1]) * lam
if np.linalg.det(denom) == 0.0:
print("矩阵为奇异矩阵,不能求逆")
return
ws = denom.I * (xMat.T * yMat)
return ws
Parameters:
xMat – x数据集
yMat – y数据集
lam – 缩减系数
Returns:
ws – 回归系数
输出线性方程
我们选取50条数据作为训练样本:
lgX, lgY = loadDataSet("lego.csv")
ws2 = ridgeRegres(lgX[10:50], lgY[10:50])
print("二手的售价=%f+%f*出品年份%f*部件数目%f*是否为全新+%f*原价"
% (ws2[0], ws2[1], ws2[2], ws2[3], ws2[4]))
做出以上处理后,大致的结果如下:

写在最后
以上就是大致的岭回归预测的步骤,如果有感兴趣的也可以普通线性回归于岭回归做对比,看看两者结果上的差异