现在有一个存有70个地址和城市名的文本,而没有这些地点的距离信息,而我们想要对这些地点进行聚类,找到每个簇的质心地点,从而可以安排合理的行程,即不同簇中的地点之间选择交通工具抵达,而位于同一个簇内的地点之间可以采取步行的方法抵达。使用Kmeans算法可以为我们找到一种更加经济而且高效的出行方式。
实例背景 使用Logistic回归来预测患疝气病的马的存活问题。数据包含了368个样本和28个特征。这种病不一定源自马的肠胃问题,其他问题也可能引发马疝病。 该数据集中包含了医院检测马疝病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。
逻辑回归的原理 逻辑回归(Logistic Regression) 机器学习中的一种分类模型,逻辑回归是一种分类算法。名字中带有回归,因为它与线性回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。
岭回归概念 岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。 简单说来,岭回归就是在矩阵x^T*x上加一个λI从而使得矩阵非奇异,进而能对x^T*x+λI求逆。
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
以在线社区留言为例,为了不影响社区的发展,我们要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标志为内容不当。 过滤这类内容是一个很常见的需求。 对此问题建立两个类型:侮辱类和非侮辱类,使用1和0分别表示。
对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱。”之类的话,其实这就是一种分类操作。
我的朋友海伦直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不限人选,但她并不是喜欢每一个人。经过番总结,她发现曾交往过三种类型的人: 不喜欢的人魅力一般的人极具魅力的人 实战案例 尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归人恰当的类别。
K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。