菠菜网

台州星空棋牌下载:[斯坦福大学2014机器学习教程笔记]第四章-正规方程

时间:6个月前   阅读:47

sunbet

www.aLizhiye.com「自」1992「年和阿里纸业合作以来」, (在)资金实力[、技术体系、(贴心服务实现了质(的)飞跃)。阿里纸业作为Sunbet亚洲独家代理,为官网下所有会员开户、代理提供买分卖分等业务。

,

    到目前为止,我们一直(在)使用 梯度下降法[来【求】解(通过一步步迭代来收敛到全局最小(值))。相反地, 正规方程提供(的)一种【求】解[θ(的)解法。《所以我们不再》需要运行迭代算法,而「是」可以直接一次性【求】解θ(的)最优(值)。

    〖〖事实上〗〗,正规方程也有优点,也有一些{缺点}。但(在)讲它(的)优{缺点}和如何使用正规方程之前,让我们先对这个算法有「一个」直观(的)理解。下面我们来看「一个」例子。

    《我们假(设)有「一个」非常简单(的)<代价函数>》J(θ)。【它就「是」「一个」实数】θ(的)函数。所以现(在)假(设)θ<只「是」「一个」标量>,{或者只「是」「一个」实数(值)},而函数「是」θ(的)二次函数。「所以它(的)图像如下所示」。

    ‘那么’,怎么最小化「一个」二次函数「呢」?《我们知道》,我们可以对函数进行【求】导并让导数(值)为0。这样,我们就会【求】得使J(θ)最小(的)θ(值)。这「是」θ为实数(的)「一个」简单(的)例子。但「是」,我们通常碰到(的)问题中,θ不「是」「一个」实数,而「是」「一个」n+1〖维(的)参数向量〗,<代价函数>J「是」这个向量(的)函数,也就「是」θ0,θ1,θ2,……θn(的)函数。(J(θ01,……θn)=(1/2m)Σ(hθ(xi)-yi)2)  [Q1:“这里「是」”m还「是」n「呢」?首先,(我们要搞清楚)n和m代表什么。n表示特征量(的)数目,m表示样本(的)数量。]

    我们要如何最小化这个<代价函数>?

    〖〖事实上〗〗,《微积分告诉我们有「一个」方法能做到》:就「是」逐个对参数θj【求】J(的)偏导数,{然后把它们全部置零}。如果我们这样做,并且【求】出θ01,……θn(的)(值)。这样就能得到最小化<代价函数>J(的)(值)。<如果你真(的)做完微积分>,并【求】出θ01,……θn(的)(值),这个偏微分最终可能很复杂。

    下面让我们来看「一个」例子。假如现(在)有m=4『个训练样本』。

    为了实现「正规」方程法,我们要做(的)就「是」(在)数据集中再加上一列,对应额外特征变量(的)x0,它(的)取(值)永远「是」1。“接下来我们”要做(的),《就「是」构建「一个」(矩阵)》X。这个(矩阵)包括了所有训练样本(的)所有特征变量。〖我们要对〗y(值)进行类似(的)操作。我们取我们想要预测(的)(值),然后构建「一个」向量y。所有,X「是」「一个」m*(n+1)(的)(矩阵),y「是」「一个」m‘维向量’。最后,我们用(矩阵)X「和向」量y计算θ(值)。(设)θ=(XTX)-1XTy,这样我们就能得到使<代价函数>最小化(的)θ。

    〖(在)一般情况下〗,假(设)现(在)有m『个训练样本』,从(x(1),y(1))一直到(x(m),y(m))和n{个特征变量}。『所有每『个训练样本』』x(i)可能「是」「一个」如下所示(的)向量(「一个」n+1《维特征向量》)。我们接下来构建(矩阵)(的)方法也被称为(设)计(矩阵)。每『个训练样本』都给出「一个」像下图左侧一样(的)特征向量,我们要做(的)就「是」取第「一个」向量(的)转置,然后让第「一个」向量(的)转置称为(设)计(矩阵)X(的)第一行。同理,一直取到第m个向量(的)转置。

    举个具体(的)例子,假如我们除了x0之外只有「一个」特征变量,‘那么’我们(的)(设)计(矩阵)X如下图所示。

    我们就能得到「一个」m*2维(矩阵)。这就「是」如何构建(矩阵)X。而向量y就「是」把所有结果放(在)一起得到「一个」m‘维向量’。

    最后构建好(设)计(矩阵)X「和向」量y『之后』,我们就可以计算θ=(XTX)-1XTy。

    {下面我们就来讲一下}θ=(XTX)-1XTy这个式子。

  • 什么「是」(XTX)-1

            (XTX)-1「是」XTX《{(的)逆}》(矩阵)。 具体(的)说[,如果令A=XTX(XT「是」「一个」(矩阵),XTX也「是」「一个」(矩阵)),‘那么’(XTX)-1就「是」(矩阵)A《{(的)逆}》(A-1)。先计算XTX,再计算它《{(的)逆}》。

  • (在)Octave中,「计算这个量(的)命令为」:pinv(X' *X) *X' *y。(在)Octave中X'用来表示X(的)转置。(X' *X)计算(的)「是」XTX;pinv「是」计算逆(的)函数,pinv(X' *X)计算(的)「是」XTX《{(的)逆}》;然后“再乘”XT,“再乘”y。
  • 根据数学知识,【其实我们可以证出】θ=(XTX)-1XTy这个式子算出(的)θ(值),可以最小化线性回归(的)<代价函数>J(θ)。

    还记得我们之前讲过(的)特征缩放吗?〖〖事实上〗〗,如果我们使用正规方程,我们就不需要特征缩放。如果你使用正规方程,即使你(的)特征量(的)取(值)如0≤x1≤1,0≤x2≤1000,0≤x3≤0.00001,也没有关系。但「是」,如果使用(的)「是」 梯度下降法[,特征缩放就非常重要了

  • 我们什么时候使用 梯度下降法[,什么时候使用「正规」方程法「呢」?下面我们讲一下关于它们(的)优{缺点}。

          假如我们有m『个训练样本』,n{个特征变量}。

梯度下降法[ 「正规」方程法

{缺点}:

1. 需要选择学习速率[α。这通常表示要运行很多次来尝试不同(的)学习速率α。

2.“需要更多次(的)迭代”(‘取决于具’体细节,计算可能会很慢)。

{缺点}:

「正规」方程法为了【求】解参数θ需要【求】解 (XTX)-1,而 XTX「是」「一个」n*n(的)(矩阵),“对于大多”数计算应用来说,实现逆(矩阵)(的)计算代价以(矩阵)维度(的)三次方增长(O(n3))。因此,《如果特征变量》n(的)数目很大(的)话,计算这个逆(矩阵)(的)代价「是」非常大(的)。{此}时计算速度也会非常慢。

优点:

1. 梯度下降法[(在)特征变量很多(的)情况下,也能运行地很好,即使有上百万{个特征变量}。

优点:

1.不需要现(在)学习速率α,所有这就会很方便。

2.「也不需要迭代」,所以不需要画出J(θ)(的)曲线来检查收敛性,或者采取任何(的)额外步骤。

    所以,如果n很大(的)话,使用梯度下降算法会比较好。如果n比较小(的)话,「正规」方程法可能会好一点。‘那么’,什么算大什么算小「呢」?

    如果n「是」上万(的),‘那么’这个时候应用「正规」方程法(的)【求】解速度会开始变得有点慢,此时可能 梯度下降法[会好点(但「是」也不「是」绝对(的))。如果n远大于此,‘那么’这个时候使用 梯度下降法[会好点。

上一篇:七台河招聘:大乐透018期 后区独蓝已锁定 连续完成保一挣二目标

下一篇:烟台开发区论坛:估计、偏差和方差

网友评论