干貨丨數(shù)據(jù)科學(xué)家45題自測(cè)：回歸知識(shí)部分（答案+解析）

來(lái)源：阿里云-云棲社區(qū) 時(shí)間：2017-02-10 16:24:34 作者：

　　▊Q1.下列哪一個(gè)項(xiàng)對(duì)欠擬合和過(guò)擬合的權(quán)衡影響最大？

　　A.多項(xiàng)式次數(shù)

　　B.是否通過(guò)矩陣倒置或梯度下降來(lái)學(xué)習(xí)權(quán)重

　　C.使用常數(shù)項(xiàng)

　　 答案：A

　　選擇正確的多項(xiàng)式次數(shù)在回歸擬合中扮演重要角色，如果選擇的次數(shù)太高，過(guò)擬合的可能性將大大提高。

　　▊Q2.假設(shè)有如下一組輸入并輸出一個(gè)實(shí)數(shù)的數(shù)據(jù)，則線性回歸（Y = bX+c）的留一法交叉驗(yàn)證均方差為？

　　A. 10/27

　　B. 20/27

　　C. 50/27

　　D. 49/27

　　 答案：D

　　我們需要計(jì)算每個(gè)交叉驗(yàn)證點(diǎn)的殘差，擬合后得到兩點(diǎn)連線和一點(diǎn)用于交叉驗(yàn)證。

　　留一法交叉驗(yàn)證均方差為(2^2 +(2/3)^2 +1^2) /3 = 49/27

　　▊Q3.下列哪一項(xiàng)關(guān)于極大似然估計(jì)（MLE）的說(shuō)法是正確的？

　　1.MLE并不總是存在

　　2.MLE一直存在

　　3.如果MLE存在，它可能不特異

　　4.如果MLE存在，它一定是特異的

　　A. 1 and 4

　　B. 2 and 3

　　C. 1 and 3

　　D. 2 and 4

　　 答案：C

　　MLE可能不是一個(gè)轉(zhuǎn)折點(diǎn)，即它可能不是一個(gè)似然函數(shù)的一階導(dǎo)數(shù)消失的點(diǎn)

　　MLE可能并不特異

　　▊Q4.假設(shè)線性回歸模型完美擬合訓(xùn)練數(shù)據(jù)（即訓(xùn)練誤差為零），則下列哪項(xiàng)是正確的？

　　A.測(cè)試誤差一定為零

　　B.測(cè)試誤差一定不為零

　　C.以上都不對(duì)

　　 答案：C

　　如果測(cè)試數(shù)據(jù)無(wú)干擾，則測(cè)試誤差可能為零。換言之，如果測(cè)試數(shù)據(jù)是訓(xùn)練數(shù)據(jù)的典型代表，測(cè)試誤差即為零，但這種情況并不總是出現(xiàn)。

　　▊Q5.在線性回歸問(wèn)題中，我們用“R方”來(lái)衡量擬合的好壞。在線性回歸模型中增加特征值并再訓(xùn)練同一模型。下列哪一項(xiàng)是正確的？

　　A.如果R方上升，則該變量是顯著的

　　B.如果R方下降，則該變量不顯著

　　C.單單R方不能反映變量重要性，不能就此得出正確結(jié)論

　　D.都不正確

　　 答案：C

　　單單R方不能表示變量顯著性，因?yàn)槊看渭尤胍粋€(gè)特征值，R方都會(huì)上升或維持不變。但在“調(diào)整R方”的情況下這也有誤（如果特征值顯著的話，調(diào)整R方會(huì)上升）。

　　▊Q6.下列關(guān)于回歸分析中的殘差表述正確的是：

　　A.殘差的平均值總為零

　　B.殘差的平均值總小于零

　　C.殘差的平均值總大于零

　　D.殘差沒(méi)有此類(lèi)規(guī)律

　　 答案：A

　　回歸的殘差之和一定為零，故而平均值也為零

　　▊Q7.下列關(guān)于異方差性哪項(xiàng)是正確的？

　　A.線性回歸有變化的誤差項(xiàng)

　　B.線性回歸有恒定的誤差項(xiàng)

　　C.線性回歸有零誤差項(xiàng)

　　D.以上都不對(duì)

　　 答案：A

　　在誤差項(xiàng)中，非恒定方差的存在導(dǎo)致了異方差性。一般來(lái)說(shuō)，非恒定方差的出現(xiàn)時(shí)因?yàn)楫惓Ｖ祷驑O端杠桿值的存在?？梢詤⒖歼@篇文章。

　　▊Q8.下列哪一項(xiàng)說(shuō)明了X，Y之間的較強(qiáng)關(guān)系？

　　A.相關(guān)系數(shù)為0.9

　　B.Beta系數(shù)為0的空假設(shè)的p-value是0.0001

　　C.Beta系數(shù)為0的空假設(shè)的t統(tǒng)計(jì)量是30

　　D.都不對(duì)

　　 答案：A

　　變量間的相關(guān)系數(shù)為0說(shuō)明了變量間的較強(qiáng)關(guān)系；另一方面，p-value和t統(tǒng)計(jì)量?jī)H僅衡量了非零聯(lián)系的證據(jù)有多強(qiáng)。在數(shù)據(jù)足夠多的情況下，哪怕弱影響都可能是顯著的。

　　▊Q9.在導(dǎo)出線性回歸的參數(shù)時(shí)，我們做出下列哪種假定？

　　1.因變量y和自變量x的真實(shí)關(guān)系是線性的

　　2.模型誤差是統(tǒng)計(jì)獨(dú)立的

　　3.誤差通常服從一個(gè)平均值為零，標(biāo)準(zhǔn)差恒定的分布

　　4.自變量x是非隨機(jī)的，無(wú)錯(cuò)的

　　A. 1,2 and 3

　　B. 1,3 and 4

　　C. 1 and 3

　　D. 以上都對(duì)

　　 答案：D

　　當(dāng)導(dǎo)出回歸參數(shù)時(shí)，我們做出以上全部4種假設(shè)，缺少任何一種，模型都會(huì)出錯(cuò)。

　　▊Q10.為了檢驗(yàn)連續(xù)變量x，y之間的線性關(guān)系，下列哪種圖最合適？

　　A.散點(diǎn)圖

　　B.條形圖

　　C.直方圖

　　D.都不對(duì)

　　 答案：A

　　為了檢驗(yàn)連續(xù)變量的線性關(guān)系，散點(diǎn)圖是最好的選擇，可以看出一個(gè)變量如何關(guān)于另一個(gè)變量變化。散點(diǎn)圖反映兩個(gè)定量變量之間的關(guān)系。

　　▊Q11.下列哪種方法被用于預(yù)測(cè)因變量？

　　1.線性回歸

　　2.邏輯回歸

　　A.1和2

　　B.1

　　C.2

　　D.都不是

　　 答案：B

　　邏輯回歸是用于分類(lèi)問(wèn)題的

　　▊Q12.一個(gè)人年齡和健康之間的相關(guān)系數(shù)是-1.09，據(jù)此可以得出：

　　A.年齡是健康預(yù)測(cè)的好的參考量

　　B.年齡是健康預(yù)測(cè)的不好的參考量

　　C.都不對(duì)

　　 答案：C

　　相關(guān)系數(shù)的范圍是[-1,1]，-1.09 是不可能的。

　　▊Q13.下列哪個(gè)坐標(biāo)用于最小二乘擬合？假設(shè)水平軸為自變量，垂直軸為因變量。

　　A.垂直坐標(biāo)

　　B.正交坐標(biāo)

　　C.都可以，視情況而定

　　D.都不對(duì)

　　 答案：A

　　一般將殘差想作垂直坐標(biāo)，正交坐標(biāo)在PCA的例子中很有用

　　▊Q14.假設(shè)我們有由三次多項(xiàng)式回歸產(chǎn)生的數(shù)據(jù)（三次多項(xiàng)式完美契合數(shù)據(jù)），下列說(shuō)法哪些是對(duì)的？

　　1.簡(jiǎn)單線性回歸有高偏差和低方差

　　2.簡(jiǎn)單線性回歸有低偏差和高方差

　　3.三次多項(xiàng)式有低偏差和高方差

　　4.三次多項(xiàng)式有低偏差和低方差

　　A.1

　　B.1和3

　　C.1和4

　　D.2和4

　　 答案：C

　　如果選擇比3更高的次數(shù)來(lái)擬合，則會(huì)過(guò)擬合，因?yàn)槟Ｐ蜁?huì)變得更復(fù)雜。如果選擇比3低的次數(shù)，模型會(huì)變得簡(jiǎn)單，這樣會(huì)有高偏差和低方差。但是在三次多項(xiàng)式擬合的情況下，偏差和方差都是低的。

　　▊Q15.假設(shè)你在訓(xùn)練一個(gè)線性回歸模型，以下哪項(xiàng)是正確的？

　　1.數(shù)據(jù)越少越易過(guò)擬合

　　2.假設(shè)區(qū)間小則易過(guò)擬合

　　A.都是錯(cuò)的

　　B.1是錯(cuò)的，2是對(duì)的

　　C.1是對(duì)的，2是錯(cuò)的

　　D.都是對(duì)的

　　 答案：C

　　1.小訓(xùn)練數(shù)據(jù)集更容易找到過(guò)擬合訓(xùn)練數(shù)據(jù)的假設(shè)

　　2.從偏差和方差的權(quán)衡中可以看出，假設(shè)區(qū)間小，偏差更大，方差更小。所以在小假設(shè)區(qū)間的情況下，不太可能找到欠擬合數(shù)據(jù)的假設(shè)

　　▊Q16.假設(shè)我們用Lasso回歸擬合一個(gè)有100個(gè)特征值(X1,X2…X100)的數(shù)據(jù)集，現(xiàn)在，我們重新調(diào)節(jié)其中一個(gè)值，將它乘10（將它視作X1），并再次擬合同一規(guī)則化參數(shù)。下列哪一項(xiàng)正確？

　　A. X1很可能被模型排除

　　B. X1很可能被包含在模型內(nèi)

　　C.很難說(shuō)

　　D.都不對(duì)

　　 答案：B

　　大特征值= 小相關(guān)系數(shù)= 更少lasso penalty = 更可能被保留

　　▊Q17.關(guān)于Ridge和Lasso回歸在特征值選擇上的方法，一下哪項(xiàng)正確？

　　A. Ridge回歸使用特征值的子集選擇

　　B. Lasso回歸使用特征值的子集選擇

　　C.二者都使用特征值的子集選擇

　　D.以上都不正確

　　 答案：B

　　Ridge回歸在最終模型中用到了所有自變量，然而Lasso回歸可被用于特征值選擇，因?yàn)橄嚓P(guān)系數(shù)可以為零。點(diǎn)擊此處閱讀更多細(xì)節(jié)。

　　▊Q18.在線性回歸模型中增加一個(gè)變量，下列哪一項(xiàng)是正確的？

　　1.R方和調(diào)整R方都上升

　　2.R方上升，調(diào)整R方下降

　　3.R方和調(diào)整R方都下降

　　4.R方下降，調(diào)整R方上升

　　A.1和2

　　B.1和3

　　C.2和4

　　D.以上都不對(duì)

　　 答案：A

　　每次加入特征值，R方總是上升或維持不變。但調(diào)整R方并非如此，當(dāng)它上升時(shí)，特征值是顯著的。

　　▊Q19.下圖顯示了對(duì)相同訓(xùn)練數(shù)據(jù)的三種不同擬合模型（藍(lán)線標(biāo)出），從中可以得出什么結(jié)論？

　　1.同第二第三個(gè)模型相比，第一個(gè)模型的訓(xùn)練誤差更大

　　2.該回歸問(wèn)題的最佳模型是第三個(gè)，因?yàn)樗凶钚〉挠?xùn)練誤差

　　3.第二個(gè)模型比第一、第三個(gè)魯棒性更好，因?yàn)樗谔幚聿豢梢?jiàn)數(shù)據(jù)方面表現(xiàn)更好

　　4.相比第一、第二個(gè)模型，第三個(gè)模型過(guò)擬合了數(shù)據(jù)

　　5.因?yàn)槲覀兩形纯吹綔y(cè)試數(shù)據(jù)，所以所有模型表現(xiàn)一致

　　A.1和3

　　B.1和2

　　C.1,3和4

　　D.只有5

　　 答案：C

　　數(shù)據(jù)的趨勢(shì)看起來(lái)像以X 為自變量的二項(xiàng)式。更高的次數(shù)（最右邊的圖）的多項(xiàng)式對(duì)于訓(xùn)練數(shù)據(jù)可能具有更高的準(zhǔn)確性，但在測(cè)試集上毫無(wú)疑問(wèn)的慘敗。在最左面一張圖中，由于數(shù)據(jù)欠擬合，將會(huì)得到最大訓(xùn)練誤差。

　　▊Q20.下列哪項(xiàng)可以評(píng)價(jià)回歸模型？

　　1.R方

　　2.調(diào)整R方

　　3.F統(tǒng)計(jì)量

　　4.RMSE/MSE/MAE

　　A.2和4

　　B.1和2

　　C.2,3和4

　　D.以上所有

　　 答案：D

　　以上這些都是評(píng)價(jià)回歸模型的指標(biāo)

　　▊Q21.我們可以通過(guò)一種叫“正規(guī)方程”的分析方法來(lái)計(jì)算線性回歸的相關(guān)系數(shù)，下列關(guān)于“正規(guī)方程”哪一項(xiàng)是正確的？

　　1.我們不必選擇學(xué)習(xí)比率

　　2.當(dāng)特征值數(shù)量很大時(shí)會(huì)很慢

　　3.不需要迭代

　　A.1和2

　　B.1和3

　　C.2和3

　　D.1,2和3

　　 答案：D

　　正規(guī)方程可替代梯度下降來(lái)計(jì)算相關(guān)系數(shù)，參考這篇文章獲得更多關(guān)于正規(guī)方程的知識(shí)。

　　▊Q22.Y的預(yù)期值是關(guān)于變量X(X1,X2….Xn)的線性函數(shù)，回歸線定義為Y = β0 + β1 X1 + β2 X2……+ βn Xn，下列陳述哪項(xiàng)正確？

　　1.如果Xi的變化量為 Xi，其它為常量，則Y的變化量為βi Xi，常量βi可以為正數(shù)或負(fù)數(shù)

　　2. βi 的值都是一樣的，除非是其它X的βi

　　3.X對(duì)Y預(yù)期值的總影響為每個(gè)分影響之和

　　提示：特征值間相互獨(dú)立，互不干擾

　　A.1和2

　　B.1和3

　　C.2和3

　　D.1,2和3

　　 答案：D

　　1.Y的預(yù)期值是關(guān)于X的線性函數(shù)，這表示：

　　1. 如果Xi的變化量為 Xi，其它變量不變，Y的預(yù)期值隨β i X i而變化，β i可以為正數(shù)或負(fù)數(shù)

　　2.βi 的值都是一樣的，除非是其它X的βi

　　3.X對(duì)Y預(yù)期值的總影響為每個(gè)分影響之和

　　2.Y的未知變化獨(dú)立于隨機(jī)變量（特別之處，當(dāng)隨機(jī)變量為時(shí)間序列時(shí)，Y與隨機(jī)變量不是自動(dòng)關(guān)聯(lián)的）

　　3.它們的方差一致（同方差性）

　　4.它們一般是分散的

　　▊Q23.為了評(píng)價(jià)一個(gè)簡(jiǎn)單線性回歸模型（單自變量），需要多少個(gè)參數(shù)？

　　A.1

　　B.2

　　C.不確定

　　 答案：B

　　在簡(jiǎn)單線性回歸模型中，有一個(gè)自變量，需要兩個(gè)參數(shù)（Y=a+bX）

　　▊Q24.下圖展示了兩條對(duì)隨機(jī)生成的數(shù)據(jù)的回歸擬合線（A和B），請(qǐng)?zhí)骄緼，B的各自的殘差之和：

　　提示：

　　1.兩張圖的橫縱軸大小一致

　　2.X軸是自變量，Y 軸是因變量

　　下列對(duì)A，B各自殘差和的陳述哪項(xiàng)正確？

　　A.A比B高

　　B.A比B低

　　C.兩者相同

　　D.以上都不對(duì)

　　 答案：C

　　殘差之和總為零

　　▊Q25.若兩個(gè)變量相關(guān)，它們之間一定有線性關(guān)系嗎？

　　A.是

　　B.否

　　 答案：B

　　不是必要條件，二者可以沒(méi)有線性關(guān)系

　　▊Q26.相關(guān)變量的相關(guān)系數(shù)可以為零，對(duì)嗎？

　　A.是

　　B.否

　　 答案：A

　　▊Q27.假設(shè)對(duì)數(shù)據(jù)提供一個(gè)邏輯回歸模型，得到訓(xùn)練精度X和測(cè)試精度Y。在數(shù)據(jù)中加入新的特征值，則下列哪一項(xiàng)是正確的？

　　提示：其余參數(shù)是一樣的

　　1.訓(xùn)練精度總是下降

　　2.訓(xùn)練精度總是上升或不變

　　3.測(cè)試精度總是下降

　　4.測(cè)試精度總是上升或不變

　　A.只有2

　　B.只有1

　　C.只有3

　　D.只有4

　　 答案：A

　　向模型中加入更多特征值會(huì)提高訓(xùn)練精度，低偏差；如果特征值是顯著的，測(cè)試精度會(huì)上升

　　▊Q28.下圖顯示了由X預(yù)測(cè)Y的回歸線，圖上的值展示了每個(gè)預(yù)期的離差，請(qǐng)據(jù)此計(jì)算SSE（殘差平方和）：

　　A. 3.02

　　B. 0.75

　　C. 1.01

　　D. 以上都不對(duì)

　　 答案：A

　　SSE是預(yù)估誤差的平方之和，所以SSE = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02

　　▊Q29.眾所周知，身高體重呈正相關(guān)。忽略圖表大?。ㄗ兞勘粯?biāo)準(zhǔn)化了）下列兩張圖哪張更像描繪身高（X軸）體重（Y軸）的圖表？

　　A.圖2

　　B.圖1

　　C.兩張都是

　　D.無(wú)法確定

　　 答案：A

　　圖2很明顯更好的展現(xiàn)了身高體重之間的聯(lián)系，個(gè)體身高更高，體積就越大，體重就相應(yīng)越大，所以預(yù)期身高體重是正相關(guān)的。右圖是正相關(guān)而左圖是負(fù)相關(guān)。

　　▊Q30.假設(shè)X公司的員工收入分布中位數(shù)為$35,000，25%和75%比例處的數(shù)值為$21,000 和$53,000。收入$1會(huì)被認(rèn)為是異常值嗎？

　　A.是

　　B.否

　　C.需要更多信息

　　D.以上都不對(duì)

　　 答案：C

　　▊Q31.關(guān)于回歸和相關(guān)，下列哪項(xiàng)是正確的？

　　提示：y是因變量，x是自變量

　　A.在兩者中，x、y關(guān)系都是對(duì)稱(chēng)的

　　B.在兩者中，x、y關(guān)系都是不對(duì)稱(chēng)的

　　C.x、y在相關(guān)情況下不對(duì)稱(chēng)，在回歸中對(duì)稱(chēng)

　　D.x、y在相關(guān)情況下對(duì)稱(chēng)，在回歸中不對(duì)稱(chēng)

　　 答案：D

　　1.相關(guān)是衡量?jī)蓚€(gè)變量線性聯(lián)系的統(tǒng)計(jì)度量，對(duì)待x、y是對(duì)稱(chēng)的

　　2.回歸是用于根據(jù)x預(yù)測(cè)y，其關(guān)系不對(duì)稱(chēng)

　　▊Q32.可以根據(jù)平均值和中位數(shù)計(jì)算斜率嗎？

　　A.可以

　　B.不可以

　　 答案：B

　　斜率不是直接和平均值中位數(shù)相關(guān)的

　　▊Q33.假設(shè)你有n個(gè)有兩個(gè)連續(xù)變量的數(shù)據(jù)集（y是因變量，x是自變量）下表給出了這些數(shù)據(jù)集的信息總結(jié)：

　　這些數(shù)據(jù)集都是一致的嗎？

　　A.是

　　B.不是

　　C.無(wú)法確定

　　 答案：C

　　為了回答這個(gè)問(wèn)題，你需要了解Anscombe的四幅圖，請(qǐng)參考這篇文章。

　　▊Q34.觀測(cè)值是如何影響過(guò)擬合的？

　　提示：余下所有參數(shù)都一致

　　1.觀測(cè)更少更易過(guò)擬合

　　2.觀測(cè)更少更不易過(guò)擬合

　　3.觀測(cè)更多更易過(guò)擬合

　　4.觀測(cè)更多更不易過(guò)擬合

　　A.1和4

　　B.2和3

　　C.1和3

　　D.都不正確

　　 答案：A

　　特別地，當(dāng)觀測(cè)值太少，規(guī)模太小，模型很容易過(guò)擬合。因?yàn)槲覀冎挥泻苌俚狞c(diǎn)，當(dāng)提升模型復(fù)雜度（比如多項(xiàng)式擬合）時(shí)，就會(huì)很容易覆蓋所有觀測(cè)值點(diǎn)。

　　另一方面，如果有很多很多觀測(cè)值，哪怕模型很復(fù)雜，也很難過(guò)擬合。

　　▊Q35.假設(shè)用一個(gè)復(fù)雜回歸模型擬合一個(gè)數(shù)據(jù)集，使用帶固定參數(shù)lambda的Ridge回歸來(lái)減小它的復(fù)雜度，下列哪項(xiàng)描述了偏差和方差與lambda的關(guān)系？

　　A.對(duì)于非常大的lambda，偏差很小，方差很小

　　B.對(duì)于非常大的lambda，偏差很小，方差很大

　　C.對(duì)于非常大的lambda，偏差很大，方差很小

　　D.對(duì)于非常大的lambda，偏差很大，方差很大

　　 答案：C

　　Lambda很大表示模型沒(méi)有那么復(fù)雜，這種情況下偏差大，方差小

　　▊Q36. 假設(shè)用一個(gè)復(fù)雜回歸模型擬合一個(gè)數(shù)據(jù)集，使用帶固定參數(shù)lambda的Ridge回歸來(lái)減小它的復(fù)雜度，下列哪項(xiàng)描述了偏差和方差與lambda的關(guān)系？

　　A.對(duì)于非常小的lambda，偏差很小，方差很小

　　B.對(duì)于非常小的lambda，偏差很小，方差很大

　　C.對(duì)于非常小的lambda，偏差很大，方差很小

　　D.對(duì)于非常小的lambda，偏差很大，方差很大

　　 答案：B

　　Lambda很小表示模型復(fù)雜，這種情況下偏差小，方差大，模型會(huì)過(guò)擬合數(shù)據(jù)

　　▊Q37.關(guān)于Ridge回歸，下列哪項(xiàng)正確？

　　1.lambda為0時(shí)，模型作用類(lèi)似于線性回歸模型

　　2.lambda為0時(shí)，模型作用與線性回歸模型不相像

　　3.當(dāng)lambda趨向無(wú)窮，會(huì)得到非常小，趨近0的相關(guān)系數(shù)

　　4.當(dāng)lambda趨向無(wú)窮，會(huì)得到非常大，趨近無(wú)窮的相關(guān)系數(shù)

　　A.1和3

　　B.1和4

　　C.2和3

　　D.2和4

　　 答案：A

　　當(dāng)lambda為0時(shí)我們得到了最小的最小二乘解；當(dāng)lambda趨近無(wú)窮時(shí)，會(huì)得到非常小、趨近0的相關(guān)系數(shù)。

　　▊Q38.下列三張殘差圖，哪張與其它相比是最糟糕的模型？

　　提示：

　　1.所有殘差都被標(biāo)準(zhǔn)化了

　　2.這些圖是關(guān)于預(yù)期值和殘差的

　　A. 1

　　B. 2

　　C. 3

　　D. 1和2

　　 答案：C

　　預(yù)期值和殘差之間應(yīng)該沒(méi)有任何關(guān)系，若果有則說(shuō)明模型未能完美捕獲數(shù)據(jù)信息。

　　▊Q39.下列哪一種回歸方法的相關(guān)系數(shù)沒(méi)有閉式解？

　　A.Ridge回歸

　　B. Lasso回歸

　　C. Ridge回歸 and Lasso回歸

　　D.兩者都不是

　　 答案：B

　　Lasso不允許閉式解，L1-penalty使解為非線性的，所以需要近似解。參考這篇文章獲得更多關(guān)于閉式解的知識(shí)。

　　▊Q40.參考如下數(shù)據(jù)集，移除哪一個(gè)黑點(diǎn)將會(huì)對(duì)回歸擬合線（黑虛線所示）產(chǎn)生最大影響？

　　A.a

　　B.b

　　C.c

　　D.d

　　 答案：D

　　線性回歸對(duì)數(shù)據(jù)中的異常值敏感，雖然C也是給定數(shù)據(jù)區(qū)間內(nèi)的異常值，但它離回歸擬合線很近，所以不會(huì)造成太多影響

　　▊Q41.在簡(jiǎn)單線性回歸模型中（單自變量），如果改變輸入變量1單元，輸出變量會(huì)變化多少？

　　A.1單元

　　B.無(wú)變化

　　C.截距值

　　D.斜率值

　　 答案：D

　　簡(jiǎn)單線性回歸公式為Y=a+bx，如果給x增加1，y就變成了a+b(x+1)，即y增加了b

　　▊Q42.邏輯回歸是輸出結(jié)果落在[0,1]區(qū)間內(nèi)，下列哪個(gè)函數(shù)用于轉(zhuǎn)換概率，使其落入[0,1]？

　　A. Sigmoid

　　B. Mode

　　C. Square

　　D. Probit

　　 答案：A

　　Sigmoid函數(shù)用于轉(zhuǎn)換輸出結(jié)果，使之落在邏輯回歸區(qū)間[0,1]內(nèi)

　　▊Q43.考慮線性回歸和邏輯回歸中的重量/相關(guān)系數(shù)，關(guān)于cost函數(shù)的偏導(dǎo)，下列哪一項(xiàng)是正確的？

　　A.都不一樣

　　B.都一樣

　　C.無(wú)法確定

　　D.以上都不對(duì)

　　 答案：B

　　參考這個(gè)鏈接

　　▊Q44.假設(shè)使用邏輯回歸模型處理n元分類(lèi)問(wèn)題，可以用到One-vs-rest方法，則下列哪一項(xiàng)是正確的？

　　A.在n元分類(lèi)問(wèn)題中，需要擬合n個(gè)模型

　　B.為了分類(lèi)為n類(lèi)，需要擬合n-1個(gè)模型

　　C.為了分類(lèi)為n類(lèi)，只需要擬合1個(gè)模型

　　D.都不正確

　　 答案：A

　　如果有n類(lèi)，就有n個(gè)分散的邏輯回歸需要擬合，每一類(lèi)的概率都是基于其余類(lèi)來(lái)預(yù)測(cè)的。以三類(lèi)分類(lèi)(-1,0,1)為例，需要訓(xùn)練三個(gè)邏輯回歸分類(lèi)器：

　　1. -1 vs 0 and 1

　　2.0 vs -1 and 1

　　3.1 vs 0 and -1

　　▊Q45.下圖是兩種有不同β0 和β1值的邏輯回歸模型，下列關(guān)于兩種邏輯回歸模型中β0 和β1的敘述哪項(xiàng)是正確的？

　　提示：Y = β0 + β1*X，β0為截距，β1是斜率

　　A.綠線的β1比黑線的大

　　B.綠線的β1比黑線的小

　　C.兩個(gè)模型的β1是一樣的

　　D.無(wú)法得出結(jié)論

　　 答案：B

　　β0和β1: β0 = 0, β1 = 1是黑線的情況；β0 = 0, β1 = 1是綠線的情況

　　 總結(jié)：

　　我們希望你能發(fā)現(xiàn)這個(gè)測(cè)試和提供的解決方法有趣而實(shí)用。這個(gè)測(cè)試注重回歸的理論知識(shí)和它的多種技巧。我們?cè)囍ㄟ^(guò)這篇文章解釋你們的所有疑惑，如果你發(fā)現(xiàn)了任何錯(cuò)誤和遺漏，或者你有好的建議，請(qǐng)和我們聯(lián)系。

　　注：本文來(lái)源阿里云-云棲社區(qū)組織翻譯，作者：ANKIT GUPTA，由北郵@愛(ài)可可-愛(ài)生活老師推薦，原標(biāo)題《45 questions to test a Data Scientist on Regression (Skill test – Regression Solution)》。版權(quán)著作權(quán)屬原創(chuàng)者所有。編輯：Fynlch（王培），數(shù)據(jù)觀微信公眾號(hào)（ID:cbdioreview），欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊，可搜索數(shù)據(jù)觀（中國(guó)大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.21jieyan.cn）進(jìn)入查看。

?點(diǎn)此進(jìn)入阿里云在數(shù)據(jù)觀的企業(yè)欄目>>>

責(zé)任編輯：王培

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

干貨丨數(shù)據(jù)科學(xué)家45題自測(cè)：回歸知識(shí)部分（答案+解析）