日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

1

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

本文作者: AI研習(xí)社 編輯:賈智龍 2017-09-18 15:24
導(dǎo)語:水平怎么樣,一測就知道!

雷鋒網(wǎng)按:本文由北郵 @愛可可 - 愛生活 老師推薦,阿里云云棲社區(qū)組織翻譯。文章原標(biāo)題《Solutions for Skilltest Machine Learning : Revealed》,作者:Ankit Gupta 等人。

引言

人類對于自動化和智能化的追求一直推動著技術(shù)的進(jìn)步,而機(jī)器學(xué)習(xí)這類型的技術(shù)對各個領(lǐng)域都起到了巨大的作用。隨著時間的推移,我們將看到機(jī)器學(xué)習(xí)無處不在,從移動個人助理到電子商務(wù)網(wǎng)站的推薦系統(tǒng)。即使作為一個外行,你也不能忽視機(jī)器學(xué)習(xí)對你生活的影響。

本次測試是面向?qū)C(jī)器學(xué)習(xí)有一定了解的人。參加測試之后,參與者會對自己的機(jī)器學(xué)習(xí)方面知識有更深刻的認(rèn)知。

目前,總共有 1793 個參與者參與到了測試中。一個專門為機(jī)器學(xué)習(xí)做的測試是很有挑戰(zhàn)性的,我相信你們都已經(jīng)躍躍欲試,所以,請繼續(xù)讀下去。

那些錯過測試的人,你們錯過了一個極好的檢驗自己的機(jī)會。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收獲不少。

下圖表示的是參與測試人的成績分布,這也許會幫助你評估你的測試成績。

總體結(jié)果

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

你可以點(diǎn)擊這里來獲取所有得分。我們有超過 600 人參與到了技能測試中,最高分是 28 分,這里還有一些其他統(tǒng)計量。

平均數(shù) 14.42

中位數(shù) 16

眾數(shù) 17

另外,您的得分可能和通告欄上的不一樣,因為我們移除了有錯誤的問題,并且對每個人都重新打分了。

機(jī)器學(xué)習(xí)參考文獻(xiàn)

  1. Machine Learning basics for a newbie

  2. 16 New Must Watch Tutorials, Courses on Machine Learning

  3. Essentials of Machine Learning Algorithms


答題開始!

問題 1

在 n 維空間中,以下哪一個方法最適用于異常點(diǎn)檢測?

A. 正態(tài)概率圖

B. 盒圖

C.Mahalonobis 距離

D. 散點(diǎn)圖

答案:C

Mahalonobis 距離是基于卡方分布的多變量異常的程度的統(tǒng)計量。更多內(nèi)容點(diǎn)擊此處。


問題 2

線性回歸在以下哪些方面和多元回歸不一樣?

A. 它是專門用來預(yù)測一個事件的概率

B. 擬合優(yōu)度指數(shù)

C. 在回歸系數(shù)的估計方面

D. 以上所有

答案:D

A:線性回歸用來解決分類問題,我們可以計算出事件發(fā)生的概率

B:總體來說,擬合優(yōu)度測試是用來測量數(shù)據(jù)與模型的一致性,我們用邏輯回歸來檢驗?zāi)P蛿M合程度。

C:擬合邏輯回歸模型之后,我們可以以他們的系數(shù)為目標(biāo),觀察獨(dú)立特征之間的關(guān)系(正相關(guān)或負(fù)相關(guān))。


問題 3

引導(dǎo)數(shù)據(jù)的意義是什么?

A. 從 M 個總體中有放回的抽樣出 m 個特征

B. 從 M 個總體中無放回的抽樣出 m 個特征

C. 從 N 個總體中有放回的抽取 n 個樣本

D. 從 N 個總體中無有放回的抽取 n 個樣本

答案:C

如果我們沒有足夠的數(shù)據(jù)來訓(xùn)練我們的算法,我們就可以從訓(xùn)練集中有放回的隨機(jī)重復(fù)一些數(shù)據(jù)項。


問題 4

“過擬合只是監(jiān)督學(xué)習(xí)中的問題,對于無監(jiān)督學(xué)習(xí)影響不大” 這句話是正確還是錯誤

A. 正確

B. 錯誤

答案:B

我們可以使用無監(jiān)督矩陣來評估一個無監(jiān)督機(jī)器學(xué)習(xí)算法。舉個例子,我們可以用 “調(diào)整蘭德系數(shù)” 來評估聚類模型。


問題 5

關(guān)于選擇 k 層交叉檢驗中 “k” 的值,以下說法正確的是?

A.k 并不是越大越好,更大的 k 會減慢檢驗結(jié)果的過程

B. 選擇更大的 k 會導(dǎo)致降低向真實(shí)期望錯誤的傾斜

C. 選擇總是能最小化交叉驗證中的方差的 k

D. 以上所有

答案:D

更大的 k 會減少過高估計了真正的預(yù)期誤差的情況(因為訓(xùn)練層更接近總體數(shù)據(jù)集),但是會帶來更長的運(yùn)行時間(因為這樣會接近留一交叉的極限情況),當(dāng)選擇 k 的時候,我們也要考慮 k 層精度之間的方差。


問題 6

回歸模型具有多重共線性效應(yīng),在不損失太多信息的情況下如何應(yīng)對這種情況?

1. 去除所有共線變量 1. 去除所有共線變量

2. 去除一個變量而不是都去掉

3. 我們可以計算 VIF(方差膨脹因子)來檢驗多重共線性效應(yīng),然后根據(jù)情況處理

4. 去除相關(guān)的變量可能會導(dǎo)致信息的丟失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。

以上那些是正確的?

A. 1

B. 2

C. 2 和 3

D. 2,3 和 4

答案:D

為了檢查多重共線性,我們可以創(chuàng)建一個相關(guān)矩陣來識別和刪除具有 75% 相關(guān)性的變量(閾值的選擇是主觀的)。此外,我們使用 VIF(方差膨脹因子)來檢查多重共線性,如果 VIF 小于 4 表示沒有多重共線性,如果大于 10 則表示嚴(yán)重的多重共線性。我們也可以使用一個寬容量作為多重共線性的指數(shù)。

但是,移除相關(guān)變量會導(dǎo)致信息的損失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機(jī)噪聲,這樣數(shù)據(jù)會變得不一樣。但是這種方法會降低預(yù)測的準(zhǔn)確性,所以要慎用。


問題 7

評估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們怎樣來減少這個偏差?

A. 減少模型中特征的數(shù)量

B. 增加模型中特征的數(shù)量

C. 增加模型中的數(shù)據(jù)點(diǎn)

D.B 和 C

E. 以上所有

答案:B

如果模型偏差大,說明模型相對過于簡單。我們可以在特征空間中增加更多的特征來提高模型的魯棒性。增加數(shù)據(jù)點(diǎn)也會減少方差。


問題 8

當(dāng)我們建立基于決策樹的模型時,我們將有最高信息增益的節(jié)點(diǎn)分離出來作為屬性, 在下圖中,哪一個屬性有最高的信息增益?

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案:A

信息增益隨子集平均純度的增加而增加。要了解信息增益的計算,點(diǎn)這里閱讀。你也可以查看這張幻燈片


問題 9

在決策樹中,當(dāng)一個節(jié)點(diǎn)分叉的時候,以下關(guān)于 “信息增益” 正確的是?

1. 不純的節(jié)點(diǎn)越少,越需要更多的信息來描述種群

2. 信息增益可以用熵作為 “1-Entropy” 來推導(dǎo)

3. 信息增益偏向于數(shù)值大的屬性

A. 1

B. 2

C. 2 和 3

D. 都正確

答案:C

想了解詳情,請閱讀這篇文章和這個幻燈片。


問題 10

使用 SVM 模型遇到了欠擬合的問題,以下哪個選項能提高模型性能?

A. 增加懲罰參數(shù) “C”

B. 減少懲罰參數(shù)

C. 減少核系數(shù)(gamma 的值)

答案:A

如果是欠擬合情況,我們需要增加模型的復(fù)雜性,如果我們增大 C,則意味著決策邊界變復(fù)雜,所以 A 是正確答案。


問題 11

假如我們已經(jīng)畫出 SVM 算法中的不同點(diǎn)的 gamma 值(Kernel coefficient)。但由于一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個選項最好的解釋了三張圖的 gamma 值關(guān)系(圖中從左向右分別是圖 1,、圖 2、圖 3,對應(yīng)的 gamma 值分別是 g1,、g2、g3)。

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案:C

如果 gamma 值高,則會盡全力去擬合數(shù)據(jù)集中的每一條數(shù)據(jù),會帶來過擬合問題。所以最合適的選項是 C。


問題 12

我們在解決一個分類問題(二值分類預(yù)測)。然而,我們并不是要得到 0 或 1 的真實(shí)結(jié)果,而是要獲取每一個類的概率。現(xiàn)在假設(shè)我有一個概率模型,并且使用一個 0.5 的閾值來預(yù)測結(jié)果,如果概率大于等于 0.5,則認(rèn)為是 1,如果小于 0.5,我們則認(rèn)為是 0。如果我們使用一個比 0.5 高的閾值,一下哪條最合適?

1. 增加閾值那么分類器會有相同或者更低的查對率

2. 增加閾值分類器會有更高的查對率

3. 增加閾值會有相同或者更高的準(zhǔn)確率

4. 增加閾值會有更低的準(zhǔn)確率

A. 1

B. 2

C. 1 和 3

D. 2 和 4

E. 無

答案:C

想了解調(diào)整閾值對查對率和準(zhǔn)確率的影響,請參考這篇文章


問題 13

當(dāng)使用比例失調(diào)的數(shù)據(jù)(數(shù)據(jù)集中 99% 的 negative class 和 1% 的 positive class)進(jìn)行 “點(diǎn)擊率” 預(yù)測的時候,假如我們的準(zhǔn)確率是 99%,那么我們的結(jié)論是?

準(zhǔn)確率很高,我們不用再做任何工作。

B. 準(zhǔn)確率不夠好,我們需要嘗試構(gòu)建一個更好的模型

C. 無法判斷這個模型

D. 以上都不正確

答案: B

當(dāng)使用不平衡數(shù)據(jù)集的時候,準(zhǔn)確率不能作為性能的指標(biāo),因為 99%(正如上文提到的)可能只是預(yù)測多數(shù)類別正確,但是往往重要的是少數(shù)的類(1%)。因此,對于這樣的模型,我們應(yīng)該使用敏感性和特異性來描述分類器的性能。如果占少數(shù)的類別預(yù)測不準(zhǔn)的話,我們需要采取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。


問題 14

比方說,我們使用 KNN 訓(xùn)練觀測數(shù)據(jù)較少的模型(以下是訓(xùn)練數(shù)據(jù)的快照,x 和 y 分別表示兩個屬性,“+”“o” 分別表示兩種標(biāo)簽)。已知 k=1,leave one out 交叉驗證的錯誤率會是多少。

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

A. 0%

B. 100%

C. 從 0 到 100%

D. 以上沒有

答案:B

在 Leave-One-Out 交叉驗證中,我們選取 n-1 條觀測量作為訓(xùn)練集,1 條觀測量用來驗證。如果把每個點(diǎn)作為交叉驗證點(diǎn)并找到最近的點(diǎn)總會得到相反的類別。所以錯誤率是 100%。


問題 15

當(dāng)我們使用大數(shù)據(jù)集進(jìn)行決策樹訓(xùn)練的時候,一下哪個選項可以用來減少訓(xùn)練時間?

1. 增加樹的深度

2. 增加學(xué)習(xí)率

3. 減少樹的深度

4. 減少樹的數(shù)量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案:C

如果決策樹的參數(shù)是固定的話,我們可以考慮以下的選項。

增加深度會導(dǎo)致所有節(jié)點(diǎn)擴(kuò)張,因此增加深度會導(dǎo)致時間變長。

在單一決策樹種,學(xué)習(xí)率是不能作為一個可調(diào)整的參數(shù)的。

使用決策樹時,我們只會建一顆樹。


問題 16

關(guān)于神經(jīng)網(wǎng)絡(luò),一下那種說法是正確的?

1. 在測試數(shù)據(jù)中增加層數(shù)可能會增加分類錯誤

2. 在測試數(shù)據(jù)中減少層數(shù)總會減少分類錯誤

3. 在測試數(shù)據(jù)中增加層數(shù)總會減少分類錯誤

A.1

B.1 和 3

C.1 和 2

D. 2

答案:A

通常來說,增加層數(shù)會讓模型更加一般化,所以它將會在訓(xùn)練集和測試集上都表現(xiàn)更優(yōu)異。但這個不是真理,在這篇文章中,筆者發(fā)現(xiàn)深層的網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)有更高的錯誤率。所以選項 2 和 3 都是錯誤的,因為這個假設(shè)不總是正確的,而 1 只是說可能是正確的。


問題 17

假設(shè)我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù),我們做什么可以保證結(jié)果是線性可分的?

A. C = 1

B. C = 0

C. C = 無窮大

D. 以上沒有正確答案

答案 C:

如果我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù),我們需要將 C 設(shè)置成無窮大來保證結(jié)果是線性可分的。因此 C 是正確答案。


問題 18

訓(xùn)練完 SVM 之后,我們可以丟掉所以不支持向量的樣本而不影響對新的樣本進(jìn)行分類。

A. 正確

B. 錯誤

答案:A

這是正確的,因為只有支持向量會影響邊界。


問題 19

以下哪些算法可以借助神經(jīng)網(wǎng)絡(luò)來構(gòu)建?

1.K-NN

2. 線性回歸

3. 邏輯回歸

A.1 和 2

B.2 和 3

C.1, 2 和 3

D. 無

答案:B

1.KNN 是一個機(jī)遇實(shí)例的學(xué)習(xí)方法,它沒有用來訓(xùn)練的參數(shù),所以它不能用神經(jīng)網(wǎng)絡(luò)來構(gòu)建

2. 神經(jīng)網(wǎng)絡(luò)的最簡單形式就是最小二乘回歸。

3. 神經(jīng)網(wǎng)絡(luò)和邏輯回歸有關(guān)。主要在于,我們可以把邏輯回歸看成一層神經(jīng)網(wǎng)絡(luò)。


問題 20

請選擇可以用來實(shí)施隱馬爾可夫模型的數(shù)據(jù)集。

A. 基因序列數(shù)據(jù)集

B. 電影評論數(shù)據(jù)集

C. 股票價格數(shù)據(jù)集

D. 以上所有

答案 D:

以上所有的數(shù)據(jù)集都可以用隱馬爾可夫模型。


問題 21

我們想在在一個百萬級的數(shù)據(jù)集上構(gòu)建機(jī)器學(xué)習(xí)模型,每條數(shù)據(jù)有 5000 個特征??墒怯?xùn)練這么大量的數(shù)據(jù)集會有很多困難,一下哪些步驟可以有效地訓(xùn)練模型?

A. 我們可以從數(shù)據(jù)集中隨機(jī)選取一些樣本,在樣本上構(gòu)建模型

B. 我們可以嘗試聯(lián)機(jī)機(jī)器學(xué)習(xí)算法

C. 我們可以用主成分分析來減少特征

D.B 和 C

E.A 和 B

F. 以上所有

答案: F

在一個內(nèi)存有限的機(jī)器上處理高維數(shù)據(jù)是一項非常費(fèi)力的工作。以下的方法可以用來應(yīng)對這樣的情況。

我們可以采取隨機(jī)采樣的方式,這意味著我們創(chuàng)建一個更小的數(shù)據(jù)集。舉個例子來說,我們可以抽取 300000 條數(shù)據(jù),每條有 1000 個特征然后再進(jìn)行計算。

我們可以使用展示在 Vowpal Wabbit 中的聯(lián)機(jī)學(xué)習(xí)算法

我們可以使用主成分析來選取能反映最大方差的部分。

因此所有的都是正確的。


問題 22

我們想減少數(shù)據(jù)的特征,以下哪些做法是合適的?

1. 使用預(yù)選的方式

2. 使用向后消除的方式

3. 首先使用所有特征來計算模型的準(zhǔn)確度。我們選擇一個特征,然后將測試集的該特征的數(shù)值都打亂,然后對打亂過的數(shù)據(jù)集進(jìn)行預(yù)測。經(jīng)過對預(yù)測模型的分析,如果模型準(zhǔn)確率提高,則刪掉這個屬性

4. 查找關(guān)聯(lián)性表,關(guān)聯(lián)性高的特征就可以去掉

A. 1 和 2

B. 2, 3 和 4

C. 1, 2 和 4

D. 以上所有

答案:D

l 預(yù)選和向后消除是特征選擇的兩個常用的主要方法。

l 如果不用上面的兩種方法,我們也可以選擇 3 中所說的方法,這種方法應(yīng)對大數(shù)據(jù)量時非常有效。

l 我們也可以使用基于特征選擇的關(guān)聯(lián)分析,然后去除共線性特征。


問題 23

關(guān)于隨機(jī)森林和梯度提升樹,請選擇正確的選項。

1. 在隨機(jī)森林中,中間樹互相不獨(dú)立,而在梯度回歸樹中,中間樹相互獨(dú)立。

2. 他們都使用隨機(jī)特征子集來構(gòu)建中間樹。

3. 在梯度提升樹的情況下我們可以生成并行樹,因為樹互相獨(dú)立。

4. 梯度提升樹在任何數(shù)據(jù)集上都比隨機(jī)森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A:

1. 隨機(jī)森林是基于 bagging 而梯度提升是基于 boosting

2. 這兩種算法都使用隨機(jī)特征子集來構(gòu)建中間樹

3. 由于隨機(jī)森林的中間樹互相獨(dú)立,因此算法可以并行,而梯度提升樹則不可能。

4. 這個不是絕對的,不同數(shù)據(jù)結(jié)果不同。


問題 24

對于主成分析轉(zhuǎn)換的特征,樸素貝葉斯的基本假設(shè)是成立的,因為主成都是正交的,因此是無關(guān)的。這句話正確么?

A. 正確

B. 錯誤

答案:B

這句話是錯誤的。首先,不相關(guān)不等同于獨(dú)立。第二,轉(zhuǎn)換過的特征也不一定是不相關(guān)的。


問題 25

以下關(guān)于主成分析哪些是正確的?

1. 在 PCA 前必須將數(shù)據(jù)標(biāo)準(zhǔn)化

2. 我們應(yīng)該選擇說明最高方差的主成分

3. 我們應(yīng)該選擇說明最低方差的主成分

4. 我們可以用 PCA 來可視化低維數(shù)據(jù)

A. 1, 2 和 4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案: A

lPCA 對數(shù)據(jù)中變量的大小是敏感的,所以在 PCA 之前必須要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。舉個例子,如果我們將一個變量的單位從 km 改成 cm,該變量可能會從影響很小一躍成為主成分。

l 第二條是正確的,因為我們總是選擇最大方差的主成分。

l 有時候用低維來畫出數(shù)據(jù)是十分有效地。我們可以選擇前二的主成分,然后用散點(diǎn)圖來描繪數(shù)據(jù)。


問題 26

在下圖中的主成分的最佳數(shù)目是多少?

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

A. 7

B. 30

C. 35

D. 不確定

答案:B

在上圖中,成分?jǐn)?shù)為 30 時候就達(dá)到了最大的方差,所以選擇 B


問題 27

數(shù)據(jù)科學(xué)家經(jīng)常使用混合算法來做預(yù)測,然后將混合算法的結(jié)果合并(也叫集成學(xué)習(xí))。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準(zhǔn)確。以下哪些選項是正確的?

A. 基礎(chǔ)模型有更高的相關(guān)性

B. 基礎(chǔ)模型有更低的相關(guān)性

C. 使用平均加權(quán)而不是投票的方式來集成

D. 基礎(chǔ)模型源自相同的算法

答案 B:

請參閱下面的集成指南來了解細(xì)節(jié)

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know


問題 28

我們?nèi)绾卧诒O(jiān)督的機(jī)器學(xué)習(xí)挑戰(zhàn)使用聚類方法?

1. 我們可以先創(chuàng)建簇,然后在不同簇中分別使用監(jiān)督機(jī)器學(xué)習(xí)算法。

2. 我們在使用監(jiān)督機(jī)器學(xué)習(xí)算法之前可以把簇的 id 作為特征空間中額外的特征。

3. 我們無法在使用監(jiān)督機(jī)器學(xué)習(xí)算法之前創(chuàng)建簇。

4. 我們在使用監(jiān)督機(jī)器學(xué)習(xí)算法之前不能把簇的 id 作為特征空間中額外的特征。

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

答案:B

l 我們可以在不同的簇中使用不同的機(jī)器學(xué)習(xí)模型,這樣一來,預(yù)測的準(zhǔn)確性可能會提高。

l 增加簇的 id 可以提高預(yù)測的準(zhǔn)確性,因為 id 是對數(shù)據(jù)很好的概括。

因此 B 是正確的。


問題 29

以下的說法哪些是正確的?

1. 一個機(jī)器學(xué)習(xí)模型如果能得到很高的 準(zhǔn)確率,則說明這是個好的分類器。

2. 如果增加一個模型的復(fù)雜度,測試錯誤總會增加。

3. 如果增加一個模型的復(fù)雜度,訓(xùn)練錯誤總會增加。

A. 1

B. 2

C. 3

D. 1 和 3

答案 C:

當(dāng)類不平衡的時候,準(zhǔn)確率不是一個很好的評價指標(biāo)。而 precision 和 recall 是最好的評價方式。

增加一個模型的復(fù)雜度可能會導(dǎo)致過擬合。而過擬合會引起訓(xùn)練錯誤的減少和測試錯誤的增加。


問題 30

以下有關(guān)于梯度回歸樹算法的說法正確的是?

當(dāng)我們增加用于分割的最小樣本數(shù)時,我們總是試圖得到不會過擬合數(shù)據(jù)的算法。

當(dāng)我們增加用于分割的最小樣本數(shù)時, 數(shù)據(jù)會過擬合。

當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時,我們總是希望減少方差。

當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分?jǐn)?shù)時,我們總是希望減少偏差。

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

答案: C

最小化樣本的數(shù)量,在分裂節(jié)點(diǎn)的地方用于控制過擬合, 太高的數(shù)值會導(dǎo)致欠擬合因此應(yīng)該用 CV 來進(jìn)行調(diào)整.

每棵樹選擇觀測值的分?jǐn)?shù)是通過隨機(jī)采樣的方式來做的。如果數(shù)值比 1 小一點(diǎn)點(diǎn)則會使模型健壯,而且方差也會減小。典型的數(shù)值是 0.8,當(dāng)然,也要根據(jù)實(shí)際情況微調(diào)。

問題 31

以下哪個是 KNN 算法的決策邊界?(下圖從左到右分別是 A,B,C,D)

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

A) B

B) A

C) D

D) C

E) 不確定

答案:B

KNN 算法的原理是為觀測變量尋找 K 個最近鄰居,將鄰居中的多數(shù)的標(biāo)簽賦給觀測變量。所以決策邊界不會是線性的。因此,選擇 B。


問題 32

如果一個機(jī)器學(xué)習(xí)模型在測試集上獲得的 100% 的準(zhǔn)確性,是否意味著在新的測試集上也能獲得 100% 的準(zhǔn)確性。

A. 是的,因為這個模型足夠一般,可以適用于所有類型的數(shù)據(jù)

B. 不是,仍然有模型不能控制的因素,比如噪聲。

答案:B

答案選擇 B,因為實(shí)際數(shù)據(jù)不可能沒有噪聲,所以不可能得到 100% 的準(zhǔn)確性。


問題 33

以下是交叉驗證的常見方法:

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

如果樣本的數(shù)量是 1000,那么這這四種方法執(zhí)行時間的排序是?

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案:B

Bootstrapping 是一個統(tǒng)計的技術(shù),屬于廣泛的重采樣的范疇,所以只有 1 個驗證集使用了隨機(jī)采樣。

Leave-One-Out cross validation 的時間最長,因為我們要 n 次訓(xùn)練模型(n 是觀測值的數(shù)量)

5 Fold cross validation 會訓(xùn)練五個模型,而訓(xùn)練時間和觀測值數(shù)量無關(guān)。

2 repeats of 5 Fold cross validation 則是訓(xùn)練 10 個模型。

因此答案選擇 B。


問題 34

已取消


問題 35

變量選擇旨在選擇預(yù)測變量的 “最佳” 子集。當(dāng)我們選擇變量的時候,考慮到系統(tǒng)的性能,我們需要注意些什么?

1. 類似的多個變量

2. 模型的可解釋性

3. 特征信息

4. 交叉檢驗

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

答案:C

如果幾個變量具有很高的 xiang s,則會展現(xiàn)出共線性。

相對于模型的性能,我們不需要關(guān)注模型的可解釋性。

如果特征有很高的信息,則會為模型帶來價值。

我們需要使用交叉檢驗來驗證模型的普遍性。

因此 C 是正確答案。


問題 36

線性回歸模型中的其他變量下列哪些語句是正確的關(guān)于?

1.R-Squared 和 Adjusted R-squared 都會增長

2.R-Squared 是常數(shù),Adjusted R-squared 會增長

3.R-Squared 和 Adjusted R-squared 都會減少 4.R-Squared 減少而 Adjusted R-squared 增長

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上沒有正確的

答案: D

R-squared 不能確定系數(shù)估計和預(yù)測是否有偏差,這就是為什么我們要評估殘差圖。 Adjusted R-squared 是 R-squared 的增強(qiáng)版,該方法調(diào)整了模型中預(yù)測器的數(shù)量. 如果有新方法將模型改進(jìn)的幾率大于預(yù)期時,Adjusted R-squared 會增加。 當(dāng)預(yù)測變量將模型改進(jìn)的幾率小于預(yù)期時,它減少。

但是 R-squared 比 adjusted R-squared 有更多的問題,因此 predicted R-squared 被提出。

如果為模型增加一個預(yù)測器,則 R-squared 會保持不變或者增加。


想討論更多,請點(diǎn)擊這里。


問題 37

下圖我們畫出了在同一個數(shù)據(jù)集上解決回歸問題的三種不同模型,從下圖中我們可以總結(jié)出什么?

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

1. 和其他的相比,第一張圖的訓(xùn)練錯誤最大。

2. 最后一個是最好的模型,因為在第三張圖有最小的訓(xùn)練錯誤。

3. 第二個模型比第一個和第三個更健壯,因為它能更好的處理不可預(yù)見的數(shù)據(jù)。

4. 第三個模型和前兩個相比屬于過擬合。

5. 所有模型的性能都一樣,因為我們還沒有看到測試集。

A. 1 和 3

B. 1 和 4

C. 1, 3 和 4

D. 5

答案:C

對于自變量 X 來說,圖中數(shù)據(jù)的趨勢像一個多項式函數(shù)。最右邊圖中的多項式形式更復(fù)雜,準(zhǔn)確率也最高,但是對于測試集則會表現(xiàn)不佳。而最左邊的圖很明顯屬于欠擬合的情況。


問題 38

在應(yīng)用線性回歸時我們需要遵循哪些假設(shè)?

1. 由于線性回歸對于異常值很敏感,所以檢查異常值是十分重要的。

2. 線性回歸要求所有變量都遵循正態(tài)分布。

3. 線性回歸假設(shè)數(shù)據(jù)中很少或不存在多重共線性。

A. 1 和 2

B. 2 和 3

C. 1,2 和 3

D. 以上所有

答案:D

l 異常值是數(shù)據(jù)中對最終回歸線的斜率影響最高的點(diǎn)。所以在回歸分析中去除離群值總是很重要的。

l 了解自變量的分布是非常必要的。自變量的正負(fù)偏態(tài)分布可以影響模型的性能,并將高度偏態(tài)的自變量轉(zhuǎn)換正態(tài)將改進(jìn)模型性能

l 當(dāng)模型包含彼此相關(guān)的多個要素時,會出現(xiàn)多重共線性。換句話說就是有多余因素線性回歸假設(shè)在數(shù)據(jù)中應(yīng)該有很少冗余或者盡可能沒有。


問題 39

當(dāng)建立線性模型的時候,我們會關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)。假如我們在關(guān)聯(lián)矩陣中找到了三對數(shù)據(jù) (Var1 和 Var2 , Var2 和 Var3 , Var3 和 Var1) 的關(guān)聯(lián)分別是 -0.98, 0.45 and 1.23。那么從這些信息中我們可以推斷出什么?

1.Var1 和 Var2 具有很高的關(guān)聯(lián)性。

2.Var1 和 Var2 有很高的關(guān)聯(lián)度,所以它們具有多重共線性。所以我們要將 Var1 或者 Var2 移除出我們的模型。

3.Var3 和 Var1 之間的關(guān)聯(lián)值是 1.23 是不可能的。

A. 1 和 3

B. 1 和 2

C. 1,2 和 3

D. 1

答案: C

lVar1 和 Var2 的關(guān)聯(lián)值很高,所以是具有多重共線性的,因此我們可以從中去除一個。

l 一般來說,關(guān)聯(lián)系數(shù)高于 0.7 的說明數(shù)據(jù)具有多重共線性。

l 第 3 個是不可能的,關(guān)聯(lián)系數(shù)一定會在 - 1 和 1 之間。


問題 40

如果獨(dú)立和不獨(dú)立的變量之間有很高的非線性且復(fù)雜的關(guān)系,那么一個樹模型將會比一般的經(jīng)典回歸有更好的效果。這個說法正確么?

A. 正確

B. 錯誤

答案:A

如果數(shù)據(jù)是非線性的,回歸模型就很難處理。而樹模型則會展現(xiàn)出很好的效果。

結(jié)束語

我希望您能喜歡本次測驗,您也會發(fā)現(xiàn)答案的解釋很有用。這次測試主要是集中了人們在日常使用機(jī)器學(xué)習(xí)過程中遇到的困難。

我們努力減少文章中的錯誤,但是由于筆者水平有限,可能文章中會有問題,所以如果您發(fā)現(xiàn)了,請在下面留言。當(dāng)然,如果您有改進(jìn)意見,也歡迎在下面留言。

我們將陸續(xù)推出更多的技能測試,請關(guān)注我們的更新。

如果您想測驗?zāi)闹R和技能,請登錄 Live Competitions,和全世界的數(shù)據(jù)科學(xué)家 pk!

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

想知道機(jī)器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說