多様体学習、多様体仮説

多様体仮説の説明として正しいものを選択肢 1 ~ 3 から選んでください. 1. 高次元のデータセットは、それよりも低次元の多様体に近いという仮説. 2. 高次元の多様体で各インスタンス間の距離が非常に大きい場合は次元削減できないという仮説. 3. 高次元多様体を次元削減すると多くの特徴量が確実に失われ、学習用のデータとして成立しなくなるとうい仮説.

多様体学習、多様体仮説

多様体仮説の説明として正しいものを選択肢 1 ~ 3 から選んでください. 1. 高次元の多様体で各インスタンス間の距離が非常に大きい場合は次元削減できないという仮説. 2. 高次元多様体を次元削減すると多くの特徴量が確実に失われ、学習用のデータとして成立しなくなるとうい仮説. 3. 高次元のデータセットは、それよりも低次元の多様体に近いという仮説.

インスタンス間の距離

多次元のデータセットの説明として正しいものを選択肢 1 ~ 3 から選んでください. 1. 多次元のデータセットで学習したモデルは低次元のモデルと比べて信頼性は高い. 2. 多次元のデータセットではデータ点どうしの距離が遠く、非常に疎であるリスクがある. 3. 次元が低ければ低いほど過学習のリスクは上がる.

インスタンス間の距離

多次元のデータセットの説明として正しいものを選択肢 1 ~ 3 から選んでください. 1. 機械学習モデルは高次元のデータほど予測精度が向上するため、出来るだけ多くの特徴量をモデルに与えるのが好ましい 2. 次元の呪いの解決方法として、高次元なデータであってもそれぞれのインスタンス間の距離が十分近くなるように  データ数を増やすことで、データセットを密にするといった方法がある.この方法は比較的用意に実践できる. 3. 高次元のデータは、それぞれのデータ間の距離が遠く互いに疎であると考えられる.このようなデータでモデルを訓練して、   新たなインスタンスに対して何らかの予測を行うのは非常に困難であるといえる.

勾配ブースティング決定木(GBRT)

以下のコードで空欄になっている行を埋め、勾配ブースティングを用いて変数 X, y を学習する回帰モデルを実装してください. from sklearn.model_selection import train_test_split from sklearn.datasets import make_moons X, y = make_moons(n_samples=500, noise=0.30, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) import numpy as np # Q1:勾配ブースティングの回帰タスク用のクラスをインポートしてください. from sklearn.ensemble import ########## [Q1 選択肢] 1. DecisionTreeRegressor 2. GradientBosstingRegressor 3. RandomForestRgressor 4. AdaBoostRegressor np.random.seed(0) X = np.random.rand(100, 1) – 0.5 y = […]

収縮

正則化テクニックである収縮について説明している以下の文の空欄入る適切な単語を選択肢 1 ~ 3 からそれぞれ選んでください. 勾配ブースティングに代表されるようなアンサンブルメソッドでは、学習率を低い値に設定すると、 訓練セットへの適合率が小さくなるため ( Q1 ____ ) する必要が出てくるが、( Q2 ____ ) は上がる. 裏を返せば、それぞれの木が学習結果に与える影響を小さくすることで( Q3____ )できる.これが収束である. [Q1の選択肢] 1. 多くの学習器を追加 2. 訓練セットを大きく 3. OOB 検証 [Q2の選択肢] 1. バイアス 2. 分散 3. 汎化性能 [Q3の選択肢] 1. モデルを縮小化 2. 計算を高速化 3. 正則化