試行錯誤を通じて報酬を最大化する行動を学習する手法は?
- 強化学習
- 教師あり学習
- 教師なし学習
- 転移学習
正解!
不正解...
正解は強化学習です。
問題に戻る
強化学習における最大の特徴は?
- 報酬をもとに学習する
- 正解ラベルが必要
- クラスタ構造を見つける
- 特徴量を次元削減する
正解!
不正解...
正解は報酬をもとに学習するです。
強化学習の最大の特徴は、報酬をもとに行動を評価し学習を進める点です。
問題に戻る
将来の報酬を考慮して「状態」の良し悪しを評価する関数は?
- 状態価値関数
- 行動価値関数
- 方策
- 報酬
正解!
不正解...
正解は状態価値関数です。
状態価値関数は、ある状態が将来的にどれだけの報酬を得られるかを示す関数です。
問題に戻る
ある状態において、特定の行動をとった際の期待報酬を表す関数は?
- 状態価値関数
- 方策
- 割引率
- 行動価値関数
正解!
不正解...
正解は行動価値関数です。
行動価値関数は、ある状態で特定の行動を選んだ場合の期待報酬を表します。
問題に戻る
行動価値関数を学習して最適な方策を導く強化学習手法は?
- Q学習
- REINFORCE
- 方策勾配法
- UCB方策
正解!
不正解...
正解はQ学習です。
Q学習は、行動価値関数を学習することで最適な方策を導く強化学習の手法です。
問題に戻る
方策そのものをパラメータで表現し最適化する手法は?
- 方策勾配法
- REINFORCE
- Q学習
- Actor-Critic
正解!
不正解...
正解は方策勾配法です。
方策勾配法は、直接方策をパラメータで表現し、それを最適化する手法です。
問題に戻る
報酬に基づいて方策を更新する、方策勾配法の一種は?
- REINFORCE
- Q学習
- バギング
- 主成分分析
正解!
不正解...
正解はREINFORCEです。
REINFORCEは、方策勾配法に基づいた強化学習手法で、報酬に基づいて方策を更新します。
問題に戻る
方策と価値関数を同時に学習する強化学習の手法は?
- Actor-Critic
- REINFORCE
- Q学習
- ε-greedy方策
正解!
不正解...
正解はActor-Criticです。
Actor-Criticは、方策(Actor)と価値関数(Critic)の両方を学習する強化学習手法です。
問題に戻る
一定確率でランダム行動を取り、探索と活用をバランスさせる方策は?
- ε-greedy方策
- 方策勾配法
- ブースティング
- 割引率
正解!
不正解...
正解はε-greedy方策です。
ε-greedy方策は、一定確率でランダムな行動も取り入れることで探索を促進する方策です。
問題に戻る
状態・行動・報酬・遷移確率で構成される強化学習の枠組みは?
- マルコフ決定過程
- 強化学習
- 自己回帰モデル
- 多次元尺度構成法
正解!
不正解...
正解はマルコフ決定過程です。
マルコフ決定過程(MDP)は、状態・行動・報酬・遷移確率からなる強化学習の数学的枠組みです。
問題に戻る
強化学習は、試行錯誤によって最適な行動を学習する手法で、報酬に基づいて学習が進みます。