29. 深層強化学習

エージェントが報酬を最大化するように行動を学習する手法は？

強化学習
教師あり学習
教師なし学習
自己学習

正解！

不正解...

正解は強化学習です。

強化学習は、エージェントが報酬を最大化するように環境と相互作用しながら学習する手法です。

問題に戻る

Dota2のゲームで人間を超えたAIとして有名な強化学習モデルは？

OpenAI Five
BERT
GPT-4
DeepLab

正解！

不正解...

正解はOpenAI Fiveです。

OpenAI Fiveは、Dota2で人間のプロ選手に勝利した強化学習ベースのAIです。

問題に戻る

シミュレーションで学習したモデルを現実世界に応用する手法は？

教師なし学習
sim2real
転移学習
トピックモデリング

正解！

不正解...

正解はsim2realです。

sim2realは、シミュレーション環境で学習したモデルを現実環境へ適用するアプローチです。

問題に戻る

複数のエージェントが非同期に学習する強化学習手法は？

正解！

不正解...

正解はA3Cです。

A3C（Asynchronous Advantage Actor-Critic）は、複数のエージェントが並行して学習を行う強化学習手法です。

問題に戻る

安定した学習を実現するために提案された強化学習アルゴリズムは？

PPO
TF-IDF
BoW
LSTM

正解！

不正解...

正解はPPOです。

PPO（Proximal Policy Optimization）は、安定性と効率性のバランスが良い強化学習手法です。

問題に戻る

状態価値とアクションの優位性を分けて学習するDQNの拡張は？

デュエリングネットワーク
ダブルDQN
MLP
VAE

正解！

不正解...

正解はデュエリングネットワークです。

デュエリングネットワークは、状態価値とアクション優位性を別々に推定するアーキテクチャです。

問題に戻る

強化学習で探索性を高めるためにノイズを活用する手法は？

ノイジーネットワーク
ベイズ最適化
グリッドサーチ
ドロップアウト

正解！

不正解...

正解はノイジーネットワークです。

ノイジーネットワークは、探索性を高めるためにネットワークの重みにノイズを加える手法です。

問題に戻る

学習の誘導を目的に報酬を変更・補助する手法は？

報酬成形
正則化
プーリング
活性化関数

正解！

不正解...

正解は報酬成形です。

報酬成形は、学習の誘導や安定化のために報酬を調整するテクニックです。

問題に戻る

複数の環境で最も優れたスコアを達成した強化学習モデルは？

Agent57
GPT
BERT
ResNet

正解！

不正解...

正解はAgent57です。

Agent57は、多様な環境で高いスコアを達成した強化学習モデルです。

問題に戻る

人間のフィードバックをもとに学習する強化学習手法は？

RLHF
VAE
GAN
CLIP

正解！

不正解...

正解はRLHFです。

RLHF（Reinforcement Learning from Human Feedback）は、人間の評価を活用した強化学習手法です。

問題に戻る