画像・音声・テキストなど複数の情報を統合して処理する手法は?
- 画像認識
- 音声認識
- マルチモーダル
- 自己教師あり学習
正解!
不正解...
正解はマルチモーダルです。
問題に戻る
画像と質問文を入力にして、質問に答えるマルチモーダルタスクは?
- マルチタスク学習
- Visual Question Answering
- 分類タスク
- 画像生成
正解!
不正解...
正解はVisual Question Answeringです。
Visual Question Answeringは、画像と質問文の両方を入力とし、答えを生成するマルチモーダルタスクです。
問題に戻る
画像とテキストを同一空間で扱うことができるマルチモーダルモデルは?
- CLIP
- TF-IDF
- BERT
- ResNet
正解!
不正解...
正解はCLIPです。
CLIPは、画像とテキストを同じ空間にマッピングするマルチモーダルモデルです。
問題に戻る
テキストから画像を生成するマルチモーダルモデルは?
- BERT
- GPT
- DALL-E
- LeNet
正解!
不正解...
正解はDALL-Eです。
DALL-Eは、テキストから画像を生成するText-to-Imageモデルです。
問題に戻る
大規模なマルチモーダルタスクに対応する汎用モデルは?
- 基盤モデル
- 転移学習
- 蒸留学習
- ハードマージン分類
正解!
不正解...
正解は基盤モデルです。
基盤モデルは、大規模マルチモーダルタスクを含む学習済みモデルの基盤となるモデルです。
問題に戻る
画像からその内容を説明する文を自動生成するタスクは?
- 画像分類
- 音声生成
- Image Captioning
- テキスト分類
正解!
不正解...
正解はImage Captioningです。
Image Captioningは、画像を入力として、その内容を文章で説明するタスクです。
問題に戻る
マルチモーダルかつマルチタスクに対応可能な統合モデルは?
- Visual Question Answering
- Image Captioning
- Unified-IO
- Mask R-CNN
正解!
不正解...
正解はUnified-IOです。
Unified-IOは、マルチモーダルかつマルチタスクに対応する統合モデルです。
問題に戻る
少数の例からマルチモーダル推論が可能なモデルは?
- CLIP
- DALL-E
- GPT
- Flamingo
正解!
不正解...
正解はFlamingoです。
Flamingoは、少数ショットのマルチモーダル学習に強いモデルとして知られています。
問題に戻る
学習していないタスクでも推論ができるマルチモーダル技術は?
- Few-shot
- zero-shot
- One-hot
- Semi-supervised
正解!
不正解...
正解はzero-shotです。
zero-shotは、学習していないタスクにも対応できる推論技術で、マルチモーダル応用にも使われます。
問題に戻る
複数のタスクを同時に学習し、精度向上を図る学習方法は?
- Dropout
- マルチタスク学習
- 正則化
- Self-attention
正解!
不正解...
正解はマルチタスク学習です。
マルチタスク学習は、複数のタスクを同時に学習して相互の知識を活かす手法です。
問題に戻る
マルチモーダルとは、複数の異なる情報(例:画像+テキスト)を統合的に扱う手法です。